İçeriğe geç
Tüm roadmap'e dön
topiccore

Ses İşleme (STT + TTS)

Whisper (transcription) + ElevenLabs/OpenAI TTS → sesli asistan pipeline'ı.

3 saat3 kaynak

STT (Speech-to-Text): OpenAI Whisper API, Deepgram, AssemblyAI. Türkçe için Whisper-large-v3 önerilir.

LLM turn aradadır — kullanıcı sesi → metin → LLM → metin → ses → kullanıcı.

TTS: ElevenLabs (en doğal), OpenAI TTS (4 ses, hızlı), Cartesia (real-time low-latency).

Realtime (OpenAI): ara basamak yok — ses input → ses output, ~300ms latency. Henüz pahalı ama UX devrimi.

Kaynaklar(3)