Tüm roadmap'e dön
topiccore
Ses İşleme (STT + TTS)
Whisper (transcription) + ElevenLabs/OpenAI TTS → sesli asistan pipeline'ı.
3 saat3 kaynak
STT (Speech-to-Text): OpenAI Whisper API, Deepgram, AssemblyAI. Türkçe için Whisper-large-v3 önerilir.
LLM turn aradadır — kullanıcı sesi → metin → LLM → metin → ses → kullanıcı.
TTS: ElevenLabs (en doğal), OpenAI TTS (4 ses, hızlı), Cartesia (real-time low-latency).
Realtime (OpenAI): ara basamak yok — ses input → ses output, ~300ms latency. Henüz pahalı ama UX devrimi.