# Voice AI Mühendisliği Eğitimi (OpenAI Realtime + ElevenLabs + Cartesia Sonic + Sesame Maya + Whisper + Vapi + LiveKit Agents + Moshi) > Source: https://sukruyusufkaya.com/training/voice-ai-muhendisligi-egitimi > Updated: 2026-06-27T08:19:45.576Z > Level: advanced > Topics: voice ai, openai realtime api, claude voice, gemini 2.5 live api, sesame maya, hume evi, whisper v3, elevenlabs, cartesia sonic, vapi voice agent, retell ai, livekit agents, pipecat, moshi kyutai, f5-tts, higgs audio, speech-to-speech llm, voice cloning, twilio voice ai, kvkk uyumlu voice ai **TLDR:** 2024-2026'nın en sıcak frontier alanlarından real-time speech-to-speech LLM + Voice AI ekosistemini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. OpenAI GPT-4o Realtime API, Anthropic Claude Voice, Google Gemini 2.5 Live API, Sesame Maya (2025), Hume EVI 3, Whisper v3 Large, ElevenLabs Conversational AI, Cartesia Sonic 2 (sub-100ms), Vapi (YC W24), Retell AI, LiveKit Agents, Pipecat, Moshi (Kyutai açık kaynak), F5-TTS, Higgs Audio v2; Twilio + Telnyx + Türk telekom SIP telephony; bankacılık IVR + sağlık triaj + e-ticaret call center use case'leri; KVKK + BDDK uyumlu deployment dahil. ## Açıklama Voice AI Mühendisliği Eğitimi, 2024-2026 dönemine damga vuran real-time speech-to-speech LLM ve voice agent ekosistemini Türkçe uçtan uca öğretmek için tasarlanmış 3 günlük ileri seviye bir programdır. AI Engineer, Voice Engineer, Backend Developer, Conversational AI Designer, Senior Product Engineer ve call center yöneticileri için kalibrelidir. ## Kazanımlar - Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz. - OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz. - Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz. - ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz. - Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz. - Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz. - Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz. - Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz. - Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz. - WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

Bu eğitim, 2024-2026 döneminin paradigma açıcı agent katmanı olan voice AI disiplinini Türkçe olarak uçtan uca öğretmek üzere tasarlanmıştır. Ekim 2024'te OpenAI'ın GPT-4o Realtime API lansmanı, 2025'te Anthropic Claude Voice ve Google Gemini 2.5 Live API'nin gelişi, Sesame Maya'nın conversational presence paradigmasını açması, Hume EVI 3'ün empathic voice interface'i, Cartesia Sonic 2'nin sub-100ms TTS'i, ElevenLabs'in 32 dilde ultra-natural TTS + Conversational AI platformu, Vapi (YC W24) + Retell AI (YC S23) voice agent orchestrator'leri, LiveKit Agents + Pipecat open-source framework'leri ve Moshi (Kyutai), F5-TTS, Higgs Audio v2 açık kaynak alternatifleri ile voice AI ekosistemi production-grade bir disipline dönüştü. Türk bankacılık (BDDK IVR), sağlık (SBSGM acil çağrı triaj), e-ticaret (Trendyol/Hepsiburada call center), kamu hizmetleri (444 hatları) sektörleri için voice AI otomasyonu kritik avantaj sunuyor — ancak Türkçe'de bu disiplini uçtan uca işleyen bir eğitim neredeyse yoktur. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade voice AI referans eğitimi olarak doldurmak üzere tasarlanmıştır.

Programın stratejik omurgasını, klasik 3-stage pipeline (STT → LLM text → TTS) yaklaşımından native real-time speech-to-speech (S2S) LLM paradigmasına geçişin gerekçesini netleştiren ilk modül oluşturur. Klasik pipeline'da latency budget yüksek (STT 200ms + LLM 500ms + TTS 200ms = 900ms TTFB) ve emotion + prosody bilgisi kayboluyor; native S2S LLM (GPT-4o Realtime, Gemini 2.5 Live, Claude Voice, Sesame Maya, Moshi) <500ms TTFB + emotion preservation + interruption handling sağlıyor. 2026 ekosistem haritası karşılaştırmalı sunulur: commercial S2S (OpenAI Realtime, Claude Voice, Gemini Live), specialized voice (Sesame Maya, Hume EVI 3, ElevenLabs Conversational), open-source (Moshi, F5-TTS, Higgs Audio v2). Türk pazarı use case'leri: bankacılık BDDK IVR otomasyonu + KVKK uyumlu voice authentication, sağlık SBSGM acil çağrı triaj + randevu sistemi, e-ticaret müşteri destek + iade yönetimi, kamu 444 hatları + e-devlet voice access.

İkinci modül Ekim 2024'te OpenAI'ın lansmanıyla S2S paradigmasını açan ve 2025-2026'da production standartı haline gelen Realtime API'yi uçtan uca işler. WebSocket protocol + bidirectional streaming: session.update + input_audio_buffer + conversation.item event'leri; pcm16 24kHz mono base64 audio format. gpt-4o-realtime-preview ve production gpt-realtime modelleri. 8 native ses (alloy, echo, fable, onyx, nova, shimmer, ash, ballad) — Türkçe accent quality 2025-2026 sürümlerinde dramatik gelişti. Function calling (tools array + function_call_arguments delta event), interruption handling (response.cancel + input_audio_buffer.clear), server-side VAD (voice activity detection) + turn detection. OpenAI WebRTC SDK + ephemeral key authentication ile browser integration + echo cancellation. Pricing: $0.06/min audio input + $0.24/min audio output, prompt caching ile %50-70 cost reduction. Türk kurumsal bankacılık + call center pratiği için production reçetesi sunulur.

Üçüncü modül OpenAI Whisper v3 Large (Kasım 2023 release, 2024-2026 production standardı) ve modern STT ekosistemini detaylı işler. Whisper v3 Large 1550M params, 99 dil (Türkçe dahil), open-source weights. Production optimization: faster-whisper (CTranslate2 + INT8 + 4x hız), insanely-fast-whisper (batched + Flash Attention 2), WhisperX (word-level timestamp + pyannote diarization), Distil-Whisper (6x küçük, kalite korur). Türkçe için fine-tuning (Turkish Common Voice + custom dataset), biased decoding (initial_prompt parameter ile context bias), custom vocabulary (medical drug names, banking IBAN format). Alternative production STT: AssemblyAI Universal-2, Deepgram Nova-3, Google Speech-to-Text v2 Chirp, Azure Speech (özellikle Türkçe için en iyi commercial), ElevenLabs Speech to Text (2024 lansman). Diarization (speaker separation) pyannote-audio + WhisperX kombinasyonu.

Dördüncü modül TTS lideri ElevenLabs'in ekosistemini uçtan uca işler. Multilingual v2 (32 dil + Türkçe ultra-natural), Turbo v2.5 (270ms latency), Flash v2.5 (75ms TTFB — sub-100ms en hızlı). Voice cloning: Instant Voice Cloning (1 dakika sample → cloned voice) + Professional Voice Cloning (30 dakika sample, yüksek kalite). Voice Design: text prompt'tan ses üretimi ('warm middle-aged male Turkish voice'). Stability + similarity_boost + style parameter tuning ile production quality. ElevenLabs Conversational AI platform (2024 lansman): agent + STT + TTS + LLM tek API'da; WebSocket streaming + chunk audio + low-latency production; Twilio integration + telefon (PSTN) call routing. Türk kurumsal voice cloning + custom brand voice + KVKK biyometrik veri compliance pratik gösterilir.

Beşinci modül 2024-2026 ekosisteminin specialized voice AI platformlarını detaylı işler. Cartesia Sonic 2: state-space model (Mamba) architecture sayesinde sub-100ms TTS — en hızlı production-grade TTS; multilingual (15+ dil Türkçe dahil); voice cloning; WebSocket streaming + 384 sample chunk + ultra-low latency. Hume EVI 3 (Empathic Voice Interface): 24 emotion + prosody analiz; semantic + paralinguistic dual-channel understanding; customer support empati + mental health applications + cognitive behavioral therapy bot. Sesame Maya (2025 lansman): Conversational Speech Model (CSM-1B) architecture; natural pauses + filler word ('um', 'uh') generation; Maya + Miles voices; interruption handling mastery. Hız + empathy + naturalness karar matrisi (hangi senaryoda hangisi optimal) detaylı sunulur.

Altıncı modül Google'ın Mart 2025 lansmanı Gemini 2.5 Live API'sini ve Anthropic Claude Voice'u detaylı işler. Gemini 2.5 Live: native audio + video bidirectional streaming, Affective Dialog (emotion-aware response), Proactive Audio (selective listening — sadece relevant input'a yanıt), 30+ ses, multi-language seamless code-switching (Türkçe + İngilizce karışım). google-genai SDK ile setup. Claude Voice (Claude Sonnet 4.6 voice mode 2025): natural conversation, document grounding (Projects + Skills voice integration), function calling, interruption. Multimodal scenarios: voice + screen sharing + camera input (Gemini Live'da native). OpenAI Realtime vs Gemini Live vs Claude Voice benchmark karşılaştırma: pricing, latency, quality, multilingual support, agent capabilities.

Yedinci modül voice agent orchestration platformlarını uçtan uca işler. Vapi (YC W24): voice AI orchestrator, 50+ STT/LLM/TTS provider abstraction, Twilio + Telnyx telephony, custom function tools, assistant config (JSON-based). Retell AI (YC S23): phone agent specialist, $0.08/min flat pricing, Telnyx + Twilio + Vonage telephony, agent + voice + handover analytics. LiveKit Agents (open-source): WebRTC + agent framework, Python SDK, Anthropic + OpenAI + custom backend orchestration, Pipecat alternative. Pipecat (open-source Daily.co): real-time voice + video AI pipeline framework. PSTN telephony integration: Twilio Voice + Telnyx + Plivo + Sinch + Vonage; Türk telekom operatörü integration (TT, Vodafone, Turkcell SIP trunk); 0850 numbers + 444 hatları + IVR routing + queue management + handover to human.

Sekizinci modül açık kaynak voice AI ekosistemini detaylı işler. Moshi (Kyutai 2024): full-duplex S2S LLM, 7B parameters, 160ms theoretical / 200ms real latency, Mimi codec ile audio token paradigma (12.5 Hz audio token, RVQ neural audio codec). Higgs Audio v2 (2025): multi-speaker conversation generation, voice cloning, open-source. F5-TTS (NVIDIA 2024): diffusion-based ultra-high quality TTS, 8 dil Türkçe dahil, voice cloning. MeloTTS open-source multilingual, CosyVoice + ChatTTS (Alibaba 2024). Self-hosted deployment: Moshi Docker + Hugging Face weights; F5-TTS GPU inference; KVKK uyumlu on-premise + bankacılık BDDK + sağlık SBSGM data sovereignty. Cost analizi: OpenAI Realtime $0.24/min output vs self-hosted Moshi ~$0.02/min (10x cost reduction enterprise scale'de).

Dokuzuncu modül voice agent'ın 'doğal' hissi vermesi için kritik conversation design disiplinini detaylı işler. System prompt engineering: persona ('Mehmet, banka müşteri temsilcisi'), tone (formal/informal), formality (siz/sen, Türkçe için kritik), boundaries (refusal patterns), few-shot example. Turn-taking strategy: server-side VAD (default 700ms silence threshold) vs client push-to-talk; end-of-utterance prediction (LLM-based vs acoustic); semantic VAD (sentence completion detection). Interruption handling: graceful response.cancel + input_audio_buffer.clear + context preservation. Conversation flow state machine: greeting → discovery → resolution → confirmation → goodbye. Hallucination prevention: tool-grounded answer (function calling), RAG (knowledge base query during conversation), refusal handling, escalation to human pattern. Türkçe için özel: hitap kuralları (sayın/Mehmet bey/sen), kültürel uygunluk, formal/informal tone switching, regional accent handling.

Onuncu modül voice AI'ı production'a alma disiplinini uçtan uca işler. Telephony stack: Twilio Voice + Telnyx + Plivo SIP trunk + 0850/444 number routing; Türk Telekom + Vodafone + Turkcell SIP integration; IVR menu + queue management + skill-based routing + handover to human. Latency budget breakdown: STT 200ms + LLM 300ms + TTS 200ms = 700ms TTFB (acceptable klasik pipeline), S2S LLM 500ms TTFB (excellent native paradigm). Geographic deployment: edge POPs (Istanbul AWS DC + GCP europe-west3 Frankfurt + Azure Türkiye) için <100ms network latency. Concurrent call scaling: WebSocket connection pool + Kubernetes HPA + 1000+ call/sec scaling architecture. Reliability patterns: dropped call handling + reconnect logic + fallback voice (model rate limit veya outage durumunda). KVKK + BDDK + bankacılık voice biometric compliance: call recording + transcription archive + S3 encryption + retention policy (6 ay - 2 yıl) + audit log.

On birinci modül voice AI sistemlerinin kalitesini sistematik ölçen evaluation disiplinini ele alır. STT metrics: WER (Word Error Rate, Türkçe için target <5%, jiwer library ile hesaplama), CER (Character Error Rate, Türkçe ekler için daha hassas), domain-specific accuracy (banking IBAN format recognition, medical drug name accuracy). TTS metrics: MOS (Mean Opinion Score 1-5 human rating), naturalness, similarity to reference voice; DNSMOS + UTMOS otomatik perceptual quality estimation. Conversational metrics: TTFB (Time to First Byte, voice'un ne kadar hızlı başladığı), turn-taking accuracy, interruption handling success rate, task completion rate, user satisfaction (NPS, post-call survey). End-to-end public benchmarks: Voice Arena (LMSYS Voice equivalent), ChatbotArena Voice. Custom Türkçe benchmark üretimi: bankacılık IVR test set (100+ scenarios), sağlık triaj scenarios, e-ticaret destek dialogues. A/B test framework + Langfuse + Phoenix ile voice observability + production trace.

Capstone modülünde her katılımcı, kendi senaryosuna özel uçtan uca bir Türkçe voice agent production sistemi tasarlar: use case seçimi (bankacılık IVR retail / corporate, sağlık SBSGM triaj, e-ticaret Trendyol/Hepsiburada destek, restoran rezervasyon agent, kamu 444 hattı + e-Devlet voice access, eğitim öğrenci asistanı); stack seçimi (OpenAI Realtime vs Vapi managed vs LiveKit + Cartesia vs self-hosted Moshi vs ElevenLabs Conversational AI); telephony integration (Twilio + Türk telekom SIP trunk); conversation design + persona + tone + flow; KVKK + BDDK + sektörel compliance audit; cost + latency + quality benchmark; 90 günlük production deployment + scaling roadmap. Eğitim sonunda katılımcılar; klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilecek; OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya + Cartesia Sonic + ElevenLabs Conversational arasında doğru tercih yapabilecek; Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilecek; Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilecek; Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilecek; Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilecek; conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilecek; ve WER + MOS + Voice Arena + custom Türkçe benchmark ile production quality ölçebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.