OpenAI Realtime API ile klasik Whisper + GPT + ElevenLabs pipeline arasında hangisi production'da daha iyi?

Senaryoya göre. (1) Latency + naturalness kritik (customer service, IVR) → OpenAI Realtime native S2S (<500ms TTFB + emotion preservation). (2) Cost öncelik (yüksek hacim) + customization gerekli → klasik pipeline (Whisper + Claude + Cartesia/ElevenLabs); cost 3-5x daha düşük + her component'i independent optimize edebilirsin. (3) KVKK + self-hosted gereksinim → klasik pipeline + Moshi alternative. (4) Türkçe accent kalitesi → 2025-2026 OpenAI Realtime dramatik gelişti, artık production-ready Türkçe. Modül 1 + 12 capstone'da karar matrisi.

Türkçe için en iyi STT hangisi? Whisper, Azure Speech, Deepgram?

2026 itibarıyla Türkçe için kalite ranking: (1) Azure Speech (Microsoft) — Türkçe en iyi commercial accuracy, özellikle telefon kalitesi audio'da; (2) Whisper v3 Large + Türkçe fine-tune — open-source en iyi, custom domain için ideal; (3) Deepgram Nova-3 — hızlı + Türkçe support iyileşti; (4) AssemblyAI Universal-2 — multilingual güçlü; (5) ElevenLabs Speech to Text — 2024 lansman, hızlı gelişiyor. WER for Turkish: Azure ~3-4%, Whisper v3 fine-tuned ~4-6%, Deepgram ~5-7%. Bankacılık IBAN + medical drug name için custom vocabulary kritik. Modül 3 detaylı işler.

Vapi vs Retell AI vs LiveKit Agents — hangisini seçmeliyim?

Senaryoya göre. (1) Default SaaS managed + hızlı go-to-market → Vapi (50+ provider abstraction + flexible). (2) Telefon agent specialist + simple pricing → Retell AI ($0.08/min flat). (3) Open-source + self-hosted + KVKK kritik + custom orchestration → LiveKit Agents (WebRTC + Python SDK). (4) Real-time voice + video pipeline → Pipecat (Daily.co). (5) Türkçe + KVKK + bankacılık BDDK compliance → LiveKit Agents self-hosted veya custom build. Pricing: Vapi $0.05-0.20/min variable, Retell $0.08 flat, LiveKit infra cost (kendi GPU + telephony separate). Modül 7 + 12 capstone'da karar matrisi.

Bankacılık BDDK voice authentication için hangi voice cloning kullanmalıyım?

Bankacılık BDDK voice biometric için kritik: (1) Customer voice = biometric data (KVKK Article 6 hassas veri); (2) Açık rıza + amaçla sınırlı işleme; (3) Self-hosted veya KVKK uyumlu enterprise (veri AB/ABD'ye gitmesin). Pratik öneri: (a) Müşteri tarafı authentication için custom Türk bankası asistanı voice → ElevenLabs Professional Voice Cloning + Enterprise tier + self-hosted Voice; veya (b) Cost-aware → ElevenLabs Instant Voice Cloning (1 dakika sample). Open-source self-hosted: Higgs Audio v2 + F5-TTS Türkçe voice cloning, KVKK self-sovereignty için ideal. Modül 4 + 10 + Modül 8 detaylı işler.

Voice agent latency 1 saniye'nin altına nasıl düşer?

Beş katmanlı optimization: (1) STT — Distil-Whisper veya AssemblyAI streaming (<200ms TTFB) veya direct S2S LLM (STT yok). (2) LLM — Claude Haiku 4.5 ($0.001 + ~150ms latency), Gemini 2.5 Flash, GPT-4o-mini. (3) TTS — Cartesia Sonic 2 sub-100ms TTFB en hızlı; ElevenLabs Flash 75ms ikinci. (4) Geographic edge — Istanbul AWS DC veya Frankfurt + edge POP. (5) Native S2S LLM (OpenAI Realtime + GPT-4o, Gemini 2.5 Live, Claude Voice) → 400-500ms TTFB. Realistic target: klasik pipeline ~700ms, native S2S ~500ms. Modül 10 latency budget detaylı işler.

Hume EVI 3 empathic voice gerçekten farklı sonuç veriyor mu?

Evet — özellikle customer service + mental health + healthcare triaj senaryolarında. Hume EVI 3'ün farkı: 24 emotion detection + prosody analysis ile kullanıcının frustrated, calm, urgent, anxious tonunu okuyup yanıtı tonal olarak adapt etmesi. Vanilla GPT-4o Realtime semantic anlıyor ama acoustic emotion'ı kaçırıyor; Hume EVI 3 her ikisini dual channel. Bankacılık şikayet hattında EVI 3 kullanan ekipler %30+ customer satisfaction artışı gösteriyor (2025 case studies). Trade-off: EVI 3 daha pahalı + Türkçe naturalness henüz İngilizce kadar iyi değil. Modül 5.2 detaylı işler.

Moshi (Kyutai) production'a hazır mı yoksa research-only mı?

Moshi 2024 başlangıçta research-focused yayınlandı ama 2025-2026 ortasında production deployment için yeterli olgunluk kazandı. Avantajları: tam open-source (Apache 2.0), 7B params (single H100'de çalışır), Mimi codec sub-200ms real latency, full-duplex paradigma. Sınırlamalar: (1) Türkçe quality henüz commercial GPT-4o Realtime + Gemini Live seviyesinde değil (improving). (2) Documentation + community Vapi/Retell kadar mature değil. Pratik öneri: prototype + KVKK self-sovereignty + cost-critical → Moshi self-hosted; production scale + premium quality + Türkçe odaklı → OpenAI Realtime / Cartesia. Modül 8.1 + 8.3 detaylı işler.

Türk telekom (TT, Vodafone, Turkcell) ile SIP trunk integration nasıl yapılır?

Üç yol: (1) Doğrudan Türk telekom (TT İletişim Hizmetleri, Vodafone Türkiye, Turkcell Superonline) SIP trunk satın alma — yerel 0850 + 444 hat + Türkiye'de host edilmiş server gerektirir. (2) Aracı global provider: Twilio + Telnyx + Plivo + Sinch — Türk numara satışı var ama bazıları PSTN Türkiye'ye direct routing yapmıyor (latency artar). (3) Yerel telekom + voice AI provider partner (ör: Turkcell + Vapi). Pratik öneri: kurumsal banka + sağlık için doğrudan TT/Vodafone/Turkcell SIP + LiveKit self-hosted; startup + e-ticaret için Twilio + Vapi managed. Modül 7.3 + 10.1 detaylı işler.

Voice agent hallucination'ı (yanlış bilgi) production'da nasıl önlerim?

Beş katmanlı strateji: (1) Function calling — agent factual sorulara LLM hafızasından değil, tool çağrısıyla yanıt versin (örn: 'hesap bakiyem ne?' → get_account_balance tool). (2) RAG knowledge base — şirket FAQ + politika dokümanları RAG ile yanıt grounding. (3) Refusal pattern — agent emin değilse 'bu konuda emin değilim, müşteri temsilcimize aktarayım' + handover. (4) Output validation — LLM yanıtını Pydantic schema + regex (örn: IBAN format) ile validate et. (5) Human-in-the-loop escalation — kritik durum (yüksek tutarlı işlem, sağlık aciliyeti) için insan onayı zorunlu. Modül 9.3 detaylı pratik gösterir.

Voice AI per-call cost nasıl optimize edilir?

5-10 dakikalık typical call için cost breakdown: OpenAI Realtime $0.06 input + $0.24 output × 5 dk ≈ $1.50; klasik pipeline (Whisper + Claude Haiku + ElevenLabs) ~$0.10-0.30; self-hosted Moshi + telephony ~$0.05. Optimization: (1) Model routing — basic chitchat'e Claude Haiku/Gemini Flash; complex domain query'ye Claude Sonnet 4.6 veya GPT-5. (2) Prompt caching — system prompt + style guide cache (%50-70 cost reduction). (3) Cartesia Sonic ($0.04/min) ElevenLabs ($0.18/min) alternatife. (4) Self-hosted Whisper + Cartesia + LLM hybrid. (5) Call duration optimization — agent kısa, net cevap. 1000 call/gün scenario'da optimization $500-1500/gün → $150-400/gün. Modül 10.3 detaylı işler.

Eğitim sonunda elimde hangi somut artefaktlar olacak?

Capstone projesinde şu artefaktlar üretilir: (1) Kendi sektörünüze özel Türkçe voice agent (Python codebase + Docker Compose); (2) Stack karar dokümanı (OpenAI Realtime vs Vapi vs LiveKit + Cartesia vs self-hosted Moshi); (3) Whisper v3 Türkçe fine-tune + biased decoding + custom vocabulary pipeline; (4) ElevenLabs custom voice cloning + Cartesia Sonic 2 production setup; (5) Vapi / Retell AI / LiveKit Agents orchestration template; (6) Twilio + Türk telekom SIP trunk integration + IVR routing; (7) Conversation design + Türkçe persona + flow state machine; (8) WER + MOS + custom Türkçe benchmark + Langfuse observability dashboard; (9) KVKK + BDDK + sektörel compliance audit dokümanı; (10) 90 günlük production deployment + scaling roadmap.

Eğitim kurumsal ekibimize özel uyarlanabilir mi?

Evet. Standart 3 günlük programın yanında, kurumsal müşteriler için özelleştirilmiş kapalı sınıf versiyonlar düzenliyoruz. Ekibinizin sektörü (bankacılık BDDK, telekom, e-ticaret Trendyol/Hepsiburada, sağlık SBSGM, kamu KGK, sigorta, ulaşım), use case (IVR otomasyonu, müşteri destek, voice authentication, voice biometric, randevu sistemi, kamu hizmetleri), mevcut telephony stack (Twilio / Telnyx / Türk telekom on-premise), AI maturity (sıfırdan başlangıç vs mevcut pipeline iyileştirme), compliance gereksinimleri (KVKK, EU AI Act, BDDK, HIPAA, ISO 27001) dikkate alınarak modül ağırlıkları + capstone senaryoları özelleştirilir.

Bu eğitim hakkında

2024-2026'nın en sıcak frontier alanlarından real-time speech-to-speech LLM + Voice AI ekosistemini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. OpenAI GPT-4o Realtime API, Anthropic Claude Voice, Google Gemini 2.5 Live API, Sesame Maya (2025), Hume EVI 3, Whisper v3 Large, ElevenLabs Conversational AI, Cartesia Sonic 2 (sub-100ms), Vapi (YC W24), Retell AI, LiveKit Agents, Pipecat, Moshi (Kyutai açık kaynak), F5-TTS, Higgs Audio v2; Twilio + Telnyx + Türk telekom SIP telephony; bankacılık IVR + sağlık triaj + e-ticaret call center use case'leri; KVKK + BDDK uyumlu deployment dahil.

Bu eğitim şu kitleler için tasarlanmıştır: Bankacılık BDDK IVR + voice authentication ürünleri geliştiren ML Engineer + AI Engineer'lar Sağlık (SBSGM) acil çağrı triaj + randevu sistemi inşa eden senior backend developer'lar E-ticaret (Trendyol/Hepsiburada) müşteri destek voice automation yapan call center yöneticileri Restoran rezervasyon + e-Devlet 444 hatları otomasyon eden conversational AI designer'lar Voice cloning + branded voice asistanı geliştiren ürün geliştirici ekipler KVKK + bankacılık BDDK + sağlık SBSGM compliance kritik kurumsal AI ekipler

Bu eğitim neden önemli: Türkiye'de Voice AI disiplinini Türkçe + uçtan uca + production-grade işleyen tek ileri seviye program. OpenAI Realtime + Claude Voice + Gemini Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması. Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe optimization derinleşmesi. Vapi + Retell AI + LiveKit Agents + Pipecat orchestration platform karşılaştırması. Moshi + F5-TTS + Higgs Audio v2 açık kaynak KVKK self-sovereignty deployment. Twilio + Telnyx + Türk telekom SIP + 0850/444 telephony integration. Conversation design + Türkçe kültürel hitap + interruption + hallucination prevention. Capstone projesi ile katılımcıya kendi sektörüne özel production-grade Türkçe voice agent üretimi sağlar.

Eğitim sonunda kazanacağınız çıktılar: Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz. OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz. Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz. ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz. Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz. Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz. Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz. Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz. Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz. WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

Ön koşullar ve önerilen birikim: Aktif yazılım geliştirme deneyimi (orta-üst seviye), Python veya Node.js WebSocket + REST API + JSON + async patterns ile temel deneyim LLM API kullanımı (OpenAI / Anthropic / Google) ile en az kavramsal aşinalık Docker + temel Linux + audio (sample rate, codec) konularına aşinalık Eğitim öncesinde OpenAI + Anthropic + Google AI + ElevenLabs + Cartesia + Twilio hesapları (free tier yeterli) GPU access (RunPod / Lambda Labs / Apple Silicon) self-hosted modüller için

Türkiye'de Voice AI disiplinini Türkçe uçtan uca işleyen tek production-grade ileri seviye program
OpenAI Realtime + Claude Voice + Gemini 2.5 Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması
Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe STT/TTS production pipeline
Vapi + Retell AI + LiveKit Agents + Pipecat voice agent orchestration karşılaştırması
Moshi (Kyutai) + F5-TTS + Higgs Audio v2 açık kaynak self-hosted deployment
Twilio + Telnyx + Türk telekom SIP trunk + 0850/444 number integration
Conversation design + turn-taking + interruption + hallucination prevention
WER + MOS + Voice Arena + custom Türkçe benchmark + KVKK + BDDK compliance audit

Anahtar Çıkarımlar

Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz.
OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz.
Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz.
ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz.
Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz.
Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz.
Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz.
Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz.
Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz.
WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

İleri Seviye3 Gün

Voice AI Mühendisliği Eğitimi (OpenAI Realtime + ElevenLabs + Cartesia Sonic + Sesame Maya + Whisper + Vapi + LiveKit Agents + Moshi)

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, 2024-2026 döneminin paradigma açıcı agent katmanı olan voice AI disiplinini Türkçe olarak uçtan uca öğretmek üzere tasarlanmıştır. Ekim 2024'te OpenAI'ın GPT-4o Realtime API lansmanı, 2025'te Anthropic Claude Voice ve Google Gemini 2.5 Live API'nin gelişi, Sesame Maya'nın conversational presence paradigmasını açması, Hume EVI 3'ün empathic voice interface'i, Cartesia Sonic 2'nin sub-100ms TTS'i, ElevenLabs'in 32 dilde ultra-natural TTS + Conversational AI platformu, Vapi (YC W24) + Retell AI (YC S23) voice agent orchestrator'leri, LiveKit Agents + Pipecat open-source framework'leri ve Moshi (Kyutai), F5-TTS, Higgs Audio v2 açık kaynak alternatifleri ile voice AI ekosistemi production-grade bir disipline dönüştü. Türk bankacılık (BDDK IVR), sağlık (SBSGM acil çağrı triaj), e-ticaret (Trendyol/Hepsiburada call center), kamu hizmetleri (444 hatları) sektörleri için voice AI otomasyonu kritik avantaj sunuyor — ancak Türkçe'de bu disiplini uçtan uca işleyen bir eğitim neredeyse yoktur. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade voice AI referans eğitimi olarak doldurmak üzere tasarlanmıştır.

Programın stratejik omurgasını, klasik 3-stage pipeline (STT → LLM text → TTS) yaklaşımından native real-time speech-to-speech (S2S) LLM paradigmasına geçişin gerekçesini netleştiren ilk modül oluşturur. Klasik pipeline'da latency budget yüksek (STT 200ms + LLM 500ms + TTS 200ms = 900ms TTFB) ve emotion + prosody bilgisi kayboluyor; native S2S LLM (GPT-4o Realtime, Gemini 2.5 Live, Claude Voice, Sesame Maya, Moshi) <500ms TTFB + emotion preservation + interruption handling sağlıyor. 2026 ekosistem haritası karşılaştırmalı sunulur: commercial S2S (OpenAI Realtime, Claude Voice, Gemini Live), specialized voice (Sesame Maya, Hume EVI 3, ElevenLabs Conversational), open-source (Moshi, F5-TTS, Higgs Audio v2). Türk pazarı use case'leri: bankacılık BDDK IVR otomasyonu + KVKK uyumlu voice authentication, sağlık SBSGM acil çağrı triaj + randevu sistemi, e-ticaret müşteri destek + iade yönetimi, kamu 444 hatları + e-devlet voice access.

İkinci modül Ekim 2024'te OpenAI'ın lansmanıyla S2S paradigmasını açan ve 2025-2026'da production standartı haline gelen Realtime API'yi uçtan uca işler. WebSocket protocol + bidirectional streaming: session.update + input_audio_buffer + conversation.item event'leri; pcm16 24kHz mono base64 audio format. gpt-4o-realtime-preview ve production gpt-realtime modelleri. 8 native ses (alloy, echo, fable, onyx, nova, shimmer, ash, ballad) — Türkçe accent quality 2025-2026 sürümlerinde dramatik gelişti. Function calling (tools array + function_call_arguments delta event), interruption handling (response.cancel + input_audio_buffer.clear), server-side VAD (voice activity detection) + turn detection. OpenAI WebRTC SDK + ephemeral key authentication ile browser integration + echo cancellation. Pricing: $0.06/min audio input + $0.24/min audio output, prompt caching ile %50-70 cost reduction. Türk kurumsal bankacılık + call center pratiği için production reçetesi sunulur.

Üçüncü modül OpenAI Whisper v3 Large (Kasım 2023 release, 2024-2026 production standardı) ve modern STT ekosistemini detaylı işler. Whisper v3 Large 1550M params, 99 dil (Türkçe dahil), open-source weights. Production optimization: faster-whisper (CTranslate2 + INT8 + 4x hız), insanely-fast-whisper (batched + Flash Attention 2), WhisperX (word-level timestamp + pyannote diarization), Distil-Whisper (6x küçük, kalite korur). Türkçe için fine-tuning (Turkish Common Voice + custom dataset), biased decoding (initial_prompt parameter ile context bias), custom vocabulary (medical drug names, banking IBAN format). Alternative production STT: AssemblyAI Universal-2, Deepgram Nova-3, Google Speech-to-Text v2 Chirp, Azure Speech (özellikle Türkçe için en iyi commercial), ElevenLabs Speech to Text (2024 lansman). Diarization (speaker separation) pyannote-audio + WhisperX kombinasyonu.

Dördüncü modül TTS lideri ElevenLabs'in ekosistemini uçtan uca işler. Multilingual v2 (32 dil + Türkçe ultra-natural), Turbo v2.5 (270ms latency), Flash v2.5 (75ms TTFB — sub-100ms en hızlı). Voice cloning: Instant Voice Cloning (1 dakika sample → cloned voice) + Professional Voice Cloning (30 dakika sample, yüksek kalite). Voice Design: text prompt'tan ses üretimi ('warm middle-aged male Turkish voice'). Stability + similarity_boost + style parameter tuning ile production quality. ElevenLabs Conversational AI platform (2024 lansman): agent + STT + TTS + LLM tek API'da; WebSocket streaming + chunk audio + low-latency production; Twilio integration + telefon (PSTN) call routing. Türk kurumsal voice cloning + custom brand voice + KVKK biyometrik veri compliance pratik gösterilir.

Beşinci modül 2024-2026 ekosisteminin specialized voice AI platformlarını detaylı işler. Cartesia Sonic 2: state-space model (Mamba) architecture sayesinde sub-100ms TTS — en hızlı production-grade TTS; multilingual (15+ dil Türkçe dahil); voice cloning; WebSocket streaming + 384 sample chunk + ultra-low latency. Hume EVI 3 (Empathic Voice Interface): 24 emotion + prosody analiz; semantic + paralinguistic dual-channel understanding; customer support empati + mental health applications + cognitive behavioral therapy bot. Sesame Maya (2025 lansman): Conversational Speech Model (CSM-1B) architecture; natural pauses + filler word ('um', 'uh') generation; Maya + Miles voices; interruption handling mastery. Hız + empathy + naturalness karar matrisi (hangi senaryoda hangisi optimal) detaylı sunulur.

Altıncı modül Google'ın Mart 2025 lansmanı Gemini 2.5 Live API'sini ve Anthropic Claude Voice'u detaylı işler. Gemini 2.5 Live: native audio + video bidirectional streaming, Affective Dialog (emotion-aware response), Proactive Audio (selective listening — sadece relevant input'a yanıt), 30+ ses, multi-language seamless code-switching (Türkçe + İngilizce karışım). google-genai SDK ile setup. Claude Voice (Claude Sonnet 4.6 voice mode 2025): natural conversation, document grounding (Projects + Skills voice integration), function calling, interruption. Multimodal scenarios: voice + screen sharing + camera input (Gemini Live'da native). OpenAI Realtime vs Gemini Live vs Claude Voice benchmark karşılaştırma: pricing, latency, quality, multilingual support, agent capabilities.

Yedinci modül voice agent orchestration platformlarını uçtan uca işler. Vapi (YC W24): voice AI orchestrator, 50+ STT/LLM/TTS provider abstraction, Twilio + Telnyx telephony, custom function tools, assistant config (JSON-based). Retell AI (YC S23): phone agent specialist, $0.08/min flat pricing, Telnyx + Twilio + Vonage telephony, agent + voice + handover analytics. LiveKit Agents (open-source): WebRTC + agent framework, Python SDK, Anthropic + OpenAI + custom backend orchestration, Pipecat alternative. Pipecat (open-source Daily.co): real-time voice + video AI pipeline framework. PSTN telephony integration: Twilio Voice + Telnyx + Plivo + Sinch + Vonage; Türk telekom operatörü integration (TT, Vodafone, Turkcell SIP trunk); 0850 numbers + 444 hatları + IVR routing + queue management + handover to human.

Sekizinci modül açık kaynak voice AI ekosistemini detaylı işler. Moshi (Kyutai 2024): full-duplex S2S LLM, 7B parameters, 160ms theoretical / 200ms real latency, Mimi codec ile audio token paradigma (12.5 Hz audio token, RVQ neural audio codec). Higgs Audio v2 (2025): multi-speaker conversation generation, voice cloning, open-source. F5-TTS (NVIDIA 2024): diffusion-based ultra-high quality TTS, 8 dil Türkçe dahil, voice cloning. MeloTTS open-source multilingual, CosyVoice + ChatTTS (Alibaba 2024). Self-hosted deployment: Moshi Docker + Hugging Face weights; F5-TTS GPU inference; KVKK uyumlu on-premise + bankacılık BDDK + sağlık SBSGM data sovereignty. Cost analizi: OpenAI Realtime $0.24/min output vs self-hosted Moshi ~$0.02/min (10x cost reduction enterprise scale'de).

Dokuzuncu modül voice agent'ın 'doğal' hissi vermesi için kritik conversation design disiplinini detaylı işler. System prompt engineering: persona ('Mehmet, banka müşteri temsilcisi'), tone (formal/informal), formality (siz/sen, Türkçe için kritik), boundaries (refusal patterns), few-shot example. Turn-taking strategy: server-side VAD (default 700ms silence threshold) vs client push-to-talk; end-of-utterance prediction (LLM-based vs acoustic); semantic VAD (sentence completion detection). Interruption handling: graceful response.cancel + input_audio_buffer.clear + context preservation. Conversation flow state machine: greeting → discovery → resolution → confirmation → goodbye. Hallucination prevention: tool-grounded answer (function calling), RAG (knowledge base query during conversation), refusal handling, escalation to human pattern. Türkçe için özel: hitap kuralları (sayın/Mehmet bey/sen), kültürel uygunluk, formal/informal tone switching, regional accent handling.

Onuncu modül voice AI'ı production'a alma disiplinini uçtan uca işler. Telephony stack: Twilio Voice + Telnyx + Plivo SIP trunk + 0850/444 number routing; Türk Telekom + Vodafone + Turkcell SIP integration; IVR menu + queue management + skill-based routing + handover to human. Latency budget breakdown: STT 200ms + LLM 300ms + TTS 200ms = 700ms TTFB (acceptable klasik pipeline), S2S LLM 500ms TTFB (excellent native paradigm). Geographic deployment: edge POPs (Istanbul AWS DC + GCP europe-west3 Frankfurt + Azure Türkiye) için <100ms network latency. Concurrent call scaling: WebSocket connection pool + Kubernetes HPA + 1000+ call/sec scaling architecture. Reliability patterns: dropped call handling + reconnect logic + fallback voice (model rate limit veya outage durumunda). KVKK + BDDK + bankacılık voice biometric compliance: call recording + transcription archive + S3 encryption + retention policy (6 ay - 2 yıl) + audit log.

On birinci modül voice AI sistemlerinin kalitesini sistematik ölçen evaluation disiplinini ele alır. STT metrics: WER (Word Error Rate, Türkçe için target <5%, jiwer library ile hesaplama), CER (Character Error Rate, Türkçe ekler için daha hassas), domain-specific accuracy (banking IBAN format recognition, medical drug name accuracy). TTS metrics: MOS (Mean Opinion Score 1-5 human rating), naturalness, similarity to reference voice; DNSMOS + UTMOS otomatik perceptual quality estimation. Conversational metrics: TTFB (Time to First Byte, voice'un ne kadar hızlı başladığı), turn-taking accuracy, interruption handling success rate, task completion rate, user satisfaction (NPS, post-call survey). End-to-end public benchmarks: Voice Arena (LMSYS Voice equivalent), ChatbotArena Voice. Custom Türkçe benchmark üretimi: bankacılık IVR test set (100+ scenarios), sağlık triaj scenarios, e-ticaret destek dialogues. A/B test framework + Langfuse + Phoenix ile voice observability + production trace.

Capstone modülünde her katılımcı, kendi senaryosuna özel uçtan uca bir Türkçe voice agent production sistemi tasarlar: use case seçimi (bankacılık IVR retail / corporate, sağlık SBSGM triaj, e-ticaret Trendyol/Hepsiburada destek, restoran rezervasyon agent, kamu 444 hattı + e-Devlet voice access, eğitim öğrenci asistanı); stack seçimi (OpenAI Realtime vs Vapi managed vs LiveKit + Cartesia vs self-hosted Moshi vs ElevenLabs Conversational AI); telephony integration (Twilio + Türk telekom SIP trunk); conversation design + persona + tone + flow; KVKK + BDDK + sektörel compliance audit; cost + latency + quality benchmark; 90 günlük production deployment + scaling roadmap. Eğitim sonunda katılımcılar; klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilecek; OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya + Cartesia Sonic + ElevenLabs Conversational arasında doğru tercih yapabilecek; Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilecek; Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilecek; Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilecek; Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilecek; conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilecek; ve WER + MOS + Voice Arena + custom Türkçe benchmark ile production quality ölçebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

Türkiye'de Voice AI disiplinini Türkçe uçtan uca işleyen tek production-grade ileri seviye program

OpenAI Realtime + Claude Voice + Gemini 2.5 Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması

Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe STT/TTS production pipeline

Vapi + Retell AI + LiveKit Agents + Pipecat voice agent orchestration karşılaştırması

Moshi (Kyutai) + F5-TTS + Higgs Audio v2 açık kaynak self-hosted deployment

Twilio + Telnyx + Türk telekom SIP trunk + 0850/444 number integration

Conversation design + turn-taking + interruption + hallucination prevention

WER + MOS + Voice Arena + custom Türkçe benchmark + KVKK + BDDK compliance audit

Kimler İçindir?

Bankacılık BDDK IVR + voice authentication ürünleri geliştiren ML Engineer + AI Engineer'lar

Sağlık (SBSGM) acil çağrı triaj + randevu sistemi inşa eden senior backend developer'lar

E-ticaret (Trendyol/Hepsiburada) müşteri destek voice automation yapan call center yöneticileri

Restoran rezervasyon + e-Devlet 444 hatları otomasyon eden conversational AI designer'lar

Voice cloning + branded voice asistanı geliştiren ürün geliştirici ekipler

KVKK + bankacılık BDDK + sağlık SBSGM compliance kritik kurumsal AI ekipler

Neden Bu Eğitim?

Türkiye'de Voice AI disiplinini Türkçe + uçtan uca + production-grade işleyen tek ileri seviye program.

OpenAI Realtime + Claude Voice + Gemini Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması.

Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe optimization derinleşmesi.

Vapi + Retell AI + LiveKit Agents + Pipecat orchestration platform karşılaştırması.

Moshi + F5-TTS + Higgs Audio v2 açık kaynak KVKK self-sovereignty deployment.

Twilio + Telnyx + Türk telekom SIP + 0850/444 telephony integration.

Conversation design + Türkçe kültürel hitap + interruption + hallucination prevention.

Capstone projesi ile katılımcıya kendi sektörüne özel production-grade Türkçe voice agent üretimi sağlar.

Kazanımlar

Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz.

OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz.

Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz.

ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz.

Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz.

Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz.

Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz.

Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz.

Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz.

WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

Gereksinimler

Aktif yazılım geliştirme deneyimi (orta-üst seviye), Python veya Node.js

WebSocket + REST API + JSON + async patterns ile temel deneyim

LLM API kullanımı (OpenAI / Anthropic / Google) ile en az kavramsal aşinalık

Docker + temel Linux + audio (sample rate, codec) konularına aşinalık

Eğitim öncesinde OpenAI + Anthropic + Google AI + ElevenLabs + Cartesia + Twilio hesapları (free tier yeterli)

GPU access (RunPod / Lambda Labs / Apple Silicon) self-hosted modüller için

Eğitim Müfredatı

104 Ders

Modül 1: Voice AI Çağına Stratejik Giriş — TTS+STT'den Real-Time S2S LLM'e9 Ders

Modül 2: OpenAI Realtime API ve GPT-4o Realtime — S2S Paradigmasının Lideri9 Ders

Modül 3: Whisper v3 Large + STT Mühendisliği — Türkçe Optimize Pipeline9 Ders

Modül 4: ElevenLabs — TTS, Ses Klonlama ve Conversational AI Platform9 Ders

Modül 5: Cartesia (Sonic), Hume EVI 3, Sesame Maya — Specialized Voice AI9 Ders

Modül 6: Google Gemini 2.5 Live API + Anthropic Claude Voice9 Ders

Modül 7: Vapi, Retell AI ve LiveKit Agents — Voice Agent Platform Stack'leri9 Ders

Modül 8: Moshi (Kyutai), Higgs Audio, F5-TTS — Open-Source Voice AI9 Ders

Modül 9: Conversational AI Design — Prompt, Turn-Taking, Interruption9 Ders

Modül 10: Production Voice Agent Deployment — Telephony, Latency, Scaling9 Ders

Modül 11: Voice AI Eval ve Benchmark — WER, MOS, Conversational Quality9 Ders

Modül 12: Capstone — Türkçe Voice Agent Production Sistemi İnşası5 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Kaydol

Kategoriler

AI Mühendisliği

Bu eğitim hakkında

Anahtar Çıkarımlar

Voice AI Mühendisliği Eğitimi (OpenAI Realtime + ElevenLabs + Cartesia Sonic + Sesame Maya + Whisper + Vapi + LiveKit Agents + Moshi)