İçeriğe geç

Bu eğitim hakkında

2024-2026'nın en sıcak frontier alanlarından real-time speech-to-speech LLM + Voice AI ekosistemini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. OpenAI GPT-4o Realtime API, Anthropic Claude Voice, Google Gemini 2.5 Live API, Sesame Maya (2025), Hume EVI 3, Whisper v3 Large, ElevenLabs Conversational AI, Cartesia Sonic 2 (sub-100ms), Vapi (YC W24), Retell AI, LiveKit Agents, Pipecat, Moshi (Kyutai açık kaynak), F5-TTS, Higgs Audio v2; Twilio + Telnyx + Türk telekom SIP telephony; bankacılık IVR + sağlık triaj + e-ticaret call center use case'leri; KVKK + BDDK uyumlu deployment dahil.

Bu eğitim şu kitleler için tasarlanmıştır: Bankacılık BDDK IVR + voice authentication ürünleri geliştiren ML Engineer + AI Engineer'lar Sağlık (SBSGM) acil çağrı triaj + randevu sistemi inşa eden senior backend developer'lar E-ticaret (Trendyol/Hepsiburada) müşteri destek voice automation yapan call center yöneticileri Restoran rezervasyon + e-Devlet 444 hatları otomasyon eden conversational AI designer'lar Voice cloning + branded voice asistanı geliştiren ürün geliştirici ekipler KVKK + bankacılık BDDK + sağlık SBSGM compliance kritik kurumsal AI ekipler

Bu eğitim neden önemli: Türkiye'de Voice AI disiplinini Türkçe + uçtan uca + production-grade işleyen tek ileri seviye program. OpenAI Realtime + Claude Voice + Gemini Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması. Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe optimization derinleşmesi. Vapi + Retell AI + LiveKit Agents + Pipecat orchestration platform karşılaştırması. Moshi + F5-TTS + Higgs Audio v2 açık kaynak KVKK self-sovereignty deployment. Twilio + Telnyx + Türk telekom SIP + 0850/444 telephony integration. Conversation design + Türkçe kültürel hitap + interruption + hallucination prevention. Capstone projesi ile katılımcıya kendi sektörüne özel production-grade Türkçe voice agent üretimi sağlar.

Eğitim sonunda kazanacağınız çıktılar: Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz. OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz. Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz. ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz. Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz. Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz. Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz. Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz. Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz. WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

Ön koşullar ve önerilen birikim: Aktif yazılım geliştirme deneyimi (orta-üst seviye), Python veya Node.js WebSocket + REST API + JSON + async patterns ile temel deneyim LLM API kullanımı (OpenAI / Anthropic / Google) ile en az kavramsal aşinalık Docker + temel Linux + audio (sample rate, codec) konularına aşinalık Eğitim öncesinde OpenAI + Anthropic + Google AI + ElevenLabs + Cartesia + Twilio hesapları (free tier yeterli) GPU access (RunPod / Lambda Labs / Apple Silicon) self-hosted modüller için

  • Türkiye'de Voice AI disiplinini Türkçe uçtan uca işleyen tek production-grade ileri seviye program
  • OpenAI Realtime + Claude Voice + Gemini 2.5 Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması
  • Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe STT/TTS production pipeline
  • Vapi + Retell AI + LiveKit Agents + Pipecat voice agent orchestration karşılaştırması
  • Moshi (Kyutai) + F5-TTS + Higgs Audio v2 açık kaynak self-hosted deployment
  • Twilio + Telnyx + Türk telekom SIP trunk + 0850/444 number integration
  • Conversation design + turn-taking + interruption + hallucination prevention
  • WER + MOS + Voice Arena + custom Türkçe benchmark + KVKK + BDDK compliance audit

Anahtar Çıkarımlar

  1. Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz.
  2. OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz.
  3. Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz.
  4. ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz.
  5. Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz.
  6. Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz.
  7. Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz.
  8. Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz.
  9. Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz.
  10. WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.
Hero Background
İleri Seviye3 Gün

Voice AI Mühendisliği Eğitimi (OpenAI Realtime + ElevenLabs + Cartesia Sonic + Sesame Maya + Whisper + Vapi + LiveKit Agents + Moshi)

2024-2026'nın en sıcak frontier alanlarından real-time speech-to-speech LLM + Voice AI ekosistemini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. OpenAI GPT-4o Realtime API, Anthropic Claude Voice, Google Gemini 2.5 Live API, Sesame Maya (2025), Hume EVI 3, Whisper v3 Large, ElevenLabs Conversational AI, Cartesia Sonic 2 (sub-100ms), Vapi (YC W24), Retell AI, LiveKit Agents, Pipecat, Moshi (Kyutai açık kaynak), F5-TTS, Higgs Audio v2; Twilio + Telnyx + Türk telekom SIP telephony; bankacılık IVR + sağlık triaj + e-ticaret call center use case'leri; KVKK + BDDK uyumlu deployment dahil.

Eğitim Hakkında

Bu eğitim, 2024-2026 döneminin paradigma açıcı agent katmanı olan voice AI disiplinini Türkçe olarak uçtan uca öğretmek üzere tasarlanmıştır. Ekim 2024'te OpenAI'ın GPT-4o Realtime API lansmanı, 2025'te Anthropic Claude Voice ve Google Gemini 2.5 Live API'nin gelişi, Sesame Maya'nın conversational presence paradigmasını açması, Hume EVI 3'ün empathic voice interface'i, Cartesia Sonic 2'nin sub-100ms TTS'i, ElevenLabs'in 32 dilde ultra-natural TTS + Conversational AI platformu, Vapi (YC W24) + Retell AI (YC S23) voice agent orchestrator'leri, LiveKit Agents + Pipecat open-source framework'leri ve Moshi (Kyutai), F5-TTS, Higgs Audio v2 açık kaynak alternatifleri ile voice AI ekosistemi production-grade bir disipline dönüştü. Türk bankacılık (BDDK IVR), sağlık (SBSGM acil çağrı triaj), e-ticaret (Trendyol/Hepsiburada call center), kamu hizmetleri (444 hatları) sektörleri için voice AI otomasyonu kritik avantaj sunuyor — ancak Türkçe'de bu disiplini uçtan uca işleyen bir eğitim neredeyse yoktur. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade voice AI referans eğitimi olarak doldurmak üzere tasarlanmıştır.



Programın stratejik omurgasını, klasik 3-stage pipeline (STT → LLM text → TTS) yaklaşımından native real-time speech-to-speech (S2S) LLM paradigmasına geçişin gerekçesini netleştiren ilk modül oluşturur. Klasik pipeline'da latency budget yüksek (STT 200ms + LLM 500ms + TTS 200ms = 900ms TTFB) ve emotion + prosody bilgisi kayboluyor; native S2S LLM (GPT-4o Realtime, Gemini 2.5 Live, Claude Voice, Sesame Maya, Moshi) <500ms TTFB + emotion preservation + interruption handling sağlıyor. 2026 ekosistem haritası karşılaştırmalı sunulur: commercial S2S (OpenAI Realtime, Claude Voice, Gemini Live), specialized voice (Sesame Maya, Hume EVI 3, ElevenLabs Conversational), open-source (Moshi, F5-TTS, Higgs Audio v2). Türk pazarı use case'leri: bankacılık BDDK IVR otomasyonu + KVKK uyumlu voice authentication, sağlık SBSGM acil çağrı triaj + randevu sistemi, e-ticaret müşteri destek + iade yönetimi, kamu 444 hatları + e-devlet voice access.



İkinci modül Ekim 2024'te OpenAI'ın lansmanıyla S2S paradigmasını açan ve 2025-2026'da production standartı haline gelen Realtime API'yi uçtan uca işler. WebSocket protocol + bidirectional streaming: session.update + input_audio_buffer + conversation.item event'leri; pcm16 24kHz mono base64 audio format. gpt-4o-realtime-preview ve production gpt-realtime modelleri. 8 native ses (alloy, echo, fable, onyx, nova, shimmer, ash, ballad) — Türkçe accent quality 2025-2026 sürümlerinde dramatik gelişti. Function calling (tools array + function_call_arguments delta event), interruption handling (response.cancel + input_audio_buffer.clear), server-side VAD (voice activity detection) + turn detection. OpenAI WebRTC SDK + ephemeral key authentication ile browser integration + echo cancellation. Pricing: $0.06/min audio input + $0.24/min audio output, prompt caching ile %50-70 cost reduction. Türk kurumsal bankacılık + call center pratiği için production reçetesi sunulur.



Üçüncü modül OpenAI Whisper v3 Large (Kasım 2023 release, 2024-2026 production standardı) ve modern STT ekosistemini detaylı işler. Whisper v3 Large 1550M params, 99 dil (Türkçe dahil), open-source weights. Production optimization: faster-whisper (CTranslate2 + INT8 + 4x hız), insanely-fast-whisper (batched + Flash Attention 2), WhisperX (word-level timestamp + pyannote diarization), Distil-Whisper (6x küçük, kalite korur). Türkçe için fine-tuning (Turkish Common Voice + custom dataset), biased decoding (initial_prompt parameter ile context bias), custom vocabulary (medical drug names, banking IBAN format). Alternative production STT: AssemblyAI Universal-2, Deepgram Nova-3, Google Speech-to-Text v2 Chirp, Azure Speech (özellikle Türkçe için en iyi commercial), ElevenLabs Speech to Text (2024 lansman). Diarization (speaker separation) pyannote-audio + WhisperX kombinasyonu.



Dördüncü modül TTS lideri ElevenLabs'in ekosistemini uçtan uca işler. Multilingual v2 (32 dil + Türkçe ultra-natural), Turbo v2.5 (270ms latency), Flash v2.5 (75ms TTFB — sub-100ms en hızlı). Voice cloning: Instant Voice Cloning (1 dakika sample → cloned voice) + Professional Voice Cloning (30 dakika sample, yüksek kalite). Voice Design: text prompt'tan ses üretimi ('warm middle-aged male Turkish voice'). Stability + similarity_boost + style parameter tuning ile production quality. ElevenLabs Conversational AI platform (2024 lansman): agent + STT + TTS + LLM tek API'da; WebSocket streaming + chunk audio + low-latency production; Twilio integration + telefon (PSTN) call routing. Türk kurumsal voice cloning + custom brand voice + KVKK biyometrik veri compliance pratik gösterilir.



Beşinci modül 2024-2026 ekosisteminin specialized voice AI platformlarını detaylı işler. Cartesia Sonic 2: state-space model (Mamba) architecture sayesinde sub-100ms TTS — en hızlı production-grade TTS; multilingual (15+ dil Türkçe dahil); voice cloning; WebSocket streaming + 384 sample chunk + ultra-low latency. Hume EVI 3 (Empathic Voice Interface): 24 emotion + prosody analiz; semantic + paralinguistic dual-channel understanding; customer support empati + mental health applications + cognitive behavioral therapy bot. Sesame Maya (2025 lansman): Conversational Speech Model (CSM-1B) architecture; natural pauses + filler word ('um', 'uh') generation; Maya + Miles voices; interruption handling mastery. Hız + empathy + naturalness karar matrisi (hangi senaryoda hangisi optimal) detaylı sunulur.



Altıncı modül Google'ın Mart 2025 lansmanı Gemini 2.5 Live API'sini ve Anthropic Claude Voice'u detaylı işler. Gemini 2.5 Live: native audio + video bidirectional streaming, Affective Dialog (emotion-aware response), Proactive Audio (selective listening — sadece relevant input'a yanıt), 30+ ses, multi-language seamless code-switching (Türkçe + İngilizce karışım). google-genai SDK ile setup. Claude Voice (Claude Sonnet 4.6 voice mode 2025): natural conversation, document grounding (Projects + Skills voice integration), function calling, interruption. Multimodal scenarios: voice + screen sharing + camera input (Gemini Live'da native). OpenAI Realtime vs Gemini Live vs Claude Voice benchmark karşılaştırma: pricing, latency, quality, multilingual support, agent capabilities.



Yedinci modül voice agent orchestration platformlarını uçtan uca işler. Vapi (YC W24): voice AI orchestrator, 50+ STT/LLM/TTS provider abstraction, Twilio + Telnyx telephony, custom function tools, assistant config (JSON-based). Retell AI (YC S23): phone agent specialist, $0.08/min flat pricing, Telnyx + Twilio + Vonage telephony, agent + voice + handover analytics. LiveKit Agents (open-source): WebRTC + agent framework, Python SDK, Anthropic + OpenAI + custom backend orchestration, Pipecat alternative. Pipecat (open-source Daily.co): real-time voice + video AI pipeline framework. PSTN telephony integration: Twilio Voice + Telnyx + Plivo + Sinch + Vonage; Türk telekom operatörü integration (TT, Vodafone, Turkcell SIP trunk); 0850 numbers + 444 hatları + IVR routing + queue management + handover to human.



Sekizinci modül açık kaynak voice AI ekosistemini detaylı işler. Moshi (Kyutai 2024): full-duplex S2S LLM, 7B parameters, 160ms theoretical / 200ms real latency, Mimi codec ile audio token paradigma (12.5 Hz audio token, RVQ neural audio codec). Higgs Audio v2 (2025): multi-speaker conversation generation, voice cloning, open-source. F5-TTS (NVIDIA 2024): diffusion-based ultra-high quality TTS, 8 dil Türkçe dahil, voice cloning. MeloTTS open-source multilingual, CosyVoice + ChatTTS (Alibaba 2024). Self-hosted deployment: Moshi Docker + Hugging Face weights; F5-TTS GPU inference; KVKK uyumlu on-premise + bankacılık BDDK + sağlık SBSGM data sovereignty. Cost analizi: OpenAI Realtime $0.24/min output vs self-hosted Moshi ~$0.02/min (10x cost reduction enterprise scale'de).



Dokuzuncu modül voice agent'ın 'doğal' hissi vermesi için kritik conversation design disiplinini detaylı işler. System prompt engineering: persona ('Mehmet, banka müşteri temsilcisi'), tone (formal/informal), formality (siz/sen, Türkçe için kritik), boundaries (refusal patterns), few-shot example. Turn-taking strategy: server-side VAD (default 700ms silence threshold) vs client push-to-talk; end-of-utterance prediction (LLM-based vs acoustic); semantic VAD (sentence completion detection). Interruption handling: graceful response.cancel + input_audio_buffer.clear + context preservation. Conversation flow state machine: greeting → discovery → resolution → confirmation → goodbye. Hallucination prevention: tool-grounded answer (function calling), RAG (knowledge base query during conversation), refusal handling, escalation to human pattern. Türkçe için özel: hitap kuralları (sayın/Mehmet bey/sen), kültürel uygunluk, formal/informal tone switching, regional accent handling.



Onuncu modül voice AI'ı production'a alma disiplinini uçtan uca işler. Telephony stack: Twilio Voice + Telnyx + Plivo SIP trunk + 0850/444 number routing; Türk Telekom + Vodafone + Turkcell SIP integration; IVR menu + queue management + skill-based routing + handover to human. Latency budget breakdown: STT 200ms + LLM 300ms + TTS 200ms = 700ms TTFB (acceptable klasik pipeline), S2S LLM 500ms TTFB (excellent native paradigm). Geographic deployment: edge POPs (Istanbul AWS DC + GCP europe-west3 Frankfurt + Azure Türkiye) için <100ms network latency. Concurrent call scaling: WebSocket connection pool + Kubernetes HPA + 1000+ call/sec scaling architecture. Reliability patterns: dropped call handling + reconnect logic + fallback voice (model rate limit veya outage durumunda). KVKK + BDDK + bankacılık voice biometric compliance: call recording + transcription archive + S3 encryption + retention policy (6 ay - 2 yıl) + audit log.



On birinci modül voice AI sistemlerinin kalitesini sistematik ölçen evaluation disiplinini ele alır. STT metrics: WER (Word Error Rate, Türkçe için target <5%, jiwer library ile hesaplama), CER (Character Error Rate, Türkçe ekler için daha hassas), domain-specific accuracy (banking IBAN format recognition, medical drug name accuracy). TTS metrics: MOS (Mean Opinion Score 1-5 human rating), naturalness, similarity to reference voice; DNSMOS + UTMOS otomatik perceptual quality estimation. Conversational metrics: TTFB (Time to First Byte, voice'un ne kadar hızlı başladığı), turn-taking accuracy, interruption handling success rate, task completion rate, user satisfaction (NPS, post-call survey). End-to-end public benchmarks: Voice Arena (LMSYS Voice equivalent), ChatbotArena Voice. Custom Türkçe benchmark üretimi: bankacılık IVR test set (100+ scenarios), sağlık triaj scenarios, e-ticaret destek dialogues. A/B test framework + Langfuse + Phoenix ile voice observability + production trace.



Capstone modülünde her katılımcı, kendi senaryosuna özel uçtan uca bir Türkçe voice agent production sistemi tasarlar: use case seçimi (bankacılık IVR retail / corporate, sağlık SBSGM triaj, e-ticaret Trendyol/Hepsiburada destek, restoran rezervasyon agent, kamu 444 hattı + e-Devlet voice access, eğitim öğrenci asistanı); stack seçimi (OpenAI Realtime vs Vapi managed vs LiveKit + Cartesia vs self-hosted Moshi vs ElevenLabs Conversational AI); telephony integration (Twilio + Türk telekom SIP trunk); conversation design + persona + tone + flow; KVKK + BDDK + sektörel compliance audit; cost + latency + quality benchmark; 90 günlük production deployment + scaling roadmap. Eğitim sonunda katılımcılar; klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilecek; OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya + Cartesia Sonic + ElevenLabs Conversational arasında doğru tercih yapabilecek; Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilecek; Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilecek; Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilecek; Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilecek; conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilecek; ve WER + MOS + Voice Arena + custom Türkçe benchmark ile production quality ölçebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

Türkiye'de Voice AI disiplinini Türkçe uçtan uca işleyen tek production-grade ileri seviye program

OpenAI Realtime + Claude Voice + Gemini 2.5 Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması

Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe STT/TTS production pipeline

Vapi + Retell AI + LiveKit Agents + Pipecat voice agent orchestration karşılaştırması

Moshi (Kyutai) + F5-TTS + Higgs Audio v2 açık kaynak self-hosted deployment

Twilio + Telnyx + Türk telekom SIP trunk + 0850/444 number integration

Conversation design + turn-taking + interruption + hallucination prevention

WER + MOS + Voice Arena + custom Türkçe benchmark + KVKK + BDDK compliance audit

Kimler İçindir?

Bankacılık BDDK IVR + voice authentication ürünleri geliştiren ML Engineer + AI Engineer'lar
Sağlık (SBSGM) acil çağrı triaj + randevu sistemi inşa eden senior backend developer'lar
E-ticaret (Trendyol/Hepsiburada) müşteri destek voice automation yapan call center yöneticileri
Restoran rezervasyon + e-Devlet 444 hatları otomasyon eden conversational AI designer'lar
Voice cloning + branded voice asistanı geliştiren ürün geliştirici ekipler
KVKK + bankacılık BDDK + sağlık SBSGM compliance kritik kurumsal AI ekipler

Neden Bu Eğitim?

1

Türkiye'de Voice AI disiplinini Türkçe + uçtan uca + production-grade işleyen tek ileri seviye program.

2

OpenAI Realtime + Claude Voice + Gemini Live + Sesame Maya + Hume EVI 3 altılı S2S LLM karşılaştırması.

3

Whisper v3 + ElevenLabs + Cartesia Sonic + Azure Speech Türkçe optimization derinleşmesi.

4

Vapi + Retell AI + LiveKit Agents + Pipecat orchestration platform karşılaştırması.

5

Moshi + F5-TTS + Higgs Audio v2 açık kaynak KVKK self-sovereignty deployment.

6

Twilio + Telnyx + Türk telekom SIP + 0850/444 telephony integration.

7

Conversation design + Türkçe kültürel hitap + interruption + hallucination prevention.

8

Capstone projesi ile katılımcıya kendi sektörüne özel production-grade Türkçe voice agent üretimi sağlar.

Kazanımlar

Klasik STT+LLM+TTS pipeline'dan native S2S LLM paradigma kaymasını ustaca yönetebilirsiniz.
OpenAI Realtime + Gemini Live + Claude Voice + Sesame Maya arasında ekibinize uygun tercih yapabilirsiniz.
Whisper v3 + faster-whisper + WhisperX + Azure Speech Türkçe STT production pipeline kurabilirsiniz.
ElevenLabs Multilingual v2 + voice cloning + Conversational AI deploy edebilirsiniz.
Cartesia Sonic 2 sub-100ms TTS ile ultra-low latency voice agent kurabilirsiniz.
Vapi + Retell AI + LiveKit Agents + Pipecat ile voice agent orchestration yapabilirsiniz.
Moshi + F5-TTS + Higgs Audio v2 self-hosted KVKK uyumlu deployment yapabilirsiniz.
Twilio + Telnyx + Türk telekom SIP ile production telephony integration kurabilirsiniz.
Conversation design + turn-taking + interruption + hallucination prevention disiplinini uygulayabilirsiniz.
WER + MOS + Voice Arena + custom Türkçe benchmark + Langfuse observability ile voice quality ölçebilirsiniz.

Gereksinimler

Aktif yazılım geliştirme deneyimi (orta-üst seviye), Python veya Node.js
WebSocket + REST API + JSON + async patterns ile temel deneyim
LLM API kullanımı (OpenAI / Anthropic / Google) ile en az kavramsal aşinalık
Docker + temel Linux + audio (sample rate, codec) konularına aşinalık
Eğitim öncesinde OpenAI + Anthropic + Google AI + ElevenLabs + Cartesia + Twilio hesapları (free tier yeterli)
GPU access (RunPod / Lambda Labs / Apple Silicon) self-hosted modüller için

Eğitim Müfredatı

104 Ders
01
Modül 1: Voice AI Çağına Stratejik Giriş — TTS+STT'den Real-Time S2S LLM'e9 Ders
02
Modül 2: OpenAI Realtime API ve GPT-4o Realtime — S2S Paradigmasının Lideri9 Ders
03
Modül 3: Whisper v3 Large + STT Mühendisliği — Türkçe Optimize Pipeline9 Ders
04
Modül 4: ElevenLabs — TTS, Ses Klonlama ve Conversational AI Platform9 Ders
05
Modül 5: Cartesia (Sonic), Hume EVI 3, Sesame Maya — Specialized Voice AI9 Ders
06
Modül 6: Google Gemini 2.5 Live API + Anthropic Claude Voice9 Ders
07
Modül 7: Vapi, Retell AI ve LiveKit Agents — Voice Agent Platform Stack'leri9 Ders
08
Modül 8: Moshi (Kyutai), Higgs Audio, F5-TTS — Open-Source Voice AI9 Ders
09
Modül 9: Conversational AI Design — Prompt, Turn-Taking, Interruption9 Ders
10
Modül 10: Production Voice Agent Deployment — Telephony, Latency, Scaling9 Ders
11
Modül 11: Voice AI Eval ve Benchmark — WER, MOS, Conversational Quality9 Ders
12
Modül 12: Capstone — Türkçe Voice Agent Production Sistemi İnşası5 Ders

Eğitmen

Şükrü Yusuf KAYA

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular