TTS FT: XTTS-v2 + F5-TTS + Kokoro + Parler-TTS — Türkçe Ses Klonlama (Rıza + KVKK)
Text-to-Speech FT — TR'de yetersiz baseline'lar. XTTS-v2 (Coqui), F5-TTS (zero-shot voice cloning), Kokoro (StyleTTS2-based), Parler-TTS (description-controlled). 5-10 dakika referans ses ile kişiye özel voice clone. RTX 4090'da 1-3 saat FT. **Etik: rıza + KVKK + deepfake risk**.
Şükrü Yusuf KAYA
28 dakikalık okuma
İleri⚠️ Etik & Hukuk Uyarısı
Ses klonlama deepfake yapma yeteneği verir. Cookbook'un TTS FT Lab'ları yalnız açık rıza ile çekilmiş kendi sesin veya profesyonel voice talent (rıza + lisans) için kullanılmalı. Başkasının sesini izinsiz klonlamak Türk Ceza Kanunu (TCK) m. 134/3 (kişisel veri suistimal) ve KVKK kapsamında suç. Cookbook'un kuralı: rıza yok → projeyi başlatma.
1. TTS Model Karşılaştırma (2026)#
| Model | Params | TR support | Zero-shot voice clone | Lisans |
|---|---|---|---|---|
| XTTS-v2 (Coqui) | 750M | ✅ native | 6s reference | Coqui Public License |
| F5-TTS | 335M | ⚠️ FT gerek | ✅ excellent | MIT |
| Kokoro | 82M | ❌ EN/JA only | sınırlı | Apache 2.0 |
| Parler-TTS | 880M | ⚠️ FT gerek | description-control | Apache 2.0 |
| StyleTTS2 (yerel FT) | 350M | FT gerek | iyi | MIT |
| ElevenLabs (closed API) | n/a | iyi | excellent | proprietary |
Cookbook tavsiyesi (TR): XTTS-v2 — native TR var, voice clone iyi.
✅ Teslim
- Kendi sesinden 10 dakika kayıt al, rıza formu doldur. 2) XTTS-v2 ile 30 dakika FT. 3) Klonlanmış sesinle Türkçe metin okut. 4) Sonraki ders: 7.7 — Speaker ID + Diarization.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations