Türkçe Lehçe FT: Karadeniz / Ege / Doğu Anadolu Telaffuzu + Dataset Toplama
Standart Türkçe baseline Whisper iyi ama lehçelerle zorlanır (Karadeniz 'cik' eki, Doğu Anadolu sertlikleri, Ege 'ce'lik). Lehçe ses kayıt protokolü (rıza dahil), 50-100 saat regional corpus, FT + WER per-lehçe. Production: müşteri hizmetleri, sağlık (köy hizmetleri).
Şükrü Yusuf KAYA
26 dakikalık okuma
İleri1. Dataset Toplama Protokolü (Rıza + KVKK)#
1. Gönüllü konuşmacılar (region başına 30-50 kişi) 2. Yazılı rıza formu (KVKK uyumlu): - Ses kaydının amacı (ASR FT) - Veri saklama süresi - Anonimleştirme (PII strip) - Geri çekme hakkı (silme) 3. Kayıt protokolü: - 16 kHz mono, 30-90 dk per session - Read speech (script) + spontaneous (free talk) - Multiple acoustic conditions (sessiz oda, gürültülü) 4. Annotation: - Forced alignment (Montreal Forced Aligner TR) - Verbatim transcription (lehçe formu) - Standart TR'ye çeviri (opsiyonel translation FT için) 5. Dataset card + datasheet (HuggingFace format)
Maliyet: 50 saat regional corpus ~₺50K-100K (kayıt + annotation + legal).
✅ Teslim
- Bir region için 1 saat pilot corpus topla. 2) Whisper FT baseline vs region-FT WER karşılaştır. 3) Sonraki ders: 7.4 — Streaming ASR (faster-whisper, distil-whisper).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations