İçeriğe geç

Türkçe Lehçe FT: Karadeniz / Ege / Doğu Anadolu Telaffuzu + Dataset Toplama

Standart Türkçe baseline Whisper iyi ama lehçelerle zorlanır (Karadeniz 'cik' eki, Doğu Anadolu sertlikleri, Ege 'ce'lik). Lehçe ses kayıt protokolü (rıza dahil), 50-100 saat regional corpus, FT + WER per-lehçe. Production: müşteri hizmetleri, sağlık (köy hizmetleri).

Şükrü Yusuf KAYA
26 dakikalık okuma
İleri
Türkçe Lehçe FT: Karadeniz / Ege / Doğu Anadolu Telaffuzu + Dataset Toplama

1. Dataset Toplama Protokolü (Rıza + KVKK)#

1. Gönüllü konuşmacılar (region başına 30-50 kişi) 2. Yazılı rıza formu (KVKK uyumlu): - Ses kaydının amacı (ASR FT) - Veri saklama süresi - Anonimleştirme (PII strip) - Geri çekme hakkı (silme) 3. Kayıt protokolü: - 16 kHz mono, 30-90 dk per session - Read speech (script) + spontaneous (free talk) - Multiple acoustic conditions (sessiz oda, gürültülü) 4. Annotation: - Forced alignment (Montreal Forced Aligner TR) - Verbatim transcription (lehçe formu) - Standart TR'ye çeviri (opsiyonel translation FT için) 5. Dataset card + datasheet (HuggingFace format)
Maliyet: 50 saat regional corpus ~₺50K-100K (kayıt + annotation + legal).
✅ Teslim
  1. Bir region için 1 saat pilot corpus topla. 2) Whisper FT baseline vs region-FT WER karşılaştır. 3) Sonraki ders: 7.4 — Streaming ASR (faster-whisper, distil-whisper).

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler