Skip to content

Turkish Dialect FT: Karadeniz / Aegean / Eastern Anatolian Pronunciation + Dataset Collection

Standard Turkish baseline Whisper is good but struggles with dialects (Black Sea 'cik' suffix, Eastern Anatolian, Aegean). Dialect speech recording protocol (consent), 50-100h regional corpus, FT + per-dialect WER. Production: customer service, healthcare (village services).

Şükrü Yusuf KAYA
26 min read
Advanced
Türkçe Lehçe FT: Karadeniz / Ege / Doğu Anadolu Telaffuzu + Dataset Toplama

1. Dataset Toplama Protokolü (Rıza + KVKK)#

1. Gönüllü konuşmacılar (region başına 30-50 kişi) 2. Yazılı rıza formu (KVKK uyumlu): - Ses kaydının amacı (ASR FT) - Veri saklama süresi - Anonimleştirme (PII strip) - Geri çekme hakkı (silme) 3. Kayıt protokolü: - 16 kHz mono, 30-90 dk per session - Read speech (script) + spontaneous (free talk) - Multiple acoustic conditions (sessiz oda, gürültülü) 4. Annotation: - Forced alignment (Montreal Forced Aligner TR) - Verbatim transcription (lehçe formu) - Standart TR'ye çeviri (opsiyonel translation FT için) 5. Dataset card + datasheet (HuggingFace format)
Maliyet: 50 saat regional corpus ~₺50K-100K (kayıt + annotation + legal).
✅ Teslim
  1. Bir region için 1 saat pilot corpus topla. 2) Whisper FT baseline vs region-FT WER karşılaştır. 3) Sonraki ders: 7.4 — Streaming ASR (faster-whisper, distil-whisper).

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content