Turkish Dialect FT: Karadeniz / Aegean / Eastern Anatolian Pronunciation + Dataset Collection
Standard Turkish baseline Whisper is good but struggles with dialects (Black Sea 'cik' suffix, Eastern Anatolian, Aegean). Dialect speech recording protocol (consent), 50-100h regional corpus, FT + per-dialect WER. Production: customer service, healthcare (village services).
Şükrü Yusuf KAYA
26 min read
Advanced1. Dataset Toplama Protokolü (Rıza + KVKK)#
1. Gönüllü konuşmacılar (region başına 30-50 kişi) 2. Yazılı rıza formu (KVKK uyumlu): - Ses kaydının amacı (ASR FT) - Veri saklama süresi - Anonimleştirme (PII strip) - Geri çekme hakkı (silme) 3. Kayıt protokolü: - 16 kHz mono, 30-90 dk per session - Read speech (script) + spontaneous (free talk) - Multiple acoustic conditions (sessiz oda, gürültülü) 4. Annotation: - Forced alignment (Montreal Forced Aligner TR) - Verbatim transcription (lehçe formu) - Standart TR'ye çeviri (opsiyonel translation FT için) 5. Dataset card + datasheet (HuggingFace format)
Maliyet: 50 saat regional corpus ~₺50K-100K (kayıt + annotation + legal).
✅ Teslim
- Bir region için 1 saat pilot corpus topla. 2) Whisper FT baseline vs region-FT WER karşılaştır. 3) Sonraki ders: 7.4 — Streaming ASR (faster-whisper, distil-whisper).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Part 0 — Engineering Foundations
Welcome to the Fine-Tuning Cookbook: System, Stage Taxonomy, and the Reproducibility Contract
Start LearningPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags, and Deterministic CUDA — End the 'Works on My Machine' Problem
Start LearningPart 0 — Engineering Foundations