Bu eğitim başlangıç seviyesi için uygun mu?

Hayır. Bu program ileri seviye bir eğitimdir. Katılımcıların Python, API mantığı, temel yazılım geliştirme yaşam döngüsü ve LLM uygulamaları hakkında farkındalığa sahip olması beklenir.

Bu eğitim yalnızca test başlığına mı odaklanır?

Hayır. Program; benchmark tasarımı, regression kontrolü, release gate, runtime kalite sinyalleri ve governance-aware evaluation dahil olmak üzere uçtan uca kalite mühendisliği yaklaşımını kapsar.

Bu eğitim RAG ve agent sistemlerini de kapsıyor mu?

Evet. Programda hem RAG sistemleri için retrieval-generation ayrımı hem de agent sistemleri için step success, tool selection accuracy ve planning reliability gibi özel değerlendirme başlıkları yer alır.

Kuruma özel kalite metrikleri ve benchmark setleriyle özelleştirme yapılabilir mi?

Evet. İçerik; kurumun ürün tipi, risk yapısı, veri hassasiyeti, kullanıcı profili, AI mimarisi ve release süreçlerine göre özelleştirilebilir.

Bu eğitim sonunda ekipler somut olarak ne kazanır?

Katılımcılar; daha güçlü benchmark tasarımı, daha sistematik rubric ve regression yaklaşımı, daha kontrollü release gate mantığı, daha görünür runtime kalite takibi ve daha olgun kurumsal evaluation engineering mimarisi açısından çok daha uygulanabilir bir çerçeveyle programı tamamlar.

Bu eğitim hakkında

Kurumsal şirketler için benchmark tasarımı, golden set oluşturma, rubric-based eval, regression testing, release gate, RAG-agent değerlendirme ve runtime kalite sinyallerini birlikte ele alan ileri seviye AI evaluation engineering eğitimi.

Bu eğitim şu kitleler için tasarlanmıştır: LLM, GenAI, RAG ve agent projeleri geliştiren teknik ekipler AI Engineer, ML Engineer, Applied AI, Platform ve Product Analytics ekipleri Kalite güvence, test, release engineering ve teknik liderlik ekipleri Kurumsal AI ürünlerinde kaliteyi sistematik biçimde ölçmek isteyen şirketler Prompt, model veya retrieval değişikliklerini kontrollü release etmek isteyen ekipler GenAI sistemlerinde benchmark, regression ve release governance disiplini kurmak isteyen kurumlar

Bu eğitim neden önemli: Kurumsal AI ürünlerinde kaliteyi sezgisel değil ölçülebilir biçimde yönetmeyi öğretir. Şirketlerin benchmark, regression ve release gate eksikliği nedeniyle yaşadığı kalite darboğazlarını görünür hale getirir. Prompt, model, retrieval ve agent davranışını ayrı ayrı ve birlikte değerlendirebilen bir kalite yaklaşımı sunar. Teknik ekiplerin ortak bir evaluation dili kurmasına yardımcı olur. Offline test ile üretimde gözlenen kalite sinyallerini birbirine bağlar. Katılımcıların yalnızca çalışan sistemler değil, ölçülebilir ve savunulabilir AI ürünleri geliştirmesini hedefler.

Eğitim sonunda kazanacağınız çıktılar: Farklı GenAI ürünleri için anlamlı kalite çerçevesi kurabilirsiniz. Benchmark veri setlerini ve golden set yapılarını sistematik hazırlayabilirsiniz. Prompt, model, retrieval ve agent değişikliklerinde regression riskini yönetebilirsiniz. Release gate ve kalite eşikleriyle deployment kararlarını daha kontrollü verebilirsiniz. RAG ve agent sistemlerinde kalite problemlerini daha doğru ayrıştırabilirsiniz. Offline evaluation ile runtime kalite sinyallerini birlikte yorumlayan daha olgun bir evaluation engineering yaklaşımı geliştirebilirsiniz.

Ön koşullar ve önerilen birikim: Python programlama konusunda uygulama yapabilecek düzeyde bilgi API, JSON ve temel yazılım geliştirme yaşam döngüsüne aşinalık LLM, RAG veya agent sistemleri hakkında temel farkındalık Teknik dokümantasyon okuyabilme ve ürün kalite tartışmalarına katılabilme Uygulama atölyelerine aktif katılım ve kurumsal use case'ler üzerinden düşünmeye açıklık

Benchmark tasarımı, golden set, rubric-based eval, regression testing ve release governance katmanlarını tek programda birleştiren ileri seviye evaluation engineering yapısı
Salt test çalıştırma yaklaşımının ötesine geçerek kalite tanımı, metrik seçimi ve karar mekanizması odaklı metodoloji
Gerçek kurumsal use case'ler, kalite darboğazları, benchmark kurguları ve release senaryoları üzerinden uygulamalı anlatım
RAG, agent, tool calling ve grounded output sistemleri için özel evaluation katmanları içeren yapı
Offline evaluation ile runtime observability sinyallerini birlikte ele alan bütüncül kalite yaklaşımı
Ekip içinde tekrar kullanılabilir benchmark setleri, rubric şablonları, regression suite'leri ve release gate çerçeveleri üretmeye uygun öğrenme modeli

Anahtar Çıkarımlar

Farklı GenAI ürünleri için anlamlı kalite çerçevesi kurabilirsiniz.
Benchmark veri setlerini ve golden set yapılarını sistematik hazırlayabilirsiniz.
Prompt, model, retrieval ve agent değişikliklerinde regression riskini yönetebilirsiniz.
Release gate ve kalite eşikleriyle deployment kararlarını daha kontrollü verebilirsiniz.
RAG ve agent sistemlerinde kalite problemlerini daha doğru ayrıştırabilirsiniz.
Offline evaluation ile runtime kalite sinyallerini birlikte yorumlayan daha olgun bir evaluation engineering yaklaşımı geliştirebilirsiniz.

İleri Seviye4 Gün

AI Evaluation Engineering: LLM Test, Benchmark ve Regression Eğitimi

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, üretken yapay zekâ sistemlerinde kaliteyi yalnızca birkaç başarılı örnek çıktı üzerinden değil, sistematik ve savunulabilir bir mühendislik yaklaşımıyla değerlendirmek isteyen kurumlar için tasarlanmıştır. Programın merkezinde şu yaklaşım yer alır: bir LLM veya GenAI sistemi, yalnızca teknik olarak çalışıyor olmasıyla üretime hazır kabul edilemez. Gerçek kalite; neyin ölçüldüğü, nasıl ölçüldüğü, hangi veriyle ölçüldüğü, hangi eşiklerle yorumlandığı, değişikliklerin kaliteyi nasıl etkilediği ve bu ölçümlerin release kararlarına nasıl yansıtıldığı ile belirlenir. Bu nedenle eğitim; benchmark tasarımı, evaluation veri setleri, rubric, metrikler, regression, release gate, observability ve runtime kalite sinyallerini birlikte ele alır.

Eğitim boyunca katılımcılar, evaluation engineering yaklaşımının klasik yazılım testinden neden farklı olduğunu görür. LLM tabanlı sistemlerde doğruluk her zaman ikili değildir; aynı çıktının farklı kullanım senaryolarında farklı başarı kriterleri olabilir. Bir uygulamada görev tamamlama en kritik metrik iken, başka bir sistemde groundedness, citation doğruluğu, style compliance veya policy compliance daha kritik hale gelebilir. Bu nedenle program, “tek metrikle kalite” yaklaşımını bırakıp çok katmanlı kalite tasarımını öğretir. Böylece ekipler, kendi ürünleri için anlamlı kalite tanımını oluşturmayı öğrenir.

Programın güçlü yönlerinden biri benchmark ve dataset engineering katmanına özel ağırlık vermesidir. Katılımcılar; golden set oluşturma, veri örnekleme, edge case toplama, failure bucket kurgulama, dengesiz örneklem riskleri, benchmark set stratification ve use case'e göre test kapsamı oluşturma gibi başlıkları sistematik biçimde öğrenir. Böylece evaluation yalnızca test çalıştırmak değil, doğru değerlendirme evrenini inşa etmek olarak ele alınır. Ayrıca rubric tasarımı, judge-based eval, pairwise comparison ve structured scoring mantığı sayesinde daha tutarlı ve daha açıklanabilir değerlendirme yapıları kurmak mümkün hale gelir.

Programın ikinci güçlü ayağı regression ve release governance katmanıdır. Katılımcılar; prompt değişiklikleri, system instruction güncellemeleri, model geçişleri, retrieval ayarları, tool davranışı veya guardrail değişiklikleri sonrasında kaliteyi nasıl yeniden ölçmeleri gerektiğini öğrenir. Regression suite mantığı, release gate eşikleri, deployment blocking kriterleri, rollback tetikleyicileri ve post-release izleme sinyalleri detaylı biçimde ele alınır. Böylece kalite, yalnızca geçmişe dönük raporlanan bir metrik değil; release kararlarını yöneten aktif bir mühendislik mekanizmasına dönüşür.

Program ayrıca RAG ve agent sistemleri için özel evaluation katmanlarını da ele alır. Katılımcılar; retrieval başarısı ile generation kalitesini birbirinden ayırmayı, citation doğruluğunu, source usage kalitesini, tool selection accuracy’yi, step success ile task success farkını, planning reliability’yi ve memory kaynaklı hata örüntülerini nasıl ölçebileceklerini öğrenir. Bu sayede eğitim, yalnızca temel LLM cevap kalitesini değil; modern kurumsal GenAI sistemlerinin çok katmanlı değerlendirme ihtiyaçlarını da kapsar.

Son olarak program, observability ve runtime kalite sinyallerini evaluation engineering yaklaşımına bağlar. Kullanıcı geri bildirimi, production log’ları, degradation pattern’leri, guardrail hit oranları, fallback sıklığı, latency bozulmaları ve kaliteye bağlı operasyonel sinyallerin nasıl okunacağı detaylı biçimde ele alınır. Böylece evaluation, yalnızca offline test laboratuvarında kalan bir faaliyet değil; üretimde yaşayan ve karar mekanizmasını besleyen bir kalite sistemi haline gelir.

Eğitim Metodolojisi

Benchmark tasarımı, golden set, rubric-based eval, regression testing ve release governance katmanlarını tek programda birleştiren ileri seviye evaluation engineering yapısı

Salt test çalıştırma yaklaşımının ötesine geçerek kalite tanımı, metrik seçimi ve karar mekanizması odaklı metodoloji

Gerçek kurumsal use case'ler, kalite darboğazları, benchmark kurguları ve release senaryoları üzerinden uygulamalı anlatım

RAG, agent, tool calling ve grounded output sistemleri için özel evaluation katmanları içeren yapı

Offline evaluation ile runtime observability sinyallerini birlikte ele alan bütüncül kalite yaklaşımı

Ekip içinde tekrar kullanılabilir benchmark setleri, rubric şablonları, regression suite'leri ve release gate çerçeveleri üretmeye uygun öğrenme modeli

Kimler İçindir?

LLM, GenAI, RAG ve agent projeleri geliştiren teknik ekipler

AI Engineer, ML Engineer, Applied AI, Platform ve Product Analytics ekipleri

Kalite güvence, test, release engineering ve teknik liderlik ekipleri

Kurumsal AI ürünlerinde kaliteyi sistematik biçimde ölçmek isteyen şirketler

Prompt, model veya retrieval değişikliklerini kontrollü release etmek isteyen ekipler

GenAI sistemlerinde benchmark, regression ve release governance disiplini kurmak isteyen kurumlar

Neden Bu Eğitim?

Kurumsal AI ürünlerinde kaliteyi sezgisel değil ölçülebilir biçimde yönetmeyi öğretir.

Şirketlerin benchmark, regression ve release gate eksikliği nedeniyle yaşadığı kalite darboğazlarını görünür hale getirir.

Prompt, model, retrieval ve agent davranışını ayrı ayrı ve birlikte değerlendirebilen bir kalite yaklaşımı sunar.

Teknik ekiplerin ortak bir evaluation dili kurmasına yardımcı olur.

Offline test ile üretimde gözlenen kalite sinyallerini birbirine bağlar.

Katılımcıların yalnızca çalışan sistemler değil, ölçülebilir ve savunulabilir AI ürünleri geliştirmesini hedefler.

Kazanımlar

Farklı GenAI ürünleri için anlamlı kalite çerçevesi kurabilirsiniz.

Benchmark veri setlerini ve golden set yapılarını sistematik hazırlayabilirsiniz.

Prompt, model, retrieval ve agent değişikliklerinde regression riskini yönetebilirsiniz.

Release gate ve kalite eşikleriyle deployment kararlarını daha kontrollü verebilirsiniz.

RAG ve agent sistemlerinde kalite problemlerini daha doğru ayrıştırabilirsiniz.

Offline evaluation ile runtime kalite sinyallerini birlikte yorumlayan daha olgun bir evaluation engineering yaklaşımı geliştirebilirsiniz.

Gereksinimler

Python programlama konusunda uygulama yapabilecek düzeyde bilgi

API, JSON ve temel yazılım geliştirme yaşam döngüsüne aşinalık

LLM, RAG veya agent sistemleri hakkında temel farkındalık

Teknik dokümantasyon okuyabilme ve ürün kalite tartışmalarına katılabilme

Uygulama atölyelerine aktif katılım ve kurumsal use case'ler üzerinden düşünmeye açıklık

Eğitim Müfredatı

60 Ders

Modül 1: AI Evaluation Engineering’e Giriş ve Kurumsal Kalite Problemi6 Ders

Modül 2: Başarı Kriterleri, Metrik Tasarımı ve Quality Framework Oluşturma6 Ders

Modül 3: Benchmark Dataset Engineering, Golden Set Tasarımı ve Test Evreni Kurma6 Ders

Modül 4: Rubric-Based Eval, Judge Models ve Structured Scoring Yaklaşımları6 Ders

Modül 5: Regression Testing, Release Gates ve Evaluation-Driven Release Management6 Ders

Modül 6: RAG Sistemleri için Evaluation Engineering6 Ders

Modül 7: Agent Sistemleri için Evaluation Engineering6 Ders

Modül 8: Runtime Quality Signals, Observability ve Production Feedback Loops6 Ders

Modül 9: Safety, Policy Compliance ve Governance-Aware Evaluation6 Ders

Modül 10: Capstone – Kurumsal AI Quality Framework, Benchmark Planı ve Release Gate Tasarımı6 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Talep üzerine - Kaydol

Kategoriler

AI Mühendisliği

Bu eğitim hakkında

Anahtar Çıkarımlar

AI Evaluation Engineering: LLM Test, Benchmark ve Regression Eğitimi