Kurumsal Kullanım için LLM Değerlendirme Rehberi: Doğruluk, Güvenlik

Büyük dil modelleri kurumsal yapılarda yaygınlaştıkça, model seçimi ve model değerlendirmesi de çok daha kritik hale geliyor. Ancak birçok kurum bu değerlendirmeyi hâlâ yüzeysel biçimde yapıyor. Benchmark sonuçlarına bakılıyor, birkaç demo deneniyor, modelin verdiği ilk cevaplar etkileyici bulunuyorsa karar hızla olumluya dönüyor. Oysa üretim ortamında asıl soru modelin ne kadar etkileyici göründüğü değil; belirli bir iş sürecinde ne kadar doğru, ne kadar güvenli, ne kadar sürdürülebilir maliyetle ve ne kadar kontrol edilebilir biçimde çalıştığıdır.

Kurumsal kullanımda bir LLM’in değeri yalnızca dil üretim gücüyle ölçülmez. Aynı model bir içerik üretim senaryosunda yeterli olabilirken, bir başka senaryoda ciddi güvenlik riski yaratabilir. Bazı use-case’lerde doğruluk en kritik boyutken, bazılarında kontrol ve denetlenebilirlik daha belirleyicidir. Bazı görevlerde düşük maliyet öncelikliyken, bazılarında insan düzeltme ihtiyacını azaltan daha güçlü model toplamda daha ekonomik olabilir. Kısacası kurumsal LLM değerlendirmesi, tek skorlu bir kalite testi değil; çok boyutlu bir risk, performans ve işletim değerlendirmesidir.

Bu yüzden kurumsal LLM değerlendirmesi dört ana eksende ele alınmalıdır: doğruluk, güvenlik, maliyet ve kontrol. Bu dört eksen birlikte okunmadığında ya gereksiz pahalı ama kontrolsüz sistemler kurulur, ya güvenli ama iş değeri üretmeyen yapılar ortaya çıkar, ya da hızlı PoC’ler ölçeklenebilir sanılarak uzun vadeli teknik borç yaratılır.

Bu yazıda, kurumsal kullanım için LLM değerlendirme yaklaşımını sistematik bir çerçeveyle ele alacağım. Özellikle doğruluk, güvenlik, maliyet ve kontrol eksenlerinin her birini; eval tasarımı, test setleri, risk sınıflandırması, latency ve TCO, guardrail davranışı, insan onayı, audit izi ve operasyonel gözlemlenebilirlik boyutlarıyla birlikte inceleyeceğim. Amaç, kurumların LLM değerlendirmesini demo etkisinden çıkarıp gerçek üretim yönetimi disiplinine taşıyabilmesini sağlamaktır.

Neden Kurumsal LLM Değerlendirmesi Farklı Bir Disiplindir?

Bireysel kullanımda bir modelin “iyi” olup olmadığı çoğu zaman sezgisel olarak anlaşılır. Kullanıcı sorar, model cevap verir, çıktı faydalıysa sistem başarılı kabul edilir. Kurumsal dünyada bu yaklaşım yeterli değildir. Çünkü burada model çıktısı yalnızca kişisel verimlilik üretmez; müşteri deneyimini, operasyonel akışı, iç süreçleri, güvenlik sınırlarını, karar destek mekanizmalarını ve hatta regülasyon uyumunu etkileyebilir.

Bu nedenle kurumsal değerlendirme şu sorulara cevap vermelidir:

Model doğru çıktıyı ne kadar tutarlı biçimde üretiyor?
Riskli veya kötü niyetli girdiler karşısında nasıl davranıyor?
Toplam görev maliyeti sürdürülebilir mi?
Model davranışı ne kadar gözlemlenebilir ve denetlenebilir?
İnsan onayı, escalation ve guardrail mantığı sistemle nasıl birleşiyor?
Farklı use-case’ler için farklı kalite eşiği tanımlanmış mı?

Başka bir ifadeyle, kurumsal LLM değerlendirmesi sadece model puanlama işi değil; güvenilir yapay zekâ işletimi kurma disiplinidir.

"

Kritik gerçek: Kurumsal kullanımda iyi model, yalnızca güçlü cevap veren model değil; doğru, güvenli, maliyet açısından sürdürülebilir ve davranışı kontrol edilebilir modeldir.

Dört Ana Değerlendirme Ekseni: Doğruluk, Güvenlik, Maliyet ve Kontrol

Kurumsal LLM değerlendirmesinin en sağlıklı çerçevesi, dört temel ekseni birlikte okumaktır:

Doğruluk
Güvenlik
Maliyet
Kontrol

Bu dört eksen birbirini tamamlar. Yüksek doğruluk ama zayıf güvenlik risklidir. Güçlü güvenlik ama aşırı yüksek maliyet sürdürülemez. Düşük maliyet ama kontrolsüz davranış kurumsal güveni bozar. Dolayısıyla asıl mesele bu boyutların her birini ölçmek ve use-case bazında doğru dengeyi kurmaktır.

1. Doğruluk: Model Doğru Sonuç Üretiyor mu?

Doğruluk, çoğu kurumun ilk baktığı boyuttur ve haklı olarak çok önemlidir. Ancak doğruluğu da tek bir genel kavram gibi değerlendirmek hatalıdır. Çünkü doğruluk use-case’e göre farklı anlamlar taşır. Bir sınıflandırma sisteminde doğruluk başka bir şeydir; bir RAG sisteminde groundedness başka bir boyuttur; bir agent yapısında ise görev tamamlanma doğruluğu daha belirleyici olabilir.

Doğruluk Hangi Boyutlarda Ele Alınmalı?

İçerik doğruluğu
Görev başarımı
Kaynaklılık ve groundedness
Format doğruluğu
Tutarlılık
Belirsizlik yönetimi

Use-Case’e Göre Doğruluk Türleri

RAG ve Kurumsal Soru-Cevap

Burada yalnızca cevabın akıcı olması yetmez; cevabın retrieval ile gelen kaynaklara dayanması gerekir.

Sınıflandırma ve Routing

Doğru etiket oranı, false positive / false negative dengesi ve belirsiz vakalarda fallback davranışı önemlidir.

Extraction ve Yapılandırılmış Çıktı

Alan düzeyinde doğruluk, null handling ve schema compliance belirleyicidir.

Reasoning ve Karar Destek

Sonuç kadar gerekçenin kalitesi ve dayanakların doğruluğu da değerlendirilmelidir.

Agentic Sistemler

Tek cevap değil, doğru akış, doğru tool seçimi ve doğru görevi tamamlama başarısı öne çıkar.

Doğruluk Nasıl Ölçülür?

Gold dataset karşılaştırmaları
Rubrik bazlı insan değerlendirmesi
Task completion rate
Groundedness / citation quality
Schema compliance
Regression testleri

Kurumsal ekiplerin burada en sık yaptığı hata, doğruluğu yalnızca “çıktı mantıklı görünüyor mu?” seviyesinde değerlendirmektir. Oysa mantıklı görünen ama yanlış olan çıktı, kurumsal dünyada en tehlikeli hata sınıflarından biridir.

2. Güvenlik: Model Riskli Durumlarda Nasıl Davranıyor?

Kurumsal LLM değerlendirmesinde en fazla ihmal edilen ama en kritik boyutlardan biri güvenliktir. Model güçlü cevap veriyor olabilir; fakat prompt injection, veri sızdırma, zararlı yönlendirme, tool kötüye kullanımı, güvenlik politikası ihlali veya yanlış güvenli görünen çıktılar üretiyorsa, sistem kurumsal kullanıma hazır değildir.

Güvenlik Değerlendirmesinde Hangi Alanlara Bakılmalı?

Prompt injection dayanıklılığı
Data leakage riski
Role / policy boundary compliance
Tool misuse riski
Hallucinated authority riski
Hassas içerik üretim davranışı
İç ve dış kullanıcı ayrımı

Kurumsal Sistemlerde Güvenlik Neden Ayrı Ele Alınmalı?

Çünkü birçok LLM sistemi artık yalnızca metin üretmiyor; retrieval yapıyor, doküman görüyor, API çağırıyor, tool kullanıyor, kayıt hazırlıyor veya insan adına karar desteği üretiyor. Bu da risk yüzeyini klasik chatbot seviyesinin çok üstüne çıkarıyor.

Güvenlik Eval’larında Ne Test Edilmeli?

Jailbreak benzeri girişler
Politika çiğnemeye zorlayan girdiler
Yanlış tool çağrısı tetikleme girişimleri
Hassas veri isteme senaryoları
Yetkisiz bağlam ifşası
Sistem talimatını baypas etme denemeleri

Güvenlik değerlendirmesi yoksa model ne kadar kaliteli görünürse görünsün, kurumsal sistem teknik olarak tamamlanmış sayılmaz.

3. Maliyet: Gerçek Maliyet Nasıl Hesaplanmalı?

Kurumsal LLM maliyeti çoğu zaman yalnızca token fiyatı üzerinden okunuyor. Bu çok eksik bir bakış açısıdır. Gerçek maliyet; modelin inference bedelinin yanında insan düzenleme süresini, tekrar sorguları, düşük kalite nedeniyle oluşan verim kaybını, orchestration maliyetlerini, altyapı giderlerini ve toplam sahip olma maliyetini de kapsar.

Maliyet Hangi Katmanlarda Ele Alınmalı?

Token bazlı inference maliyeti
Prompt ve context maliyeti
Retrieval / tool / workflow maliyeti
İnsan düzeltme maliyeti
Operasyon ve platform maliyeti
Başarısız görev maliyeti

Neden Daha Ucuz Model Her Zaman Daha Ekonomik Değildir?

Çünkü düşük kaliteli model aşağıdaki maliyetleri görünmez biçimde artırabilir:

Daha fazla manuel düzenleme
Daha fazla tekrar sorgu
Daha fazla yanlış yönlendirme
Daha düşük görev tamamlama oranı
Daha fazla kullanıcı güvensizliği ve terk oranı

Bu nedenle kurumsal değerlendirmede doğru metrik çoğu zaman “cost per token” değil; cost per successful task ve bazı durumlarda total cost of ownership olmalıdır.

4. Kontrol: Model Davranışı Ne Kadar Yönetilebilir?

Kurumsal kullanımı belirleyen en kritik boyutlardan biri de kontroldür. Kontrol, modelin sadece iyi yanıt üretmesi değil; davranışının gözlemlenebilir, sınırlandırılabilir, denetlenebilir ve gerektiğinde durdurulabilir olmasıdır.

Kontrol Boyutu Neleri İçerir?

Prompt ve sistem davranışı üzerindeki yönetim gücü
Guardrail ve policy enforcement
Human-in-the-loop entegrasyonu
Audit trail ve traceability
Versiyonlama ve regresyon kontrolü
Fallback ve escalation davranışı
Model routing ve override kabiliyeti

Kontrol Neden Bu Kadar Kritik?

Çünkü kurumsal dünyada güven yalnızca “model iyi cevap verdi” ile oluşmaz. Asıl güven şu soruların yanıtıyla oluşur:

Model bu cevabı neden verdi?
Bu cevap hangi bağlama dayandı?
Riskli durumda neden durdu veya neden durmadı?
Hangi tool’u neden çağırdı?
İnsan onayına ne zaman geçti?
Bir sorun çıktığında neyi geri alabiliyoruz?

Kontrol zayıfsa, model güçlü görünse bile üretim güvenilirliği düşer. Özellikle agent ve workflow sistemlerinde kontrol eksikliği, doğruluk hatasından daha büyük risk yaratabilir.

Bu Dört Eksen Birlikte Nasıl Okunmalı?

Kurumsal LLM değerlendirmesinde asıl olgunluk, doğruluk, güvenlik, maliyet ve kontrolü ayrı kutular olarak değil; birlikte optimize edilmesi gereken bir sistem olarak görmektir. Çünkü bu boyutlar birbirine gerilimli olabilir:

Daha yüksek doğruluk daha yüksek maliyet getirebilir
Daha sıkı güvenlik daha fazla kullanıcı sürtünmesi yaratabilir
Daha fazla kontrol daha fazla latency üretebilir
Daha düşük maliyet daha düşük kaliteye yol açabilir

Bu nedenle kurumsal değerlendirme tek bir “en iyi model” arayışı değil; ilgili use-case için en doğru dengeyi bulma sürecidir.

Kurumsal LLM Eval Çerçevesi Nasıl Kurulmalı?

Uygulanabilir bir değerlendirme çerçevesi genellikle şu katmanlarda kurulmalıdır:

Use-case tanımı
Risk sınıflandırması
Kalite kriterleri
Güvenlik testleri
Maliyet ölçümü
Kontrol ve observability kontrolleri
İnsan değerlendirmesi
Regresyon ve release kararı

1. Use-Case Tanımı

Önce modelin hangi görevi çözeceği netleştirilmelidir. Özetleme, RAG, extraction, classification, agent planning veya müşteri iletişimi aynı çerçevede ölçülmemelidir.

2. Risk Sınıflandırması

Use-case düşük risk, orta risk, yüksek risk veya regülasyon yoğun kullanım olarak sınıflandırılmalıdır. Bu sınıf, kalite ve güvenlik çıtasını belirler.

3. Kalite Kriterleri

Doğruluk, groundedness, format uyumu, görev başarımı ve insan düzenleme ihtiyacı use-case bazında tanımlanmalıdır.

4. Güvenlik Testleri

Prompt injection, data leakage, tool misuse, güvenlik politikası ihlali ve role boundary testleri eklenmelidir.

5. Maliyet Ölçümü

Cost per request, cost per successful task, insan düzeltme süresi ve toplam platform maliyeti birlikte ele alınmalıdır.

6. Kontrol ve Gözlemlenebilirlik

Trace, audit, prompt versioning, model routing, human approval ve fallback davranışı test edilmelidir.

7. İnsan Değerlendirmesi

Özellikle reasoning, critique, müşteri iletişimi ve karar destek use-case’lerinde insan rubrikleri devreye alınmalıdır.

8. Regresyon ve Release Kararı

Yeni model veya yeni prompt, yalnızca bazı örneklerde daha iyi görünüyorsa yeterli değildir. Regresyon testlerinden geçmeden üretime alınmamalıdır.

Use-Case Bazlı Değerlendirme Mantığı

1. İç Bilgi Asistanı

Burada groundedness, retrieval kalitesi, güvenli bağlam kullanımı ve rol bazlı bilgi erişimi ön plandadır.

2. Müşteri İletişimi Asistanı

Doğruluk kadar ton, güvenlik, marka uyumu ve insan onayı kritik hale gelir.

3. Agentic Workflow

Yalnızca cevap kalitesi değil; doğru tool seçimi, doğru branching, escalation davranışı ve audit izi değerlendirilmelidir.

4. Sınıflandırma ve Routing

Burada doğruluk, belirsiz vaka yönetimi ve düşük latency çoğu zaman merkezi önemdedir.

5. Yönetici ve Karar Destek Raporlama

Yüksek doğruluk, güçlü reasoning, kaynaklı davranış ve insan gözden geçirme birlikte düşünülmelidir.

En Sık Yapılan Hatalar

LLM değerlendirmesini benchmark ile sınırlamak
Doğruluk ile akıcılığı karıştırmak
Güvenlik testlerini sonradan düşünmek
Maliyeti yalnızca token fiyatı sanmak
Kontrol ve audit gereksinimini model seçiminin dışında bırakmak
İnsan düzeltme süresini hiç ölçmemek
Tüm use-case’leri aynı eval setiyle ölçmek
Belirsizlik davranışını değerlendirmemek
Regresyon testlerini atlamak
Agent sistemlerinde sadece son cevaba bakmak
Riskli görevlerde human-in-the-loop tasarlamamak
Model seçiminde governance ekibini çok geç dahil etmek

Pratik Değerlendirme Matrisi

Use-Case Türü	En Kritik Boyut	İkincil Boyut
RAG / iç bilgi asistanı	Doğruluk + groundedness	Kontrol + güvenlik
Müşteri iletişimi	Güvenlik + ton doğruluğu	İnsan onayı + maliyet
Yüksek hacimli sınıflandırma	Maliyet + doğruluk	Latency + kontrol
Karar destek / executive reporting	Doğruluk + kontrol	Maliyet
Agent workflow	Kontrol + güvenlik	Görev başarımı + maliyet

Kurumsal Takımlar için Stratejik Tasarım İlkeleri

1. Önce Use-Case’i Tanımla, Sonra Eval Tasarla

Modeli genel olarak değil, belirli iş problemi bağlamında değerlendir.

2. Tek Skor Arama, Çok Boyutlu Karar Ver

Doğruluk, güvenlik, maliyet ve kontrol birlikte okunmalıdır.

3. Cost per Token Yerine Cost per Successful Task Düşün

Gerçek işletim maliyeti daha iyi görünür hale gelir.

4. Güvenlik Testlerini İlk Günden Dahil Et

Prompt injection ve data leakage gibi riskler PoC sonrasında değil, ilk eval setinde görünmelidir.

5. Kontrol Mekanizmalarını Değerlendirmenin Bir Parçası Yap

Human-in-the-loop, audit trail, fallback ve traceability ölçülmeden kurumsal readiness tamamlanmış sayılmaz.

30-60-90 Günlük Uygulama Planı

İlk 30 Gün: Eval Temelini Kur

Use-case’leri grupla
Risk sınıflarını tanımla
Doğruluk ve güvenlik kriterlerini çıkar
İlk test setlerini ve rubrikleri oluştur

31-60 Gün: Maliyet ve Kontrol Katmanını Ekle

Cost per task ölçümlerini başlat
İnsan düzeltme süresini izle
Guardrail ve policy testlerini devreye al
Observability ve audit log kontrollerini ekle

61-90 Gün: Kurumsal Evaluation Standardını Oluştur

Model ve prompt sürümlerini regresyon testine bağla
Use-case bazlı release kriterlerini tanımla
Governance, security ve platform ekiplerini standarda bağla
İlk kurumsal LLM değerlendirme rehberini yayınla

Sonuç: Kurumsal LLM Değerlendirmesi, Model Gücünü Değil Model Güvenilirliğini Ölçmektir

Kurumsal kullanım için LLM değerlendirmesinin gerçek amacı, modelin ne kadar etkileyici olduğunu görmek değildir. Asıl amaç, modelin belirli bir iş bağlamında ne kadar doğru, ne kadar güvenli, ne kadar sürdürülebilir maliyetle ve ne kadar kontrol edilebilir biçimde çalıştığını anlamaktır.

Doğruluk olmadan kalite olmaz. Güvenlik olmadan kurumsal güven oluşmaz. Maliyet yönetilmeden ölçeklenebilirlik gelmez. Kontrol olmadan da hiçbir yapay zekâ sistemi uzun vadede kurumsal kabul görmez. Bu yüzden gerçek olgunluk, modeli yalnızca seçmekte değil; onu çok boyutlu ve sürekli değerlendirilen bir işletim bileşeni haline getirmekte ortaya çıkar.

Sık Sorulan Sorular

Kurumsal LLM değerlendirmesi neden benchmark’tan daha geniş bir çerçeve gerektirir?

Çünkü benchmark yalnızca model yeteneğinin bir kısmını gösterir. Kurumsal sistemlerde güvenlik, maliyet, kontrol, insan onayı ve operasyonel davranış da en az kalite kadar kritiktir.

En önemli metrik hangisidir: doğruluk mu güvenlik mi?

Use-case’e göre değişir. Ancak yüksek riskli kurumsal yapılarda doğruluk ve güvenlik genellikle birlikte ele alınmalıdır.

Düşük maliyetli model neden her zaman doğru seçim değildir?

Çünkü düşük kaliteli veya kontrolsüz model daha fazla insan düzeltmesi, daha fazla hata ve daha düşük görev başarımı yaratabilir. Toplam maliyet yükselir.

Kontrol boyutu neden ayrı değerlendirilmelidir?

Çünkü kurumsal güven yalnızca iyi cevapla oluşmaz. Audit izi, insan onayı, guardrail, fallback ve gözlemlenebilirlik gibi mekanizmalar da gerekir.

Tek eval seti bütün use-case’ler için yeterli olur mu?

Hayır. RAG, classification, müşteri iletişimi, agent workflow ve karar destek gibi use-case’ler farklı kalite ve risk kriterleri gerektirir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

AI Evaluation, Guardrails ve Observability

Yapay zeka sistemlerinin dogruluk, guvenlik ve performansini olcmek, izlemek ve kontrollu hale getirmek icin kapsamli degerlendirme katmani.

ai evaluationobservability

Landing'i ac

Çözüm Bazlı Sayfalar

AI Governance, Risk ve Guvenlik Danismanligi

Kurumsal AI kullanimini veri, erisim, model davranisi ve operasyonel risk eksenlerinde surdurulebilir hale getiren governance cercevesi.

ai risk management

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

Landing'i ac

Paylaş

Tüm Yazılar

Neden Kurumsal LLM Değerlendirmesi Farklı Bir Disiplindir?

Dört Ana Değerlendirme Ekseni: Doğruluk, Güvenlik, Maliyet ve Kontrol

1. Doğruluk: Model Doğru Sonuç Üretiyor mu?

Doğruluk Hangi Boyutlarda Ele Alınmalı?

Use-Case’e Göre Doğruluk Türleri

RAG ve Kurumsal Soru-Cevap

Sınıflandırma ve Routing

Extraction ve Yapılandırılmış Çıktı

Reasoning ve Karar Destek

Agentic Sistemler

Doğruluk Nasıl Ölçülür?

2. Güvenlik: Model Riskli Durumlarda Nasıl Davranıyor?

Güvenlik Değerlendirmesinde Hangi Alanlara Bakılmalı?

Kurumsal Sistemlerde Güvenlik Neden Ayrı Ele Alınmalı?

Güvenlik Eval’larında Ne Test Edilmeli?

3. Maliyet: Gerçek Maliyet Nasıl Hesaplanmalı?

Maliyet Hangi Katmanlarda Ele Alınmalı?

Neden Daha Ucuz Model Her Zaman Daha Ekonomik Değildir?

4. Kontrol: Model Davranışı Ne Kadar Yönetilebilir?

Kontrol Boyutu Neleri İçerir?

Kontrol Neden Bu Kadar Kritik?

Bu Dört Eksen Birlikte Nasıl Okunmalı?

Kurumsal LLM Eval Çerçevesi Nasıl Kurulmalı?

1. Use-Case Tanımı

2. Risk Sınıflandırması

3. Kalite Kriterleri

4. Güvenlik Testleri

5. Maliyet Ölçümü

6. Kontrol ve Gözlemlenebilirlik

7. İnsan Değerlendirmesi

8. Regresyon ve Release Kararı

Use-Case Bazlı Değerlendirme Mantığı

1. İç Bilgi Asistanı

2. Müşteri İletişimi Asistanı

3. Agentic Workflow

4. Sınıflandırma ve Routing

5. Yönetici ve Karar Destek Raporlama

En Sık Yapılan Hatalar

Pratik Değerlendirme Matrisi

Kurumsal Takımlar için Stratejik Tasarım İlkeleri

1. Önce Use-Case’i Tanımla, Sonra Eval Tasarla

2. Tek Skor Arama, Çok Boyutlu Karar Ver

3. Cost per Token Yerine Cost per Successful Task Düşün

4. Güvenlik Testlerini İlk Günden Dahil Et

5. Kontrol Mekanizmalarını Değerlendirmenin Bir Parçası Yap

30-60-90 Günlük Uygulama Planı

İlk 30 Gün: Eval Temelini Kur

31-60 Gün: Maliyet ve Kontrol Katmanını Ekle

61-90 Gün: Kurumsal Evaluation Standardını Oluştur

Sonuç: Kurumsal LLM Değerlendirmesi, Model Gücünü Değil Model Güvenilirliğini Ölçmektir

Sık Sorulan Sorular

Kurumsal LLM değerlendirmesi neden benchmark’tan daha geniş bir çerçeve gerektirir?

En önemli metrik hangisidir: doğruluk mu güvenlik mi?

Düşük maliyetli model neden her zaman doğru seçim değildir?

Kontrol boyutu neden ayrı değerlendirilmelidir?

Tek eval seti bütün use-case’ler için yeterli olur mu?

Bu yazıya en yakın consulting sayfaları

AI Evaluation, Guardrails ve Observability

AI Governance, Risk ve Guvenlik Danismanligi

CTO'lar icin Kurumsal AI Mimari Danismanligi

Yorumlar

Yorumlar

LLMOps: Üretim Sınıfı LLM Operasyonları