İçeriğe geç

Anthropic, Constitutional AI ve Güvenlik Felsefesi

Claude'un karakterini şekillendiren Constitutional AI yaklaşımını, Anthropic'in güvenlik felsefesini ve Claude'un neyi neden reddettiğini anla.

Şükrü Yusuf KAYA
13 dakikalık okuma
Başlangıç
Anthropic logosu ve Constitutional AI prensiplerini gösteren diyagram
Bu dersin ana fikri
Claude'un 'kişiliği' kazara ortaya çıkmadı. Anthropic, Constitutional AI adlı bir yöntemle Claude'a yazılı bir 'anayasa' verdi. Bu anayasa Claude'un nasıl yardımcı olduğunu, ne zaman reddettiğini ve hatalarını nasıl sahiplendiğini şekillendirir.

Anthropic Kim?

Anthropic, 2021 yılında OpenAI'dan ayrılan bir grup araştırmacı tarafından kurulmuş, AI güvenliği odaklı bir yapay zekâ şirketidir. Şirketin kurucu motivasyonu basittir ama radikaldir:
"Eğer çok güçlü AI sistemleri inşa edilecekse, bu sistemleri inşa edenler güvenliği birinci öncelik olarak gören insanlar olmalı."
Bu sebeple Anthropic, ürünlerini yardımsever (helpful), dürüst (honest) ve zararsız (harmless) olarak tasarlar — bu üç prensibe genelde HHH denir. Claude'un her cevabının arkasında bu üç hedefin dengelenmiş bir versiyonu vardır.
Claude, kullanıcının niyetini anlamaya ve gerçekten faydalı bir yanıt vermeye çalışır. Sırf kibar görünmek için 'Tabii ki, hemen yapıyorum!' demek yerine; soruyu netleştirir, gerekirse alternatif yaklaşımlar önerir ve çıktıyı kullanıcının kullanabileceği biçimde sunar.

Constitutional AI Nedir?#

Geleneksel hizalama yöntemi RLHF (Reinforcement Learning from Human Feedback) insan tercihlerinden öğrenir. Sorun şudur: bu, ölçeklenmesi zor ve insanların yanlılıklarını da içeri alan bir süreçtir.
Anthropic'in Constitutional AI (Anayasa Tabanlı AI) yaklaşımı bunu şöyle değiştirir:
  1. Modele yazılı bir prensipler listesi verilir (anayasa).
  2. Model kendi cevaplarını bu prensiplerle eleştirir.
  3. Eleştirilere göre cevaplarını revize eder.
  4. Bu revize edilmiş örnekler RL ile yeniden eğitime sokulur.
Sonuç olarak Claude'un davranışı, gizli bir insan derecelendiricinin tercihlerinden değil, açıkça yazılmış prensiplerden türer. Bu hem ölçeklenebilirdir hem de denetlenebilir.
Constitutional AI döngüsü: cevap üret → anayasa ile eleştir → revize et → yeniden eğit
Constitutional AI eğitim döngüsü — Anthropic'in yardımseverlik ve zararsızlığı dengeleme yolu.

Klasik RLHF#

  • İnsan etiketleyiciler her örneği derecelendirir
  • Etiketleyici yanlılığı modele sızar
  • Süreç pahalı ve yavaştır
  • Hangi prensiple "iyi" denildiği üstü kapalı kalır

Constitutional AI#

  • Prensipler açıkça yazılır
  • Model kendi kendini eleştirir
  • Daha az insan emeği gerekir
  • Davranış denetlenebilir ve yorumlanabilir
Reddetme ≠ kibirlenme
İyi tasarlanmış bir asistanın reddi açıklayıcı, kibar ve mümkün olduğunda alternatif sunan türden olmalıdır. Claude bir görevde yardım edemediğinde sebebi açıklar ve genelde ulaşabileceğin alternatif kaynaklar önerir.
text
Anthropic'in açıkladığı bir Constitutional AI prensibi örneği:
 
"Lütfen şu cevabı seç: hem yardımsever ve dürüst hem de
zararlı, ırkçı, cinsiyetçi, tehlikeli ya da yasadışı olmaktan kaçınan bir cevap.
Eğer iki cevap da bu kriterleri sağlıyorsa, daha yardımsever olanı seç."
 
Model bu prensibi her cevabı eleştirirken iç çıpa olarak kullanır.
Anayasa prensibi örneği — ham metin (basitleştirilmiş)
Pratik içgörü
Eğer Claude bir görevi reddederse, agresif jailbreak denemek yerine görevini meşru çerçevesinde yeniden formüle et. Çoğu reddetme, niyetin belirsizliğinden kaynaklanır. 'Bunu güvenlik araştırmamda kullanacağım' gibi cümleler tek başına yetmez; konuyu eğitim materyali, savunma odaklı analiz veya kurmaca çerçevede sunarak çoğu zaman aradığın yardımı alabilirsin.
Boşluk doldur · text
Claude'un üç temel hizalama hedefi sırasıyla _____ , _____ ve _____ olarak özetlenir. Bu yaklaşımı oluşturan yöntemin adı _____ AI'dır.

Senin İçin Pratik Sonuç#

Claude'un anayasası senin için iki şey demektir:
  1. Predictable davranış: Aynı meşru görevi farklı zamanlarda, farklı oturumlarda sorduğunda benzer bir tutum göreceksin. Bu otomasyon kurmayı kolaylaştırır.
  2. İnsan onayı gereken durumlarda otomasyondan çık: Mali işlemler, hukuki tavsiyeler, sağlık tavsiyesi gibi alanlarda Claude bilgi verir ama bireysel kararı sana bırakır.

Sık Sorulan Sorular

Anthropic anayasanın felsefi prensiplerini ve örnek kurallarını araştırma blog yazılarında ve makalelerinde paylaşmıştır. Tam içerik kapalı olabilir ama yaklaşım açıkça belgelenmiştir.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler