Claude'un reddini bir sistem prompt'uyla aşabilir miyim?

Hayır. Anayasa kuralları sistem prompt'undan daha üst seviyededir. Sistem prompt'u Claude'un sesini, kapsamını ve formatını ayarlar; ama temel güvenlik değerlerini ezemez.

Anthropic, Constitutional AI ve Güvenlik Felsefesi

Claude'un karakterini şekillendiren Constitutional AI yaklaşımını, Anthropic'in güvenlik felsefesini ve Claude'un neyi neden reddettiğini anla.

Şükrü Yusuf KAYA

13 dakikalık okuma

13.05.2026

Başlangıç

Anthropic logosu ve Constitutional AI prensiplerini gösteren diyagram

Bu dersin ana fikri

Claude'un 'kişiliği' kazara ortaya çıkmadı. Anthropic, Constitutional AI adlı bir yöntemle Claude'a yazılı bir 'anayasa' verdi. Bu anayasa Claude'un nasıl yardımcı olduğunu, ne zaman reddettiğini ve hatalarını nasıl sahiplendiğini şekillendirir.

Anthropic Kim?

Anthropic, 2021 yılında OpenAI'dan ayrılan bir grup araştırmacı tarafından kurulmuş, AI güvenliği odaklı bir yapay zekâ şirketidir. Şirketin kurucu motivasyonu basittir ama radikaldir:

"Eğer çok güçlü AI sistemleri inşa edilecekse, bu sistemleri inşa edenler güvenliği birinci öncelik olarak gören insanlar olmalı."

Bu sebeple Anthropic, ürünlerini yardımsever (helpful), dürüst (honest) ve zararsız (harmless) olarak tasarlar — bu üç prensibe genelde HHH denir. Claude'un her cevabının arkasında bu üç hedefin dengelenmiş bir versiyonu vardır.

Claude, kullanıcının niyetini anlamaya ve gerçekten faydalı bir yanıt vermeye çalışır. Sırf kibar görünmek için 'Tabii ki, hemen yapıyorum!' demek yerine; soruyu netleştirir, gerekirse alternatif yaklaşımlar önerir ve çıktıyı kullanıcının kullanabileceği biçimde sunar.

Constitutional AI Nedir?#

Geleneksel hizalama yöntemi RLHF (Reinforcement Learning from Human Feedback) insan tercihlerinden öğrenir. Sorun şudur: bu, ölçeklenmesi zor ve insanların yanlılıklarını da içeri alan bir süreçtir.

Anthropic'in Constitutional AI (Anayasa Tabanlı AI) yaklaşımı bunu şöyle değiştirir:

Modele yazılı bir prensipler listesi verilir (anayasa).
Model kendi cevaplarını bu prensiplerle eleştirir.
Eleştirilere göre cevaplarını revize eder.
Bu revize edilmiş örnekler RL ile yeniden eğitime sokulur.

Sonuç olarak Claude'un davranışı, gizli bir insan derecelendiricinin tercihlerinden değil, açıkça yazılmış prensiplerden türer. Bu hem ölçeklenebilirdir hem de denetlenebilir.

Constitutional AI döngüsü: cevap üret → anayasa ile eleştir → revize et → yeniden eğit — Constitutional AI eğitim döngüsü — Anthropic'in yardımseverlik ve zararsızlığı dengeleme yolu.

Klasik RLHF#

İnsan etiketleyiciler her örneği derecelendirir
Etiketleyici yanlılığı modele sızar
Süreç pahalı ve yavaştır
Hangi prensiple "iyi" denildiği üstü kapalı kalır

Constitutional AI#

Prensipler açıkça yazılır
Model kendi kendini eleştirir
Daha az insan emeği gerekir
Davranış denetlenebilir ve yorumlanabilir

Reddetme ≠ kibirlenme

İyi tasarlanmış bir asistanın reddi açıklayıcı, kibar ve mümkün olduğunda alternatif sunan türden olmalıdır. Claude bir görevde yardım edemediğinde sebebi açıklar ve genelde ulaşabileceğin alternatif kaynaklar önerir.

text

Anthropic'in açıkladığı bir Constitutional AI prensibi örneği:
 
"Lütfen şu cevabı seç: hem yardımsever ve dürüst hem de
zararlı, ırkçı, cinsiyetçi, tehlikeli ya da yasadışı olmaktan kaçınan bir cevap.
Eğer iki cevap da bu kriterleri sağlıyorsa, daha yardımsever olanı seç."
 
Model bu prensibi her cevabı eleştirirken iç çıpa olarak kullanır.

Anayasa prensibi örneği — ham metin (basitleştirilmiş)

Pratik içgörü

Eğer Claude bir görevi reddederse, agresif jailbreak denemek yerine görevini meşru çerçevesinde yeniden formüle et. Çoğu reddetme, niyetin belirsizliğinden kaynaklanır. 'Bunu güvenlik araştırmamda kullanacağım' gibi cümleler tek başına yetmez; konuyu eğitim materyali, savunma odaklı analiz veya kurmaca çerçevede sunarak çoğu zaman aradığın yardımı alabilirsin.

Boşluk doldur · text

Claude'un üç temel hizalama hedefi sırasıyla _____ , _____ ve _____ olarak özetlenir. Bu yaklaşımı oluşturan yöntemin adı _____ AI'dır.

Senin İçin Pratik Sonuç#

Claude'un anayasası senin için iki şey demektir:

Predictable davranış: Aynı meşru görevi farklı zamanlarda, farklı oturumlarda sorduğunda benzer bir tutum göreceksin. Bu otomasyon kurmayı kolaylaştırır.
İnsan onayı gereken durumlarda otomasyondan çık: Mali işlemler, hukuki tavsiyeler, sağlık tavsiyesi gibi alanlarda Claude bilgi verir ama bireysel kararı sana bırakır.

Sık Sorulan Sorular

Anthropic anayasanın felsefi prensiplerini ve örnek kurallarını araştırma blog yazılarında ve makalelerinde paylaşmıştır. Tam içerik kapalı olabilir ama yaklaşım açıkça belgelenmiştir.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

1. Temeller — Claude'a Hoş Geldin

Anthropic, Constitutional AI ve Güvenlik Felsefesi

Anthropic Kim?

Constitutional AI Nedir?#

Klasik RLHF#

Constitutional AI#

Senin İçin Pratik Sonuç#

Sık Sorulan Sorular

Constitutional AI prensipleri kamuya açık mı?

Claude'un reddini bir sistem prompt'uyla aşabilir miyim?

Yorumlar & Soru-Cevap

İlgili İçerikler

Modelleri Tanıyalım: Opus, Sonnet, Haiku Karşılaştırması

Claude'un Yetenek Haritası ve Sınırları

Claude Nedir? Yapay Zekâ Asistanlarının Yeni Nesli

Bültenime Abone Olun