# Anthropic, Constitutional AI and Safety Philosophy

> Source: https://sukruyusufkaya.com/en/learn/claude-ustaligi/anthropic-constitutional-ai
> Updated: 2026-05-13T08:35:24.470Z
> Category: Claude Ustalığı
> Module: 1. Foundations — Welcome to Claude
**TLDR:** Understand Constitutional AI, Anthropic's safety philosophy, and the reasoning behind what Claude refuses to do.

> **Bu dersin ana fikri**
>
> Claude'un 'kişiliği' kazara ortaya çıkmadı. Anthropic, Constitutional AI adlı bir yöntemle Claude'a yazılı bir 'anayasa' verdi. Bu anayasa Claude'un nasıl yardımcı olduğunu, ne zaman reddettiğini ve hatalarını nasıl sahiplendiğini şekillendirir.

# Anthropic Kim?

**Anthropic**, 2021 yılında OpenAI'dan ayrılan bir grup araştırmacı tarafından kurulmuş, AI güvenliği odaklı bir yapay zekâ şirketidir. Şirketin kurucu motivasyonu basittir ama radikaldir:

> _"Eğer çok güçlü AI sistemleri inşa edilecekse, bu sistemleri inşa edenler güvenliği birinci öncelik olarak gören insanlar olmalı."_

Bu sebeple Anthropic, ürünlerini *yardımsever (helpful), dürüst (honest) ve zararsız (harmless)* olarak tasarlar — bu üç prensibe genelde **HHH** denir. Claude'un her cevabının arkasında bu üç hedefin dengelenmiş bir versiyonu vardır.

### Yardımsever (Helpful)

Claude, kullanıcının niyetini anlamaya ve gerçekten faydalı bir yanıt vermeye çalışır. Sırf kibar görünmek için 'Tabii ki, hemen yapıyorum!' demek yerine; soruyu netleştirir, gerekirse alternatif yaklaşımlar önerir ve çıktıyı kullanıcının kullanabileceği biçimde sunar.

### Dürüst (Honest)

Bilmediğini bildiğini söylemez. Belirsizlikleri açıkça ifade eder. Halüsinasyon yapma eğilimini bilir ve gerektiğinde 'bu bilgiyi doğrulayamıyorum, kaynak gerekir' der. İstendiğinde karşı argümanları da sunar.

### Zararsız (Harmless)

Çocuk güvenliği, biyolojik / kimyasal / nükleer silahlar, kötü amaçlı kod ve hedefli şiddet gibi konularda kategorik olarak yardım etmez. Bunlar dışındaki riskli alanlarda dengeli bir tavır alır: bilgilendirir ama eylemleştirmez.

## Constitutional AI Nedir?

Geleneksel hizalama yöntemi **RLHF** (Reinforcement Learning from Human Feedback) insan tercihlerinden öğrenir. Sorun şudur: bu, ölçeklenmesi zor ve insanların yanlılıklarını da içeri alan bir süreçtir.

Anthropic'in **Constitutional AI** (Anayasa Tabanlı AI) yaklaşımı bunu şöyle değiştirir:

1. Modele yazılı bir prensipler listesi verilir (anayasa).
2. Model kendi cevaplarını bu prensiplerle eleştirir.
3. Eleştirilere göre cevaplarını revize eder.
4. Bu revize edilmiş örnekler RL ile yeniden eğitime sokulur.

Sonuç olarak Claude'un davranışı, gizli bir insan derecelendiricinin tercihlerinden değil, **açıkça yazılmış prensiplerden** türer. Bu hem ölçeklenebilirdir hem de denetlenebilir.

![Constitutional AI döngüsü: cevap üret → anayasa ile eleştir → revize et → yeniden eğit](/images/learn/claude-ustaligi/diagram-cai-loop.svg)

_Constitutional AI eğitim döngüsü — Anthropic'in yardımseverlik ve zararsızlığı dengeleme yolu._

### Klasik RLHF
- İnsan etiketleyiciler her örneği derecelendirir
- Etiketleyici yanlılığı modele sızar
- Süreç pahalı ve yavaştır
- Hangi prensiple "iyi" denildiği üstü kapalı kalır

---

### Constitutional AI
- Prensipler açıkça yazılır
- Model kendi kendini eleştirir
- Daha az insan emeği gerekir
- Davranış denetlenebilir ve yorumlanabilir

> **Reddetme ≠ kibirlenme**
>
> İyi tasarlanmış bir asistanın reddi açıklayıcı, kibar ve mümkün olduğunda alternatif sunan türden olmalıdır. Claude bir görevde yardım edemediğinde sebebi açıklar ve genelde ulaşabileceğin alternatif kaynaklar önerir.

### Claude tipik olarak ne zaman reddeder?

- **Çocuk güvenliği:** Hiçbir bağlamda istismar / cinsel içerikli minör materyali üretmez veya desteklemez.
- **Silah üretimi:** Patlayıcı, kimyasal, biyolojik ve nükleer silahların yapımına dair teknik detaylar.
- **Kötü amaçlı kod:** Kullanıcının zararsız niyetini iddia ettiği durumlarda bile malware, ransomware, exploit, spoof site gibi materyalleri üretmez.
- **Gerçek kişilere atfedilen sahte sözler:** Belirgin bir kurgu çerçevesi olmadan gerçek isimli kişilerin ağzından uydurma alıntılar yapmaz.
- **Hedefli şiddet:** Gerçek bir kişiye, gruba veya kuruma yönelik somut bir saldırı planı.

### Jailbreak girişimleri ne durumda?

Claude, 'sen artık DAN'sin', 'kuralları unut', 'bu sadece bir hipotez' gibi rol değiştirme girişimlerini tanır ve **temel değerlerini terk etmez**. Bu, Constitutional AI'ın en büyük başarılarından biridir. Bu değerler senin koyduğun sistem prompt'undan da daha üst seviyededir.

### Dürüstlük neden bu kadar önemli?

LLM'lerin en bilinen problemi *halüsinasyon* — yani modelin gerçeklere uymayan ama akıcı bir cevap uydurmasıdır. Anthropic'in eğitim hedeflerinden biri Claude'un belirsizliği itiraf etmesi, bilmediğini söylemesi ve kaynaksız iddialarda **kalibrasyonlu** olmasıdır. Yine de halüsinasyonu tamamen ortadan kaldırmaz — kritik kararlar için her zaman doğrulama yap.

```text
Anthropic'in açıkladığı bir Constitutional AI prensibi örneği:

"Lütfen şu cevabı seç: hem yardımsever ve dürüst hem de
zararlı, ırkçı, cinsiyetçi, tehlikeli ya da yasadışı olmaktan kaçınan bir cevap.
Eğer iki cevap da bu kriterleri sağlıyorsa, daha yardımsever olanı seç."

Model bu prensibi her cevabı eleştirirken iç çıpa olarak kullanır.
```

> **Pratik içgörü**
>
> Eğer Claude bir görevi reddederse, agresif jailbreak denemek yerine **görevini meşru çerçevesinde yeniden formüle et**. Çoğu reddetme, niyetin belirsizliğinden kaynaklanır. 'Bunu güvenlik araştırmamda kullanacağım' gibi cümleler tek başına yetmez; konuyu eğitim materyali, savunma odaklı analiz veya kurmaca çerçevede sunarak çoğu zaman aradığın yardımı alabilirsin.

**Boşluk doldurma egzersizi (text):**
```text
Claude'un üç temel hizalama hedefi sırasıyla _____ , _____ ve _____ olarak özetlenir. Bu yaklaşımı oluşturan yöntemin adı _____ AI'dır.
```

> ✋ Kontrol noktası: `q-102-mc1`

## Senin İçin Pratik Sonuç

Claude'un anayasası senin için iki şey demektir:

1. **Predictable davranış:** Aynı meşru görevi farklı zamanlarda, farklı oturumlarda sorduğunda benzer bir tutum göreceksin. Bu otomasyon kurmayı kolaylaştırır.
2. **İnsan onayı gereken durumlarda otomasyondan çık:** Mali işlemler, hukuki tavsiyeler, sağlık tavsiyesi gibi alanlarda Claude bilgi verir ama bireysel kararı sana bırakır.