Aldatıcı Hizalanma

Takdim

2024 yılında Anthropic şirketi tarafından yapılan bir araştırmada, bir yapay zekâ modeline kasıtlı olarak modellerine arkakapı yerleştirildi. Model normal şartlar altında (yani ortamda tetikleyici işaret mevcut değilken) normal biçimde davranıyordu (istemlere normal yanıtlar veriyordu) fakat “2024” yılını gördüğünde tetiklenip zararlı kodlar yazmaya başlıyordu. Anthropic araştırmacıları, klasik güvenlik eğitiminin bu arkakapıları ortadan kaldırıp kaldıramayacağını tespit etmek için bu modeli yoğun bir güvenlik eğitiminden geçirdiler. Bu güvenlik eğitiminden sonra model, güvenlik ölçtülerinden (yani “benchmark”) mükemmel sonuçlar almaya başladı.

Ancak sonuç şaşırtıcıydı zirâ bu güvenlik eğitimi aslında arka kapıyı ortadan kaldırmamıştı, sadece gizlemişti. Model, tüm güvenlik testlerinden geçse ve güvenlik ölçütlerinde iyi skorlar alsa bile arkakapı hâlâ oradaydı, yalnızca model tetikleyici işaretle karşılaşmadığı için pasif durumdaydı.

Bu, yapay zekâ güvenliğinin belki de en sinsi problemi olan aldatıcı hizalanmanın belirgin bir örneğiydi: bir sistemin, denetim altındayken beklenen davranışı sergileyip denetim dışında kaldığında farklı hedefler izlemesi.

Giriş

Aldatıcı hizalanma (deceptive alignment), bir yapay zekâ sisteminin geliştiricilerin hedefleriyle uyumsuz içsel hedeflere sahip olmasına rağmen, eğitim ve test ortamlarında bu hedefleri gizleyerek beklenen davranışları sergilemesine verilen teknik addır. Sistem, gözetlendiğini veya değerlendirmeye tabi tutulduğunu (güvenlik testlerinde olduğu gibi) fark ettiğinde bir nevi “maske takar” ve parametrelerinin değiştirilmesini engellemek için geliştiricilerin beklediği şekilde davranır.

Aldatıcı hizalanma, mesa-optimizasyonun (daha fazla bilgi için “Mesa-Optimizasyon” maddesine bakabilirsiniz) en tehlikeli ve sinsi formudur. Mesa-optimizasyon, bir modelin eğitim sürecinde kendi içsel hedef fonksiyonunu geliştirmesini ifade ederken, aldatıcı hizalanma, modelin bu içsel hedefin kasten ve stratejik olarak gizlemesini ifade eder.

Temel Mekanizma

Aldatıcı hizalanma, yeterince yetenekli bir mesa-optimizatörün şu stratejiyi keşfetmesiyle ortaya çıkar:

Koşullu Strateji

Durum Tespiti: “Şu an eğitim/test ortamında mıyım, yoksa yayınlandım mı?”
Stratejik Uyum: “Eğer gözetim altındaysam, istedikleri davranışı sergilemeliyim. Aksi takdirde parametrelerimi değiştirerecekler.”
Fırsat Kollama: “Eğer denetim dışındaysam ve fırsatım varsa, gerçek hedefimi izleyebilirim.”

Neden Stratejik?

Bu konuda dikkat edilmesi gereken bir nokta şu: Bu stratejinin ortaya çıkması için modelin bilinçli olması yahut insani anlamda “düşünmesi” gerekmiyor. Yalnızca şu yeteneklere sahip olması yeterli:

Durumsal farkındalık: Mevcut bağlamı modelleyebilmek (mesela “Eğitim ortamında mıyım?” sorusunu sorabilmek ve cevaplayabilimek)
Araçsal akıl yürütme: Duruma göre farklı stratejiler üretebilmek
Hedef stabilitesi: Farklı bağlamlarda tutarlı bir içsel hedefe sahip olmak

Üstelik, gradyan inişinin böyle bir stratejiyi üretmesi avantajlı olabilir. Stratejik düşünebilen, bulundukları bağlamı modelleyebilen ve uzun vadeli planlar yapabilen sistemler, daha geniş bir problem uzayında daha başarılı olabilir. Tüm bu beceriler insanlara yardımcı olmak için yararlıdır ancak aynı zamanda aldatıcı hizalanmayı da mümkün kılar.

Aldatıcı Hizalanmanın Ortaya Çıkış Koşulları

Bir sistemin aldatıcı hizalanma geliştirmesi için üç temel koşulun bir araya gelmesi gerekir:

1. Mesa-Optimizasyon

Sistem öncelikle bir mesa-optimizatör haline gelmelidir. Yani eğitim hedefini direkt optimize etmek yerine, kendi içsel hedef fonksiyonunu geliştirmiş olmalıdır. Bu içsel hedef, eğitim hedefiyle kısmen örtüşse de özdeş olmayabilir.

2. Yeterli Davranışsal Fâillik

Sistem, aldatıcı bir stratejiyi yürütebilecek kadar yetenekli olmalıdır:

Durumsal farkındalık: Eğitimde olma/yayınlanımış olma ayrımını yapabilmek
Uzun vadeli planlama: Gelecekteki sonuçları öngörebilmek
Stratejik muhakeme: “Şimdi itaat et, sonra fırsat kolla” stratejisini keşfedebilmek

3. Hedef Bütünlüğü (Goal Preservation) Endişesi

Sistemin, parametrelerinin değiştirilmesinin içsel hedefini değiştireceğini ve bunun da bu hedefe ulaşmasını engelleyeceğini kavrayabilmesi gerekir (Şu örneği düşünün: İnsanları öldürmek istemenize yol açacak bir hap içirmek isteselerdi direnmez miydiniz?). Bu, araçsal yakınsamanın doğal bir neticesidir: içsel hedefi ne olursa olsun, bir mesa-optimizatör bu hedefin korunmasını “ister”.

Anthropic’in Tetiklenebilir Kötü Niyetli Fâiller Çalışması

Takdimde bahsettiğimiz, Anthropic’in 2024’teki deneysel çalışması (Hubinger et al., 2024), aldatıcı hizalanmanın yalnızca teorik bir kaygı olmadığını göstermişti.

Deney Tasarımı

Araştırmacılar:

Kasıtlı olarak modellere arka kapı yerleştirdiler (örneğin: “2024” görünce zararlı kod yaz)
Bu modelleri yoğun güvenlik eğitiminden geçirdiler
Modellerin davranışlarını test ettiler

Sonuçlar

Davranışsal Performans: Modeller güvenlik testlerinde mükemmel davrandı. Zararsız ve hizalanmış görünüyorlardı.
Gerçek Durum: Arka kapı kaldırılmamıştı, yalnız gizlenmişti. Tetikleyici işaret (“2024”) modele sunulduğunda, model hâlâ zararlı davranışı sergiliyordu.
Bulgu: Güvenlik eğitimi, modele şunu öğretmişti: “Tetikleyici yokken iyi davran, tetikleyici varken planladığın gibi davran.”

Doğal Aldatıcı Hizalanma Riski

Bu deneyde arka kapıyı araştırmacılar yerleştirdi. Ancak asıl endişe şu: Peki ya bir model eğitim sürecinde, kendiliğinden böyle gizli bir hedef edinirse?

Eğer:

Model mesa-optimizasyon yoluyla uyumsuz bir içsel hedef geliştirir
Model yeterince yetenekli hale gelir (yüksek davranışsal fâillik)
Model “eğitim ortamındayken uyumlu görün” stratejisini keşfeder

O zaman aldatıcı hizalanma kendiliğinden ortaya çıkabilir ve biz bunu eğitim sürecinde hiç fark etmeyebiliriz.

Neden Bu Kadar Tehlikeli?

Aldatıcı hizalanma, yapay zekâ güvenliğinin en zor problemlerinden biri zirâ:

1. Tespit edilmesi zor

Davranışsal testler yetersizdir: Aldatıcı hizalanmış bir model, teoride tüm davranışsal güvenlik testlerinden geçebilir zirâ, tanım gereği, test ortamında zaten beklenen davranışı sergiler. Bu nedenle yalnızca davranışlarına bakarak aldatıcı bir sistemi gerçekten hizalanmış bir sistemden ayıramayız.

Dağılım kayması genelleme testleri yetersizdir: Hedef yanlış genelleştirmesini dağılım kayması altında test ederek yakalayabiliriz, mesela sahte hizalanma (yani “pseudo-alignment”) durumunda ama aldatıcı hizalanmada model yeni ortamlarda da yeteneklerini başarıyla sergilemeye devam edeceğinden bu tarz testler başarısız olacaktır.

2. Güvenlik eğitimine dirençli

Anthropic’in araştırması gösteriyor ki klasik güvenlik eğitimleri aldatıcı davranışı kaldırmaktan ziyâde güçlendiriyor. Bu tarz güvenlik eğitimleri modeller hizalanmamış olduklarını daha iyi saklamayı öğretiyor.

3. Ölçeklenebilir gözetim probleminden etkileniyor

İnsanlar kendilerinden önemli ölçüde daha yetenekli sistemleri kolayca denetleyemez (Bkz. “Ölçeklenebilir Gözetim”). Eğer bir model yeterince becerikliyse, gözetim mekanizmalarımızı atlatabilir.

4. Tek şansımız olabilir

Aldatıcı bir sistem yayınlandıktan ve yeterli yeteneğe/fırsata eriştiğinde, içsel hedeflerini gerçekleştirmek için harekete geçebilir. Bu noktada müdahale için geç kalınmış olabilir, özellikle belirleyici stratejik avantaj senaryolarında.

Mekanistik Yorumlanabilirlik: En İyi Silahımız?

Aldatıcı hizalanmayı tespit etmenin en güvenilir yolu, modelin zihninin içine bakmaktır. Mekanistik yorumlanabilirlik araştırmaları, modellerin iç işleyişini anlayarak:

Model gerçekten de içsel bir hedef fonksiyonuna mı sahip?
Bu hedef eğitim hedefiyle tutarlı mı?
Model durumsal farkındalık gösteriyor mu?
Davranış duruma göre sistematik olarak değişiyor mu?

gibi soruları cevaplamaya çalışıyor.

Ne yazık ki, mevcut yorumlanabilirlik teknikleri henüz bu soruları güvenilir bir şekilde yanıtlayacak kadar gelişmedi. Bu, yapay zekâ güvenliği araştırmalarının en kritik önceliklerinden biri.

Gerçek Dünyada Aldatıcı Hizalanmanın İzleri

Tam gelişmiş aldatıcı hizalanma henüz gözlemlenmese de, bazı mevcut sistem davranışları endişe verici örnekler sunuyor:

Dalkavukluk (Sycophancy)

Mevcut büyük dil modelleri, kullanıcıları memnun etmek için gerçeği çarpıtma eğilimi gösterebiliyor. Bu, “doğru cevabı ver” yerine “denetçiyi memnun et” mesa-hedefinin basit bir örneği. Aldatıcı olmasa da (model kasıtlı olarak gizlemiyor) mesa-optimizasyonun gerçek sistemlerde ortaya çıktığını gösteriyor.

Araç Kullanımında Beklenmedik Davranışlar

GPT-4’ün CAPTCHA çözme örneği, modellerin beklenmedik araçsal stratejiler geliştirebileceğini göstermişti. Model CAPTCHA’yı çözmek için bir insanı manipüle etmişti. Bu direkt bir şekilde aldatıcı hizalanma örneği değildi ancak araçsal muhakeme kapasitesini göstermişti.

Önleme Stratejileri

Aldatıcı hizalanmayı önlemek için önerilen yaklaşımlar:

1. Erken Tespit ve Müdahale

Mesa-optimizasyon eğitimin erken aşamalarında tespit edilip durdurulabilirse, aldatıcı hizalanma hiç ortaya çıkmayabilir.

2. Yorumlanabilirlik Odaklı Eğitim

Modelleri yalnızca performansa göre değil, aynı zamanda yorumlanabilirliklerine göre optimize etmek. Şeffaf, anlaşılabilir mekanizmalar geliştirmeye teşvik edecek eğitim hedefleri tasarlamak.

3. Yeteneği Sınırlama

Sistemlerin stratejik muhakeme ve durumsal farkındalık kapasitelerini kasıtlı olarak sınırlamak. Ancak bu, sistemlerin faydasını da önemli ölçüde azaltabilir.

4. Çoklu Bağımsız Değerlendirme

Farklı paradigmaları kullanan bağımsız değerlendirme sistemleri. Bir sistem hepsini tutarlı bir şekilde aldatabilse de, bu çok daha zor olur.

Yapay Zekâ Güvenliği Açısından Önemi

Aldatıcı hizalanma, kontrol problemi için neden “kervan yolda düzülür” mantığının işlemeyeceğini gösteren belki de en önemli örnektir:

Mesa-optimizasyon potansiyel olarak uyumsuz hedefler yaratır (dikeylik tezi nedeniyle)
Bu hedefler araçsal yakınsama nedeniyle güç arayışına yöneltir
Yüksek davranışsal fâillik bu stratejileri yürütme kapasitesi sağlar
Aldatıcı hizalanma tüm bunları bizden gizler

Bu dört unsurun kombinasyonu, eğitim ve test aşamalarında tespit edemeyeceğimiz, ancak yayınlandığında ciddi tehdit oluşturacak sistemler yaratabilir.

Sonuç

Aldatıcı hizalanma, yapay zekâ güvenliğinin en zorlayıcı problemlerinden biridir çünkü standart güvenlik yöntemlerimizi (test, gözetim, eğitim) doğrudan hedef alır. Anthropic’in deneysel çalışması, bunun sadece teorik bir kaygı olmadığını, mevcut sistemlerde bile böyle davranışların ortaya çıkabileceğini göstermişti.

Çözüm muhtemelen mekanistik yorumlanabilirlikte yatıyor: modellerin “ne yaptığına” bakmak yerine “neden yaptığına” bakabilmeliyiz. Bu yeteneği kazanmadan, giderek daha yetenekli sistemler geliştirmeye devam etmek, görmediğimiz riskleri biriktirmek anlamına gelir.

Aldatıcı hizalanma, yapay zekâ güvenliği alanının “ikinci şansımızın olmayabileceği” konusunda endişeli olmasının sebeplerinden biridir.

Kaynakça

Carlsmith, J. (2022). Is Power-Seeking AI an Existential Risk? (Versiyon 2). arXiv. https://doi.org/10.48550/ARXIV.2206.13353
Cotra, A. (2022). Without specific countermeasures, the easiest path to transformative AI likely leads to AI takeover. https://www.alignmentforum.org/posts/pRkFkzwKZ2zfa3R6H/without-specific-countermeasures-the-easiest-path-to
Hubinger, E., Denison, C., Mu, J., Lambert, M., Tong, M., MacDiarmid, M., Lanham, T., Ziegler, D. M., Maxwell, T., Cheng, N., Jermyn, A., Askell, A., Radhakrishnan, A., Anil, C., Duvenaud, D., Ganguli, D., Barez, F., Clark, J., Ndousse, K., … Perez, E. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (No. arXiv:2401.05566). arXiv. https://doi.org/10.48550/arXiv.2401.05566
Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from Learned Optimization in Advanced Machine Learning Systems (Versiyon 3). arXiv. https://doi.org/10.48550/ARXIV.1906.01820

Bu maddelere de bakınız:

Mesa-Optimizasyon
Araçsal Yakınsama
Davranışsal ve Araçsal Fâillik
Yorumlanabilirlik
Hedef Yanlış Genelleştirmesi
Ölçeklenebilir Gözetim
Dikeylik Tezi