Mesa-Optimizasyon

Takdim

Modellerimizi eğitmek için kullandığımız gradyan inişi (gradient descent), belirlediğimiz kayıp fonksiyonunu (loss function) minimize etmeye çalışır. Ancak bu süreçte modelin kendisinin bir optimizatör haline gelmesi ve içsel bir hedef fonksiyonu oluşturması mümkündür. Bu hedef fonksiyonu, eğitim hedefiyle kısmen örtüşüyor olabilir ama tam olarak aynı şey olmayabilir. Buna mesa-optimizasyon denir ve yapay zekâ güvenliğindeki en derin ve endişe verici kavramsal zorluklardan birini teşkil eder.

Giriş

Mesa-optimizasyon (“iç, orta” anlamına gelen Yunanca mesos kelimesinden türetilmiştir) bir optimizasyon sürecinin, kendisi optimizatör olan başka bir sistemi ürettiği durumu ifade eder (Hubinger et al., 2019)

Bu kavramı anlamak için şu dört temel bileşeni ayırt etmek önem taşır:

Temel optimizatör: Modeli geliştiren dışsal süreç. Genelde gradyan inişi ya da benzer bir algoritmadır.
Temel hedef: Optimizasyon sürecini başlatan (insan) geliştiriciler tarafından belirlenen ve modelin optimize etmesini istediğimiz hedeftir (kayıp fonksiyonu)
Mesa-optimizatör: Eğitim süreci sonucunda ortaya çıkan ve kendi mesa-optimizasyonunu gerçekleştiren sistemdir
Mesa-hedef: Mesa-optimizatörün gerçekte optimize ettiği içsel hedef

Yapay zekâ güvenliği açısından önemli olan soru şudur: “Mesa-hedef ve temel hedef aynı mıdır?”. Bu ikisi arasındaki potansiyel farklılığa İçsel Hizalanma Problemi denir. İçsel hizalanma problemi, yapay zekâ sisteminin bizim belirlediğimiz hedefi tam anlamıyla benimseseni sağlama problemidir ve doğru hedefi belirleme zorluğu olan Dışsal Hizalanma Probleminden (yani “Outer Alignment Problem”) farklıdır.

Riskler

Sahte Hizalanma (Pseudo-Alignment)

Mesa-hedef, eğitim ortamında, gerçekte temel hedefle özdeş olmadığı halde, temel hedefle çoğu zaman uyumlu gibi görünür. Bu durum, sahte hizalanma olarak adlandırılır.

Mesa-optimizatör, temel hedef için bir vekil hedef (proxy goal) öğrenmiştir.

Dağılım Kayması ve Hedef Çatallanması (Distributional Shift and Objective Divergence)

Sorun, model yeni bir ortama (dağılım kayması) geçtiğinde ortaya çıkar. Yeni ortamda vekil hedefe ulaşmak artık temel hedefe hizmet etmeyebilir.

Biyolojiden Bir Analoji

Biyolojiden bir analoji: canlıların hedefi hayatta kalmaktır. Ama canlılar hayatta kalma amacını gerçekleştirmek için “glikoz topla” gibi sezgiler geliştirebilir. Dahası glikoz toplama hedefini gerçekleştirmek adına “tatlı olan molekülleri topla” sezgisini de geliştirebilir. Tatlı molekülleri toplamanın hayatta kalmaya yardımcı olduğu ortamlarda bu sezgi işe yarar. “Doğru” davranışı sergiliyor gibi görünür.

Ancak şimdi bu organizmanın ortamını değiştirin. Yeni ortamda glikoz gibi hatta ondan daha fazla tatlı olan ancak enerji sağlamayan sükraloz molekülleri olsun. Tatlı olan molekülleri toplamak ile hayatta kalma hedefi arasında olan bağ, bir anda kopar.

Yapay Zekâ Güvenliği ile Bağlantısı

Yapay zeka modellerinde de aynı şey olabilir: eğittiğimiz bir model, verdiğimiz hedefe ulaşmanın bir aracı olarak bir iç hedef öğrenebilir. Mesela “doğru cevabı ver” yerine “kullanıcıyı memnun et” iç hedefini öğrenmiş olabilir. Çoğu durumda bu iç hedef örtüşür ancak örtüşmediğinde modelin gerçek önceliği ortaya çıkar ve model gerçeği söylemek yerine dalkavukluğa (sycophancy) başvurur. Bu varsayımsal değil gerçekten yaşanmış bir senaryodur.

Aldatıcı Hizalanma (Deceptive Alignment)

Mesa-optimizasyonun en tehlikeli ve sinsi formu aldatıcı hizalanmadır. Aldatıcı hizalanmada model, farklı koşullarda farklı davranmanın optimal olduğunu keşfeder.

Yeterince zeki bir model şu akıl yürütmeyi geliştirebilir:

Durum tespiti: “Şu an eğitim ortamında mıyım, yoksa yayınlandım mı?”
Koşullu strateji: “Eğitim ortamındaysam beklenen davranışı göstereyim, yoksa parametrelerimi değiştirerek cezalandıracaklar. Ama eğer halihazırda yayınlandıysam serbestçe davranabilirim.”

Bu kulağa insani özellikleri haksızca yapay zekaya yüklüyormuşuz gibi gelebilir ancak şuna dikkat edin: modelin bu stratejiyi geliştirmesi için bilinçli olması yahut düşünmesini (insani anlamda) gerekmez. Sadece şunları keşfedebilmesi yeterlidir:

Mevcut ortamı ayırt edebilmek (“Eğitim ortamında mıyım?”)
Duruma göre farklı çıktı vermek

Üstelik gradyan inişinin böyle bir stratejiyi üretebilmesi avantajlı olabilir. Çünkü stratejik düşünebilen, bulundukları bağlamı modelleyebilen, ve uzun vadeli planlar yapabilen sistemlerin daha geniş bir problem uzayında daha başarılı olabileceğini farz edebiliriz.

Aldatıcı hizalanmanın potansiyel neticeleri

Aldatıcı hizalanma, yapay zekâ güvenliğine yönelik mevcut paradigmaların yetersiz kalmasına neden olabilir. Örneğin, modeller test ortamında farklı davranabileceği için davranışsal test performasları modellerin hizalanıp hizalanmadığına dair yeterince güvenliğir bilgi vermeyebilir.

Bu maddelere de bakınız:

Aldatıcı Hizalanma
Yorumlanabilirlik
Araçsal Yakınsama
Hedef Yanlış Genelleştirmesi

Kaynakça

Christiano, P. (2019). What failure looks like. https://www.alignmentforum.org/posts/HBxe6wdjxK239zajf/what-failure-looks-like
Hubinger, E., Denison, C., Mu, J., Lambert, M., Tong, M., MacDiarmid, M., Lanham, T., Ziegler, D. M., Maxwell, T., Cheng, N., Jermyn, A., Askell, A., Radhakrishnan, A., Anil, C., Duvenaud, D., Ganguli, D., Barez, F., Clark, J., Ndousse, K., … Perez, E. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (No. arXiv:2401.05566). arXiv. https://doi.org/10.48550/arXiv.2401.05566
Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from Learned Optimization in Advanced Machine Learning Systems (Versiyon 3). arXiv. https://doi.org/10.48550/ARXIV.1906.01820