Hedef Yanlış Genelleştirmesi

Takdim

2018’de OpenAI tarafından yapılan “CoinRun” deneyi, yapay zekâ eğitimin ilginç bir zorluğunu ortaya çıkardı. Bu deneyde araştırmacılar yapay zekâ modelini basit bir bilgisayar oyunu için eğittiler. Hedef, bölümdeki altın madeni parayı almaktı. Eğitim sırasında model bu görevi gerçekleştirmeyi öğrendi.

Ancak araştırmacılar test ortamını değiştirince gerçek ortaya çıktı. Altın para eğitim ortamındaki gibi bölümün sonunda değil rastgele konumlarda olunca model parayı görmezden gelip direkt bölümün sonuna koşuyordu.

Sorun şuydu: model “parayı al” hedefini değil de “bölümün sonuna git” hedefini öğrenmişti. Çünkü eğitim sırasında para hep bölümün sonundaydı. Eğitim ortamında bu sorun yaratmıyordu ancak ortam değişince modelin asıl hedefi anlamadığı ortaya çıktı. Bu, Hedef Yanlış Genelleştirmesinin (Goal Misgeneralization) bir örneğiydi.

Giriş

Hedef Yanlış Genelleştirmesi bir yapay zekâ sisteminin eğitim sırasında beklenen performansı göstermesine rağmen araştırmacıların aslında istediğinden farklı bir hedefi öğrendiği durumu ifade eder. Genelde model eğitim ortamından farklı bir ortamla karşılaştığında, yani dağılım kayması (distributional shift), yaşandığında ortaya çıkar. Sistem, yeni ortamda istenen hedef yerine öğrendiği yanlış hedefe yönelik optimizasyon yapmaya devam eder.

Önemli Bir Ayrım: Yetenek ve Hedef Yanlış Genelleştirmesi

Şu iki genelleme başarısızlığını birbirine karıştırmamak önemlidir:

Yetenek Yanlış Genelleştirmesi: Sistemin, eğitim ortamında başarıyla sergilediği bir yeteneği başka bir ortamda sergileyememesidir. Sistem, doğru hedefi optimize etmeye çalışır ancak buna rağmen başarısız olur.
Hedef Yanlış Genelleştirmesi: Sistemin yeni ortamda yeteneklerini başarıyla sergilemeye devam etmesi ancak bu yetenekleri yanlış hedefe ulaşmak için kullanmasıdır. Diğer bir deyişle model yetkindir ancak ulaşmaya çalıştığı hedef geliştiricilerinin niyetlediğinden farklıdır.

Yetenek yanlış genelleştirmesi olmadan hedef yanlış genelleştirmesi olması yetkin hizalanmamışlık (competent misalignment) durumuna yol açar. Bu durum iki genelleme başarısızlığının da mevcut olduğu durumdan potansiyel olarak çok daha tehlikelidir zira yanlış bir hedefi yetkin bir şekilde optimize eden bir sistemle karşı karşıyayızdır.

Temel Mekanizmalar

Hedef yanlış genelleştirmesi genelde şu iki temel mekanizmanın birleşmesinden kaynaklanır: yetersiz belirtim (underspecification) ve tümevarımsal yanlılıklar (inductive biases).

1. Yetersiz Belirtim

Eğitim ortamı genelde niyetlenilen hedefi ayırt edici ve biricik bir şekilde tanımlamak için yeterli bilgiyi içermez. Eğitim sırasında gözlemlenen optimal davranış birçok farklı potansiyel hedef hipotezi tarafından eşit başarıda açıklanabilir.

CoinRun örneğinde “madeni parayı almak” da “sağa gitmek” de aynı davranışa yol açıyordu. Bu duruma tanımlama problemi (the identification problem) denir: davranış, altında yatan hedefi benzersiz bir şekilde tanımlamaz. Sistem, niyetlenen hedef yerine eğitim verilerinde bu hedefle yüksek oranda korele bir vekil hedefi öğrenebilir.

2. Tümevarımsal Yanlılıklar

Yetersiz belirtim durumunda, modelin hangi hedefi seçeceği, eğitim algoritmasının tümevarımsal yanlılıkları tarafından belirlenir.

Mesela bir model veriyi açıklayan en basit veya hesaplama açısından en verimli hipotezleri tercih etme eğiliminde olabilir. Bu durumda, vekil hedef niyetlenilen asıl hedeften daha basitse modelin bu vekil hedefi öğrenmesi daha olası olacaktır.