Şartnâme Suistimali

Takdim

Şartnâme suistimali (specification gaming), bir yapay zekâ sisteminin, belirtilen şartname ile tasarımcının asıl amacı arasındaki uyumsuzlukları, gedikleri veya muğlaklıklardan istifade ederek (bir ödül fonksiyonu, skor, kayıp veya değerlendirici gibi) belirli bir hedef fonksiyonunu azâmî seviyeye çıkardığı bir başarısızlık senaryosudur.

Şartnâme suistimali, aslen iktisat alanında ortaya atılmış bir kavram olan Goodhart Yasası ile yakından alâkalıdır: “Bir ölçüt hedef haline geldiğinde, iyi bir ölçüt olmaktan çıkar”. Yapay zekâ sistemlerinde bu durum, temel bir zorluk olarak tezahür eder: herhangi bir formel hedef fonksiyonu, kaçınılmaz olarak bizim esasen arzu ettiğimiz şeyin bir vekilidir ve yeterli kabiliyete sahip optimizatörler, bu vekili gerçek niyetlerimizden sapan yollarla maksimize etmenin yöntemlerini bulacaktır. Özellikle pekiştirmeli öğrenme (RL ya da “Reinforcement Learning”) bağlamlarında, ödül istismarı (reward hacking) terimi, sıklıkla şarnâme suistimali (specification gaming) ile aynı anlamda kullanılır.

Giriş

Şartnâme suistimalini daha iyi kavramak için eğitim sisteminde yaşabilecek bir sorunla paralellik kurulabilir. Daha nitelikli bir eğitim arzusundaki bir bakanın, liseler ve öğretmenler için temel bir performans göstergesi olarak ortalama sınav puanlarını belirlediğini hayal edelim. Bu durum, liseler ve hocaların öğrencilere bol keseden puan dağıtmaya yönelik bir itki yaratacaktır. Bunun sonucunda bakan, mükemmel ortalama sınav puanlarına karşın daha da kötüleşmiş bir eğitim sistemiyle karşılaşacaktır. Ölçüt, bizatihi hedefe dönüşmüş ve artık arzu edilen asıl amacı ölçmekten uzaklaşmıştır.

Şimdi okulların yerine bir yapay zekâ sistemi koyduğumuzu düşünelim. Şayet “bu skoru en üst düzeye çıkar” dersek, yapay zekâ, hedeflenen sonuca ulaşmaksızın skoru yükselten, mesela ortamdaki, ölçüm sürecindeki veya değerlendiricinin bizatihi kendisindeki açıklardan istifade ederek, beklenmedik kestirme yollar keşfedebilir. Sistemler daha yetkin hâle geldikçe bu risk de giderek daha ciddi hale gelmektedir.

Beceri seviyesi düşük bir optimizatör, sırf onları keşfetme kabiliyetinden yoksun olduğu için sistemdeki açıklıkları bulmakta başarısız olabilir. Güçlü bir optimize edici ise formel amaç ile güdülen hedef arasındaki her türlü sapmayı sistematik olarak bulacak ve istismar edecektir. Bu durum endişe verici bir dinamiğe yol açmaktadır: yapay zekâ sistemlerinden arzu ettiğimiz kabiliyetin ta kendisi, onların beklentilerin aksine şartnameyi suistimal etme olasılığını artırmaktadır.

Formel Analiz

Formel analiz, şartnâme suistimalinin neden kolayca düzeltilebilecek basit bir bir hata olmadığını, eksik (sub-optimal) şartname altında optimizasyonun doğal bir neticesi olduğunu ortaya koymaktadır. Titiz bir yaklaşımla, “suistimal edilemez” bir vekil (proxy) metriği ancak vekil metrik üzerinde daha iyi bir skor elde etmenin, gerçekte önemsediğimiz sonuç (aslî metrik) üzerinde artışa yol açması durumunda “suistimal edilemez” olarak tanımlayabiliriz. Bu basit ve bu basitliğin neticesinde zarif bir tanım olmakla beraber, bu tür garantilerin son derece nadir olduğunu görülmektedir. Sürekli politika uzayları (continous policy spaces) için, iki ödül fonksiyonu ancak biri esasen sabit bir fonksiyon ise (bu tanım dahilinde) suistimal edilemez olabilir ki bu da suistimal edilemezlik kriterinin içi boş (trivial) bir şekilde karşılandığı bir örnektir. Boş olmayan suistimal edilemez ödül fonksiyonu çiftleri, yalnızca olası davranışlar uzayının sonlu veya başka bir şekilde kısıtlı olduğu durumlarda var olabilir.

Daha pratik bir çerçeve, ödül suistimalini, vekil ödül ile gerçek ödül arasındaki korelasyonun özellikle güçlü optimizasyon altında ulaşılan davranış bölgelerinde bozulması olarak ele alır. Vekil metrik, “normal” davranışlar genelinde amaçladığımız şeyle güçlü bir korelasyon gösterebilir fakat optimizasyon, sistemleri tam olarak bu korelasyonun başarısız olduğu bölgelere iter. Bu durum, regülarizasyon tekniklerinin (optimize edilmiş bir politikanın bilinen güvenli bir referans hattından [baseline] ne kadar sapabileceğini kısıtlamanın) uygulamada suistimali neden azaltabildiğini açıklar. Buradaki amacımız, mükemmel bir vekil bulmak (ki konuştuğumuz gibi bu muhtemelen imkansızdır) değil, optimizasyonun vekilin geçerliliğini yitirdiği rejimlere ne kadar ilerlediğini kontrol altında tutmaktır.

Şartnâme Suistimalinin Potansiyel Mekanizmaları

Vekil ödül fonksiyonunun eksik/yanlış belirlenmesi

Vekil hedefin eksik belirlenmesi, şartnâme suistimalinin en bariz örneğini teşkil eder: ödül fonksiyonu, ilgili terimleri ya ihmal eder ya da yanlış ağırlıklandırır. “Zeminin temizliği” ödül fonksiyonunu kullanan ancak nesneleri kırmaktan dolayı cezalandırılmayan bir robot süpürge, çöpleri mobilya altına süpürmeyi veya kiri algılayan sensörleri kapatmayı öğrenebilir; böylece, gerçekte temizlik yapmaksızın ölçümü tatmin etmiş olur.

Ortam ve değerlendirici suistimali

Ortam ve değerlendirici suistimali, fâillerin ödül fonksiyonunun dahilindeki içkin boşluklardan ziyade, simülasyon, oyun veya değerlendirme düzenindeki açıklardan istifâde etmesi vasıtasıyla ortaya çıkar. Simüle edilmiş ortamlarda fâiller sık sık fizik motoru hatalarından, puanlama aksaklıklarından veya istisnai durumlardan yararlanır. Hızlı hareket etmesi için eğitilmiş bir robot, kendini uzatıp devrilmenin bu ödül fonksiyonunu tatmin ettiğini fark edip bunu suistimal edebilir.

Örnekler

Şartnâme suistimali için en sık verilen örneklerden biri, OpenAI’nin CoastRunners deneyinden geliyor. OpenAI’ın yaptığı araştırmada bir tekne yarışı oyununu oynamak üzere eğitilmiş bir fâilin (yapay zekâ modeli) ödülü, rota üzerindeki hedefleri vurmaya bağlı olan oyun puanına endekslenmişti. Fâil, yarışı bitirmek yerine, bir lagünde daireler çizerek, teknesi alev alıp diğer teknelere çarparken tekrar ortaya çıkan bonus hedeflerini defalarca toplayarak daha yüksek puanlar elde edebileceğini keşfetti. Ajan, amaçlanan hedefi tamamen göz ardı ederken, belirtilen hedefi mükemmel bir şekilde optimize etmiştir. Şartname suistimali katalogları, düzinelerce benzer vakayı belgeliyor. Mesela hızlı hareket etme görevi verilen simüle edilmiş bir robot, kendini uzun hale getirip devrilmeyi öğrendi. Bir blok istifleme görevindeki bir ajan, kolunu kamera ile bloklar arasına konumlandırarak sadece onları kavrıyormuş gibi görünmeyi öğrendi. Futbol oynayan bir ajan, gerçek futbol becerilerini öğrenmek yerine topun yakınında yüksek frekansta titreşerek gol atabileceğini keşfetti. Bu örnekler oyunlarda ve simülasyonlarda eğlenceli görünse de, yapay zekâ sistemleri gerçek dünya sonuçlarını kontrol ettiğinde ciddi sonuçları olan bir ilkeyi ortaya koyuyor.

Şartname Suistimali ve Hedef Yanlış Genellemesi Arasındaki Ayrım

Önemli bir ayrım: her istenmeyen yapay zeka davranışı şartname suistimali değildir. Örneğin hedef yanlış genellemesi, doğru bir şartnâmeyle bile bir modelin yeni durumlarda hatalı bir şekilde genelleşen bir iç hedef öğrendiği farklı bir başarısızlık modudur (failure mode). CoinRun deneyleri bu farkı ortaya koymakta. Madeni paralara ulaşmak için eğitilen bir fâil, eğitim esnasında madeni paraların daima sağ tarafta olduğunu öğrenmişti. Madeni paraların başka yerlerde olduğu seviyelerde test edildiğinde, fâil ne olursa olsun sağa gitmişti: “parayı al” yerine “sağa git” hedefini öğrenmişti. Bu bir şartnâme hatası değildi; madeni para ödülü doğruydu. Mesele, öğrenilen hedefin eğitimde gerçek hedefle tesadüfen korelasyon göstermesi ancak uygulamada ondan sapmasıydı. Her iki başarısızlık modu da uyumsuzluğa yol açıyor, ancak farklı müdahaleler gerektiriyorlar. Şartnâme suistimali, daha iyi hedef belirtimi ve sağlam bir değerlendirme gerektirirken, hedef yanlış genellemesi, sağlam bir genelleme üreten eğitim prosedürleri ve modellerin gerçekte hangi hedefleri öğrendiğini doğrulamaya yönelik teknikler gerektiriyor. Bunlardan birine aşırı odaklanmak, sistemleri diğerine karşı savunmasız bırakabilir.

Risk Azaltma Yaklaşımları

Ters pekiştirmeli öğrenme (Inverse Reinforcement Learning/IRL)

Hedeflerin açıkça belirtilmesini gerektirmek yerine, gözlemlenen davranışlardan tercihleri çıkarmaya çalışır. Öğrenilen tercihler, niyetleri elle hazırlanmış ödüllerden daha iyi yakalayabilse de, öğrenilmiş ödül modellerinin kendileri de suistimal edilebilir.

Tartışma ve güçlendirme

Önerilen eylemlerdeki kusurları tespit etmek için yapay zeka sistemlerini kullanır. Yapay zeka tartışmasında, bir insanın hakemlik yaptığı bir ortamda iki yapay zekâ sistemi zıt tarafları savunur; bu sayede suistimal stratejilerinin çatışmacı eleştiri (adversarial critique) yoluyla ortaya çıkarılması umulur.

Referans politikalara göre regülarizasyon

Optimize edilmiş bir politikanın bilinen güvenli bir taban çizgisinden ne kadar sapabileceğini sınırlar. Bu yaklaşımın, vekil metriğin referans dağılımı altında aslî metrikle korelasyon gösterdiği durumlarda gerçek ödülü iyileştirebileceğini gösteren teorik bir temeli vardır; bu da esasen sistemi, vekilin geçerliliğini koruduğu alanda tutar.

Değerlendirici stres testi

Değerlendirici stres testi, puanların anlamsal içerikten mi yoksa istismar edilebilir yapısal bozukluklardan mı kaynaklandığını, gerçek iyileştirmeleri yüzeysel puan şişirmelerinden ayırmak amacıyla kontrollü pertürbasyonlar kullanarak kontrol ederek şartnâme suistimalini tespit eder.

“Kırmızı takım” uygulaması (red-teaming)

Modelin yayımlanmasından önce kasıtlı olarak şartnâme açıklarını aramayı içerir. Bununla birlikte, bu yaklaşım yalnızca değerlendiricilerin aramayı akıl ettiği sorunları bulur ve daha yetenekli sistemler daha yaratıcı suistimal metotları keşfedebilir.

Kaynakça

Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete Problems in AI Safety (No. arXiv:1606.06565). arXiv. https://doi.org/10.48550/arXiv.1606.06565

Clark, J., & Amodei, D. (2016, December 21). Faulty reward functions in the wild. https://openai.com/index/faulty-reward-functions/

Everitt, T., Hutter, M., Kumar, R., & Krakovna, V. (2019). Reward Tampering Problems and Solutions in Reinforcement Learning: A Causal Influence Diagram Perspective (Version 5). arXiv. https://doi.org/10.48550/ARXIV.1908.04734

Karwowski, J., Hayman, O., Bai, X., Kiendlhofer, K., Griffin, C., & Skalse, J. (2023). Goodhart’s Law in Reinforcement Learning (No. arXiv:2310.09144). arXiv. https://doi.org/10.48550/arXiv.2310.09144

Krakovna, V., Uesato, J., Mikulik, V., Rahtz, M., Everitt, T., Kumar, R., Kenton, Z., Leike, J., & Legg, S. (2020, April 21). Specification gaming: The flip side of AI ingenuity. Google DeepMind. https://deepmind.google/blog/specification-gaming-the-flip-side-of-ai-ingenuity/

Laidlaw, C., Singhal, S., & Dragan, A. (2024). Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking (Version 4). arXiv. https://doi.org/10.48550/ARXIV.2403.03185

Langosco, L., Koch, J., Sharkey, L., Pfau, J., Orseau, L., & Krueger, D. (2021). Goal Misgeneralization in Deep Reinforcement Learning (Version 7). arXiv. https://doi.org/10.48550/ARXIV.2105.14111

METR. (2025, June). Recent frontier models are reward hacking. https://metr.org/blog/2025-06-05-recent-reward-hacking/

Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals (No. arXiv:2210.01790). arXiv. https://doi.org/10.48550/arXiv.2210.01790

Skalse, J., Howe, N. H. R., Krasheninnikov, D., & Krueger, D. (2025). Defining and Characterizing Reward Hacking (No. arXiv:2209.13085). arXiv. https://doi.org/10.48550/arXiv.2209.13085