Ödül Korsanlığı

Takdim

Ödül korsanlığı, bir pekiştirmeli öğrenme fâilinin, tasarımcının asıl hedeflerini karşılamayan, yüksek ödül elde etmek için beklenmedik yollar bulması sonucu ortaya çıakr. Fâil, tasarımcı tarafından belirtildiği üzere ödül fonksiyonunu optimize eder, ancak ödül fonksiyonunun gerçekte arzu edilenin (yani aslî amacın) kusurlu bir temsili olduğu ortaya çıkar.

Ödül korsanlığı; evrimsel algoritmalar, büyük dil modeli eğitimi vb. gibi tüm optimizasyon paradigmalarında gözlemlenebilen ve ödül korsanlığını da kapsayan şartname suistimalinin bir alt türüdür. Ödül korsanlığı ve şartnâme suistimali arasındaki ilişki basittir: şartnâme suistimali genel kategoridir; ödül korsanlığı ise, suistimal edilen şartnâmenin bir pekiştirmeli öğrenme bağlamında ödül fonksiyonu olduğu özel duruma verdiğimiz isimdir. Fakat pratikte pek çok araştırmacı bu terimleri birbirinin yerine kullanmaktadır.

Giriş

Pekiştirmeli öğrenmede (“reinforcement learning” ya da kısaca “RL”), fâilleri asıl hedeflerimizi yansıttığını umduğumuz bir ödül sinyali (veya fonksiyonu) tanımlayarak eğitiriz. Ancak asıl amaçlarımız çoğu zaman bir hayli karmaşıktır ve formüle dökülmeleri de oldukça zordur.

Bu zorluk yapısal bir nitelik arz etmektedir zirâ formel analizler, vekil performansını iyileştirmenin daima gerçek performansı da iyileştirdiği “korsanlık-geçirmez” ödül fonksiyonlarını tanımlamanın (neredeyse) imkansız olduğunu göstermekte. Mümkün olan tüm davranışlar yelpazesi üzerinde optimizasyon yapıldığında, korsanlık-geçirmez olarak adlandırabileceğimiz yegâne vekil-gerçek çiftleri anlamsız (“trivial”) olanlardır. Optimizatör ne kadar kabiliyetli olursa, bu açıkları bulma ihtimali ve istikrarı o kadar yüksektir.

Başka bir deyişle: ödül korsanlığı, vekil hedef - aslî hedef bağı koptuğunda ortaya çıkar. Vekil hedef, aslî hedefi “normal” senaryolarda başarıyla temsil ederken, uç/ekstrem senaryolarda başarısızlığa uğrayabilir.

Alakalı Kavramlarla İlişkisi

Özdoyum Tuzağıyla (Wireheading) İlişkisi

Özdoyum tuzağı, ödül sinyalinin bizâtihi manipüle edilmesi anlamına gelir; bu, sensörlerin devre dışı bırakılması, ödül modelinin kurcalanması yahut ödül kanalının doğrudan uyarılması şeklinde olabilir. Bazı araştırmacılar özdoyum tuzağını, ödül korsanlığının ekstrem bir alt türü olarak değerlendirirken; diğerleri bu ikisini mekanizmalarına göre ayırmaktadır. Bu konudaki terminoloji maalesef henüz tam olarak oturmamıştır.

Hedef Yanlış Genelleştirmesi (Goal Misgeneralization) İlişkisi

Hedef yanlış genelleştirmesinde bir fâil, eğitim ödülünden farklı bir içsel amaç öğrenir ve doğru şekilde genelleme yapamaz. Ödül korsanlığında fâil, belirlenen ödülü aslına sadık bir şekilde optimize eder; ancak durumda şartnâme mevcut durum için yetersizdir ve bu yetersizlik fâil tarafından istismar edilir. Hedef yanlış genelleştirmesinde şartnâme doğru olsa bile etmen yanlış içsel hedefi öğrenmiştir.

Örnekler

En klasik örnekler arasında (başka maddelerde de bahsettiğimiz), bir tekne yarışı oyununda yarışı bitirmek yerine bir lagünde daireler çizerek yeniden ortaya çıkan hedefleri toplamanın daha fazla puan kazandırdığını fark eden bir fâil yer alır. İnsan geri bildirimli pekiştirmeli öğrenme (RLHF) ile eğitilen dil modellerinde ödül korsanlığı, gerçek bir iyileştirme olmaksızın puanları şişiren yüzeysel kalıpları (mesela gereksiz ayrıntı, biçimlendirme, dalkavukluk) istismar etme şeklinde kendini gösterir. Deneysel çalışmalar, öğrenilmiş ödül modellerine karşı çok güçlü optimizasyon yapmanın, vekil puanları yükselse bile gerçek performansın durağanlaşmasına hatta düşmesine neden olduğunu göstermektedir.

Kaynakça

Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete Problems in AI Safety (Version 2). arXiv. https://doi.org/10.48550/ARXIV.1606.06565

Clark, J., & Amodei, D. (2016, December 21). Faulty reward functions in the wild. https://openai.com/index/faulty-reward-functions/

Gao, L., Schulman, J., & Hilton, J. (2022). Scaling Laws for Reward Model Overoptimization (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2210.10760

Krakovna, V., Uesato, J., Mikulik, V., Rahtz, M., Everitt, T., Kumar, R., Kenton, Z., Leike, J., & Legg, S. (2020, April 21). Specification gaming: The flip side of AI ingenuity. Google DeepMind. https://deepmind.google/blog/specification-gaming-the-flip-side-of-ai-ingenuity/

Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals (Version 2). arXiv. https://doi.org/10.48550/ARXIV.2210.01790

Skalse, J., Howe, N. H. R., Krasheninnikov, D., & Krueger, D. (2025). Defining and Characterizing Reward Hacking (No. arXiv:2209.13085). arXiv. https://doi.org/10.48550/arXiv.2209.13085