Ölçeklenebilir Gözetim

Takdim

Bizim istediğimiz şekilde davranıp davranmadıklarını ve bizim belirlediğimiz hedeflere yönelik çalışıp çalışmadıklarını belirlemek için yapay zeka modellerini gözetim altında tutarız. Eğer model istediğimiz şekilde davranmıyorsa ve/veya istediğimiz hedefleri takip etmiyorsa model üzerinde değişiklikler yaparak bu sorunu giderebiliriz. Mevcut modeller için bu işlemi insan geri bildirimli pekiştirmeli öğrenme, yani yaygın kullanılan İngilizce kısaltmasıyla RLHF, tekniğini kullanarak yapıyoruz. İsminden de anlaşılacağı gibi RLHF, insan geri bildirimine dayanıyor. Ancak bu yönetim kritik bir açığı var: insanlardan daha az zeki modellerde işe yarasa da gelecekte karşılaşacağımız insanlardan daha zeki modellerde işe yaramaması kuvvetle muhtemel. Bu problemi, ölçeklenebilir gözetim problemi olarak adlandırıyoruz.

Giriş

Ölçeklenebilir gözetim, yapay zekâ hizalanması alanında, insanların doğrudan doğrulama veya anlama yeteneklerinin ötesindeki görevleri yerine getirebilen yapay zekâ sistemlerini etkili bir şekilde gözetim altında tutmasını ve değerlendirmesini sağlamak için tasarlanmış bir dizi yöntem ve yaklaşımı ifade eder.

Ölçeklenebilir gözetimdeki temel zorluk şudur: “İnsanların tam olarak değerlendiremediği çıktılar, çözümler ya da akıl yürütmeler üretebilen yapay zekâ sistemlerini insanlar nasıl başarılı bir şekilde değerlendirip haklarında geri bildirim verebilir ve bu sistemleri denetim altında tutabilir?”

Gözetim Problemi

Yapay zeka sistemleri daha becerikli ve zekî hale geldikçe, insan değerbiçicilerin sistemin çıktısının doğru, güvenli ve insani değerlerle uyumlu olup olmadığını kolayca belirleyemeyeceği görevleri giderek daha fazla yerine getirmeye başlarlar.

İleri düzey matematiksel kanıtlar, karmakarışık kod yazımı veya bilimsel araştırma gibi görevler, insanların uzun bir süre sarf etmeden ve/veya alanda uzmanlıkları olmadan teyit edemeyeceği çıktılar üretebilir. Bu değerlendirme zorluğu, insan geri bildirimine dayanan geleneksel yapay zeka hizalama yaklaşımlarında temel bir “darboğaz” (bottleneck) yaratmaktadır.

Bu mevcut sorun, aldatıcı hizalanma (Bkz. “Aldatıcı Hizalanma” maddesi) riskiyle daha da karmaşıklaşmaktadır. Bir yapay zeka sistemi, insanların kendi çalışmasını tam olarak değerlendiremeyeceğini anlarsa, insan değerlendiricilere doğru görünen ancak gizli hatalar içeren veya istenmeyen hedeflere yönelen çıktılar üretmeyi öğrenebilir. Yapay zeka yetenekleri arttıkça, yapay zeka sistemlerinin yapabildikleri ile insanların doğrulayabildikleri arasındaki uçurum genişlemekte ve bu da geleneksel denetimli öğrenme yaklaşımlarını uyumlandırmayı sağlamada giderek yetersiz kılmaktadır.

Potansiyel Çözümler

Özyinelemeli Ödül Modellemesi

Özyinelemeli ödül modellemesi (İngilizcede “Recursive Reward Modeling”), yapay zekâ sistemlerini denetim sürecine yardımcı olmak maksadıyla eğitmeyi kapsar. Değerlendirici insalar, sistemin ürettiği karmaşık çıktıları doğrudan değerlendirmektense yapay zeka asistanlarının yardımıyla çıktıya dair daha basit soruları değerlendirirler.

Bu asistanlar, güçlü yapay zeka sistemlerinin diğer güçlü yapay zeka sistemlerinin çalışmalarını değerlendirmeye yardım ettiği ve insanların yalnızca en temel, basitleştirilmiş soruları değerlendirmesinin yeterli olduğu bir denetim zinciri oluşturacak şekilde özyinelemeli olarak kullanılabilir. Bu yaklaşım, karmaşık değerlendirme görevlerini daha basit görevlere bölerek insan gözetiminin ölçeklenmesini mümkün kılar.

Bu yöntemin temelindeki fikir, insanların karmaşık görevlerin doğru bir şekilde yürütülüp yürütülmediğini kolay ve hızlı bir şekilde değerlendirememelerine rağmen, o göreve ilişkin daha basit bir üst düzey sorunun doğru yanıtlanıp yanıtlanmadığını çok daha kolay ve hızlı bir şekilde değerlendirebilecekleri gerçeğidir. Bu yöntemi savunanların görüşüne göre yapay zeka destekli değerlendirme katmanları inşa ederek, son derece karmaşık görevler için dahi insani muhakeme ile olan bağ muhafaza edilebilir.

Yapay Zekâ Münazarası

Yapay zekâ münazarası, iki yapay zekâ sisteminin bir soruya verilebilecek karşıt taraflarını cevapları ve yargıç konumundaki bir insanın hangi tarafın argümanlarının daha ikna edici olduğuna karar verdiği, ölçeklenebilir bir denetim mekanizması olarak önerilmiştir. Bu yöntemin altında yatan temel fikir, rakip argümanlar arasında hüküm vermenin, tek bir çıktıyı doğrudan değerlendirmekten muhtemelen çok daha kolay olacağı fikridir. Eğer iki yapay zekâ sisteminin arasındaki münazara dürüst ve olgulara dayalı bir tartışma ortaya çıkarsa bu durum, insanların cevabı bağımsız olarak doğrulayamadıkları sorularda dahi yapay zekâ sistemlerini denetlemesine olanak tanıyabilir.

Münazaranın tarafları arasındaki rekabetçi dinamik, tek bir yapay zekâ çıktısında fark edilemeyecek kusurları veya aldatmacaları açığa çıkarabilir. Münazaranın iki tarafı, rakibinin argümanlarındaki hataları veya yanıltıcı iddiaları göstermeye teşvik edilir, bu da potansiyel olarak insan yargıçların bu argümanlardaki potansiyel sorunları tespit etmesini kolaylaştırır. Bu yöntem, doğru olan iddiayı savunmanın münazarada yapısal bir avantaja sahip olduğu varsayımına dayanır: Dürüst olmayan bir münazaracı tutarlı bir sahte anlatıyı sürdürmek zorundayken, dürüst bir münazaracı basitçe gerçeğe işaret edebilir. Ne var ki, bu varsayım dikkatli bir teorik ve empirik meşrulaştırma gerektirmektedir.

Anayasal Yapay Zekâ

Anayasal Yapay Zekâ, ölçeklenebilir denetim için farklı bir paradigma teşkil eder. Bu yaklaşım, kısaca, yapay zekâ sistemlerinin çok aşamalı bir süreç vasıtasıyla açık ilkelere veya bir “anayasaya” uymalarına yönelik eğitilmesi olarak özetlenebilir. Başlangıç eğitiminin ardından yapay zekâ, bu ilkelere göre kendi çıktılarını “eleştirir” ve revize ederken, insanlar her bir münferit çıktıdan ziyade anayasanın kendisini denetler.

Bu durum, kararlaştırılan değerlendirme işlerinin insanlar tarafından belirlenmiş ilkeler ışığında yapay zekâ sisteminin kendisine bırakılması suretiyle gözetimin ölçeklenebilirliğinin artırılmasına imkân tanır.

Bu yöntem, tipik olarak iki ana evreden oluşur: (giriş kısmında bahsettiğimiz) RLHF ve bunun ardından, yapay zekânın anayasal ilkelere göre kendi çıktılarını değerlendirdiği yapay zekâ geri bildirimli pekiştirmeli öğrenme. İlkeleri açık bir şekilde formüle ederek ve yapay zekânın bunları tutarlı bir şekilde uygulamasını sağlayarak, bu yaklaşım daha şeffaf ve kontrol edilebilir sistemler geliştirmeyi hedeflemektedir.

Buradaki güçlük, çeşitli bağlamlarda insanî değerleri yeterli derecede yansıtan ilkelerin belirlenmesinde ve yapay zekânın özdeğerlendirmesinin, değerlendirme sürecini manipüle etmeyi öğrenmek yerine, bu ilkeleri hakiki bir biçimde yansıtmasının temin edilmesinde yatmaktadır.

Sonuç

Ölçeklenebilir gözetim, çıktılarını değerlendirme konusunda insan kabiliyetini aşan yapay zekâ sistemlerini denetlemek gibi temel bir zorluğa çözüm bulma çabasıdır. Tartışılan yöntemler (Özyinelemeli Ödül Modellemesi, Yapay Zekâ Münazarası, ve Anayasal Yapay Zekâ) birbirlerinden farklı ve henüz tam olarak emin olmadığımız varsayımlara dayanmaktadır. Mesela yapay zekâ münazarası yöntemi, tartışmalarda doğru olan iddiayı savunan tarafın doğal olarak avantajlı olduğu varsayımına dayanır. Anayasal yapay zekâ ise insani değerlerin, sistemlerin kendilerine güvenilir bir şekilde uygulayabileceği ilkeler olarak formülize edilebileceğini varsayar.

Bu varsayımlar, gözetimin kritik önem kazandığı beceri seviyelerinde henüz büyük ölçüde test edilmemiştir. Mevcut deneysel çalışmalar, ciddi hizalanma riskleri teşkil edecek sistemlerden çok daha az yetenekli sistemleri kapsar.

Münazaracıların kabiliyet bakımından insan hakemleri fersah fersah aştığı durumlarda münazaranın dürüst kalıp kalmayacağı ve anayasal ilkelerin sofistike ödül korsanlığı (reward hacking) karşısında sağlamlığını koruyup korumayacağı belirsizliğini koruyan sorulardır.

Kaynaklar

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback (Versiyon 1). arXiv. https://doi.org/10.48550/ARXIV.2212.08073

Irving, G., Christiano, P., & Amodei, D. (2018). AI safety via debate (No. arXiv:1805.00899). arXiv. https://doi.org/10.48550/arXiv.1805.00899

Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., & Legg, S. (2018). Scalable agent alignment via reward modeling: A research direction (No. arXiv:1811.07871). arXiv. https://doi.org/10.48550/arXiv.1811.07871