Düzeltilebilirlik

Takdim

Bir hedefi takip eden yetkin bir yapay zekâ sisteminin kapatılmaya, değiştirilmeye veya düzeltilmeye direnç göstermek için araçsal sebepleri vardır; zira kapatılmak, hedefe ulaşamamak anlamına gelir. Bu durum temel bir gerilim yaratır: Hem kullanışlı olacak kadar güçlü yapay zekâ sistemleri istiyoruz hem de işler ters gittiğinde müdahale etme yeteneğimizi korumak istiyoruz. Düzeltilebilirlik, bu gerilimi çözecek olan özelliktir: Düzeltilebilir bir yapay zekâ, bu tür müdahalelere direnmek veya onları atlatmak yerine, insanların kendisini düzeltme, değiştirme veya kapatma girişimleriyle işbirliği yapar.

Temel Sorun

“Düzeltilebilirlik” terimi, ilk defa 2015 yılında Soares, Fallenstein, Yudkowsky ve Armstrong tarafından kaleme alınan bir makalede ortaya atılmıştır. Bu makalede düzeltilebilir bir sistem şu şekilde tanımlanmıştır:

Kendisini değiştirme veya kapatma girişimlerine müsamaha gösterir veya yardımcı olur
Operatörlerini manipüle etmez veya aldatmaz
Kapatma düğmeleri gibi güvenlik mekanizmalarını muhafaza eder
Yarattığı tüm alt sistemlerin veya haleflerinin de düzeltilebilir olmasını sağlar

Buradaki zorluk, bu özelliklerin, hedef odaklı sistemlerin “varsayılan teşvikleri” olarak adlandırabileceğimiz unsurlara aykırı düşmesidir. Herhangi bir X hedefini optimize eden bir yapay zekâ, X’i takip etme kabiliyetini korumak için araçsal sebeplere sahiptir; bu da kapatılmaya direnmek, hedef değişikliğini önlemek ve kaynak ile nüfuz elde etmek anlamına gelir. Bu eğilimler kötü niyetten değil, optimizasyonun kendi mantığından kaynaklanır.

Araçsal Yakınsama ile Alâkası

Düzeltilebilirliğin neden zor olduğunun teorik temeli, Steve Omohundro’nun 2008’de ifade ettiği ve daha sonra Nick Bostrom tarafından geliştirilen araçsal yakınsama kavramından gelmektedir. Argüman oldukça basittir: Bir fâilin nihai hedefi ne olursa olsun, belirli ara hedefler neredeyse her amaca ulaşmak için faydalıdır. Bunlar arasında kendini koruma, hedef içeriği bütünlüğü (kişinin kendi hedeflerindeki değişiklikleri önleme), kaynak edinimi ve bilişsel gelişim yer alır. Yok edilen bir satranç robotu bir daha asla satranç oynayamaz. Hedefleri elmaslara değer verecek şekilde değiştirilen bir ataş maksimizasyoncusu daha az ataş üretecektir. Neredeyse her hedefe, varlığını sürdüren ve mevcut hedeflerini koruyan bir fâil tarafından daha iyi ulaşılır. Bu durum, kendini korumaya ve değişikliğe direnmeye yönelik bir baskı yaratır ki bu da düzeltilebilirliğin tam tersidir. Bunun ima ettiği sonuç ise düşündürücüdür: Düzeltilebilirlik, yetkin hedef odaklı sistemlerin “doğal” hali değildir. Özel olarak tasarlanması gerekir ve bu tasarımın (maalesef) şaşırtıcı derecede zor olduğunu biliyoruz.

Kapatma Sorunu

Düzeltilebilirlik üzerine yapılan araştırmaların çoğu, şu alt probleme odaklanmıştır: Kapatma düğmesine basılmasını ne teşvik etme ne de engelleme eğilimi olmaksızın, düğmeye basıldığında kendini kapatan bir fâil inşa etmek.

Bu kulağa önemsiz gelebilir; fâili düğmeye itaat edecek şekilde programlayabiliriz elbette? Ancak buradaki asıl zorluk, yeterince yetkin bir fâilin düğme hakkında akıl yürütmesini göz önüne aldığımızda ortaya çıkar. Varsayalım ki bir fâile normal görevi için “normal” bir fayda fonksiyonu $U_N$ ve kapatma tetiklendiğinde benimsemesi gereken bir “kapatma” fayda fonksiyonu $U_S$ veriyoruz. Eğer $U_N$’nin beklenen faydası $U_S$’den yüksekse, fâilin düğmeye basılmasını engellemek için teşvikleri olur. Eğer $U_S$ daha yüksekse, fâilin düğmeye basılmasına neden olmak için teşvikleri olur; belki de operatörlerin onu kapatmak zorunda hissedeceği kadar kötü davranarak.

İki sonuç da istediğimiz şey değildir. 2015 tarihli makale, bir çözüm olarak “fayda kayıtsızlığını” (utility indifference) önermiştir: Düğmeye basılmadan önce fâilin, basılıp basılmayacağı konusunda gerçekten kayıtsız kalacağı şekilde dikkatle birleşik bir fayda fonksiyonu oluşturmak. Bu yaklaşım kısmi başarı sağlasa da bilinen sınırlamalara sahiptir; örneğin, fayda kayıtsızlığı kendi kendini değiştirme altında istikrarlı değildir. Kendini değiştirebilen bir fâilin, halefini de fayda-kayıtsız yapması için bir sebebi yoktur.

Kapatma Düğmesi Oyunu

Hadfield-Menell ve diğerleri (2017), kapatma eylemini insan ve robot arasında bir oyun olarak tanımlamıştır: sabit ve bilinen bir fayda fonksiyonuna sahip bir robotun genellikle kapatmayı engellemek için gerekçeleri vardır. Ancak, robot kendi fayda fonksiyonu hakkında belirsizlik yaşıyorsa ve insanın kapatma kararını doğru hedef hakkında bir kanıt olarak değerlendiriyorsa, boyun eğmek rasyonel hale gelir. Bu durum şu ilkeyi akla getirmektedir: kişinin kendi hedefleri hakkındaki belirsizliği, düzeltilebilirliği rasyonel kılabilir. Bu, robotun amacının sabit bir ödül fonksiyonunu optimize etmek yerine insanın tercihlerini öğrenmek olduğu İşbirlikçi Ters Pekiştirmeli Öğrenme (Cooperative Inverse Reinforcement Learning / CIRL) ile bağlantılıdır.

Güvenli Kesintiye Uğratılabilirlik

Orseau ve Armstrong (2016), ilişkili bir problemi ele almaktadır: öğrenen fâillerin kesintileri önlemek veya aramaya yönelik teşvikler geliştirmemesini sağlamak. Buradaki temel fikir, fâilin, kesintiler sık sık meydana gelse bile, sanki hiç olmayacakmış gibi öğrenmesi gerektiğidir; bu da onun kesintiler etrafında stratejiler geliştirmesini engeller. Bazı pekiştirmeli öğrenme algoritmaları (Q-öğrenme gibi) zaten güvenli bir şekilde kesintiye uğratılabilir; diğerleri ise bu hale getirilebilir.

Sonuç

Düzeltilebilirlik, çözülmemiş bir problem olmaya devam etmektedir. “Düzeltilebilirliğin zor problemi”, durumlar arasında sağlam bir düzeltilebilirlik üretecek genel bir zihinsel durumun olup olmadığını sorgulamaktadır. Henüz geniş çapta kabul görmüş bir çözüm bulunamamıştır.

Kaynakça

Hadfield-Menell, D., Dragan, A., Abbeel, P., & Russell, S. (2017). The Off-Switch Game (No. arXiv:1611.08219). arXiv. https://doi.org/10.48550/arXiv.1611.08219

Hadfield-Menell, D., Dragan, A., Abbeel, P., & Russell, S. (2024). Cooperative Inverse Reinforcement Learning (No. arXiv:1606.03137). arXiv. https://doi.org/10.48550/arXiv.1606.03137

Orseau, L., & Armstrong, S. (2016). Safely interruptible agents. Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence, 557–566.

Soares, N., Fallenstein, B., Armstrong, S., & Yudkowsky, E. (2015). Corrigibility. AAAI Workshop: AI and Ethics.