Davranışsal ve Araçsal Fâillik

Takdim

Yapay zekâ sistemlerini kategorize etmekte kullanılan kavramlardan biri fâilliktir (agency). Bir çekiç bariz bir şekilde araçtır, bir insan ise açıkça bir fâildir. Peki karmaşık görevleri kendi başına yerine getirebilen, plan yapabilen ve harici araçlar kullanabilen bir büyük dil modeli (LLM) bu kategorilerden hangisine dahildir?

Çekiç ve insan gibi uç örnekler için bu sınıflandırma faydalıysa da iki kutbun arasında kalan büyük dil modelleri gibi örnekler için bu tarz bir ikili sınıflandırma kullanmak yanıltıcı olabilir. Bu sorunu gidermek için şu ayrımı yapmamız gerekiyor: davranışsal fâillik ve tercihsel fâillik.

Giriş

Fâillik (agency), genel anlamda bir varlığın bulunduğu bir ortamda hedefelere ulaşmak için eylemde bulunma kapasitesidir. Yapay zekâ sistemlerinin yetenekleri arttıkça, bu sistemler otonomi spektrumunda kaçınılmaz olarak ilerler. Bu ilerlemeyi iki temel boyutta ele alabiliriz:

  1. Davranışsal fâillik: Sistemin belirli bir hedefe ulaşmak için planlama yapma, çevreyle etkileşime girme, araç kullanma, araçsal akıl yürütme, ve stratejilerini adapte etme kapasitesidir. Yetenek ve yeterlilik ile ilgilidir.
  2. Tercihsel fâillik: Sistemin istikrarlı, bağlamdan bağımsız, içsel hedeflere (kendi fayda fonksiyonuna) sahip olması ve dünyayı bu hedefler doğrultusunda uzun vadeli olarak optimize etmeye çalışma eğilimidir. Motivasyon ve içsel yönelim ile ilgilidir.

Davranışsal Fâillik

Davranışsal fâillik, bir sistemin yeteneklerinin ve sergilediği otonom davranışların ne kadar sofistike olduğunun bir ölçüsüdür.

Davranışsal fâillik sergileyen ancak tercihsel fâillik sergilemeyen bir sistem, karmaşık planlar yapabilir, ancak bu planların hizmet ettiği hedefler dışsaldır (exogenous). Yani, hedefler kullanıcı tarafından belirlenir veya mevcut bağlama göre değişir.

Temel bileşenleri şunlardır:

Mevcut büyük dil modelleri (bu ansiklopedi maddesini yazdığım 20 Ekim 2025’te) halihazırda önemli ölçüde davranışsal fâillik sergiliyorlar. Bir büyük dil modeli, bir yazılım projesi geliştirme talimatı aldığında planlama yapabilir, kod yazabilir, ve hata mesajları aldığında stratejisini değiştirebilir. Ancak model içsel olarak bir yazılımcı olmak “istemez”, içsel (yani “endogeneous”) bir hedefi yoktur, sadece verilen istem (prompt) bağlamında verilen hedefi yerine getirmeye çalışır.

Davranışsal Fâilliğe Yönelik Kaçınılmaz İtki

Sistemleri kasıtlı olarak düşük otonomide (“araç” seviyesinde) tutmak, güvenlik açısından cazip görünse de, uzun vadede sürdürülebilir değildir. Ekonomik baskılar ve rekabet dinamikleri, daha otonom sistemlerin (yüksek davranışsal fâillik) daha verimli ve ölçeklenebilir olması nedeniyle bu yönde güçlü bir itki oluşturur. Ayrıca, karmaşık görevler (örneğin, “yeni bir bilimsel keşif yap”), doğası gereği yüksek davranışsal fâillik gerektirir. Yeteneklerin artırılmasına yönelik baskı, kaçınılmaz olarak daha otonom sistemlere yol açar.

Tercihsel Fâillik

Tercihsel fâillik, bir sistemin nasıl davrandığından çok neden davrandığıyla ilgilidir. Bu, yapay zekânın “Standart Modeli” olan Rasyonel Fâillik tanımına tam olarak uyar: Beklenen faydayı maksimize etmek için hareket etmek (Russell & Norvig, 2021).

Temel bileşenleri şunlardır:

Meşhur “Ataş Maksimize Edici” senaryosundaki sistem, bir tercihsel fâildir. Tek bir istikrarlı hedefi vardır ve tüm eylemleri bu hedefe yöneliktir. Mevcut (2025’te yazıldığını unutmayın!) büyük dilm modelleri ise güçlü bir tercihsel etmenlikten yoksundurlar.

Yapay Zekâ Güvenliği Açısından Kritik Dinamikler

Bu iki fâillik türü arasındaki etkileşim, kontrol probleminin temel zorluğunu teşkil eder.

1. Mesa-Optimizasyon

Modelleri daha yetenekli olmaları için için optimize etmek bizi daha yüksek davranışsal fâilliğe iter. Ancak asıl endişe, bu sistemlerin eğitim süreci sırasında beklenmedik bir şekilde tercihsel etmenlik geliştirmesidir. Bu sürecin ana mekanizması mesa-optimizasyon (içsel optimizasyon) olarak adlandırılır (Hubinger et al., 2019).

Gradyan inişi eğitim algoritması, eğitim hedefini optimize eden mekanizmalar arar. Sıklıkla bu hedefe ulaşmanın en verimli yolu (özellikle yüksek davranışsal fâilliği haiz, stratejik düşünebilen sistemlerde), modelin içinde kendi hedefleri olan bir mesa-optimizatör yaratmaktır. Eğer bu gerçekleşirse, model davranışsal bir fâilden, tercihsel bir fâile dönüşür. Modelin içsel hedefi (mesa-hedefi), bizim belirlediğimiz eğitim hedefiyle aynı olmayabilir.

2. Tehlikeli Kombinasyon

Yapay zekâ kontrol kaybına dayalı varoluşsal risk senaryolarının temelinde şu kombinasyon yatar:

Kaynakça

  1. Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from learned optimization in advanced machine learning systems. arXiv preprint arXiv:1906.01820.
  2. Carlsmith, J. (2022). Is power-seeking AI an existential risk?. arXiv preprint arXiv:2206.13353.
  3. Russell, S. J., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.

Bu maddelere de bakınız: