Hizalama Vergisi

Giriş

Hizalanma vergisi (“Alignment Tax”), ölçeklenebilir denetim ve diğer hizalanma tekniklerinin uygulanmasının, bu tür güvenceler (“safeguards”) olmaksızın eğitilen yapay zekâ sistemlerine kıyasla artırdığı maliyetleri ifade eder. Bu terim, en önde gelen yapay zekâ güvenliği araştırmacılarından Paul Christiano tarafından icat edilmiştir.

Yapay Zekâ Hizalanmasının Maliyeti

Bu maliyetler çeşitli şekillerde tezahür edebilir: münazara veya özyinelemeli değerlendirme için gereken ek hesaplama kaynakları, modelin ihtiyatlı davranışlar nedeniyle düşen görev performansı, çok aşamalı değerlendirme süreçlerinden kaynaklanan artan gecikme süresi veya ilave güvenlik kontrolleri sebebiyle yavaşlayan geliştirme döngüleri.

Paul Christiano, bu kavramı iki aktör örneği üzerinden açıklıyor: yapay zekâsının tam olarak kendi istediğini yapmaya çalışması hususunda ısrar eden Alice ve yalnızca kâr gibi araçsal hedefleri maksimize eden bir yapay zekâyı devreye sokmaya razı olan Bob. Hizalanma vergisi, Alice’in hizalanma konusunda ısrarcı olmasıyla karşı karşıya kaldığı ek maliyeti ifade etmektedir. En iyi potansiyel senaryo, hizalanmamış bir yapay zekâyı devreye sokmak için hiçbir nedenin bulunmadığı “vergisiz” durum olacaktır. En kötü durum ise, tüm faydalı kabiliyetleri ortadan kaldırdığı için hizalanmanın işlevsel olarak imkânsız olduğu “maksimum vergi” durumudur.

Hizalama vergisinin varlığı, yapay zekâ güvenliği için öneml pratik ve stratejik zorluklara neden olmaktadır. Eğer hizalanmış sistemler, hizalanmamış alternatiflerine göre kayda değer ölçüde daha az yetenekli veya daha maliyetli olursa, rekabetçi baskılar ve yarış dinamikleri kuruluşları daha az güvenli sistemleri piyasaya sürmeye teşvik edebilir. Bu durum, birden fazla aktörün gelişmiş yapay zekâ kabiliyetleri geliştirmek için yarıştığı senaryolarda özellikle endişe vericidir. Hizalanma vergisi, denetim tekniklerinin verimli hale getirilmesi için optimizasyon ve mühendislik çabaları henüz sarf edilmeden önceki erken uygulamalarda nispeten daha yüksek olabilir.

Hizalama Vergisinin Türleri

Yapay zekâ güvenliği araştırmacısı Jan Leike, her biri farklı çözüm stratejileri gerektiren üç ayrı hizalama vergisi türünü ayırt ederek bu kavramı detaylandırmıştır:

Performans Vergileri
Geliştirme Vergileri
Piyasaya Sunma Hızı Vergileri

Performans vergileri

Performans vergileri, hizalanmış modellerin hizalanmamış temel modellere kıyasla belirli görevlerdeki becerilerinin zayıflaması olarak ortaya çıkar. Bunlar, normalde referans değerlendirme puanlarındaki düşüşler aracılığıyla ölçülse de, Leike daha doğal bir metrik önermektedir: performans kaybını telafi etmek için gereken ek hesaplama maliyetinin hesaplanması. Örneğin, temel model performansına erişmek için daima en iyi 2’li örnekleme (best-of-2-sampling) gerekiyorsa, bu durum %100’lük bir hizalama vergisine tekabül eder. Eğer görevlerin %10’u için en iyi 4’lü örnekleme (best-of-4 sampling) gerekiyorsa, bu da %40’lık bir çıkarım zamanı vergisine karşılık gelir.

Geliştirme Vergileri

Geliştirme vergileri, RLHF (insan geri bildirimli pekiştirmeli öğrenme) kod tabanlarının oluşturulmasını, insan etiketleyicilerin işe alınmasını ve idaresini, hizalama eğitimi için gereken işlem maliyetlerini ve araştırmacıların bu amaca yönelik sarf ettiği çabayı kapsar. GPT-3/InstructGPT özelinde Leike, toplam hizalama geliştirme maliyetlerinin, GPT-3’ün geliştirme maliyetinin yaklaşık %5 ila %20’si oranında olduğunu tahmin etmektedir. Bu maliyetler, genelde model geliştirme esnasında ortaya çıkan tek seferlik veya yinelenen masraflardır.

Piyasaya Sunma Hızı Vergileri

Piyasaya sunma hızı maliyetleri, önceden eğitilmiş bir temel modeli hizalamak için gereken zamanı ifade eder. İlk InstructGPT hizalama süreci yaklaşık 9 ay sürmüş olsa da, altyapı iyileştirmeleri ve veri yeniden kullanımı sayesinde müteakip iterasyonlar 3 aya kadar kısaltılabilmiştir. Rekabetçi senaryolarda, dağıtımdaki gecikmeler, daha az hizalanmış alternatiflerin piyasaya sürülmesi yönünde pazar baskıları yaratabilir.

Çözüm Çabaları

Yapay zekâ güvenliği araştırmacıları, muhtelif yaklaşımlarla hizalanma vergisini azaltmayı hedeflemektedir: daha verimli denetim stratejileri ve algoritmaları geliştirmek, aynı zamanda kabiliyetleri de artıran denetim mekanizmalarından yararlanmanın yollarını bulmak ve bazı hizalanma tekniklerinin belirli alanlarda performansı düşürmek yerine bilakis fiilen artırabileceğini göstermek. Farklı denetim yöntemleri için hizalanma vergisinin gerçek büyüklüğünü anlamak ve hangi maliyetlerin temel, hangilerinin ise yalnızca mevcut uygulamaların birer sonucu olduğunu tespit etmek, önemli bir araştırma önceliği olarak kalmaya devam etmektedir. Amaç, hizalanmış yapay zekâ sistemlerini, güvenlik odaklı geliştirmenin rekabetçi bir dezavantaj olmaktan çıkıp ekonomik olarak uygulanabilir hale geleceği kadar rekabetçi kılmaktır.

Kaynaklar

Askell, A., Bai, Y., Chen, A., Drain, D., Ganguli, D., Henighan, T., Jones, A., Joseph, N., Mann, B., DasSarma, N., Elhage, N., Hatfield-Dodds, Z., Hernandez, D., Kernion, J., Ndousse, K., Olsson, C., Amodei, D., Brown, T., Clark, J., … Kaplan, J. (2021). A General Language Assistant as a Laboratory for Alignment (No. arXiv:2112.00861). arXiv. https://doi.org/10.48550/arXiv.2112.00861

Christiano, P. (t.y.). Paul Christiano: Current Work in AI Alignment | Effective Altruism. Effective Altruism Forum. Geliş tarihi 11 Kasım 2025, gönderen https://www.effectivealtruism.org/articles/paul-christiano-current-work-in-ai-alignment

Leike, J. (2022, Aralık 19). Distinguishing three alignment taxes [Substack newsletter]. Musings on the Alignment Problem. https://aligned.substack.com/p/three-alignment-taxes