Yorumlanabilirlik

Takdim

Modern sinir ağları programlanmaz, eğitilir. Devasa veri kümeleri üzerinde yapılan optimizasyon süreçleri aracılığıyla, problem çözmek için kendi içsel stratejilerini geliştirirler: bu stratejiler, geliştiricileri için anlaşılmaz olan milyarlarca parametreye kodlanmıştır. Yorumlanabilirlik, bu içsel mekanizmaları anlamayı hedefleyen bir disiplindir: sinir ağlarının hangi kavramları temsil ettiğini ve çıktılarını nasıl hesapladığını keşfetmek için tersine mühendislik uygulamak. Yapay zekâ güvenliği için yorumlanabilirlik, gelişmiş yapay zekâ sistemlerinin yalnızca öyle görünmek yerine, gerçekten niyet ettiğimiz şeyi yaptığını doğrulama potansiyeli sunar.

Açıklanabilirlik vs. Yorumlanabilirlik

“Yorumlanabilirlik” terimi, oldukça geniş bir yaklaşım yelpazesini kapsar. Önemli bir ayrım, açıklanabilirliği (veya XAI) mekanistik yorumlanabilirlikten ayırır. LIME ve SHAP gibi açıklanabilirlik yöntemleri, model tahminleri için sonradan açıklamalar üretir; bu açıklamalar, modelin davranışını yerel olarak yaklaşık olarak belirler veya girdi özelliklerine önem puanları atfeder. Bu yöntemler modeli bir kara kutu olarak ele alır ve “bu çıktı için hangi girdiler önemliydi?” sorusunu sorar. Hata ayıklama ve uyumluluk için faydalı olsalar da, modelin cevaplarını gerçekte nasıl hesapladığını ortaya koymazlar.

Mekanistik yorumlanabilirlik, temelden farklı bir yaklaşım benimser. Model davranışını dışarıdan tahmin etmek yerine, ağın içindeki gerçek hesaplama mekanizmalarını tersine mühendislikle incelemeyi hedefler; sinirsel aktivasyonlarda kodlanan kavramları ve ağ ağırlıklarında uygulanan algoritmaları tanımlar. Amaç, bir yazılım parçasını kaynak kodunu okuyarak anlamak ya da bir biyologun bir organizmayı hücrelerini ve devrelerini inceleyerek anlaması gibi, sinir ağlarını anlamaktır. Bu aşağıdan yukarıya yaklaşım, sinir ağlarını bilimsel bir araştırma nesnesi olarak ele alır ve yalnızca korelasyonel değil, nedensel bir anlayışa ulaşmaya çalışır.

Temel Kavramlar

Mekanistik yorumlanabilirlik, öncelikle Chris Olah ve işbirlikçileri tarafından başlatılan “Devreler” (Circuits) araştırma programı aracılığıyla geliştirilen birkaç temel kavrama dayanmaktadır.

Özellikler, sinir ağlarındaki temel temsil birimleridir; ağın tespit etmeyi öğrendiği kavramlar veya niteliklerdir. Bir görüş modelinde özellikler, kenar dedektörlerini, doku tanıyıcıları veya nesne parçalarını içerebilir; bir dil modelinde ise özellikler, sözdizimsel (sentaktik) örüntüleri, semantik kavramları veya olgusal bilgiyi temsil edebilir. Doğrusal temsil hipotezi, özelliklerin sinir ağlarının yüksek boyutlu aktivasyon uzayındaki yönlere karşılık geldiğini öne sürer; bu da kavramların tek tek nöronlar olarak değil, vektörler olarak kodlandığı anlamına gelir.

Devreler, belirli hesaplamaları gerçekleştiren ağ alt graflarıdır; tanımlanabilir algoritmaları uygulayan ağırlıklarla birbirine bağlanmış özellik koleksiyonlarıdır. Örneğin, “tümevarım başları”, transformatörlerde keşfedilen ve bağlam içi öğrenmeyi sağlayan bir devredir; model “$A B … A$” gördüyse, tümevarım devresi “$B$“yi tahmin etmesine yardımcı olur. Bir modeli anlamak, onun davranışını oluşturmak üzere bir araya gelen devreleri anlamak demektir.

Çok anlamlılık (Polysemanticity), tek tek nöronların birbiriyle ilgisiz birden fazla kavrama yanıt vermesi olgusudur. Tek bir nöron, akademik alıntılar, HTTP istekleri ve Korece metin için aynı anda etkinleşebilir, bu da nöron düzeyindeki yorumlamayı güvenilmez kılar.

Süperpozisyon, çok anlamlılığın varsayımsal nedenidir: sinir ağları, özellikleri aktivasyon uzayında örtüşen, neredeyse ortogonal yönler olarak kodlayarak sahip olduklarından daha fazla özelliği temsil eder. Bu, özellikler seyrek olduğunda verimli bir sıkıştırma sağlar ancak yorumlamayı zorlaştıran bir girişim (interference) yaratır. Süperpozisyonun varlığı ve dinamikleri, Elhage ve diğerleri (2022) tarafından oyuncak modellerde gösterilmiş ve tek anlamlı (monosemantic) ile çok anlamlı (polysemantic) rejimler arasındaki faz geçişlerini ortaya çıkarmıştır.

Yöntemler

Mekanistik yorumlanabilirlik araştırmaları için çeşitli teknikler geliştirilmiştir. Seyrek öz-kodlayıcılar (Sparse Auto-Encoders/SAE), model aktivasyonlarını daha geniş bir seyrek etkinleşen özellikler kümesine ayrıştırmayı öğrenerek süperpozisyon sorununu çözmeye çalışır. Model aktivasyonları üzerinde eğitilmiş bir SAE, özelliklerden oluşan “aşırı-tam” (fazladan elemanlı, İngilizcede “overcomplete” anlamında) bir sözlük öğrenir, nöronlardan çok daha fazla özellik, her girdi yalnızca az sayıda özelliği etkinleştirir.

Claude 3 Sonnet’e uygulandığında, SAE’ler Golden Gate Köprüsü, sinirbilim, turistik yerler ve hatta aldatma ve önyargı gibi soyut kavramlara karşılık gelen milyonlarca yorumlanabilir özellik tanımlamıştır. Aktivasyon yamalama (yani “activation patching”, “causal tracing” olarak da adlandırılıyor), bir ileri geçişteki aktivasyonları başka bir geçişteki aktivasyonlarla değiştirip çıktılar üzerindeki etkileri gözlemleyerek hangi bileşenlerin belirli davranışlardan sorumlu olduğuna dair hipotezleri test eder.

Bu, araştırmacıların hesaplamaları yerelleştirmesine ve devreler hakkındaki nedensel iddiaları doğrulamasına olanak tanır. Devre izleme, girdileri çıktılara dönüştüren hesaplama grafiğini haritalamak için bu yöntemleri genişletir. Anthropic’in 2025’teki çalışması, bir modelin yanıtlar üretmek için kullandığı ara adımların görsel temsilleri olan atıf çizgelerini (“attribution graphs”, buradaki “atıf” modelin çıktısını hangi girdiye ya da hangi iç bileşene “atfettiği” anlamında) tanıtmıştı; atıf çizgelerindeki “düğümler” özellikleri ve kenarlar nedensel etkileşimleri temsil ediyor.

Yine Anthropic tarafından yürütülen Claude 3.5 Haiku’ya uygulanan devre izleme (“circuit tracing”) araştırması, modelin yalnızca çıktı aşamasında belirli dillere çevrilen dilden bağımsız kavramsal temsiller kullandığını ve şiir üretiminin, dizeleri oluşturmadan önce kafiye kısıtlamalarının önceden planlanmasını içerdiğini ortaya çıkarmıştı.

Problemler

Yorumlanabilirlik, önemli zorluklarla karşı karşıyadır. Ölçeklenebilirlik temel engel olmaya devam etmektedir: küçük modellerde veya dar davranışlarda işe yarayan teknikler, aşırı konfigürasyonlardaki sistemlerinin karmaşıklığına tam olarak ölçeklenemeyebilir. Mevcut devre analizleri, genellikle model yeteneklerinin tüm uzayından ziyade belirli, yalıtılmış görevleri inceler.

Yorumlama tekniklerinin sonuçlarını teyit etmek, metodolojik olarak zordur. Yorumlarımızın makul görünen hikayeler yerine doğru olduğunu nasıl bilebiliriz? Yorumlanabilirlik alanı, müdahaleye dayalı yaklaşımlar geliştirmiştir (tanımlanan bileşenleri manipüle etmenin öngörülen etkileri yarattığını doğrulamak) ancak yorumlanabilirlik iddiaları için temel gerçeği oluşturmak zorlu olmaya devam etmektedir. Katmanlar arası üst üste binme ve hesaplamanın transformatör katmanları boyunca dağıtılmış, ademimerkeziyetçi, doğası, analizi karmaşıklaştırır. Bir katmanda tanımlanan özellikler, diğer katmanlardaki özelliklerle girift şekillerde etkileşime girebilir.

Devre izleme tarafından üretilen atıf çizgeleri bu karmaşıklığın bir kısmını yakalar ancak yaklaşık değerler olarak kalır. Son olarak, mekanistik anlayışın modellerin becerileriyle beraber ölçeklenip ölçeklenmeyeceği sorusu vardır. Modeller daha yetenekli hale geldikçe, iç temsilleri daha soyut ve insan kavramlarıyla daha az hizalı hale gelebilir, bu da potansiyel olarak yorumlamayı kolaylaştırmak yerine zorlaştırabilir.

Mevcut Durum

Yorumlanabilirlik, alanda çalışan pek çok araştırmacının da kabul ettiği gibi, henüz temel kavramlarını ve yöntemlerini hala geliştirmekte olan “paradigma öncesi” bir bilimdir.

Görüntü modellerindeki erken dönem özellik görselleştirme çalışmalarından, transformatör devreleri için matematiksel çerçeveye, üretim modellerinden milyonlarca özellik çıkaran seyrek öz kodlayıcılara ve öncü sistemlerdeki hesaplama yollarını ortaya çıkaran devre izlemeye kadar önemli ilerlemeler kaydedilmiştir.

Anthropic, 2027 yılına kadar “model sorunlarının çoğunu güvenilir bir şekilde tespit edebilen” bir yorumlanabilirlik seviyesine ulaşma hedefi belirlemiştir. Bunun başarılabilir olup olmadığı ve yorumlanabilirliğin hızla ilerleyen yeteneklere ayak uydurup uyduramayacağı henüz belirsizdir. Ancak bu araştırma programı, YZ sistemlerini kara kutu olarak ele almanın ötesine geçip gerçek bilimsel anlayışa doğru en doğrudan girişimlerden birini temsil etmektedir.

Kaynakça

Ameisen, E., Lindsey, J., Pearce, A., Gurnee, W., Turner, N. L., Chen, B., Citro, C., Abrahams, D., Carter, S., Hosmer, B., Marcus, J., Sklar, M., Templeton, A., Bricken, T., McDougall, C., Cunningham, H., Henighan, T., Jermyn, A., Jones, A., … Batson, J. (2025). Circuit tracing: Revealing computational graphs in language models. Transformer Circuits Thread. https://transformer-circuits.pub/2025/attribution-graphs/methods.html

Bereska, L., & Gavves, E. (2024). Mechanistic Interpretability for AI Safety—A Review (No. arXiv:2404.14082). arXiv. https://doi.org/10.48550/arXiv.2404.14082

Bricken, T., Templeton, A., Batson, J., Chen, B., Jermyn, A., Conerly, T., Turner, N., Anil, C., Denison, C., Askell, A., Lasenby, R., Wu, Y., Kravec, S., Schiefer, N., Maxwell, T., Joseph, N., Hatfield-Dodds, Z., Tamkin, A., Nguyen, K., … Olah, C. (2023). Towards monosemanticity: Decomposing language models with dictionary learning. Transformer Circuits Thread.

Cunningham, H., Ewart, A., Riggs, L., Huben, R., & Sharkey, L. (2023). Sparse Autoencoders Find Highly Interpretable Features in Language Models (No. arXiv:2309.08600). arXiv. https://doi.org/10.48550/arXiv.2309.08600

Elhage, N., Hume, T., Olsson, C., Schiefer, N., Henighan, T., Kravec, S., Hatfield-Dodds, Z., Lasenby, R., Drain, D., Chen, C., Grosse, R., McCandlish, S., Kaplan, J., Amodei, D., Wattenberg, M., & Olah, C. (2022). Toy Models of Superposition (No. arXiv:2209.10652). arXiv. https://doi.org/10.48550/arXiv.2209.10652

Elhage, N., Nanda, N., Olsson, C., Henighan, T., Joseph, N., Mann, B., Askell, A., Bai, Y., Chen, A., Conerly, T., DasSarma, N., Drain, D., Ganguli, D., Hatfield-Dodds, Z., Hernandez, D., Jones, A., Kernion, J., Lovitt, L., Ndousse, K., … Olah, C. (2021). A mathematical framework for transformer circuits. Transformer Circuits Thread.

Lindsey, J., Gurnee, W., Ameisen, E., Chen, B., Pearce, A., Turner, N. L., Citro, C., Abrahams, D., Carter, S., Hosmer, B., Marcus, J., Sklar, M., Templeton, A., Bricken, T., McDougall, C., Cunningham, H., Henighan, T., Jermyn, A., Jones, A., … Batson, J. (2025). On the biology of a large language model. Transformer Circuits Thread. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Olah, C., Cammarata, N., Schubert, L., Goh, G., Petrov, M., & Carter, S. (2020). Zoom In: An Introduction to Circuits. Distill, 5(3), 10.23915/distill.00024.001. https://doi.org/10.23915/distill.00024.001

Templeton, A., Conerly, T., Marcus, J., Lindsey, J., Bricken, T., Chen, B., Pearce, A., Citro, C., Ameisen, E., Jones, A., Cunningham, H., Turner, N. L., McDougall, C., MacDiarmid, M., Freeman, C. D., Sumers, T. R., Rees, E., Batson, J., Jermyn, A., … Henighan, T. (2024). Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread. https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html