Türkçe Dil Modellerinde Persona Vektörleri: Karakter Özelliklerinin İzlenmesi ve Kontrolü

Müge Akbulut

Öz

Amaç: Büyük dil modellerinin davranışlarını anlama ve kontrol etme çabaları, yapay zekâ güvenliği açısından kritik öneme sahiptir. Bu çalışma, Chen ve arkadaşlarının (2025) geliştirdiği yöntemi Türkçeye uyarlamaktadır. Amaç, Türkçe dilinde eğitilmiş üretken bir dil modelinin aktivasyon uzayında belirli kişilik özelliklerini temsil eden persona vektörlerini çıkarmaktır. Araştırmanın hedefi, bu vektörlerin diller arası transfer edilebilirliğini ve Türkçe dil modellerinde güvenlik uygulamalarındaki potansiyelini ortaya koymaktır. 

Yöntem: Yedi persona (kötülük, aşırı uyumluluk, halüsinasyon, iyimserlik, kabalık, ilgisizlik, mizah) için her biri bir olumlu ve bir olumsuz komut içeren 63 karşıtsal komut çifti oluşturulmuştur. Cevap ortalaması (response averaging) stratejisi kullanılarak modelin 32. katmanından vektörler çıkarılmış; etkinlikleri Vektör Etkinlik Skoru (VES) ve davranışsal geçerlilikleri ise yönlendirme testleri ile değerlendirilmiştir. 

Bulgular: Çıkarılan persona vektörleri, hedeflenen kişilikleri başarıyla kodlamıştır (ortalama VES: 0,183±0,069). Geometrik VES ile gözlemlenen davranışsal performans arasında orta-güçlü pozitif bir korelasyon (r = 0,576) elde edilmiştir. Mizah personası, hem geometrik (VES=0,277) hem de davranışsal (etki=0,300) metriklerde en yüksek performansı sergilemiştir. 

Sonuç: Bulgular, persona vektörlerinin diller arası transfer edilebilirliğini doğrulamakta ve Türkçe dil modellerinde davranışsal izleme, kontrol ve veri seti denetimi için sağlam bir temel sunduğunu göstermektedir. VES ile davranışsal performans arasındaki korelasyon (r=0,576), yönteminin geçerliliğini desteklerken, daha kapsamlı doğrulama ihtiyacını da ortaya koymaktadır. 

Özgünlük: Bu araştırma, söz konusu yöntemi Türkçeye uygulayan ve persona vektörlerini Türkçe dil modellerinden çıkaran ilk çalışmadır. Dolayısıyla, diller arası transfer edilebilirlik literatürüne somut katkı sunmakta Türkçe doğal dil işleme alanındaki güvenlik araştırmalarına öncülük etmektedir.


Anahtar Kelimeler


Büyük dil modelleri, persona vektörleri, aktivasyon yönlendirme, diller arası transfer edilebilirlik, yapay zekâ güvenliği

Tam Metin: PDF
x
##plugins.generic.fileValidation.errorTitle##