Yapay zeka “zehirleniyor”: Sadece 250 kötü dosya bir LLM’e arka kapı açabiliyor
- recepkerimbilgin25
- 23 Eki
- 2 dakikada okunur
Alan Turing Enstitüsü, İngiltere Yapay Zeka Güvenlik Enstitüsü (AISI) ve Anthropic’in ortak çalışması, yalnızca 250 zararlı dokümanın büyük dil modellerinde (LLM) geri dönülemez değişiklikler backdoor/zehirleme yaratabildiğini gösterdi. Uzmanlar, eğitim verisi doğrulamasının artık güvenlik önceliği olması gerektiğini uyarıyor.

Yeni bir ortak araştırma, yapay zekâ modellerinin veri zehirlemesi (data poisoning) yoluyla beklenenden çok daha küçük bir çabayla ele geçirilebileceğini ortaya koydu. Anthropic, İngiltere Yapay Zeka Güvenlik Enstitüsü (AISI) ve Alan Turing Enstitüsü tarafından yürütülen deneylerde, farklı boyutlardaki modellerde yaklaşık 250 adet zarar verici dokümanın (poisoned documents) modele arka kapı (backdoor) yerleştirmek veya istenmeyen davranış tetiklemek için yeterli olduğu bulundu.

Araştırma, büyük modellerin eğitildiği devasa veri kümelerinde artık bir saldırganın yüzbinlerce ya da milyonlarca dosya kontrol etmesine gerek olmadığı sonucunu gösteriyor. Bu durum, internetten otomatik toplanan veri kaynaklarının güvenliğinin önemini daha da artırıyor.
Teknik olarak veri zehirleme, saldırganın eğitim verisine normal görünen fakat içinde bir tetikleyici (ör. nadir bir kelime veya kalıp) ve ardından modelin istenmeyen çıktıya yönlendirilmesini sağlayan örnekler eklemesiyle çalışıyor. Model tetikleyiciyi gördüğünde, normal kullanıcı etkileşimlerinde görünmeyen kötü niyetli davranışı sergileyebiliyor; bu tür “arka kapı” saldırıları hem hizmet reddi/eşitlik bozulması (denial-of-service tarzı) hem de daha tehlikeli güvenlik açıklarına yol açabilir.

Araştırma takımı deneylerinde, 600M ile 13B parametre aralığındaki modellerde benzer kırılganlık dinamikleri gözlendi; yani saldırının etkisi model boyutuna orantılı olarak artmıyor 250 doküman, farklı ölçeklerde benzer sonuçlar verebildi. Bu bulgu, veri seçim, kaynak doğrulama ve tedarik zinciri güvenliği (data supply chain) önlemlerinin önemini vurguluyor.
Bazı sanatçılar ve içerik sahipleri, eserlerine “zehir” (bozuk veya yanıltıcı içerik) yerleştirerek modellerin izinsiz kullanımına karşı savunma stratejileri geliştiriyor; fakat uzmanlar bu tür karşı hamlelerin sınırlı ve kısmi bir çözüm olduğunu, sistemik savunmalar ve eğitim veri doğrulama mekanizmaları gerektiğini belirtiyor. Ayrıca, temiz veri kaynaklarının, filigran veya meta-veri doğrulama gibi teknik denetimlerin ve model içi denetimlerin geliştirilmesi acil bir ihtiyaç olarak öne çıkıyor.

Ne yapılmalı? Araştırmacılar, veri tedarik zincirlerinin şeffaflaştırılması, veri kaynaklarının doğrulanması, eğitim seti denetimleri, model doğrulama testleri ve saldırılara dayanıklı eğitim/önleme yöntemlerinin (robust training, provenance tracking vb.) geliştirilmesini öneriyor. Bu önlemler alınmadığı takdirde; yanlış bilgi, güvenlik açıkları ve kötü niyetli kontrol olasılıkları artmaya devam edecek





Yorumlar