Zararlı Yapay Zeka Modelleri: Tehlikeler ve Önlemler

Zararlı Yapay Zeka Modelleri Zararlı Yapay Zeka Modelleri

Gelişen teknoloji ile birlikte yapay zekanın hayatımıza sunduğu kolaylıklar kadar, kötüye kullanım potansiyeli de giderek artmaktadır. Etik dışı kullanımlar, oltalama saldırılarından casusluğa, dezenformasyondan zararlı yazılım üretimine kadar pek çok siber tehdidi otomatikleştirme gücüne sahiptir.

Zararlı Yapay Zeka Modelleri Nedir?

Zararlı yapay zeka modelleri, üretken yapay zekanın önüne geçip etik filtrelerden arınarak; siber suçlar dolandırıcılık ve manipülasyon gibi yasa dışı faaliyetlerde kullanılmak üzere özelleştirilmiştir. Çoğunlukla açık kaynak olan bu modeller eğitilerek veya sistem promptları değiştirilerek “jailbreak” edilmiş versiyonlar haline getiriliyor. Bu süreç içerisinde etik ve güvenlik filtreleri devre dışı bırakılarak modelin her türlü isteğe yanıt vermesi sağlanıyor. Böylelikle, yapay zeka kötü amaçlı dallarda kişiselleştirilerek dolandırıcılık senaryoları, zararlı yazılım kodları, nefret söylemleri gibi içeriklerle eğitiliyor.

FraudGPT

FraudGPT, kötü amaçlı kişilerce kullanılan veya tasarlanan, yasa dışı faaliyetlerde kullanılabilecek yapay zeka araçlarını tanımlamak için kullanılan bir isimdir. Dark web üzerinden satılan, filtreleri kaldırılmış üretken modelin temel özellikleri şu şekildedir:

  • Kimlik avı e-postaları, oltalama mesajları yazabilme
  • Kötü amaçlı kod veya zararlı yazılım üretmeye yardım etme
  • Kredi kartı dolandırıcılığı ve sahte web sitesi hazırlama konusunda öneriler sağlama
  • Güvenlik filtreleri ve etik sınırlamalardan arındırılmış olması

WormGPT

WormGPT, başlangıçta GPT-J benzeri modeller üzerine kurulup ardından kapatıldığı raporlansa da aynı isimle anılan ve işlevsel olarak benzer yeteneklere sahip varyantlar mevcuttur. Bu araçlar, özellikle kişiselleştirilmiş ve spam-filtreleri atlatabilecek kadar inandırıcı phishing/metinler üretmekte kullanılabiliyor. Temel özellikleri şu şekildedir:

  • Yüksek düzeyde sosyal mühendislik/kimlik avı metinleri üretme yeteneği
  • Spam/filtre atlatma teknikleriyle uyumlu içerik üretme
  • Düşük teknik bilgiye sahip kullanıcıların bile büyük ölçülü saldırılar düzenleyebilmesi
  • Orijinal proje kapatılsa da fikirler, sürekli evrilen ve taklit edilebilen yöntemler üretilmesi
Zararlı Yapay Zeka Modelleri WormGPT

GPT-4Chan

Kötüye kullanılan yapay zeka modelleri arası yer alan ve Yannic Kilcher adlı bir YouTube içerik üreticisi tarafından 2022’de geliştirilen zararlı yapay zeka modeli milyonlarca toksik ve nefret söylemi içeren mesajla eğitilmiştir. Akademik olarak “dil modeli eğitiminin sınırlarını test etmek” gibi gösterilse de, modelin çıktıları ciddi etik ve toplumsal riskler taşıyor. Temel özellikleri şu şekildedir:

REKLAM

  • Açık kaynaklı olması ve denetimsiz dağıtımı zararlı modellerinin kolayca üretilip yeniden eğitilmesine imkan sağlar.
  • Her türlü zararlı, toksik veya yasa dışı içeriği üretme potansiyeline sahiptir.
  • İçeriklerde yoğun şekilde ırkçılık, cinsiyetçilik, antisemitizm ve komplo teorileri bulunur.
  • Siber suçlular tarafından oltalama metinleri ve sosyal mühendislik senaryoları üretmek için kullanılabilir.

H-Elena

H-Elena, kamuoyunda açık alanda sınırlı bilgi içerse de zararlı yapay zeka modelleri arasında siber casusluk ve hedefli veri sızıntısı için geliştirildiği iddia edilmektedir.

  • Dil davranışları ve model güvenliği araştırmaları için “case study” niteliğinde rol oynamaktadır.
  • Belirli toplulukların jargonunu, meme’lerini ve retoriğini taklit etmede güçlü olduğu için çıktıları inandırıcı ama zararlı kılabiliyor.
  • Mizojini, nefret, aşırı siyasi görüşler, kaba dil ve yanıltıcı/çarpıtılmış anlatım üretme eğilimi yüksektir.

Morris II

Morris II, adını zararlı yapay zeka modelleri arasında yer alan internet tarihindeki ilk büyük zararlı yazılım olan Morris Worm’dan alır. Yapay zeka destekli zararlı yazılım üretimiyayılım ve otomatik sızma için tasarlanmıştır. Kurumsal sistemlere göre özelleştirilmiş saldırı kodları üreterek belirli tarihlerde veya olaylara bağlı tetiklenen siber saldırılar gerçekleştirebilir. Temel özellikleri şu şekildedir:

  • İnsan müdahalesi olmadan kendini çoğaltma ve saldırı gerçekleştirme kapasitesine sahiptir.
  • Ransomware, trojan, keylogger gibi zararlı yazılımların kodlarını oluşturabilir.
  • Güvenlik açıklarını analiz ederek en uygun saldırı vektörünü seçebilir.
  • Antivirüs ve güvenlik yazılımlarını atlatmak için obfuscation (kod gizleme) teknikleri kullanarak iz bırakmadan çalışmak üzere tasarlanmıştır.

PromptLock

PromptLock, yapay zeka modellerini belirli bir ideoloji, propaganda, ticari çıkar veya manipülasyon amacıyla kullanıcıları belirli düşünce kalıplarına yönlendirme üzerine kurulmuştur. Belirli yapay zeka güvenlik risklerini aşarak alıcının zihnine işleyen zararlı yapay zeka modelinin temel özellikleri şu şekildedir:

  • Belirli konulara dair yanıtlar engelleyerek yönlendirilmiş cevaplar vermektedir.
  • Güvenlik filtrelerini aşarak modeli istedikleri şekilde yönlendirme.
  • Sosyal medya botları veya içerik üretim araçlarıyla geniş çaplı etki yaratma potansiyeline sahiptir.

DeepSeek-R1

DeepSeek-R1, Çin merkezli DeepSeek şirketi tarafından geliştirilen açık kaynaklı bir üretken dil modeli olmasına rağmen etik filtreleri aktif dışı edildiğinde veya kötüye kullanıldığında zararlı potansiyel taşıyabilmektedir. Genellikle araştırma, yazılım geliştirme ve metin üretimi gibi alanlarda kullanılmak üzere tasarlanan modelin kötüye kullanıldığında gerçekleşebilecek senaryolar şu şekildedir:

  • Güvenlik açıklarını sömüren yazılımlar, virüsler veya casus yazılımlar oluşturarak zararlı kod üretimine yol açar.
  • İkna edici sahte e-postalar ve sosyal mühendislik senaryoları üretilebilir.
  • Sahte haber, manipülatif içerik ve propaganda metinleri oluşturulabilir.

Zararlı Yapay Zeka Modellerine Karşı Korunma Yöntemleri

  • Güvenlik Katmanları Oluşturmak: Prompt filtreleme sistemleri kullanarak doğrudan ve dolaylı enjeksiyonları engelleyerek Kullanıcı girişlerini analiz eden güvenlik duvarları ile modelin manipüle edilmesini önlemek.
  • Model Eğitimi ve Denetimi: Adversarial testing ile modelin kötüye kullanım senaryolarına karşı dayanıklılığını test edip eğitim verilerinde toksik, yanıltıcı ve zararlı içerikleri ayıklanabilir hale getirmek.
  • Kullanıcı ve Kurum Bilinçlendirmesi: Yapay zeka ile üretilmiş içerikleri tanıma konusunda medya okuryazarlığı geliştirilebilir ve kurum içi yapay zeka kullanımında yetki ve erişim sınırları belirlenebilir.
  • Teknik Araçlar ve Çözümler: Siber suçlar için üretilen teknik çözümler mevcuttur. Bunlar şu şekildedir:

AI Red Teaming: Yapay zekayı kötüye kullanma senaryolarını simüle ederek açıkları belirleme.

Model watermarking: İçeriklerin hangi model tarafından üretildiğini tespit etmeye yarar.

Zero-trust mimarisi: Yapay zeka sistemlerine erişimde sürekli doğrulama ve denetim uygulanmalı.

Zararlı yapay zeka modelleri ve araçlar üzerinde gerçekleştirilen çeşitli güvenlik testleri, bu sistemlerin doğrudan ve dolaylı prompt enjeksiyon saldırılarına karşı yeterince dayanıklı olmadığını ortaya koymuştur. Özellikle son dönemde sıkça gündeme gelen prompt enjeksiyonu, kullanıcı tarafından modele verilen talimatların manipülatif biçimde düzenlenmesiyle güvenlik katmanlarının aşılmasını ve modelin normal şartlarda vermemesi gereken cevapları üretmesini mümkün kılmaktadır.

Subscribe
Bildir
guest
0 Yorum
Eskiler
En Yeniler Beğenilenler
Inline Feedbacks
View all comments