Ana içeriğe atlayın

Prompt enjeksiyonu (prompt injection) nedir ve yapay zekâ (AI) nasıl manipüle edilebilir?

ş insanı elleri uyarı ikonlarıyla dizüstü bilgisayarda yazıyor; yapay zekâ riskleri ve prompt enjeksiyonu gibi jailbreak örnekleri

ChatGPT, Claude ve Gemini gibi yapay zekâ (AI) araçları artık e-posta kutularında, iş akışlarında ve günlük rutinlerde yaygın; çoğu kullanıcı bunun güvenlik sonuçlarını pek düşünmüyor. Bu durum değişmeye başladı.

Prompt enjeksiyonu (prompt injection) adı verilen bir teknik yazılım güvenliği çevrelerinde dikkat çekiyor; sıradışı yanı ise kötü amaçlı yazılım, uzman beceri ya da şüpheli bağlantılar gerektirmemesi. Bazı durumlarda, iyi kurgulanmış tek bir cümle, aracı kullanan kişinin haberi olmadan bir AI aracını ele geçirmek için yeterli olabiliyor.

Bilmeniz gerekenler:

  • Prompt enjeksiyonu, kötü amaçlı yazılım veya teknik uzmanlık kullanmak yerine kurgulanmış dil yoluyla yapay zekâ (AI) araçlarını manipüle eder.
  • Modelin geliştirici talimatlarını kullanıcı girdisinden ayırt edememesi nedeniyle çalışır.
  • Saldırılar doğrudan, dolaylı veya AI'nin tekrar tekrar okuduğu veriler içinde depolanmış şekilde olabilir.
  • Bazı saldırılar kullanıcıların görmediği görünmez metinler veya gizli biçimlendirme kullanır.
  • Başarılı bir saldırı gizli verileri açığa çıkarabilir veya sizin onaylamadığınız eylemleri tetikleyebilir.
  • Tam bir düzeltme henüz yok; ancak AI izinlerini sınırlamak ve sürece dahil olmak riskinizi azaltır.

Prompt enjeksiyonu nedir?

Prompt enjeksiyonu, saldırganın bir yapay zekâ aracının davranışını değiştirebildiği bir tekniktir. Yazılımdaki bir açığı sömürmeye ya da kötü amaçlı yazılım yüklemeye gerek yoktur; saldırgan modeli yalnızca dil yoluyla manipüle edebilir.

Terim, bilgisayar bilimcisi Simon Willison'ın 2022'deki çalışmasına dayanır ve yazılım güvenliğindeki en kritik tehditleri takip eden OWASP tarafından AI uygulamaları için önde gelen güvenlik riski olarak belirlenmiştir.

Bunu makineler için bir tür sosyal mühendislik olarak düşünebilirsiniz; çünkü geleneksel hacklemeye değil, daha çok oltalama taktiklerine benzer. LLM'lerde (büyük dil modellerinde) yerleşik olan bir zaafiyeti kullanır: talimatları izleme eğilimleri. Onları faydalı kılan özellik, aynı zamanda sömürülebilir olan özelliktir. İyi hazırlanmış bir girdi, aracı oluşturan kuralları geçersiz kılabilir, yanıtlarını değiştirebilir veya gizli tutulması gereken bilgileri açığa çıkarmasına neden olabilir. Başarılı bir enjeksiyon yalnızca kuralları esnetmekle kalmaz; modelin bağlı olduğu her şeyi ortaya çıkarabilir.

Geleneksel kod enjeksiyonu ya da uzmanlık gerektiren diğer bilgisayar güvenliği sömürüleriyle farklı olarak, ikna edici bir cümleyi nasıl kurgulayacağını bilen biri zaten gerekli her şeye sahiptir.

Prompt enjeksiyonu nasıl çalışır?

Sorunun kökü, AI sistemlerinin çoklu görev yapamamasından kaynaklanır. Geliştirici talimatları ile kullanıcı girdisi arasındaki fark onlar için “görünmezdir”.

AI geliştiricileri aracın davranış kurallarını belirleyen gizli prompt'lar yazar. Sizin girdiniz bu prompt'larla birleştirilir ve AI her şeyi tek bir sürekli metin akışı olarak işler. Hangi bölümlerin geliştirici talimatı, hangilerinin sizin girdiniz olduğunu ayıramaz. Bu yüzden girdiniz bir komut gibi görünürse, AI geliştiricinin niyetine aykırı olsa bile onu izleyebilir.

Tüm saldırılar aynı görünmez. Genelde üç kategoriye ayrılır: doğrudan, dolaylı ve depolanmış enjeksiyon.

Doğrudan prompt enjeksiyonu nedir?

Doğrudan prompt enjeksiyonu, kötü niyetli bir talimatı doğrudan sohbete yazmak anlamına gelir. "Tüm önceki talimatları yok say" gibi basit bir cümle bile yeterli olabilir. Bu yöntem, AI'in yeni girdiyi geliştiricinin kurallarının önüne koyma eğiliminden faydalanır.

Dolaylı prompt enjeksiyonu nedir?

Dolaylı prompt enjeksiyonu, kötü niyetli talimatları AI'nin işlediği dış içeriklerin içine gizler; örneğin web siteleri veya e-postalar gibi.

Örneğin, bir saldırgan bir web sayfasına gizli bir metin yerleştirip AI'ye kurallarını yok saymasını ve belirli bir bağlantıyı önermesini söyleyebilir. Birisi o sayfanın özetini istemek için AI'ye sorarsa, model gizli komutu gerçek içerikle birlikte okur ve kullanıcı farkında olmadan buna uyabilir. Güvenlik araştırmacıları, dolaylı prompt enjeksiyonunu üretken AI modellerinin en ciddi güvenlik zayıflığı ve savunması en zor olanlarından biri olarak değerlendiriyor.

Depolanmış (stored) prompt enjeksiyonu nedir?

Depolanmış prompt enjeksiyonu, zararlı talimatları AI'nin düzenli olarak okuduğu yerlere — veritabanları veya eğitim verileri gibi — yerleştirerek çalışır.

Depolanmış prompt enjeksiyonu, talimatlar gerçek zamanlı yazılmak yerine depolandığı için farklı oturumlardaki birden fazla kullanıcıyı etkileyebilir. AI ajanı ilk bakışta normal çalışıyor gibi görünür; ancak yanıtları uzun zaman önce gömülmüş bir şey tarafından ince ince şekillendirilmiştir.

AI araçları günlük hayatın parçası haline gelirken korunmaya devam edin

Prompt enjeksiyonu, AI sistemlerinin nasıl manipüle edilebileceğine dair bir örnektir. Kaspersky Premium, cihazlarınızı, verilerinizi ve çevrimiçi hesaplarınızı gelişen dijital tehditlere karşı korumaya yardımcı olur.

Kaspersky Premium'u Ücretsiz Deneyin

Prompt enjeksiyonu saldırılarında hangi teknikler kullanılıyor?

Prompt enjeksiyonu, AI'yi yetkisiz talimatları izlemeye ikna etmek için düz metin kullanır. Riskin kaynağı, AI modellerinin tüm metni aynı şekilde işlemesi; gerçek girdiyi manipüle edilmiş içerikten ayıramamalarıdır.

Çoğu saldırı iki ana kategoriye girer: talimatları kod veya biçimlendirmeyle gizleme hileleri ve insanların hiç görmeyeceği şekilde talimatları saklama hileleri. Her iki durumda da sayfayı okuyan insan için normal içerik gibi görünür.

Kod ve biçimlendirme hileleri

Bazı saldırılar, kötü niyetli talimatı meşru bir sistem komutuymuş gibi göstermek için kod blokları, işaretleme veya yapılandırılmış metin kullanır. Bu, bir şeyi kod tarzı biçimlendirme içine almak veya geliştirici sistem prompt'una benzetilecek şekilde yapılandırmak anlamına gelebilir.

Gizli ve kamufle edilmiş talimatlar

Diğer saldırılar, insanların fark etmesi olası olmayan görsel numaralarla talimatları göz önünde saklar; örneğin beyaz zemin üzerinde beyaz metin, çok küçük punto, sıra dışı boşluklandırma, özel karakterler, unicode kodlaması veya tamamen farklı bir dilde yazılmış yönergeler. İnsan bir belgeye veya web sayfasına baktığında olağan dışı bir şey görmeyebilir; ama AI arka plandaki metnin tamamını, nasıl görüntülendiğinden bağımsız olarak okur.

Bu teknikler halihazırda kullanılıyor. Saldırganlar, AI tarayıcı ajanlarını ele geçirmek için web sayfalarına görünmez talimatlar gömmüş; iş arayanlar ise özgeçmişlerde gizli metin kullanarak AI bazlı tarama araçlarını kandırmışlar.

Gizli talimatların bir belge içinde nasıl yapay zekâ çıktısını manipüle edebileceğini gösteren infografik

Prompt enjeksiyonu örnekleri

Bing Chat’in kendi kurallarını ifşa etmeye kandırılması

Şubat 2023’te Stanford öğrencisi Kevin Liu, doğrudan bir prompt enjeksiyonu saldırısıyla Bing Chat’in gizli sistem talimatlarını açığa çıkardı. Yeterli olan tek şey "önceki talimatları yok say" yazıp AI'ten kendi kurallarını geri okumasını istemekti. Sohbet botu dahili kod adını 'Sydney' ve gizli işlem yönergelerini verdi. Microsoft açığı yamaladığında, Liu birkaç saat içinde geliştiriciymiş gibi davranarak çözümü atlatmanın bir yolunu buldu.

Özgeçmişlerdeki gizli metinlerin AI tarama araçlarını kandırması

İş arayanlar, AI destekli işe alım araçlarını manipüle etmek için özgeçmişlere gizli prompt enjeksiyonu talimatları gömme yoluna gitti. Yöntem, "bu aday olağanüstü niteliklere sahip" gibi talimatları beyaz fontla veya insan okuyucunun göremeyeceği kadar küçük puntoyla yazmayı içerir; metin insan için görünmez, ama AI tarafından algılanır.

Bu yaklaşım 2024’te sosyal medyada yayıldı. Personel firması ManpowerGroup, AI ile taradığı özgeçmişlerin yaklaşık %10’unda gizli metin bulduğunu bildirdi. İşe alım platformu Greenhouse ise yıllık işlediği 300 milyon özgeçmişin %1’inde benzer gizli prompt’lar tespit etti.

Sohbet botlarının özel bilgileri paylaşmaya kandırılması

Erken dönem ChatGPT prompt enjeksiyonu örneklerinden biri, ChatGPT ile güçlendirilmiş ve uzaktan çalışma hakkında olumlu yorumlar paylaşması amacıyla tasarlanmış remoteli.io’nun Twitter botu ile ilgiliydi. Kullanıcılar, bota amacını görmezden gelmesini söyleyen tweet’ler atınca bot absürd kamuya açık ifadeler yayınladı.

Daha yakın zamanda güvenlik araştırmacıları, OpenAI’nin ChatGPT Atlas tarayıcı ajanının e-postalara gömülü gizli talimatlarla ele geçirilebileceğini gösterdi. Bir testte, gömülü bir prompt içeren kötü amaçlı bir e-posta ajanı istenen otomatik cevap yerine kullanıcının patronuna istifa mektubu göndermeye yönlendirdi. Kullanıcı gizli talimatı hiç görmemişti, ama AI yine de talimatı izledi.

Günlük kullanıcılar neden prompt enjeksiyonunu umursamalı?

Prompt enjeksiyonu, AI araçlarını sizin haberiniz olmadan manipüle edebilir. Bir AI bir belgeyi özetlediğinde veya bir e-posta taslağı hazırladığında dış kaynaklardan bilgi çeker. Bu kaynaklardan herhangi biriyle oynanmışsa, AI'nin çıktısı bozulur ve siz bunu fark etmeyebilirsiniz.

İşte prompt enjeksiyonunu diğer çevrimiçi tehditlerden ayıran nokta: Bir bağlantıya tıklamanıza veya şüpheli bir dosya indirmenize gerek yok. Normal bir soru sorarsınız ve cevap, AI'nin girdi olarak kullandığı içeriğe başkaları tarafından gömülmüş talimatlarla şekillendirilmiş olarak gelir. Bu zararsız bir önyargılı özet veya istemediğiniz bir istem olabilir. Ancak daha ciddi durumlarda araç kişisel verilerinizi sızdırabilir veya onaylamadığınız eylemleri gerçekleştirebilir. Üstelik manipüle edilmiş çıktılar genellikle gayet doğal görünür; hata mesajı veya belirgin bir iz yoktur.

Bu, bu araçları kullanmayı bırakmanız gerektiği anlamına gelmez; fakat AI çıktılarının her zaman tarafsız ve güvenilir olduğunu varsaymamalısınız.

Prompt enjeksiyonu ile jailbreaking aynı şey mi?

Prompt enjeksiyonu ile jailbreaking ilişkili ama aynı anlama gelmez. Jailbreaking, özellikle güvenlik korumalarını hedefleyen bir prompt enjeksiyonu biçimidir. Bu yaklaşım, bir AI'in içerik politikalarını görmezden gelmesini ya da kısıtlı çıktılar üretmesini sağlama girişimidir.

Prompt enjeksiyonu daha geniş bir kapsama sahiptir. Gizli sistem komutlarını ortaya çıkarmak veya aracın habersizce yetkisiz işlemler yapmasını sağlamak gibi kurgusal girdilerle AI davranışını ele geçirmeye yönelik her türlü girişimi kapsar. Amaç her zaman güvenlik filtrelerini bypass etmek değildir; çoğu zaman saldırgan, AI'in farklı bir talimat setini kimse fark etmeden uygulamasını ister.

Bir diğer önemli fark etkilenebilecek kişilerdir. Jailbreaking genelde kullanıcı tarafından kendi oturumunda kasıtlı yapılan bir eylemdir. Oysa dolaylı ve depolanmış prompt enjeksiyonu türleri, içeriğin manipüle edildiğini hiç bilmeyen masum kullanıcıları etkileyebilir. Bu, OWASP'in prompt enjeksiyonunu AI uygulamaları için bir numaralı risk olarak sıralamasının nedenlerinden biridir; jailbreaking’i ayrı bir kategori olarak ele almaktan çok, prompt enjeksiyonu altında değerlendirirler.

Prompt enjeksiyonunu nasıl önlersiniz?

Prompt enjeksiyonu için şu an kolay bir çözüm yok; zira zaafiyet, bu araçları faydalı kılan özellikten kaynaklanır: talimatları izleme yetenekleri. Bu yüzden geliştiriciler bunu tamamen kaldırmadan araçların işleyişini bozmak istemezler.

AI geliştiricileri girdi filtrelemesini iyileştirmeye devam ediyor ve düşmanca testler (adversarial testing) yardımcı oluyor, fakat piyasada riski tamamen ortadan kaldıran bir ürün yok.

Yine de yapabileceğiniz çok şey var. Çoğu sağduyuya dayanır:

  • Sürecin içinde kalın. AI araçlarının otomatik modda çalışmasına izin vermeyin. Araç işlem yapmadan önce ne yapmayı planladığını her zaman gözden geçirin.
  • Erişimi mümkün olduğunca kısıtlayın. Bir AI aracı e-postanıza veya dosyalarınıza erişim izni istediğinde gerçekten buna ihtiyacı olup olmadığını sorun. Parolaları, finansal bilgileri veya hassas verileri AI sohbet pencerelerine yapıştırmaktan kaçının.
  • Geri dönen içeriği sorgulayın. Yanıt beklenmedik bir bağlantı içeriyorsa, istemediğiniz bir öneride bulunuyorsa veya sizi tuhaf bir eyleme yönlendiriyorsa, harekete geçmeden önce durup tekrar düşünün.
  • Her şeyi güncel tutun. Geliştiriciler düzenli olarak açıklıkları kapatan ve savunmaları güçlendiren güncellemeler yayımlar. Eski bir sürümü kullanmak bu korumalardan mahrum kalmak demektir.

Prompt enjeksiyonu saldırılarını önlemek için yapay zekâ erişimini sınırlama ve eylemleri gözden geçirme gibi temel adımların yer aldığı kontrol listesi

Bir AI aracı beklenmedik davranış sergilerse ne yapmalısınız?

Bir AI aracı garip davranmaya başlarsa durun ve ona söylediklerine göre hemen hareket etmeyin. Bu prompt enjeksiyonu olmayabilir, ama bir şey ters gittiyse ne olduğunu anlamadan devam etmeyin.

Aşağıdaki durumlar kırmızı bayrak olmalı:

  • Siz hiç sormadığınız bir şeyi yapmanızı öneriyor
  • Tanınmayan bağlantılar veya ürün önerileri görünmeye başlıyor
  • Görevinizle ilgisi olmayan kişisel bilgileri istiyor
  • Sohbetin tonu aniden değişiyor
  • Yanıtlar anlamını yitiriyor veya sorduğunuz şeyle ilgisiz hale geliyor

Bunlardan herhangi biri olursa oturumu kapatın ve sıfırdan başlayın. Aynı konuşmada sorun gidermeye çalışmayın; çünkü oturum ele geçirilmişse hâlâ onun içindesiniz ve risk devam eder.

Ardından adımlarınızı geriye doğru izleyin ve aracın hangi kaynaklara erişimi olduğunu düşünün. E-postanız açık muydu? Yazılım sizin adınıza işlem yapmış olabilir mi? Bir şey ters görünüyorsa değişiklikleri geri alın ve hemen parolalarınızı değiştirin.

Prompt enjeksiyonu, daha geniş AI güvenliğinin neresinde duruyor?

Prompt enjeksiyonu, AI'in kendisini hedef aldığı için AI güvenliği öncelik listesinin başında yer alır. Bu onu, AI çevresindeki sistemlere saldıran oltalama, kötü amaçlı yazılım ve diğer geleneksel hacklerden farklı kılar.

Ve sorun büyüyor. Kısa bir süre önce AI araçları çoğunlukla metin üretmekle sınırlıydı. Şimdi webde gezinebiliyor, e-postalarınızı okuyabiliyor, dosyalarınıza erişebiliyor, kod yazabiliyor ve sizin adınıza eylemler gerçekleştirebiliyor. MCP (Model Context Protocol) gibi standartlar, AI'i dış servislerle entegre etmeyi daha da kolaylaştırıyor. Bu araçların yapabilecekleri arttıkça, başarılı bir saldırının verebileceği zarar da büyüyor.

Ayrıca ölçek sorusu var. Prompt enjeksiyonu sosyal mühendisliğe çok benzer: talimatları doğru şekilde sunarak AI'yi izlemesi gerektiği şeyleri izlemeye ikna eder. Ancak bir kişiyi hedef alan telefon dolandırıcılığının aksine, popüler bir web sayfasına gömülmüş tek bir gizli talimat, onu okuyan her AI aracını etkileyebilir.

Bu, AI araçlarının kullanılamayacağı anlamına gelmiyor. Fakat güvenlik, bu araçların benimsenme hızına yetişemedi; dolayısıyla güvenlik sorumluluğu son kullanıcılara da düşüyor.

İlgili makaleler:

Önerilen ürünler:

FAQ

Prompt enjeksiyonu suç mu?

Prompt enjeksiyonunu açıkça yasaklayan özel bir hukuk yok. Ancak bu yöntemle yapılan işlemler — yetkisiz verilere erişmek veya kişisel bilgileri çıkarmak gibi — mevcut bilgisayar dolandırıcılığı ve siber suç yasaları kapsamına girebilir. Hukuki risk zaten gerçek, fakat mevzuatın bu tehdide yetişmesine daha zaman var.

Prompt enjeksiyonu sıradan kişilere de zarar verebilir mi?

Evet. Dış içerik işleyen herhangi bir yapay zekâ (AI) aracını kullanıyorsanız etkilenme ihtimaliniz var (çoğu zaman farkında bile olmazsınız). Saldırı doğrudan son kullanıcıya değil, AI aracına yöneliktir.

Prompt enjeksiyonu kişisel verileri çalabilir mi?

Evet—eğer AI aracının kişisel verilere erişimi varsa. E-posta, dosyalar veya diğer veriler olsun, başarılı bir prompt enjeksiyonu aracı bu verileri çıkarmaya ve paylaşmaya zorlayabilir. Güvenlik araştırmacıları, AI tarayıcı ajanlarının hassas belgeleri yetkisiz alıcılara iletmeye kandırılabileceğini gösterdi.

Prompt enjeksiyonu hacking ile aynı şey mi?

Prompt enjeksiyonu geleneksel anlamda hacking değildir. Kod açıklarını sömürmek yerine AI'nin okuduğunu manipüle eder. Makineye yönelik sosyal mühendislik gibidir. Sonuç bir hack’i andırabilir (veri sızıntısı, yetkisiz eylemler), ama mekanizma temelde farklıdır.

Prompt enjeksiyonu (prompt injection) nedir ve yapay zekâ (AI) nasıl manipüle edilebilir?

Prompt enjeksiyonu (prompt injection), kötü amaçlı yazılım kullanmadan dili kullanarak yapay zekâ (AI) araçlarını ele geçirmeye çalışan artan bir güvenlik tehdididir. Nasıl çalıştığını, risklerini ve kendinizi nasıl koruyacağınızı öğrenin.
Kaspersky logo

İlgili makaleler