Kulaklarınıza inanmayın: ses deepfake’leri

Herhangi birinin sesini taklit edebilen ses deepfake’leri şimdiden milyonlarca dolarlık dolandırıcılıklar için kullanılıyor. Deepfake’ler nasıl yapılır ve kendinizi kurban olmaktan koruyabilir misiniz?

Telefonda kiminle konuştuğumuzu nasıl anladığımızı hiç merak ettiniz mi? Kuşkusuz ekranda görüntülenen addan daha fazlasıyla. Kayıtlı bir numara aradığında tanımadığımız bir ses duyarsak, bir şeylerin ters gittiğini hemen anlarız. Gerçekte kiminle konuştuğumuzu belirlemek için bilinçsizce konuşmanın tınısına, tarzına ve tonlamasına dikkat ederiz. Ancak yapay zekanın dijital çağında kendi işitme duyumuz ne kadar güvenilir? En son haberlerin gösterdiği gibi, duyduklarımız her zaman güvenmeye değmez çünkü sesler sahte olabilir: deepfake (derin sahtecilik).

Yardım edin, başım belada

2023 baharında, Arizona’daki dolandırıcılar bir kadından telefonla zorla para almaya çalıştı. 15 yaşındaki kızının yardım için yalvaran sesini duydu, kimliği belirsiz bir adam telefonu kaptı ve fidye istedi. Bu arada kızının çığlıkları arka planda hâlâ duyulabiliyordu. Anne, sesin gerçekten çocuğuna ait olduğundan emindi. Neyse ki, kızının iyi olduğunu çabucak öğrendi ve bu da onun bir dolandırıcı kurbanı olduğunu anlamasına yol açtı.

Saldırganların gencin sesini taklit etmek için deepfake kullandığı %100 kanıtlanamaz. Belki de dolandırıcılık daha geleneksel bir nitelikteydi; arama kalitesi, durumun beklenmedikliği, stres ve annenin hayal gücü, annenin duymadığı bir şeyi duyduğunu düşünmesini sağlamak için üzerlerine düşeni yaptı. Ancak bu durumda sinir ağı teknolojileri kullanılmamış olsa bile, deepfake’ler gerçekten de meydana gelebilir ve gelmektedir ve gelişimleri devam ettikçe giderek daha inandırıcı ve daha tehlikeli hale gelmektedirler. Deepfake teknolojisinin suçlular tarafından sömürülmesine karşı mücadele etmek için onun nasıl çalıştığını anlamamız gerekiyor.

Deepfake nedir?

Deepfake (“derin öğrenme” + »sahte”) yapay zekası son birkaç yıldır hızlı bir şekilde büyüyor. Makine öğrenimi görüntü, video ve ses içeriklerinin inandırıcı sahtelerini oluşturmak için kullanılabilir. Örneğin, yüz ifadeleri ve aydınlatma korunurken bir kişinin yüzünün başka bir yüzle değiştirilmesi için fotoğraflarda ve videolarda sinir ağları kullanılabilir. Başlangıçta bu sahteler düşük kaliteli ve fark edilmesi kolay olsa da, algoritmalar geliştikçe sonuçlar o kadar inandırıcı hale geldi ki, artık onları gerçeklerinden ayırt etmek zor. 2022’de, Jason Statham, Margot Robbie, Keanu Reeves ve Robert Pattinson’ın deepfake’lerinin ana karakterleri oynadığı dünyanın ilk deepfake TV programı Rusya’da yayınlandı.

Rus dizisi PMJason'daki Hollywood yıldızlarının deepfake versiyonları

Rus dizisi PMJason’daki Hollywood yıldızlarının deepfake versiyonları. (Kaynak)

Ses dönüştürme

Ancak bugün odak noktamız, ses deepfake’lerini oluşturmak için kullanılan teknolojidir. Bu aynı zamanda ses dönüştürme (veya tam bir dijital kopyasını oluşturuyorsanız “ses klonlama”) olarak da bilinir. Ses dönüştürme, otomatik kodlayıcılara dayalıdır. Bu, ilk önce giriş verilerini (kodlayıcının parçası) kompakt bir dahili temsile sıkıştıran ve ardından orijinal verileri geri yüklemek için bu temsilden (kod çözücünün parçası) sıkıştırmayı açmayı öğrenen bir tür sinir ağıdır. Bu şekilde model, en önemli bilgileri vurgularken verileri sıkıştırılmış bir biçimde sunmayı öğrenir.

Otomatik kodlayıcı şeması

Otomatik kodlayıcı şeması. (Kaynak)

Ses deepfake’leri yapmak için modele iki ses kaydı beslenir ve ikinci kayıttaki ses birinciye dönüştürülür. İçerik kodlayıcı, ilk kayıttan ne söylendiğini belirlemek için kullanılır ve hoparlör kodlayıcı, ikinci kayıttan sesin ana özelliklerini, yani ikinci kişinin nasıl konuştuğunu çıkarmak için kullanılır. Neyin söylenmesi gerektiğine ve nasıl söylendiğine ilişkin sıkıştırılmış temsiller birleştirilir ve kod çözücü kullanılarak sonuç üretilir. Böylece birinci kayıtta söylenenler ikinci kayıttaki kişi tarafından seslendirilir.

Deepfake ses yapma süreci

Deepfake ses yapma süreci. (Kaynak)

Otomatik kodlayıcıları kullanan başka yaklaşımlar da vardır; örneğin, üretken çekişmeli ağlar (GAN) veya difüzyon modelleri kullananlar. Deepfake’lerin nasıl yapılacağına yönelik araştırmalar, özellikle film endüstrisi tarafından desteklenmektedir. Bir düşünün: Ses ve video deepfake’leri ile filmlerdeki ve TV şovlarındaki oyuncuların yüzlerini değiştirmek ve filmlerde senkronize yüz ifadeleriyle herhangi bir dile dublaj yapmak mümkündür.

Nasıl yapılır?

Deepfake teknolojilerini araştırırken, kendi sesini deepfake yapmanın ne kadar zor olabileceğini merak ettik. Görünüşe göre ses dönüştürmeyle çalışmak için birçok ücretsiz açık kaynak araç var, ancak bunlarla yüksek kaliteli bir sonuç elde etmek o kadar kolay değil. Python programlama deneyimi ve iyi işleme becerileri gerektiriyor ve o zaman bile kalite ideal olmaktan uzak. Açık kaynağa ek olarak, tescilli ve ücretli çözümler de mevcut.

Örneğin, 2023’ün başlarında Microsoft, yalnızca üç saniye uzunluğundaki bir ses örneğine dayalı olarak insan sesini yeniden üretebilen bir algoritma duyurdu! Bu model aynı zamanda birden çok dilde çalışır, böylece kendinizi yabancı bir dilde konuşurken bile duyabilirsiniz. Bütün bunlar umut verici görünüyor, ancak şu ana kadar sadece araştırma aşamasında. Ancak ElevenLabs platformu, kullanıcıların herhangi bir çaba harcamadan ses deepfake’leri oluşturmasına olanak tanır: sadece sesin ve söylenecek kelimelerin bir ses kaydını yüklemek yeterli. Elbette bu haber duyulur duyulmaz insanlar bu teknolojiyle her şekilde oynamaya başladılar.

Hermione’nin savaşı ve aşırı güvenen bir banka

Godwin yasasına tamamen uygun olarak, Emma Watson’a Mein Kampf okutuldu ve başka bir kullanıcı ElevenLabs teknolojisini kendi banka hesabını “hacklemek” için kullandı. Kulağa ürkütücü geliyor mu? Özellikle de banka, devlet kurumu veya anket hizmeti gibi davranarak insanların “evet” veya “onayla” demesini sağlayıp telefonda ses örnekleri toplayan ve ardından sesli yetkilendirmeyi kullanarak para çalan dolandırıcılarla ilgili popüler korku hikayelerini eklediğinizde bize de öyle geliyor.

Ama gerçekte işler o kadar da kötü değil. İlk olarak, ElevenLabs’te yapay bir ses oluşturmak için yaklaşık beş dakikalık ses kaydı gerekiyor, bu nedenle basit bir “evet” yeterli değil. İkincisi, bankalar da bu dolandırıcılıklardan haberdar, dolayısıyla ses yalnızca para transferi ile ilgili olmayan belirli işlemleri başlatmak için kullanılabilir (örneğin, hesap bakiyenizi kontrol etmek için). Yani bu şekilde para çalınamaz.

Hakkını vermek gerekirse ElevenLabs, hizmet kurallarını yeniden yazarak, ücretsiz (yani anonim) kullanıcıların kendi yükledikleri seslere dayalı olarak deepfake’ler oluşturmasını yasaklayarak ve “rahatsız edici içerik” şikayeti olan hesapları bloke ederek soruna hızlı bir şekilde tepki gösterdi.

Bu önlemler yararlı olsa da, yine de şüpheli amaçlar için ses deepfake’leri kullanma sorununu çözmüyor.

Deepfake’ler dolandırıcılıkta başka nasıl kullanılır?

Deepfake teknolojisi kendi başına zararsızdır, ancak dolandırıcıların elinde aldatma, karalama veya yanlış bilgi verme için pek çok fırsat sunan tehlikeli bir araç haline gelebilir. Neyse ki, ses değiştirmeyi içeren herhangi bir toplu dolandırıcılık vakası olmadı, ancak ses deepfake’lerini içeren birkaç yüksek profilli vaka oldu.

2019’da dolandırıcılar, Birleşik Krallık merkezli enerji firmasını dolandırmak için bu teknolojiyi kullandı. Bir telefon görüşmesinde dolandırıcı, firmanın Alman ana şirketinin genel müdürü gibi davrandı ve belirli bir tedarikçi şirketin hesabına acilen 220.000 € (243.000 $) havale talep etti. Ödeme yapıldıktan sonra, dolandırıcı iki kez daha aradı – ilkinde Birleşik Krallık ofis çalışanlarını rahatlatmak ve ana şirketin zaten bir geri ödeme gönderdiğini bildirmek ve ikinci kez ise başka bir havale talep etmek için. Birleşik Krallık CEO’su her üç seferde de patronuyla konuştuğundan kesinlikle emindi çünkü hem Alman aksanını hem de ses tonunu ve konuşma tarzını tanıyordu. İkinci havale, yalnızca dolandırıcı hata yaptığı ve Alman yerine Avusturyalı bir numaradan aradığı için gönderilmedi; bu durum Birleşik Krallık CEO’sunu şüphelendirmişti.

Bir yıl sonra, 2020’de dolandırıcılar, adı açıklanmayan bir Japon şirketinden 35.000.000 $’a kadar para çalmak için deepfake’ler kullandı (şirketin adı ve toplam çalınan mal miktarı soruşturma tarafından açıklanmadı).

Dolandırıcıların sesleri taklit etmek için hangi çözümleri (açık kaynak, ücretli ve hatta kendi çözümleri) kullandıkları bilinmiyor; ancak yukarıdaki her iki durumda da şirketler deepfake dolandırıcılığından açıkça ve kötü bir şekilde zarar gördü.

Sırada ne var?

Deepfake’lerin geleceği hakkında görüşler farklı. Şu anda, bu teknolojinin çoğu büyük şirketlerin elinde ve halka açıklığı sınırlı. Ancak DALL-E, Midjourney ve Stable Diffusion gibi çok daha popüler üretken modellerin tarihinin gösterdiği gibi ve hatta büyük dil modelleri (ChatGPT’yi duymayan var mı?) ile daha da çok öne çıktığı üzere, benzer teknolojiler yakın gelecekte kamu alanında görülebilir. Bu, internet devinin temsilcilerinin yapay zeka yarışını açık çözümlere kaybedeceklerinden korktuklarından bahsettikleri, kısa süre önce sızdırılan dahili Google yazışmalarıyla doğrulandı. Bu, bariz bir şekilde dolandırıcılık da dahil olmak üzere ses deepfake’lerinin kullanımında bir artışa yol açacaktır.

Deepfake’lerin geliştirilmesindeki en umut verici adım, deepfake’lerin (ve bunlara dayalı dolandırıcılığın) şiddetli bir biçimde büyümesini sağlayacak olan gerçek zamanlı üretimdir. Yüzü ve sesi tamamen sahte olan biriyle görüntülü görüşme yaptığınızı hayal edebiliyor musunuz? Bununla birlikte, bu düzeyde veri işleme, yalnızca büyük şirketler tarafından kullanılabilen çok büyük kaynaklar gerektirir; bu nedenle en iyi teknolojiler gizli kalır ve dolandırıcılar profesyoneller ile yarışamaz. Yüksek kalite çıtası, kullanıcıların sahte olan ses ve görüntüleri nasıl kolayca tanımlayacaklarını öğrenmelerine de yardımcı olacaktır.

Kendinizi nasıl korursunuz?

Şimdi ilk sorumuza dönelim: Duyduğumuz seslere güvenebilir miyiz (eğer bunlar kafamızın içindeki sesler değilse)? Her zaman paranoyak olursak ve arkadaşlarımız ve ailemizle kullanmak için gizli kod sözcükleri bulmaya başlarsak muhtemelen aşırıya kaçmış oluruz; ancak daha ciddi durumlarda bu tür paranoya uygun olabilir. Her şey kötümser senaryoya göre gelişirse, dolandırıcıların elindeki deepfake teknolojisi gelecekte çetin bir silaha dönüşebilir; ancak hazırlanmak ve sahteciliğe karşı güvenilir koruma yöntemleri oluşturmak için hâlâ zaman var: şimdiden deepfake’lerle ilgili çok sayıda araştırma var ve büyük şirketler güvenlik çözümleri geliştiriyor. Aslında, burada deepfake videolarla mücadele etmenin yollarından zaten ayrıntılı olarak bahsetmiştik.

Şimdilik yapay zeka sahtekarlıklarına karşı koruma daha yeni başlıyor, bu nedenle deepfake’lerin başka bir tür gelişmiş toplum mühendisliği olduğunu akılda tutmak önemlidir. Bunun gibi bir dolandırıcılıkla karşılaşma riski azdır, ancak yine de vardır; bu nedenle hakkında bilgi sahibi olmaya ve akılda tutmaya değer. Garip bir arama alırsanız, ses kalitesine dikkat edin. Doğal olmayan bir monotonlukta mı, anlaşılmaz mı yoksa tuhaf sesler mi var? Bilgileri her zaman diğer kanallardan iki kez kontrol edin ve dolandırıcıların en çok güvendiği şeyin sürpriz ve panik olduğunu unutmayın.

İpuçları