Ancak bazı büyük uyarılar var. Meta, filigranları kendi araçları kullanılarak oluşturulan AI tarafından oluşturulan sese uygulama planının henüz olmadığını söylüyor. Ses filigranları henüz geniş çapta benimsenmemiştir ve bunlar için üzerinde anlaşmaya varılmış tek bir endüstri standardı yoktur. Yapay zeka tarafından oluşturulan içerik için filigranlar genellikle kurcalanması kolay— örneğin bunları sökerek veya döverek.
Elsahar, hızlı algılama ve bir ses dosyasının hangi öğelerinin yapay zeka tarafından oluşturulduğunu belirleme yeteneğinin, sistemi kullanışlı hale getirmede kritik öneme sahip olacağını söylüyor. Ekibin filigranları tespit etmede %90 ila %100 arasında bir doğruluk elde ettiğini, bu da sese filigran ekleme konusundaki önceki girişimlerden çok daha iyi sonuçlar elde ettiğini söylüyor.
AudioSeal şu adreste mevcuttur: GitHub ücretsiz. Herkes onu indirebilir ve yapay zeka tarafından oluşturulan ses kliplerine filigran eklemek için kullanabilir. Sonunda yapay zeka ses oluşturma modellerinin üzerine yerleştirilebilir, böylece bunlar kullanılarak oluşturulan herhangi bir konuşmaya otomatik olarak uygulanabilir. Bunu yaratan araştırmacılar, çalışmalarını Temmuz ayında Avusturya’nın Viyana kentinde düzenlenen Uluslararası Makine Öğrenimi Konferansında sunacaklar.
AudioSeal iki sinir ağı kullanılarak oluşturulmuştur. Biri, ses parçalarına gömülebilecek filigran sinyalleri üretir. Bu sinyaller insan kulağı tarafından algılanamaz ancak diğer sinir ağı kullanılarak hızlı bir şekilde tespit edilebilir. Şu anda yapay zeka tarafından üretilen sesi daha uzun bir klipte tespit etmek istiyorsanız, herhangi birinin filigran içerip içermediğini görmek için her şeyi ikinci uzunlukta parçalar halinde taramanız gerekiyor. Bu yavaş ve zahmetli bir süreçtir ve milyonlarca dakikalık konuşmanın olduğu sosyal medya platformlarında pratik değildir.
AudioSeal farklı şekilde çalışır: tüm ses parçasının her bölümüne bir filigran yerleştirerek. Bu, filigranın “yerelleştirilmesine” olanak tanır; bu, ses kırpılsa veya düzenlense bile hâlâ algılanabileceği anlamına gelir.
Chicago Üniversitesi’nde bilgisayar bilimi profesörü olan Ben Zhao, bu yeteneğin ve mükemmele yakın algılama doğruluğunun AudioSEAL’i daha önce karşılaştığı tüm ses filigran sistemlerinden daha iyi hale getirdiğini söylüyor.
Kâr amacı gütmeyen Partnership on AI’da yapay zeka ve medya bütünlüğü başkanı Claire Leibowicz, “Filigranlamada, özellikle işaretlenmesi ve tespit edilmesi görsel içerikten daha zor olan konuşma gibi ortamlarda, son teknolojiyi geliştiren araştırmaları keşfetmek anlamlı” diyor.
Ancak bu tür ses filigranlarının toplu olarak benimsenebilmesi için aşılması gereken bazı önemli kusurlar var. Meta’nın araştırmacıları filigranları kaldırmak için farklı saldırıları test etti ve filigran algoritması hakkında ne kadar çok bilgi ifşa edilirse algoritmanın o kadar savunmasız olduğunu buldu. Sistem ayrıca kişilerin filigranı ses dosyalarına gönüllü olarak eklemelerini de gerektiriyor.
Kaynak: https://www.technologyreview.com/2024/06/18/1094009/meta-has-created-a-way-to-watermark-ai-generated-speech/