Deepfake’ler çoğaldıkça OpenAI, sesleri klonlamak için kullanılan teknolojiyi geliştiriyor ancak şirket bunu sorumlu bir şekilde yaptığında ısrar ediyor.
Bugün, şirketin mevcut metinden konuşmaya API’sinin genişletilmesi olan OpenAI’nin Ses Motorunun ilk önizlemesi. Yaklaşık iki yıldır geliştirilmekte olan Voice Engine, kullanıcıların 15 saniyelik herhangi bir ses örneğini yükleyerek o sesin sentetik bir kopyasını oluşturmasına olanak tanıyor. Ancak henüz kamuya açıklanacak bir tarih yok, bu da şirkete modelin nasıl kullanıldığına ve suiistimal edildiğine yanıt vermesi için zaman tanıyor.
OpenAI ürün personelinin bir üyesi olan Jeff Harris, “Herkesin bu teknolojinin nasıl kullanıldığı konusunda iyi hissetmesini sağlamak istiyoruz; bu teknolojinin tehlikeli olduğu ortamı anlıyoruz ve bunun için azaltıcı önlemlerimiz var” dedi. TechCrunch bir röportajda.
Modeli eğitmek
Harris, Voice Engine’e güç veren üretken yapay zeka modelinin bir süredir göz önünde saklandığını söyledi.
Aynı model, OpenAI’nin yapay zeka destekli sohbet robotu ChatGPT’deki ses ve “yüksek sesle okuma” yeteneklerinin yanı sıra OpenAI’nin metinden konuşmaya API’sinde bulunan önceden ayarlanmış sesleri de destekliyor. Ve Spotify bunu Eylül ayının başından beri Lex Fridman gibi yüksek profilli sunucular için podcast’leri farklı dillerde dublajlamak için kullanıyor.
Harris’e modelin eğitim verilerinin nereden geldiğini sordum; bu biraz hassas bir konu. Yalnızca Voice Engine modelinin lisanslı ve kamuya açık verilerin bir karışımıyla eğitildiğini söyleyecekti.
Voice Engine’i çalıştıran model gibi modeller, genellikle web’deki halka açık sitelerden ve veri kümelerinden alınan çok sayıda örnek (bu durumda konuşma kayıtları) üzerinde eğitilir. Birçok üretken Yapay zeka tedarikçileri, eğitim verilerini rekabet avantajı olarak görüyor ve bu nedenle bu verileri ve onunla ilgili bilgileri gizli tutuyor. Ancak eğitim verileri ayrıntıları aynı zamanda fikri mülkiyetle ilgili davaların da potansiyel bir kaynağıdır; bu da pek çok şeyin ortaya çıkmasını engelleyen başka bir engeldir.
OpenAI: zaten olmak dava açıldı Şirketin, yaratıcılara veya sahiplere kredi veya ödeme vermeden fotoğraflar, sanat eserleri, kodlar, makaleler ve e-kitaplar dahil olmak üzere telif hakkıyla korunan içerik konusunda yapay zekasını eğiterek fikri mülkiyet yasasını ihlal ettiği iddiaları üzerine.
OpenAI’nin, Shutterstock ve haber yayıncısı Axel Springer gibi bazı içerik sağlayıcılarla lisans anlaşmaları vardır ve web yöneticilerinin, web tarayıcısının eğitim verileri için sitelerini kazımasını engellemesine olanak tanır. OpenAI ayrıca sanatçıların, en son DALL-E 3 de dahil olmak üzere şirketin görüntü üreten modellerini eğitmek için kullandığı veri kümelerinden “devre dışı kalmasına” ve çalışmalarını kaldırmasına olanak tanıyor.
Ancak OpenAI diğer ürünleri için böyle bir devre dışı bırakma planı sunmuyor. OpenAI, Birleşik Krallık Lordlar Kamarası’na yakın zamanda yaptığı bir açıklamada, telif hakkıyla korunan materyaller olmadan yararlı yapay zeka modelleri oluşturmanın “imkansız” olduğunu öne sürerek, adil kullanımın – telif hakkıyla korunan eserlerin ikincil bir yaratım oluşturmak için kullanılmasına izin veren yasal doktrin olduğunu ileri sürdü. Dönüştürücü olduğu sürece model eğitimi söz konusu olduğunda onu korur.
Sesi sentezleme
Şaşırtıcı bir şekilde, Ses Motoru değil Kullanıcı verileri konusunda eğitilmiş veya ince ayar yapılmış. Bu kısmen modelin (bir yayılma süreci ve transformatörün birleşimi) konuşmayı üretme yönteminin geçici olmasından kaynaklanıyor.
Harris, “Küçük bir ses örneği ve metni alıyoruz ve orijinal konuşmacıyla eşleşen gerçekçi bir konuşma oluşturuyoruz” dedi. “İstek tamamlandıktan sonra kullanılan ses kesiliyor.”
Kendisinin açıkladığı gibi, model, aldığı konuşma verilerini ve yüksek sesle okunması amaçlanan metin verilerini aynı anda analiz ediyor ve konuşmacı başına özel bir model oluşturmaya gerek kalmadan eşleşen bir ses üretiyor.
Yeni bir teknoloji değil. ElevenLabs’tan Replica Studios’a, Papercup’tan Deepdub’a ve Respeecher’a kadar birçok girişim yıllardır ses klonlama ürünleri sunuyor. Amazon, Google ve Microsoft gibi Büyük Teknoloji şirketleri de öyle; bunların sonuncusu tesadüfen OpenAI’nin büyük yatırımcılarından biri.
Harris, OpenAI’nin yaklaşımının genel olarak daha yüksek kalitede konuşma sağladığını iddia etti; ancak TechCrunch bunu değerlendiremedi çünkü OpenAI, modele veya yayınlanacak kayıtlara erişim sağlamaya yönelik birden fazla talebi reddetti. Örnekler şirket yayınladıktan hemen sonra eklenecektir.
Agresif fiyatlanacağını biliyoruz. OpenAI, Voice Engine’in fiyatlandırmasını bugün yayınladığı pazarlama materyallerinden kaldırmış olsa da, TechCrunch tarafından görüntülenen belgelerde Voice Engine’in maliyetinin bir milyon karakter başına 15 ABD doları veya ~162.500 kelime olduğu listeleniyor. Bu, Dickens’ın “Oliver Twist”ine küçük bir boş alan bırakacaktır. (“HD” kalite seçeneğinin maliyeti bunun iki katıdır, ancak bir OpenAI sözcüsü TechCrunch’a HD ve HD olmayan sesler arasında hiçbir fark olmadığını söyledi. Kafa karıştırıcı bir şekilde. Dilediğinizi yapın.)
Bu, yaklaşık 18 saatlik ses anlamına geliyor ve fiyatı saat başına 1 doların biraz altında tutuyor. Bu gerçekten de daha popüler rakip satıcılardan biri olan ElevenLabs’ın ücretlendirdiğinden daha ucuz – ayda 100.000 karakter için 11 dolar. Ama o yapmak bazı özelleştirmelerin pahasına gelir.
Voice Engine, bir sesin tonunu, perdesini veya temposunu ayarlamaya yönelik kontroller sunmaz. Aslında sunmuyor herhangi Harris, 15 saniyelik ses örneğindeki herhangi bir ifadenin sonraki nesiller boyunca devam edeceğini belirtmesine rağmen (örneğin, heyecanlı bir tonda konuşursanız, ortaya çıkan sentetik ses sürekli olarak heyecanlı gelecektir) düğmeler veya kadranlar şu anda ince ayarlıdır. . Doğrudan karşılaştırılabildiğinde okuma kalitesinin diğer modellerle nasıl karşılaştırıldığını göreceğiz.
Bir meta olarak seslendirme yeteneği
ZipRecruiter’da seslendirme sanatçılarının maaşları saat başına 12 ila 79 dolar arasında değişiyor; bu, en düşük seviyede bile Voice Engine’den çok daha pahalı (acenteleri olan aktörler proje başına çok daha yüksek bir fiyat talep edecek). Eğer anlaşılır olsaydı, OpenAI’nin aracı sesli çalışmayı metalaştırabilirdi. Peki bu durum oyuncuları nereye bırakıyor?
Yetenek endüstrisi tam olarak hazırlıksız yakalanmaz; bir süredir üretken yapay zekanın varoluşsal tehdidiyle boğuşuyor. Seslendirme sanatçılarından, müşterilerin yapay zekayı sonunda kendilerinin yerini alabilecek sentetik versiyonlar oluşturmak için kullanabilmeleri için seslerinin haklarını devretmeleri giderek daha fazla isteniyor. Sesli çalışma, özellikle de ucuz, giriş seviyesi çalışmalar, yapay zeka tarafından üretilen konuşma lehine ortadan kaldırılma riskiyle karşı karşıyadır.
Artık bazı yapay zeka ses platformları bir denge kurmaya çalışıyor.
Replica Studios geçen yıl SAG-AFTRA ile medya sanatçıları birliği üyelerinin seslerinin kopyalarını oluşturmak ve lisanslamak için biraz çekişmeli bir anlaşma imzaladı. Kuruluşlar, düzenlemenin, video oyunları da dahil olmak üzere yeni eserlerde sentetik seslerin kullanımına ilişkin şartları müzakere ederken sanatçının rızasını almak için adil ve etik şartlar ve koşullar oluşturduğunu söyledi.
Bu arada ElevenLabs, kullanıcıların ses oluşturmasına, doğrulamasına ve kamuya açık olarak paylaşmasına olanak tanıyan sentetik sesler için bir pazaryerine ev sahipliği yapıyor. Başkaları bir ses kullandığında, asıl yaratıcılar 1.000 karakter başına belirli bir dolar tutarında tazminat alıyor.
OpenAI, en azından yakın vadede bu tür işçi sendikası anlaşmaları veya pazar yerleri oluşturmayacak ve kullanıcıların yalnızca sesleri klonlanan kişilerden “açık rıza” almasını, hangi seslerin yapay zeka tarafından oluşturulduğunu belirten “açık açıklamalar” yapmasını ve reşit olmayanların, ölen kişilerin veya kendi nesillerindeki siyasi figürlerin sesini kullanmamayı kabul edersiniz.
Harris, “Bunun seslendirme sanatçısı ekonomisiyle nasıl kesiştiği, yakından izlediğimiz ve gerçekten merak ettiğimiz bir konu” dedi. “Bu tür bir teknoloji aracılığıyla seslendirme sanatçısı olarak erişiminizi ölçeklendirmek için birçok fırsatın olacağını düşünüyorum. Ancak insanlar teknolojiyi gerçekten kullanıp biraz oynadıkça öğreneceğimiz şeyler bunlar.”
Etik ve deepfake’ler
Ses klonlama uygulamaları, aktörlerin geçim kaynaklarını tehdit etmenin çok ötesine geçen şekillerde istismar edilebilir ve istismar edilmiştir.
Komplo içeriğiyle bilinen kötü şöhretli mesaj panosu 4chan, Emma Watson gibi ünlüleri taklit eden nefret dolu mesajları paylaşmak için ElevenLabs platformunu kullandı. Verge’den James Vincent, kötü niyetli bir şekilde, hızlı bir şekilde sesleri klonlamak ve şiddet içeren tehditlerden ırkçı ve transfobik açıklamalara kadar her şeyi içeren örnekler oluşturmak için AI araçlarından faydalanmayı başardı. Ve Vice’ta muhabir Joseph Cox, bir bankanın kimlik doğrulama sistemini yanıltmaya yetecek kadar ikna edici bir ses klonu ürettiğini belgeledi.
Kötü aktörlerin ses klonlama yoluyla seçimleri etkilemeye çalışacağından korkuluyor. Ve asılsız da değiller: Ocak ayında, New Hampshire vatandaşlarını oy vermekten caydırmak için sahte bir Başkan Biden’ı kullanan bir telefon kampanyası, FCC’yi gelecekteki bu tür kampanyaları yasadışı hale getirmek için harekete geçmeye sevk etti.
Peki, deepfake’leri politika düzeyinde yasaklamanın yanı sıra OpenAI, Voice Engine’in kötüye kullanılmasını önlemek için (varsa) hangi adımları atıyor? Harris birkaçından bahsetti.
Öncelikle, Voice Engine başlangıç için yalnızca son derece küçük bir geliştirici grubunun (yaklaşık 100 kişi) kullanımına sunuluyor. Harris, OpenAI’nin “sorumlu” sentetik medyayı denemenin yanı sıra sağlık hizmetleri ve erişilebilirlik gibi “düşük riskli” ve “sosyal açıdan faydalı” kullanım senaryolarına öncelik verdiğini söylüyor.
Voice Engine’i ilk benimseyenlerden bazıları arasında, bu aracı daha önce rol almış oyunculardan seslendirmeler oluşturmak için kullanan bir eğitim teknolojisi şirketi olan Age of Learning ve çeviri için Voice Engine’den yararlanan bir hikaye anlatma uygulaması olan HeyGen yer alıyor. Livox ve Lifespan, konuşma engelli ve engelli kişiler için ses oluşturmak amacıyla Voice Engine’i kullanıyor ve Dimagi, sağlık çalışanlarına ana dillerinde geri bildirim sağlamak için Voice Engine tabanlı bir araç geliştiriyor.
İşte Lifespan’dan oluşturulan sesler:
Ve işte Livox’tan bir tane:
İkinci olarak, Voice Engine ile oluşturulan klonlara, OpenAI tarafından geliştirilen ve kayıtlara duyulamayan tanımlayıcılar ekleyen bir teknik kullanılarak filigran eklenir. (Resemble AI ve Microsoft dahil olmak üzere diğer satıcılar da benzer filigranlar kullanıyor.) Harris, filigranı atlatmanın bir yolu olmayacağına dair söz vermedi ancak onu “kurcalamaya karşı dayanıklı” olarak tanımladı.
Harris, “Ortada bir ses klibi varsa, o klibe bakıp bunun sistemimiz ve o nesli gerçekten yapan geliştirici tarafından oluşturulduğunu belirlemek bizim için gerçekten çok kolay,” dedi. söz konusu. “Şu ana kadar açık kaynaklı değil; şimdilik dahili olarak elimizde mevcut. Bunu kamuya açık hale getirmeyi merak ediyoruz, ancak açıkçası bu, açığa çıkma ve kırılma açısından ek riskleri de beraberinde getiriyor.”
Üçüncüsü, OpenAI, şirketin yapay zeka modeli risk değerlendirmesi ve azaltma stratejileri konusunda bilgi sağlamaya yardımcı olan sözleşmeli bir uzman grubu olan kırmızı ekip ağının üyelerine, kötü niyetli kullanımları tespit etmek için Voice Engine’e erişim sağlamayı planlıyor.
Bazı uzmanlar, yapay zeka kırmızı ekibinin yeterince kapsamlı olmadığını ve satıcıların yapay zekalarının neden olabileceği zararlara karşı savunma yapmak için araçlar geliştirmesinin görevi olduğunu savunuyor. OpenAI, Voice Engine ile o kadar ileri gitmiyor ancak Harris, şirketin “en önemli ilkesinin” teknolojiyi güvenli bir şekilde piyasaya sürmek olduğunu ileri sürüyor.
Genel yayın
Önizlemenin gidişatına ve Voice Engine’in kamuoyu tarafından nasıl karşılandığına bağlı olarak OpenAI, aracı daha geniş geliştirici tabanına sunabilir ancak şirket şu anda somut bir taahhütte bulunma konusunda isteksiz.
Harris yaptı Ancak Voice Engine’in yol haritasına kısa bir göz atın ve OpenAI’nin, kullanıcıların rastgele oluşturulmuş metni, orada olduklarının ve seslerinin nasıl kullanıldığının farkında olduklarının kanıtı olarak okumalarını sağlayan bir güvenlik mekanizmasını test ettiğini ortaya çıkarın. Harris, bunun OpenAI’ye Voice Engine’i daha fazla insana ulaştırmak için ihtiyaç duyduğu güveni verebileceğini söyledi veya bu sadece başlangıç olabilir.
“Gerçek ses eşleştirme teknolojisi açısından bizi ileriye taşıyacak olan şey aslında pilottan öğreneceklerimize, ortaya çıkan güvenlik sorunlarına ve uyguladığımız azaltımlara bağlı olacak” dedi. “İnsanların yapay sesler ile gerçek insan sesleri arasında karıştırılmasını istemiyoruz.”
Ve bu son noktada hemfikir olabiliriz.
Kaynak: https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/