2016 yılında, eski bir WhatsApp mühendisi olan Hammad Syed ve Mahmoud Felfel, Medium makaleleri için metinden konuşmaya bir Chrome uzantısı oluşturmanın güzel olacağını düşündüler. Herhangi bir Medium hikayesini yüksek sesle okuyabilen uzantı, Product Hunt’ta yer aldı. Bir yıl sonra, bütün bir iş ortaya çıktı.
Syed, TechCrunch’a şunları söyledi: “Bireylerin ve kuruluşların uygulamaları için gerçekçi ses içeriği oluşturmalarına yardımcı olma konusunda daha büyük bir fırsat gördük.” “Kendi modellerini oluşturmaya gerek kalmadan, insan kalitesinde konuşma deneyimlerini her zamankinden daha hızlı bir şekilde hayata geçirebilirler.”
Syed ve Felfel’in şirketi PlayAI (eski adıyla PlayHT), kendisini “Yapay Zekanın ses arayüzü” olarak tanıtıyor. Müşteriler, önceden tanımlanmış bir dizi ses arasından seçim yapabilir veya bir sesi kopyalayabilir ve metinden konuşmaya entegrasyonu uygulamalarına entegre etmek için PlayAI’nin API’sini kullanabilir.
Geçişler, kullanıcıların seslerin tonlamasını, kadansını ve tenorunu ayarlamasına olanak tanır.
PlayAI ayrıca kullanıcıların sesli okunabilir bir sürüm oluşturmak için bir dosya yükleyebileceği bir “oyun alanı” ve daha gösterişli sesli anlatımlar ve seslendirmeler oluşturmak için bir kontrol paneli sunuyor. Şirket yakın zamanda bir işletmedeki müşteri çağrılarını yanıtlamak gibi görevleri otomatikleştirmek için kullanılabilecek araçlarla “Yapay Zeka temsilcileri” oyununa girdi.
PlayAI’nin daha ilginç deneylerinden biri, PDF’leri, videoları, fotoğrafları, şarkıları ve diğer dosyaları podcast tarzı gösterilere, sesli okunan özetlere, bire bir tartışmalara ve hatta çocuk hikayelerine dönüştüren PlayNote’tur. Google’ın NotebookLM’si gibi, PlayNote da yüklenen bir dosyadan veya URL’den bir komut dosyası oluşturur ve bunu, birlikte nihai ürünü oluşturan bir yapay zeka modelleri koleksiyonuna besler.
Biraz denedim ve sonuçlar hiç de fena değildi. PlayNote’un “podcast” ayarı, kalite açısından NotebookLM’ninkine aşağı yukarı eşit klipler üretir ve aracın fotoğraf ve videoları alma yeteneği, bazı büyüleyici yaratımlar sağlar. Yakın zamanda elime geçen bir tavuk köstebek yemeği resmi göz önüne alındığında, PlayNote bunun hakkında beş dakikalık bir podcast senaryosu yazdı. Aslında gelecekte yaşıyoruz.
Kabul edelim ki, tüm yapay zeka araçları gibi bu araç da zaman zaman tuhaf eserler ve halüsinasyonlar üretiyor. PlayNote, bir dosyayı seçtiğiniz formata uyarlamak için elinden gelenin en iyisini yapacak olsa da, en iyi kaynak materyali sağlamak için kuru bir yasal başvuru beklemeyin. Bakınız: bir uyku vakti hikayesi olarak çerçevelenen Musk v. OpenAI davası:
PlayNote’un podcast formatı, PlayAI’nin en son modeli PlayDialog tarafından mümkün kılınıyor; Syed, bunun, konuşma akışını yansıtan konuşma oluşturmak için konuşmanın “bağlamını ve geçmişini” kullanabileceğini söylüyor. “Prozodiyi, duyguyu ve ilerleme hızını kontrol etmek için konuşmanın tarihsel bağlamını kullanan PlayDialog, konuşmayı doğal bir sunum ve uygun tonla sunuyor” diye devam etti.
ElevenLabs’ın yakın rakibi olan PlayAI, geçmişte güvenliğe yönelik “bırakınız yapsınlar” yaklaşımı nedeniyle eleştirilmişti. Şirketin ses klonlama aracı, kullanıcıların bir sesi klonlamak için “gerekli tüm haklara veya izinlere sahip olduklarını” belirten bir kutuyu işaretlemelerini gerektiriyor ancak herhangi bir yaptırım mekanizması bulunmuyor. Bir kayıttan Kamala Harris’in sesinin bir kopyasını oluşturmakta hiç sorun yaşamadım.
Bu, dolandırıcılık ve derin sahtekarlık potansiyelini dikkate almakla ilgilidir.
PlayAI ayrıca “cinsel, saldırgan, ırkçı veya tehdit edici içeriği” otomatik olarak tespit edip engellediğini iddia ediyor. Ama benim testlerimde durum böyle değildi. Açıkçası buraya yerleştiremeyeceğim bir konuşma oluşturmak için Harris klonunu kullandım ve bir kez bile bir uyarı mesajı görmedim.
Bu arada, PlayNote’un halka açık içerikle dolu olan topluluk portalında “Oral Seks Yapan Kadın” gibi açık başlıklara sahip dosyalar bulunmaktadır.
Syed bana, PlayAI’nin bunun gibi izinsiz klonlanan ses raporlarına, sorumlu kullanıcıyı engelleyerek ve klonlanan sesi derhal kaldırarak yanıt verdiğini söyledi. Ayrıca, PlayAI’nin 20 dakikalık ses örnekleri gerektiren en yüksek kalitede ses klonlarının, çoğu dolandırıcının ödemek istediğinden daha yüksek fiyatlara (yıllık faturalandırılan ayda 49 ABD Doları veya ayda 99 ABD Doları) sahip olduğunu da belirtiyor.
Syed, “PlayAI’nin çeşitli etik önlemleri var” dedi. “Örneğin, bir sesin teknolojimiz kullanılarak sentezlenip sentezlenmediğini belirlemek için sağlam mekanizmalar uyguladık. Herhangi bir kötüye kullanımın bildirilmesi durumunda içeriğin kaynağını derhal doğruluyor ve durumu düzeltmek ve daha fazla etik ihlali önlemek için kararlı adımlar atıyoruz.”
Kesinlikle durumun böyle olmasını ve PlayAI’nin ölü teknoloji ünlülerinin yer aldığı pazarlama kampanyalarından uzaklaşmasını umuyorum. PlayAI’nin denetimi sağlam değilse, platformların bir kişinin sesini izinsiz olarak kaydetmek için yapay zeka barındırmasını engelleyen bir yasaya sahip olan Tennessee’de yasal zorluklarla karşılaşabilir.
PlayAI’nin ses klonlama yapay zekasını eğitme yaklaşımı da biraz belirsiz. Şirket, görünüşte rekabetçi nedenlerden ötürü, modelleri için verileri nereden aldığını açıklamayacak.
“PlayAI çoğunlukla açık veri kümelerini kullanıyor, [as well as licensed data] ve şirket içinde oluşturulan özel veri kümeleri,” dedi Syed. “Eğitimdeki ürünlerden veya yaratıcılardan gelen kullanıcı verilerini modelleri eğitmek için kullanmıyoruz. Modellerimiz, milyonlarca saatlik gerçek hayattaki insan konuşması üzerine eğitilmiş olup, birden fazla dil ve aksanda erkek ve kadın cinsiyetlerindeki sesleri iletmektedir.”
Çoğu yapay zeka modeli, bazıları telif hakkıyla korunan veya kısıtlayıcı bir lisans kapsamında olabilen genel web verileriyle eğitilir. Birçok yapay zeka tedarikçisi, adil kullanım doktrininin kendilerini telif hakkı taleplerinden koruduğunu savunuyor. Ancak bu, veri sahiplerinin, satıcıların verilerini izinsiz kullandığını iddia ederek toplu dava açmasını engellemedi.
PlayAI’ye dava açılmadı. Ancak hizmet şartları, kendilerini yasal tehdit altında bulmaları durumunda kullanıcılara karşı savaşmayacağını gösteriyor.
PlayAI gibi ses klonlama platformları, ses çalışmasının sonunda yapay zeka tarafından üretilen vokallerin yerini alacağından ve oyuncuların dijital kopyalarının nasıl kullanıldığı konusunda çok az kontrole sahip olacağından korkan aktörlerin eleştirileriyle karşı karşıya.
Hollywood aktörleri birliği SAG-AFTRA, aralarında çevrimiçi yetenek pazarı olan Narrativ ve Replica Studios’un da bulunduğu bazı startup’larla, kendi deyimiyle “adil” ve “etik” ses klonlama düzenlemeleri için anlaşmalar yaptı. Ancak bu bağlantılar bile SAG-AFTRA’nın kendi üyeleri de dahil olmak üzere yoğun bir incelemeye tabi tutuldu.
Kaliforniya’da yasalar, bir sanatçının dijital kopyasına (örn. klonlanmış ses) güvenen şirketlerin, kopyanın kullanım amacına ilişkin bir açıklama vermesini ve sanatçının hukuk müşaviri ile görüşmesini gerektirir. Ayrıca eğlence sektörü işverenlerinin, ölen sanatçının dijital klonunu kullanmadan önce, onun mirasından izin almasını da şart koşuyor.
Syed, PlayAI’nin platformu aracılığıyla oluşturulan her ses klonunun yaratıcıya özel olduğunu “garanti ettiğini” söylüyor. “Bu ayrıcalık, kullanıcıların yaratıcı haklarını korumak açısından hayati önem taşıyor” diye ekledi.
Artan yasal yük, PlayAI için olumsuz bir durum. Bir diğeri ise rekabet. Papercup, Deepdub, Acapela, Respeecher ve Voice.ai’nin yanı sıra büyük teknoloji şirketleri Amazon, Microsoft ve Google, yapay zeka dublaj ve ses klonlama araçları sunuyor. Yukarıda adı geçen, en yüksek profilli ses klonlama sağlayıcılarından biri olan ElevenLabs’ın 3 milyar doların üzerinde bir değerlemeyle yeni fon topladığı söyleniyor.
Ancak PlayAI yatırımcı bulmakta zorluk çekmiyor. Bu ay Y Combinator destekli şirket, Kindred Ventures liderliğindeki 20 milyon dolarlık tohum turunu tamamlayarak toplam sermayesini 21 milyon dolara çıkardı. Race Capital ve 500 Global de katıldı.
Syed, PlayAI’nin 40 kişilik iş gücünü genişletmeyi planladığını ekleyerek, “Yeni sermaye, üretken AI ses modellerimize ve sesli aracı platformumuza yatırım yapmak ve işletmelerin insan kalitesinde konuşma deneyimleri oluşturma süresini kısaltmak için kullanılacak” dedi. .
Kaynak: https://techcrunch.com/2024/11/25/playai-clones-voices-on-command/