VB Transform 2024 bu Temmuz’da geri dönüyor! 400’den fazla kurumsal lider, GenAI stratejilerinin geliştirilmesine dalmak ve topluluk içinde düşündürücü tartışmalara katılmak için 9-11 Temmuz tarihleri arasında San Francisco’da bir araya gelecek. Nasıl yapabileceğinizi öğrenin buraya katıl.
Bugün Dubai merkezli Yapay zekayı değiştirYapay zeka destekli içerik yerelleştirme teknolojilerini araştıran startup, ses klonlamaya yönelik güçlü bir yapay zeka modeli olan Mars5’in piyasaya sürüldüğünü duyurdu.
Oluşturabileceğiniz birçok model varken dijital ses kopyalarıElevenLabs’ınkiler de dahil olmak üzere Camb, Mars5’in çıktılarıyla çok daha yüksek düzeyde gerçekçilik sunarak farklılaşmayı iddia ediyor.
Şirketin paylaştığı ilk örneklere göre model, yalnızca orijinal sesi değil aynı zamanda ritim, duygu ve tonlama gibi karmaşık prozodik parametreleri de taklit ediyor.
Camb ayrıca ElevenLabs’tan neredeyse 3 kat daha fazla dili destekliyor: 140’tan fazla dil ElevenLabs’ın 36’sıİzlandaca ve Swahili dili gibi düşük kaynaklı olanlar da dahil. Ancak açık kaynaklı teknoloji GitHub’dan erişildi bugünden itibaren yalnızca İngilizce’ye özgü sürüm var. Genişletilmiş dil desteğine sahip sürüm şirketin ücretli sürümünde mevcuttur. Stüdyo.
VB Transform 2024 Kayıtları Açıldı
Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zekanın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol
“Mars5’in yalnızca birkaç saniyelik girişle bile yakalayabildiği prozodi ve gerçekçilik düzeyi emsalsiz. Şirketin kurucu ortağı ve CTO’su Akshat Prakash yaptığı açıklamada, “Bu, konuşmada yanlış bir an” dedi.
Normalde ses klonlama ve metinden konuşmaya dönüştürme iki ayrı tekliftir. İlki, bir ses klonu oluşturmak için belirli bir ses örneğinden parametreleri yakalarken, ikincisi bu klonu herhangi bir metni sentetik konuşmaya dönüştürmek için kullanır. Teknoloji, geçmişte de gördüğümüz gibi, herkesi her şeyi konuşuyormuş gibi gösterme potansiyeline sahip.
Mars5 ile Camb AI, her iki özelliği de birleşik bir platformda birleştirerek işi ileriye taşıyor. Kullanıcının tek yapması gereken, birkaç saniye ile bir dakika arasında değişen bir ses dosyasını yüklemek ve metin içeriğini sağlamaktır. Model daha sonra ses dosyasındaki konuşmacının sesini referans olarak kullanacak, orijinal ses, konuşma tarzı, duygu, telaffuz ve anlam dahil olmak üzere ilgili ayrıntıları yakalayacak ve sağlanan metni onu kullanarak konuşma olarak sentezleyecek.
Şirket, Mars5’in, bir kişinin sinirli, buyurgan, sakin ve hatta neşeli olduğu zamanlar gibi her türlü karmaşık konuşma senaryosunu kapsayan çeşitli duygusal tonları ve perdeleri yakalayabildiğini iddia ediyor. Prakash, bunun onu spor yorumları, filmler ve anime gibi geleneksel olarak konuşmaya dönüştürülmesi zor olan içerikler için uygun hale getirdiğini belirtti.
Bu düzeyde bir prozodi elde etmek için Mars5, Mistral tarzı ~750M parametreli otoregresif model, yeni ~450M parametreli otoregresif olmayan çok terimli difüzyon modeli, 6kbps kodlama belirteçleri üzerinde çalışıyor.
“AR modeli, kodlama özellikleri için en kaba (en düşük seviye) kod kitabı değerini yinelemeli olarak tahmin ederken, NAR modeli AR çıktısını alır ve ayrı bir gürültü giderme difüzyon görevinde kalan kod kitabı değerlerini çıkarır. Spesifik olarak, NAR modeli, kodlama özellikleri üzerinde çok terimli bir dağılım kullanılarak bir DDPM olarak eğitilir ve AR modeli kaba kod kitabı değerlerini tahmin ettikten sonra kalan kod kitabı girişlerini etkili bir şekilde ‘iç boyama’ yapar,” diye açıkladı Prakash.
Spesifik kıyaslama istatistikleri henüz görülmese de, VentureBeat tarafından gerçekleştirilen ilk örnekler ve testler (birkaç saniyelik referans ses ile birlikte), modelin çoğunlukla Metavoice ve Onbir Laboratuvar. Rekabetçi teklifler konuşmayı net bir şekilde sentezledi ancak sonuçlar, Mars5 örneğinde olduğu gibi orijinal sese benzemiyordu.
“ElevenLabs kapalı kaynak olduğundan, neden bizim yakalayabildiğimiz nüansları yakalayamadıklarını söylemek zor, ancak 500.000’den fazla saat (İngilizce olarak sahip olduğumuz veri kümesinin neredeyse 5 katı) üzerinde eğitim rapor ettikleri göz önüne alındığında, bu bizim için açık. Konuşmayı ve nüanslarını onlarınkinden daha iyi öğrenen üstün bir model tasarımına sahip olduğumuzu düşünüyoruz. Elbette, veri kümelerimiz büyümeye devam ettikçe ve Github’daki ardışık kontrol noktalarında yayınlayacağımız Mars5 eğitimi daha da fazlalaştıkça, özellikle açık kaynak topluluğunun desteği göz önüne alındığında, giderek daha iyi ve daha iyi olmasını bekliyoruz.” katma.
Şirket, Mars5’in ses klonlama ve metinden konuşmaya performansını güçlendirmeye devam ederken aynı zamanda Boli adlı başka bir modelin açık kaynak olarak piyasaya sürülmesini de planlıyor. Bu, bağlamsal anlayış, doğru dilbilgisi ve uygun konuşma dili ile çeviriyi mümkün kılmak için tasarlanmıştır.
“Boli, dilin nüanslarını ve günlük konuşma dilini yakalama konusunda Google Translate ve DeepL gibi geleneksel motorları geride bırakan tescilli çeviri modelimizdir. Büyük ölçekli paralel derlem tabanlı sistemlerden farklı olarak Boli, özellikle düşük ve orta kaynaklı dillerde daha tutarlı ve doğal bir çeviri deneyimi sunar. Müşterilerden alınan geri bildirimler, Boli’nin çevirilerinin, en son çeviriler de dahil olmak üzere ana akım araçlar tarafından üretilenlerden daha iyi performans gösterdiğini gösteriyor. ChatGPT gibi üretken modellerPrakash dedi.
Şu anda hem Mars5 hem de Boli, Camb’in tescilli platformu Camb Studio’da 140 dille çalışıyor. Şirket ayrıca bu yetenekleri işletmelere, KOBİ’lere ve geliştiricilere API’ler olarak sağlıyor. Prakash kesin müşteri sayısını paylaşmadı ancak şirketin Major League Soccer, Tennis Australia, Maple Leaf Sports & Entertainment’ın yanı sıra önde gelen film ve müzik stüdyoları ve çeşitli devlet kurumlarıyla çalıştığını belirtti.
Camb AI, Major League Soccer için bir oyunu paralel olarak 2 saatten fazla kesintisiz olarak dört dilde canlı olarak seslendirdi ve bunu yapan ilk şirket oldu. Aynı zamanda Avustralya Açık’ın maç sonrası konferansını da birçok dile çevirdi ve psikolojik gerilim filmi “Three”i Arapça’dan Mandarin Çincesine çevirdi.
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası