DeepL, Google gibi hizmetlerden daha incelikli ve kesin olduğunu iddia ettiği çevrimiçi metin çevirisiyle adından söz ettirdi; bu, Alman girişimini 2 milyar dolarlık bir değerlemeye ve 100.000’den fazla ödeme yapan müşteriye fırlattı. Artık yapay zeka hizmetlerine yönelik ilgi artmaya devam ederken, platforma başka bir mod daha ekleniyor: ses. Kullanıcılar artık bir dilde konuşan birini dinlemek ve gerçek zamanlı olarak otomatik olarak başka bir dile çevirmek için DeepL Voice’u kullanabilecek.
İngilizce, Almanca, Japonca, Korece, İsveççe, Felemenkçe, Fransızca, Türkçe, Lehçe, Portekizce, Rusça, İspanyolca ve İtalyanca DeepL’in bugün “duyabildiği” konuşulan dillerdir. Bu arada, çevrilmiş altyazılar şu anda DeepL Translator tarafından desteklenen 33 dilin tümü için mevcuttur.
DeepL Voice şu anda sonucu bir ses veya video dosyası olarak sunma konusunda yetersiz kalıyor: hizmet gerçek zamanlı, canlı konuşmaları ve video konferansı hedefliyor ve ses olarak değil metin olarak sunuluyor.
Bunlardan ilkinde, çevirilerinizi bir akıllı telefonda ‘ayna’ olarak görünecek şekilde ayarlayabilirsiniz – fikir, her iki tarafın da çevrilmiş kelimeleri görebilmesi için telefonu bir toplantı masasının üzerine aranıza koymanızdır – veya bir transkripsiyon olarak birisiyle yan yana paylaşırsın. Video konferans hizmeti, çevirilerin altyazı olarak göründüğünü görüyor.
Şirketin kurucusu ve CEO’su (yukarıdaki resimde) Jarek Kutylowski, bir röportajda bunun zamanla değişebilecek bir şey olabileceğini ima etti. Bu DeepL’in ilk sesli ürünüdür, ancak muhtemelen sonuncusu olmayacaktır. “[Voice] gelecek yıl çevirinin sahneye çıkacağı yer burası” diye ekledi.
Bu ifadeyi destekleyecek başka kanıtlar da var. DeepL’in en büyük rakiplerinden biri olan Google da gerçek zamanlı çevrilmiş altyazıları Meet video konferans hizmetine dahil etmeye başladı. Ayrıca sesli çeviri hizmetleri geliştiren çok sayıda yapay zeka girişimi de mevcut. Bunlar arasında AI ses uzmanı Eleven Labs’in (Eleven Labs Dubbing) ve sesle eşleşen “derin sahte” sesler ve videolar kullanarak çeviriler oluşturan Panjaya gibi diğerlerinin çabaları yer alıyor. İkincisi, Eleven Labs’ın API’sini kullanıyor ve Kutylowski’ye göre Eleven Labs, çeviri hizmetini desteklemek için DeepL’in teknolojisini kullanıyor – tahmin ettiğiniz gibi.
Henüz başlatılmayan tek şey ses çıkışı değil.
Şu an itibariyle Voice ürünü için de bir API bulunmuyor. DeepL’in ana işi B2B’ye odaklanıyor ve Kutylowski, şirketin bunu kullanmak için doğrudan ortaklar ve müşterilerle birlikte çalıştığını söyledi.
Çok fazla entegrasyon seçeneği de yok: Şu anda DeepL’in altyazılarını destekleyen tek görüntülü arama hizmeti, “müşterilerimizin çoğunu kapsayan” Teams’tir, dedi Kutylowski. Zoom’un veya Google Meet’in DeepL Voice’u ne zaman dahil edeceğine veya dahil edip etmeyeceğine dair hiçbir bilgi yok.
Bu ürünün DeepL kullanıcıları için gelmesi uzun zaman alacak gibi görünecek, bunun nedeni sadece çeviriyi amaçlayan diğer yapay zeka ses hizmetlerinin bolluğuyla dolu olmamız değil. Kutylowski, DeepL’in piyasaya sürüldüğü 2017 yılına kadar müşterilerin bir numaralı talebinin bu olduğunu söyledi.
Beklemenin nedenlerinden biri, DeepL’in ürününü geliştirmeye gelince oldukça bilinçli bir yaklaşım izlemesi. DeepL’in amacı, diğer şirketlerin Büyük Dil Modellerine dayanan ve bunları ayarlayan yapay zeka uygulamaları dünyasındaki pek çok kişinin aksine, hizmetini sıfırdan oluşturmaktır. Temmuz ayında şirket, GPT-4, Google ve Microsoft’tan daha iyi performans gösterdiğini söylediği çeviriler için optimize edilmiş yeni bir LLM yayınladı; özellikle de asıl amacının çeviri olması nedeniyle. Bu bağlamda yazılı çıktısının ve sözlüğünün kalitesini de geliştirmeye devam etti.
Benzer şekilde, DeepL Voice’un benzersiz avantajlarından biri de gerçek zamanlı olarak çalışacak olmasıdır; bu, şu anda piyasadaki birçok “AI çeviri” hizmetinin aslında gecikmeli olarak çalıştığı ve bunların canlı durumlarda kullanımını zorlaştırdığı/imkansız hale getirdiği göz önüne alındığında önemlidir. DeepL’in özellikle ele aldığı kullanım durumu budur. Kutylowski, bu yeni ses işleme ürününün metin tabanlı çevirilere odaklanmasının bir başka nedeninin de bu olduğunu ima etti: Bunlar çok hızlı hesaplanıp üretilebilirken, işleme ve yapay zeka mimarisinin ses üretebilmek için hâlâ kat etmesi gereken bir yol var. ve video kadar hızlı.
Video konferans ve toplantıların muhtemelen DeepL Voice için kullanım alanları olduğunu tahmin edebilirsiniz, ancak Kutylowski, şirketin öngördüğü bir diğer önemli alanın, örneğin restoranlardaki ön saflardaki çalışanların iletişim kurmaya yardımcı olmak için hizmeti kullanabileceği hizmet sektörü olduğunu belirtti. müşterilerle daha kolay
Bu yararlı olabilir ancak aynı zamanda hizmetin en zorlu noktalarından birini de vurgular. Hepimizin birdenbire veri koruma konusunda daha fazla farkına vardığı ve yeni hizmet ve platformların özel veya özel bilgileri nasıl benimsediğine ilişkin endişelerin arttığı bir dünyada, insanların seslerinin alınıp kullanılması konusunda ne kadar istekli olacaklarını zaman gösterecek. Bu taraftan.
Kutylowski, seslerin tercüme edilmek üzere sunucularına gitmesine rağmen (işleme cihazda gerçekleşmiyor), sistemlerinde hiçbir şeyin saklanmadığını veya LLM’lerin eğitimi için kullanılmadığını ve eninde sonunda müşterileriyle birlikte çalışacağını vurguladı. GDPR’yi veya diğer veri koruma düzenlemelerini ihlal etmediklerinden emin olun.
Kaynak: https://techcrunch.com/2024/11/13/deepl-launches-deepl-voice-real-time-text-based-translations-from-voices-and-videos/