Şimdiye kadar ‘ortaya çıkan yetenekler’ gösteren en büyük metin-konuşma yapay zeka modeli

Amazon’daki araştırmacılar, şimdiye kadarki en büyük metinden konuşmaya modelini eğittiler ve bu modelin, karmaşık cümleleri bile doğal bir şekilde konuşma yeteneğini geliştiren “ortaya çıkan” nitelikler sergilediğini iddia ediyorlar. Bu buluş, teknolojinin esrarengiz vadiden kaçmak için ihtiyaç duyduğu şey olabilir.

Bu modeller her zaman büyüyecek ve gelişecekti, ancak araştırmacılar özellikle dil modelleri belirli bir boyutu aştığında gözlemlediğimiz yetenek sıçramasını görmeyi umuyorlardı. Bizim bilmediğimiz nedenlerden dolayı, Yüksek Lisanslar belirli bir noktayı geçtikten sonra çok daha sağlam ve çok yönlü olmaya başlarlar ve eğitim almadıkları görevleri yerine getirebilirler.

Bu, onların duyarlılık falan kazandıkları anlamına gelmiyor, sadece belirli bir noktadan sonra hokey sopaları gibi belirli konuşma amaçlı yapay zeka görevlerindeki performansları artıyor. Amazon AGI ekibi – neyi hedefledikleri bir sır değil – metinden konuşmaya modeller büyüdükçe aynı şeyin olabileceğini düşündü ve araştırmaları durumun aslında böyle olduğunu gösteriyor.

Yeni modele, BASE TTS kısaltmasına dönüştürülen Acil yeteneklere sahip Büyük Uyarlanabilir Akışlı TTS adı veriliyor. Modelin en büyük versiyonu, %90’ı İngilizce, geri kalanı Almanca, Felemenkçe ve İspanyolca olmak üzere 100.000 saatlik kamuya açık konuşma kullanıyor.

BASE-large, 980 milyon parametreyle bu kategorideki en büyük model gibi görünüyor. Ayrıca karşılaştırma amacıyla sırasıyla 10.000 ve 1.000 saatlik sese dayalı 400M ve 150M parametreli modelleri de eğittiler; buradaki fikir, bu modellerden biri acil davranışlar gösteriyor ancak diğeri göstermiyorsa, bu davranışların nerede başlayacağına dair bir aralığınız var. ortaya çıkmak.

Orta büyüklükteki modelin, ekibin aradığı yetenek sıçramasını gösterdiği ortaya çıktı; bu, sıradan konuşma kalitesinde değil (daha iyi incelendi ancak sadece birkaç puanla) fakat gözlemleyip ölçtükleri bir dizi yeni ortaya çıkan yetenekte oldu. . İşte makalede bahsedilen aldatıcı metin örnekleri:

  • Bileşik isimler: Beckham’lar, taştan yapılmış büyüleyici bir kırsal tatil evi kiralamaya karar verdi.
  • Duygular: “Aman Tanrım! Gerçekten Maldivlere mi gidiyoruz? Bu inanılmaz!” Jennie dizginlenemeyen bir neşeyle ayak parmaklarının üzerinde zıplayarak ciyakladı.
  • Yabancı kelimeler: “Bay. Yerinde mizansenleriyle tanınan Henry, her yemeğin bir parçası olan yedi çeşit yemek düzenledi.
  • Paralinguistik (yani okunabilir olmayan kelimeler): Çocuk odasının yanından parmaklarının ucunda geçerken Tom, “Şşşt, Lucy, şşşt, küçük kardeşini uyandırmamalıyız,” diye fısıldadı.
  • Noktalama işaretleri: Kardeşinden tuhaf bir mesaj aldı: ‘Acil durum @ evde; en kısa sürede arayın! Annem ve babam endişeli…#aile meseleleri.’
  • Sorular: Ancak Brexit sorusu hala ortada: Bütün bunca sıkıntı ve sıkıntıdan sonra, bakanlar cevapları zamanında bulabilecek mi?
  • Sözdizimsel karmaşıklıklar: Yakın zamanda yaşam boyu başarı ödülüne layık görülen De Moya’nın 2022’de başrol oynadığı film, karışık eleştirilere rağmen gişede büyük başarı elde etti.

“Bu cümleler, bahçe yolu cümlelerini ayrıştırmak, uzun soluklu bileşik isimlere öbek vurgusu koymak, duygusal veya fısıltılı konuşma üretmek veya yabancı sözcükler için doğru fonemleri üretmek gibi zorlu görevleri içerecek şekilde tasarlandı.
Yazarlar, “qi” gibi kelimeler veya “@” gibi noktalama işaretlerinin hiçbiri BASE TTS’nin açıkça gerçekleştirmek üzere eğitilmediğini yazıyor.

Bu tür özellikler normalde metinden konuşmaya motorları tetikleyerek yanlış telaffuza, sözcüklerin atlanmasına, tuhaf tonlamaların kullanılmasına veya başka hatalar yapılmasına neden olur. BASE TTS hâlâ sorun yaşadı ancak Tortoise ve VALL-E gibi çağdaş modellerden çok daha iyi performans gösterdi.

Bu zor metinlerin, yeni model tarafından oldukça doğal bir şekilde konuşulduğu sitede çok sayıda örnek var. Elbette bunlar araştırmacılar tarafından seçilmiştir, yani bunlar mutlaka isteğe göre seçilmiştir, ancak yine de etkileyicidir. Tıklamak istemiyorsanız işte birkaçı:


Üç BASE TTS modeli aynı mimariyi paylaştığından, modelin boyutu ve eğitim verilerinin kapsamı, modelin yukarıdaki karmaşıklıkların bazılarını ele alma yeteneğinin nedeni gibi görünmektedir. Bunun hala deneysel bir model ve süreç olduğunu, ticari bir model veya başka bir şey olmadığını unutmayın. Daha sonraki araştırmaların, ortaya çıkan yetenek için dönüm noktasını ve ortaya çıkan modelin verimli bir şekilde nasıl eğitilip dağıtılacağını tanımlaması gerekecektir.

Özellikle, bu model adından da anlaşılacağı gibi “aktarılabilir”; yani tüm cümleleri bir kerede oluşturması gerekmiyor, nispeten düşük bir bit hızında an be an ilerliyor. Ekip ayrıca duygusallık, prozodi ve benzeri konuşma meta verilerini vanilya sesine eşlik edebilecek ayrı, düşük bant genişliğine sahip bir akışta paketlemeye çalıştı.

Görünüşe göre metinden konuşmaya modellerin 2024’te bir patlama anı yaşanabilir; tam da seçim zamanında! Ancak bu teknolojinin özellikle erişilebilirlik açısından yararlılığı inkar edilemez. Ekip, kötü aktörlerin bundan faydalanma riski nedeniyle modelin kaynağını ve diğer verilerini yayınlamayı reddettiğini belirtiyor. Ama sonunda kedi o çantadan çıkacak.

Kaynak: https://techcrunch.com/2024/02/14/largest-text-to-speech-ai-model-yet-shows-emergent-abilities/