Açık kaynaklı yapay zeka destekli ses asistanları (birkaç isim vermek gerekirse bkz. Rhasspy, Mycroft ve Jasper) konusunda birçok girişimde bulunuldu; bunların tümü, işlevsellikten ödün vermeyen, gizliliği koruyan, çevrimdışı deneyimler yaratma hedefiyle kuruldu. Ancak gelişimin olağanüstü derecede yavaş olduğu kanıtlandı. Bunun nedeni, açık kaynak projelerinde karşılaşılan tüm olağan zorlukların yanı sıra, bir asistanın programlanmasının da zor olmasıdır. zor. Google Asistan, Siri ve Alexa gibi teknolojilerin arkasında onlarca yıl olmasa da yıllarca süren Ar-Ge ve muazzam bir altyapı var.
Ancak bu, dünyanın en popüler yapay zeka eğitim veri setlerinden bazılarının bakımından sorumlu Alman kar amacı gütmeyen kuruluş olan Büyük Ölçekli Yapay Zeka Açık Ağı’ndaki (LAION) insanları caydırmıyor. Bu ay LAION, tüketici donanımı üzerinde çalışabilen “tamamen açık” bir ses asistanı oluşturmayı amaçlayan yeni bir girişim olan BUD-E’yi duyurdu.
Çeşitli terk edilmişlik durumlarında sayısız kişi varken neden tamamen yeni bir sesli asistan projesi başlatasınız ki? Ellis Enstitüsü’nden ve BUD-E’ye katkıda bulunan Wieland Brendel, ortaya çıkan GenAI teknolojilerinden, özellikle de büyük dil modellerinden (LLM’ler) tam olarak yararlanabilecek kadar genişletilebilir bir mimariye sahip bir açık asistanın bulunmadığına inanıyor. OpenAI’nin ChatGPT’si.
“En çok etkileşim [assistants] etkileşim kurması oldukça zahmetli olan sohbet arayüzlerine güvenmek, [and] Brendel, TechCrunch’a bir e-posta röportajında ”bu sistemlerle olan diyaloglar yapmacık ve doğal değil” dedi. “Bu sistemler, müziğinizi kontrol etmek veya ışığı açmak için komutları iletmeye uygundur, ancak uzun ve ilgi çekici konuşmalar için bir temel oluşturmazlar. BUD-E’nin amacı, insanlara çok daha doğal gelen, insan diyaloglarının doğal konuşma kalıplarını taklit eden ve geçmiş konuşmaları hatırlayan bir ses asistanının temelini oluşturmaktır.”
Brendel, LAION’un BUD-E’nin her bileşeninin eninde sonunda uygulamalar ve hizmetlerle lisanssız, hatta ticari olarak entegre edilebilmesini sağlamak istediğini de sözlerine ekledi; bu, diğer açık asistan çabaları için geçerli olmayabilir.
Tübingen’deki Ellis Enstitüsü, teknoloji danışmanlığı Collabora ve Tübingen Yapay Zeka Merkezi ile yapılan işbirliği, BUD-E – “Anlayış ve Dijital Empati için Buddy”nin yinelenen kısaltması – iddialı bir yol haritasına sahip. LAION ekibi bir blog yazısında önümüzdeki birkaç ay içinde neyi başarmayı umduklarını açıklıyor; esas olarak BUD-E’ye “duygusal zeka” kazandırıyor ve birden fazla konuşmacının dahil olduğu konuşmaları aynı anda yönetebilmesini sağlıyor.
Brendel, “İyi çalışan bir doğal sesli asistana büyük ihtiyaç var” dedi. “LAION geçmişte topluluklar oluşturmanın harika olduğunu gösterdi ve Tübingen ELLIS Enstitüsü ile Tübingen Yapay Zeka Merkezi, asistanı geliştirmek için kaynak sağlamaya kararlıdır.”
BUD-E çalışıyor ve çalışıyor – bugün GitHub’dan bir Ubuntu veya Windows PC’ye indirip yükleyebilirsiniz (macOS geliyor) – ancak bunun ilk aşamalarda olduğu çok açık.
LAION, bir MVP oluşturmak için Microsoft’un Phi-2 LLM’si, Columbia’nın metinden konuşmaya StyleTTS2’si ve Nvidia’nın konuşmayı metne dönüştürmeye yönelik FastConformer’ı da dahil olmak üzere birçok açık modeli bir araya getirdi. Bu nedenle, deneyim biraz optimize edilmemiş. BUD-E’nin komutlara yaklaşık 500 milisaniye içinde yanıt vermesini sağlamak (Google Asistan ve Alexa gibi ticari ses asistanları aralığında) Nvidia’nınki gibi güçlü bir GPU gerektirir RTX4090.
Collabora, açık kaynak konuşma tanıma ve metinden konuşmaya modelleri olan WhisperLive ve WhisperSpeech’i BUD-E’ye uyarlamak için hayırsever bir şekilde çalışıyor.
Collabora’da yapay zeka araştırmacısı ve BUD-E ekip üyesi Jakub Piotr Cłapa, “Metin-konuşma ve konuşma tanıma çözümlerini kendimiz oluşturmak, bunları API’ler aracılığıyla kullanıma sunulan kapalı modellerle mümkün olmayan bir dereceye kadar özelleştirebileceğimiz anlamına geliyor”, diyor. bir e-postada söyledi. “Colabora başlangıçta üzerinde çalışmaya başladı [open assistants] kısmen müşterilerimizden biri için Yüksek Lisans tabanlı bir ses aracısı için iyi bir metinden konuşmaya çözümü bulmakta zorlandığımız için. Modellerimizi daha geniş çapta erişilebilir ve kullanışlı hale getirmek için daha geniş açık kaynak topluluğuyla güçlerimizi birleştirmeye karar verdik.”
Yakın dönemde, LAION, BUD-E’nin donanım gereksinimlerini daha az külfetli hale getirmek ve asistanın gecikmesini azaltmak için çalışacağını söylüyor. Daha uzun vadeli bir girişim, BUD-E’ye ince ayar yapmak için bir diyalog veri seti oluşturmanın yanı sıra, BUD-E’nin önceki konuşmalardan gelen bilgileri depolamasına olanak tanıyan bir hafıza mekanizması ve konuşan birkaç kişiyi takip edebilen bir konuşma işleme hattı oluşturuyor. bir kerede.
Takıma sordum ulaşılabilirlik Konuşma tanıma sistemlerinin geçmişte İngilizce olmayan dillerde ve Transatlantik olmayan aksanlarda iyi performans göstermediği göz önüne alındığında bu bir öncelikti. Bir Stanford araştırması, Amazon, IBM, Google, Microsoft ve Apple’ın konuşma tanıma sistemlerinin, aynı yaş ve cinsiyetteki beyaz konuşmacılara kıyasla Siyah konuşmacıları yanlış duyma olasılığının neredeyse iki kat daha fazla olduğunu buldu.
Brendel şunu söyledi LAION erişilebilirliği göz ardı etmiyor – ancak bu “hemen odaklanma” değil BUD-E.
Brendel, “İlk odak noktamız, bu deneyimi daha çeşitli aksanlara ve dillere genelleştirmeden önce, sesli asistanlarla nasıl etkileşim kurduğumuza ilişkin deneyimi gerçekten yeniden tanımlamaktır” dedi.
Bu amaçla, LAION’un BUD-E için animasyonlu bir avatardan asistanı kişileştirmeye ve duygusal durumlarını açıklamak için web kameraları aracılığıyla kullanıcıların yüzlerini analiz etmeye kadar uzanan oldukça sıra dışı fikirleri var.
Bu son kısmın etiği – yüz analizi – en azından söylemeye gerek yok, biraz riskli. Ancak LAION kurucu ortağı Robert Kaczmarczyk, LAION’un güvenliğe bağlı kalacağını vurguladı.
“[We] AB Yapay Zeka Yasası tarafından formüle edilen güvenlik ve etik yönergelere sıkı sıkıya bağlı kalın,” diye TechCrunch’a e-posta yoluyla söyledi; AB’de yapay zekanın satışını ve kullanımını düzenleyen yasal çerçeveye atıfta bulundu. AB Yapay Zeka Yasası, Avrupa Birliği üye ülkelerinin duygu sınıflandırıcıları da dahil olmak üzere “yüksek riskli” yapay zeka için daha kısıtlayıcı kurallar ve korumalar benimsemesine olanak tanıyor.
“Şeffaflığa olan bu bağlılık, yalnızca potansiyel önyargıların erken tespit edilmesini ve düzeltilmesini kolaylaştırmakla kalmıyor, aynı zamanda bilimsel dürüstlük amacına da yardımcı oluyor,” diye ekledi Kaczmarczyk. “Veri setlerimizi erişilebilir hale getirerek, daha geniş bilimsel topluluğun en yüksek tekrarlanabilirlik standartlarını destekleyen araştırmalara katılmasını sağlıyoruz.”
LAION’un önceki çalışması etik açıdan kusursuz değildi ve şu anda duygu tespiti konusunda biraz tartışmalı ayrı bir proje yürütüyor. Ama belki BUD-E farklı olacaktır; bekleyip görmemiz gerekecek.
Kaynak: https://techcrunch.com/2024/02/15/this-german-nonprofit-is-building-an-open-voice-assistant-that-anyone-can-use/