Röportajların ve konuşmaların gürültülü kayıtları, ses mühendislerinin varlığının belasıdır. Ancak bir Alman startup, videodaki seslerin netliğini artırmak için üretken yapay zekayı kullanan benzersiz bir teknik yaklaşımla bu sorunu çözmeyi umuyor.
Bugün AI-coustics, 1,9 milyon Euro’luk bir finansmanla gizlilikten çıktı. Kurucu ortak ve CEO Fabian Seipel’e göre AI-coustics teknolojisi, herhangi bir cihaz ve hoparlörde ve bunlarla birlikte çalışacak şekilde standart gürültü bastırmanın ötesine geçiyor.
Seipel, TechCrunch’a verdiği bir röportajda şunları söyledi: “Temel misyonumuz, ister konferans görüşmesinde, ister tüketici cihazında, ister gündelik sosyal medya videosunda olsun, her dijital etkileşimi profesyonel bir stüdyonun yayını kadar net hale getirmektir.”
Ses mühendisi eğitimi alan Seipel, 2021 yılında Berlin Teknik Üniversitesi’nde makine öğrenimi alanında öğretim görevlisi olan Corvin Jaedicke ile birlikte AI-coustics’i kurdu. Seipel ve Jaedicke, TU Berlin’de ses teknolojisi okurken tanıştılar ve burada genellikle zayıf sesle karşılaştılar. Almaları gereken çevrimiçi kurs ve eğitimlerin kalitesi.
Seipel, “Dijital iletişimde düşük ses kalitesinin yaygın sorununun üstesinden gelmeye yönelik kişisel bir misyonla yola çıktık” dedi. “Yirmili yaşlarımın başlarında müzik prodüksiyonu nedeniyle işitme duyum biraz bozulsa da, her zaman çevrimiçi içerik ve derslerle uğraştım, bu da bizi ilk etapta konuşma kalitesi ve anlaşılırlık konusu üzerinde çalışmaya yöneltti.”
Yapay zeka destekli gürültü bastırıcı, sesi güçlendiren yazılım pazarı halihazırda çok güçlü. AI-coustics’in rakipleri arasında, akışlı ve önceden kaydedilmiş konuşma kliplerini geliştirmek için üretken yapay zeka kullanan Insoundz ve kliplerden arka plan gürültüsünü ortadan kaldıran araçlara sahip bir video düzenleme paketi olan Veed.io yer alıyor.
Ancak Seipel, AI-coustics’in gerçek gürültü azaltma işini yapan AI mekanizmalarını geliştirme konusunda benzersiz bir yaklaşıma sahip olduğunu söylüyor.
Girişim, AI-coustics’in ana şehri olan Berlin’deki girişimin stüdyosunda kaydedilen konuşma örnekleriyle eğitilmiş bir model kullanıyor. İnsanlara numuneleri kaydetmeleri için para ödeniyor (Seipel ne kadar olduğunu söylemiyor) ve bunlar daha sonra AI-coustics’in gürültü azaltıcı modelini eğitmek için bir veri setine ekleniyor.
Seipel, “Eğitim süreci sırasında gürültü, yankılanma, sıkıştırma, bant sınırlı mikrofonlar, distorsiyon, kırpma vb. gibi ses yapaylıklarını ve sorunlarını simüle etmek için benzersiz bir yaklaşım geliştirdik” dedi.
Startup’ın eğittiği modelin uzun vadede oldukça kazançlı olabileceği göz önüne alındığında, bazılarının AI-coustics’in yaratıcılara yönelik tek seferlik tazminat planına itiraz edeceğine bahse girerim. (Yapay zeka modelleri için eğitim verisi yaratıcılarının katkılarından dolayı artıkları hak edip etmediği konusunda sağlıklı bir tartışma var.) Ancak belki de daha büyük, daha acil endişe önyargıdır.
Konuşma tanıma algoritmalarının önyargılar (sonuçta kullanıcılara zarar veren önyargılar) geliştirebileceği iyi bilinen bir şey. Ulusal Bilimler Akademisi Bildiriler Kitabı’nda yayınlanan bir araştırma, önde gelen şirketlerin konuşma tanıma özelliğinin, beyaz konuşmacılara kıyasla siyahi konuşmacılardan gelen sesi hatalı şekilde yazıya dönüştürme olasılığının iki kat daha fazla olduğunu gösterdi.
Bununla mücadele etmek amacıyla Seipel, AI-coustics’in “çeşitli” konuşma örneği katılımcılarını işe almaya odaklandığını söylüyor. Şöyle ekledi: “Boyut ve çeşitlilik, önyargıyı ortadan kaldırmanın ve teknolojinin tüm diller, konuşmacı kimlikleri, yaşlar, aksanlar ve cinsiyetler için işe yaramasını sağlamanın anahtarıdır.”
Çok bilimsel bir test değildi ama her birinde ne kadar iyi performans gösterdiğini görmek için AI-coustics platformuna üç video klip yükledim: 18. yüzyıldan kalma bir çiftçiyle röportaj, araba kullanma demosu ve İsrail-Filistin çatışması protestosu. . AI-coustics gerçekten de netliği artırma vaadini yerine getirdi; kulaklarıma göre, işlenmiş kliplerde hoparlörleri bastıran ortam arka plan gürültüsü çok daha azdı.
İşte daha önce 18. yüzyıl çiftçi klibi:
Ve sonra:
Seipel, AI-coustics teknolojisinin hem gerçek zamanlı hem de kayıtlı konuşma geliştirme için kullanıldığını ve hatta ses netliğini otomatik olarak artırmak için ses çubukları, akıllı telefonlar ve kulaklıklar gibi cihazlara bile yerleştirilebileceğini düşünüyor. Şu anda, AI-coustics, ses ve video kayıtlarının işlenmesi sonrası için bir web uygulaması ve API ile AI-coustics platformunu mevcut iş akışlarına, uygulamalara ve donanıma getiren bir SDK sunar.
Seipel, abonelikler, isteğe bağlı fiyatlandırma ve lisanslama yoluyla para kazanan AI-coustics’in şu anda beş kurumsal müşterisi ve 20.000 kullanıcısı (her ne kadar ödeme yapmasa da) olduğunu söylüyor. Önümüzdeki birkaç ayın yol haritasında şirketin dört kişilik ekibinin genişletilmesi ve temel konuşma geliştirme modelinin iyileştirilmesi yer alıyor.
Seipel, “İlk yatırımımızdan önce AI-coustics, VC yatırım pazarının zorluklarından kurtulmak için düşük yanma oranıyla oldukça yalın bir operasyon yürütüyordu” dedi. “AI-coustics’in artık Almanya ve Birleşik Krallık’ta tavsiye almak üzere önemli bir yatırımcı ve mentor ağı var. Güçlü bir teknoloji tabanı ve aynı veritabanı ve çekirdek teknolojiyle farklı pazarlara hitap etme yeteneği, şirkete esneklik ve daha küçük pivotlar yapma yeteneği sağlıyor.”
AI-kustik gibi ses mastering teknolojisinin, bazı uzmanların korktuğu gibi işleri çalıp çalamayacağı sorulduğunda Seipel, AI-kustiğin şu anda insan ses mühendislerine düşen zaman alıcı görevleri hızlandırma potansiyeline dikkat çekti.
“Bir içerik oluşturma stüdyosu veya yayın yöneticisi, en yüksek konuşma kalitesini korurken ses üretim sürecinin bazı kısımlarını AI-kustiklerle otomatikleştirerek zamandan ve paradan tasarruf edebilir” dedi. “Konuşma kalitesi ve anlaşılırlık, içerik üretimi veya tüketiminin yanı sıra neredeyse her tüketici veya profesyonel cihazda hâlâ can sıkıcı bir sorundur. Konuşmanın kaydedildiği, işlendiği veya iletildiği her uygulama potansiyel olarak teknolojimizden yararlanabilir.”
Finansman, Connect Ventures, Inovia Capital, FOV Ventures ve Ableton CFO’su Jan Bohl’dan özsermaye ve borç dilimi şeklinde gerçekleşti.
Kaynak: https://techcrunch.com/2024/03/25/can-you-hear-me-now-ai-coustics-to-fight-noisy-audio-with-generative-ai/