Hedef pazarınızın 22 resmi dili varsa ve çalışanları 19.000’den fazla lehçede konuşuyorsa, birkaç dilde en iyi şekilde çalışabilecek salt metinden oluşan bir yapay zeka sohbet robotu sunmak mantıklı mı?
Hintli yapay zeka girişimi Sarvam’ın çözmeye çalıştığı soru bu ve Salı günü, 10’dan fazla Hint dilini destekleyen ses özellikli bir yapay zeka botu da dahil olmak üzere bir dizi teklif başlattı. AI modeliyle metin üzerinden sohbet etmek yerine kendi dilinde. Başlangıç aynı zamanda küçük bir dil modeli, avukatlar için bir yapay zeka aracı ve bir sesli dil modeli de başlatıyor.
“İnsanlar kendi dillerinde konuşmayı tercih ediyorlar. Sarvam AI’nin kurucu ortağı Vivek Raghavan, TechCrunch’a “Günümüzde Hint dillerinde yazmak son derece zor” dedi.
Öncelikle işletmeleri ve işletmeleri hedef alan Bengaluru merkezli girişim, yapay zeka ses özellikli botlarını, özellikle müşteri desteğine dayalı olanlar olmak üzere bir dizi sektör için sunuyor. Örnek olarak müşterilerinden birini gösterdi: Dini içerik sunan bir girişim olan Sri Mandir, ödemeleri kabul etmek için Sarvam’ın yapay zeka aracısını kullanıyor ve şu ana kadar 270.000’den fazla işlem gerçekleştirdi.
Şirket, AI sesli aracılarının bir uygulama içinde WhatsApp’ta kullanılabileceğini ve hatta geleneksel sesli aramalarla çalışabileceğini söyledi.
Peak XV ve Lightspeed tarafından desteklenen Sarvam, AI temsilcilerine kullanım dakikası başına ₹1’den (yaklaşık 1 sent) başlayan fiyatlandırmayı planlıyor.
Başlangıç, ses özellikli yapay zeka aracılarını, 4 trilyon tokenden oluşan bir veri seti üzerinde eğitilmiş, Sarvam 2B adı verilen temel, küçük bir dil modelinin üzerine inşa ediyor. Raghavan’a göre model tamamen sentetik veriler üzerine eğitildi.
Yapay zeka uzmanları, diğer yapay zeka modellerini eğitmek için sentetik verileri (esasen gerçek dünya verilerini kopyalamayı amaçlayan büyük bir dil modeli tarafından oluşturulan veriler) kullanırken sıklıkla dikkatli olunmasını tavsiye ediyor, çünkü LLM’ler halüsinasyona uğrama ve doğru olmayabilecek bilgileri uydurma eğilimindedir. Yapay zeka modellerinin bu tür veriler üzerinde eğitilmesi bu tür yanlışlıkların daha da artmasına neden olabilir.
Raghavan, Sarvam’ın Hint dilindeki içeriğin açık web üzerinde son derece sınırlı olması nedeniyle sentetik verileri kullanmayı tercih ettiğini söyledi. Startup, ilk olarak sentetik veri kümelerini oluşturmak için kullanılan verileri temizlemek ve iyileştirmek için modeller geliştirdiğini ekledi.
Kurucu, Sarvam 2B’nin sektördeki benzerlerinin onda birine mal olacağını iddia etti. Girişim, topluluğun daha da geliştireceğini umarak modeli açık kaynak olarak kullanıyor.
Raghavan, “Büyük dil temel modelleri çok heyecan verici olsa da, küçük dil modellerini kullanarak üstün, daha spesifik, daha düşük maliyetli ve daha az gecikmeye sahip bir deneyim elde edebilirsiniz” dedi. “Haftada veya ayda bir veya iki sorgu gerçekleştirmek istiyorsanız büyük dil modellerini kullanmalısınız. Ancak milyonlarca günlük etkileşim gerektiren kullanım durumları için daha küçük modellerin daha uygun olduğuna inanıyorum.”
Başlangıç aynı zamanda Saaras v1 ses kod çözücüsü ve Meta’nın Llama3-8B Instruct’ı üzerine inşa edilen Shuka adlı bir ses dili modelini de piyasaya sürüyor. Bu model aynı zamanda açık kaynaklı olduğundan geliştiriciler ses arayüzleri oluşturmak için girişimin çevirisini, TTS’yi ve diğer modülleri kullanabilirler.
Ayrıca “A1” adlı başka bir ürün daha var; avukatlar için tasarlanmış, düzenlemelere bakabilen, belge taslağı hazırlayabilen, bunları düzeltebilen ve veri çıkarabilen üretken bir yapay zeka çalışma tezgahı.
Sarvam, ülkenin çıkarlarıyla uyumlu kullanım örneklerini savunan ve hükümetin kendi özel yapay zeka altyapısını geliştirme çabalarına katkıda bulunan küçük Hintli girişimlerden biri.
Dünyanın dört bir yanındaki hükümetler, ulusal düzeyde geliştirilen ve kontrol edilen yapay zeka altyapısı anlamına gelen “egemen yapay zeka”nın peşinde giderek daha fazla çabalıyor. Bu tür çabaların sözde amacı veri gizliliğini korumak, ekonomik büyümeyi teşvik etmek ve yapay zeka gelişimini kültürel bağlamlara göre uyarlamaktır. ABD ve Çin şu anda bu alanda en büyük yatırımlara sahip ve Hindistan da “IndiaAI” programı ve dile özgü modellerle onu takip ediyor.
IndiaAI programı kapsamındaki girişimlerden birine IndiaAI Compute Kapasitesi adı veriliyor ve plan, en az 10.000 GPU ile çalışan bir süper bilgisayar kurmak. Geliştirilmekte olan modellerden biri olan Bhashini, çeşitli Hint dillerinde dijital hizmetlere erişimi demokratikleştirmeyi amaçlıyor.
Raghavan, girişiminin IndiaAI programına katkıda bulunmaya hazır olduğunu söyledi. Röportajda “Fırsat ortaya çıkarsa hükümetle çalışacağız” dedi.
Kaynak: https://techcrunch.com/2024/08/13/why-this-ai-startup-is-betting-on-voice-enabled-bots-to-scale-ai-adoption-in-india/