Google’ın OpenAI’nin ChatGPT’si için yakın zamanda başlatılan (sınırlı alfa düzeyindeki) Gelişmiş Ses Moduna yanıtı olan Gemini Live, Google’ın I/O 2024 geliştirici konferansında duyurulduktan aylar sonra Salı günü kullanıma sunuluyor. Google’ın Made by Google 2024 etkinliğinde duyuruldu.
Gemini Live, kullanıcıların akıllı telefonlarında Google’ın yapay zeka destekli üretken sohbet robotu Gemini ile “derinlemesine” sesli sohbetler yapmalarına olanak tanıyor. Google’ın daha tutarlı, duygusal açıdan ifade edici ve gerçekçi olduğunu iddia ettiği çok yönlü diyalogları sunan geliştirilmiş konuşma motoru sayesinde, insanlar sohbet robotu konuşurken Gemini’nin sözünü keserek takip soruları sorabilir ve robot onların konuşma kalıplarına gerçek anlamda uyum sağlar. zaman.
Google bunu bir blog yazısında şöyle açıklıyor: “Gemini Live ile [via the Gemini app]Gemini ile konuşabilir ve aralarından seçim yapabilirsiniz. [10 new] yanıt verebileceği doğal seslere sahiptir. Hatta kendi hızınızda konuşabilir veya herhangi bir konuşmada olduğu gibi, açıklayıcı sorularla yanıtın ortasında sözünü kesebilirsiniz.”
İsterseniz Gemini Live eller serbesttir. Gemini uygulamasıyla arka planda veya telefonunuz kilitliyken konuşmaya devam edebilirsiniz ve konuşmalar istediğiniz zaman duraklatılabilir ve devam ettirilebilir.
Peki bu nasıl faydalı olabilir? Google bir iş görüşmesi provası örneğini veriyor; biraz ironik bir senaryo ama tamam. Google, Gemini Live’ın sizinle pratik yapabileceğini, konuşma ipuçları verebileceğini ve bir işe alım müdürüyle (veya duruma göre yapay zekayla) konuşurken vurgulanacak beceriler önerebileceğini söylüyor.
Gemini Live’ın bir avantajı belki ChatGPT’nin Gelişmiş Ses Moduna sahip olmak daha iyi bir hafızadır. Live, Gemini 1.5 Pro ve Gemini 1.5 Flash’ın temelini oluşturan üretken yapay zeka modelinin mimarisi, ortalamanın üzerinde bir “bağlam penceresi”ne sahip; bu da onların çok sayıda veriyi alıp üzerinde mantık yürütebileceği anlamına geliyor. teorik olarak Bir yanıt hazırlamadan önce saatlerce süren ileri geri konuşmalar.
Bir Google sözcüsü TechCrunch’a e-posta yoluyla “Live, daha sohbet odaklı olacak şekilde uyarladığımız Gemini Advanced modellerimizi kullanıyor” dedi. “Modelin geniş bağlam penceresi, kullanıcılar Live ile uzun görüşmeler yaptığında kullanılıyor.”
Elbette tüm bunların pratikte ne kadar işe yaradığını görmemiz gerekecek. OpenAI’nin Gelişmiş Ses Modundaki aksaklıkları bir gösterge ise, demoların gerçek dünyaya sorunsuz bir şekilde tercüme edilmesi nadiren mümkündür.
Bu konuda Gemini Live değil Google’ın henüz I/O’da sergilediği yeteneklerden birine sahip: çok modlu giriş. Mayıs ayında Google, Gemini Live’ın kullanıcıların çevresini gördüğünü ve telefonlarının kameraları tarafından çekilen fotoğraflar ve görüntüler aracılığıyla yanıt verdiğini gösteren önceden kaydedilmiş videolar yayınladı; örneğin, bozuk bir bisikletin bir parçasına isim vermek veya bir bisikletteki kodun bir bölümünün ne anlama geldiğini açıklamak gibi. bilgisayar ekranı bunu yapar.
Google, çok modlu girdinin “bu yılın sonlarında” geleceğini söyledi ve ayrıntı vermeyi reddetti. Ayrıca bu yılın ilerleyen zamanlarında Live, Google uygulaması aracılığıyla diğer dillere ve iOS’a da genişleyecek; şimdilik yalnızca İngilizce olarak mevcuttur.
Gemini Live, Gelişmiş Ses Modu gibi ücretsiz değildir. Bu, Gemini’nin daha gelişmiş bir sürümü olan ve Google One AI Premium Planının arkasında yer alan, aylık 20 ABD doları tutarındaki Gemini Advanced’e özeldir.
Ancak yolda olan diğer yeni Gemini özellikleri de ücretsiz.
Android kullanıcıları yakında (önümüzdeki haftalarda), telefonlarının güç düğmesini basılı tutarak veya “Hey Google” diyerek ekrandakiler (örneğin bir YouTube videosu) hakkında soru sormak için kullandıkları herhangi bir uygulamanın üzerine Gemini’nin katmanını getirebilecekler. .” Gemini, doğrudan kaplamadan görüntüler (ancak maalesef yine de insan görüntüleri değil) oluşturabilecek; bu görüntüler, Gmail ve Google Mesajlar gibi uygulamalara sürüklenip bırakılabilecek.
Gemini ayrıca hem mobil hem de web üzerinde Google hizmetleriyle (veya şirketin tercih ettiği şekliyle “uzantılarla”) yeni entegrasyonlar kazanıyor. Önümüzdeki haftalarda Gemini, zamanlayıcılar ve alarmlar, medya kontrolleri, el feneri, ses seviyesi, Wi-Fi gibi cihaz içi özellikleri kontrol eden uygulamalar olan Google Takvim, Keep, Görevler, YouTube Müzik ve Yardımcı Programlar ile daha fazla işlem gerçekleştirebilecek , Bluetooth vb.
Bir blog yazısında Google, insanların bundan nasıl yararlanabileceğine dair birkaç fikir veriyor. Her şeyin güvenilir bir şekilde çalıştığını varsayarsak kulağa hoş geliyor:
- Gemini’den “90’ların sonunu hatırlatan şarkılardan oluşan bir çalma listesi hazırlamasını” isteyin.
- Bir konser broşürünün fotoğrafını çekin ve Gemini’ye o gün boş olup olmadığınızı sorun ve hatta bilet satın almak için bir hatırlatıcı ayarlayın.
- Gemini’nin Gmail’den bir tarif çıkarmasını ve malzemeleri Keep’teki alışveriş listenize eklemesini isteyin.
Son olarak, bu haftanın sonlarından itibaren Gemini Android tabletlerde de satışa sunulacak.
Kaynak: https://techcrunch.com/2024/08/13/gemini-live-googles-answer-to-chatgpts-advanced-voice-mode-launches/