Gemini Live’a ilk bakış: Siri ile konuşmaktan daha iyi ama istediğimden daha kötü

Google, Salı günü Mountain View, California’da düzenlenen Made By Google etkinliği sırasında Gemini Live’ı başlattı. Bu özellik, Google’ın en yeni geniş dil modeliyle desteklenen bir AI sohbet robotu ile, yazılı olarak değil, yarı doğal bir konuşma yapmanıza olanak tanır. TechCrunch bunu ilk elden test etmek için oradaydı.

Gemini Live, ChatGPT’nin sınırlı bir alfa testinde mevcut olan hemen hemen aynı özelliği olan OpenAI’nin Gelişmiş Ses Moduna Google’ın cevabıdır. OpenAI, özelliğin ilk tanıtımını yaparak Google’ı geride bırakırken Google, nihai özelliği kullanıma sunan ilk şirket oldu.

Deneyimlerime göre, bu düşük gecikmeli sözlü özellikler, ChatGPT ile mesajlaşmaktan, hatta Siri veya Alexa ile konuşmaktan çok daha doğal hissettiriyor. Gemini Live’ın sorulara iki saniyeden daha kısa sürede yanıt verdiğini ve kesintiye uğradığında oldukça hızlı bir şekilde dönebildiğini gördüm. Gemini Live mükemmel değil ama telefonunuzu eller serbest olarak kullanmanın şimdiye kadar gördüğüm en iyi yolu.

Nasıl çalışır?

Gemini Live ile konuşmadan önce bu özellik, OpenAI’deki yalnızca üç sese kıyasla 10 ses arasından seçim yapmanızı sağlar. Google, her birini oluşturmak için seslendirme sanatçılarıyla çalıştı. Buradaki çeşitliliği takdir ettim ve her birinin kulağa çok insani geldiğini gördüm.

Bir örnekte, bir Google ürün yöneticisi sözlü olarak Gemini Live’dan Mountain View yakınında, yakınlarda açık hava alanları ve oyun alanları bulunan aile dostu şarap imalathaneleri bulmasını istedi, böylece çocuklar da potansiyel olarak katılabilirler. Bu, Siri’ye ya da açıkçası Google Arama’ya soracağımdan çok daha karmaşık bir görev ama Gemini, kriterleri karşılayan bir yeri başarıyla önerdi: Saratoga’daki Cooper-Garrod Üzüm Bağları.

Bununla birlikte Gemini Live arzulanan bir şey bırakıyor. Sözde bağdan “10 dakika uzaklıkta” olduğu söylenen Henry İlköğretim Okulu Oyun Alanı adlı yakındaki bir oyun alanını halüsinasyona uğratıyor gibiydi. Yakınlarda Saratoga’da başka oyun alanları da var, ancak en yakın Henry İlköğretim Okulu oradan arabayla iki saatten fazla sürüyor. Redwood City’de bir Henry Ford İlköğretim Okulu var ama 30 dakika uzaklıkta.

Google, kullanıcıların Gemini Live’ı cümlenin ortasında nasıl kesebileceğini ve yapay zekanın hızla dönebileceğini göstermeyi seviyordu. Şirket, bunun kullanıcıların konuşmayı kontrol etmesine izin verdiğini söylüyor. Pratikte bu özellik mükemmel çalışmıyor. Bazen Google’ın proje yöneticileri ve Gemini Live birbirleriyle konuşuyorlardı ve yapay zeka söylenenleri anlamıyor gibi görünüyordu.

Ürün müdürü Leland Rechis’e göre Google, Gemini Live’ın sağladığı 10 ses dışında herhangi bir sesi söylemesine veya taklit etmesine izin vermiyor. Şirket muhtemelen bunu telif hakkı yasasıyla karşılaşmamak için yapıyor. Ayrıca Rechis, Google’ın Gemini Live’ın kullanıcının sesindeki duygusal tonlamayı anlamasını sağlamaya odaklanmadığını söyledi; bu, OpenAI’nin demosu sırasında öne sürdüğü bir şeydi.

Genel olarak bu özellik, basit Google Arama’ya göre daha doğal bir şekilde bir konuyu derinlemesine incelemenin harika bir yolu gibi görünüyor. Google, Gemini Live’ın, şirketin Google I/O sırasında piyasaya sürdüğü tamamen çok modlu yapay zeka modeli Project Astra’ya giden yolda bir adım olduğunu belirtiyor. Gemini Live şimdilik yalnızca sesli konuşma yeteneğine sahip ancak gelecekte Google, gerçek zamanlı video anlayışını eklemek istiyor.

Kaynak: https://techcrunch.com/2024/08/13/gemini-live-first-look-better-than-talking-to-siri-but-worse-than-id-like/