Google yapay zeka konusunda her şeyi yapıyor ve bunu bilmenizi istiyor. Şirketin Salı günü I/O geliştirici konferansındaki açılış konuşmasında Google, 120’den fazla kez “AI”dan bahsetti. Bu çok fazla!
Ancak Google’ın yapay zeka duyurularının tümü kendi başına önemli değildi. Bazıları artımlıydı. Diğerleri yeniden ele alındı. Buğdayı samandan ayırmaya yardımcı olmak için Google I/O 2024’te tanıtılan en iyi yeni yapay zeka ürünlerini ve özelliklerini bir araya getirdik.
Aramada Üretken Yapay Zeka
Google, Google Arama sonuçları sayfalarının tamamını düzenlemek için üretken yapay zekayı kullanmayı planlıyor.
Yapay zeka tarafından düzenlenen sayfalar nasıl görünecek? Arama sorgusuna bağlıdır. Ancak Google, yapay zeka tarafından oluşturulan inceleme özetlerini, Reddit gibi sosyal medya sitelerindeki tartışmaları ve yapay zeka tarafından oluşturulan öneri listelerini gösterebileceklerini söyledi.
Şimdilik Google, bir kullanıcının ilham aradığını tespit ettiğinde, örneğin seyahat planlarken, AI ile geliştirilmiş sonuç sayfalarını göstermeyi planlıyor. Yakında kullanıcılar yemek seçenekleri ve yemek tarifleri aradığında bu sonuçları film, kitap, otel, e-ticaret ve daha pek çok şeye ilişkin sonuçlarla birlikte gösterecek.
Astra ve Gemini Canlı Projesi
Google, etrafındaki dünyayı daha iyi anlayabilmesi için yapay zeka destekli sohbet robotu Gemini’yi geliştiriyor.
Şirket, Gemini’de, kullanıcıların akıllı telefonlarında Gemini ile “derinlemesine” sesli sohbetler yapmalarına olanak tanıyan Gemini Live adlı yeni bir deneyimin ön izlemesini yaptı. Kullanıcılar, sohbet robotu konuşurken açıklayıcı sorular sormak için Gemini’nin sözünü kesebilir ve robot, onların konuşma kalıplarına gerçek zamanlı olarak uyum sağlar. Gemini, akıllı telefonlarının kameraları tarafından çekilen fotoğraflar veya videolar aracılığıyla kullanıcıların çevresini görebilir ve bunlara yanıt verebilir.
Bu yılın sonuna kadar piyasaya sürülmeyecek olan Gemini Live, bir kullanıcının hangi mahallede olabileceği veya bozuk bir bisikletin bir parçasının adı gibi bir akıllı telefonun kamerasının görüş alanı içindeki (veya yakın zamanda görüş alanı içinde olan) şeyler hakkındaki soruları yanıtlayabiliyor. Live’ı destekleyen teknik yenilikler kısmen, DeepMind bünyesinde gerçek zamanlı, çok modlu anlayış için yapay zeka destekli uygulamalar ve “aracılar” oluşturmaya yönelik yeni bir girişim olan Project Astra’dan kaynaklanıyor.
Google I Casusu
Google, bir metin istemi verildiğinde yaklaşık bir dakika uzunluğunda 1080p video klipler oluşturabilen bir yapay zeka modeli olan Veo’lu OpenAI Sora’yı hedefliyor.
Veo, manzara çekimleri ve hızlandırılmış çekimler de dahil olmak üzere farklı görsel ve sinematik tarzları yakalayabilir ve önceden oluşturulmuş çekimlerde düzenlemeler ve ayarlamalar yapabilir. Model, istemlerden kamera hareketlerini ve VFX’i oldukça iyi anlıyor (“kaydırma”, “yakınlaştırma” ve “patlama” gibi tanımlayıcıları düşünün). Ayrıca Veo’nun, ürettiği videoların gerçekçiliğine katkıda bulunan akışkan dinamiği ve yerçekimi gibi fizik konularına hakimiyeti var.
Veo ayrıca bir videonun belirli alanlarındaki değişiklikler için maskeli düzenlemeyi de destekler ve Stability AI’nin Stabil Videosu gibi üretken modeller olan hareketsiz bir görüntüden videolar oluşturabilir. Belki de en ilgi çekici olanı, birlikte bir hikaye anlatan bir dizi komut verildiğinde Veo’nun daha uzun videolar (bir dakikadan uzun videolar) oluşturabilmesidir.
Fotoğraf Sor
Google Fotoğraflar, Google’ın Gemini üretken yapay zeka modelleri ailesi tarafından desteklenen, deneysel bir özellik olan Ask Photos’un kullanıma sunulmasıyla birlikte yapay zeka aşısı alıyor.
Bu yazın sonlarında kullanıma sunulacak Fotoğraflar’a Sor, kullanıcıların, Gemini’nin fotoğraf içeriğini ve diğer meta verileri anlamasından yararlanan doğal dil sorgularını kullanarak Google Fotoğraflar koleksiyonlarında arama yapmasına olanak tanıyacak.
Örneğin, kullanıcılar bir fotoğrafta “Tek Dünya Ticareti” gibi belirli bir şeyi aramak yerine, “ziyaret ettiğim Milli Parkların her birinden en iyi fotoğrafı” bulmak gibi çok daha geniş ve karmaşık aramalar yapabilecekler. ” Bu örnekte Gemini, bir fotoğrafı belirli bir kümede neyin “en iyi” yaptığını belirlemek için aydınlatma, bulanıklık ve arka planda bozulma olmaması gibi sinyalleri kullanacak ve bunu, ilgili görüntüleri döndürmek için coğrafi konum bilgisi ve tarih anlayışıyla birleştirecek.
Gmail’de İkizler
Gmail kullanıcıları yakında Gemini’nin izniyle e-postaları arayabilecek, özetleyebilecek ve taslak hazırlayabilecek, ayrıca süreç geri dönüşlerine yardımcı olmak gibi daha karmaşık görevler için e-postalar üzerinde işlem yapabilecek.
I/O’daki bir demoda Google, çocuğunun okulunda neler olup bittiğini öğrenmek isteyen bir ebeveynin Gemini’den okuldan gelen tüm son e-postaları özetlemesini nasıl isteyebileceğini gösterdi. Gemini, e-postaların içeriğine ek olarak PDF gibi ekleri de analiz edecek ve önemli noktaların ve eylem öğelerinin yer aldığı bir özet sunacak.
Kullanıcılar, Gmail’deki bir kenar çubuğundan Gemini’den e-postalarındaki makbuzları düzenlemelerine ve hatta bunları bir Google Drive klasörüne koymalarına yardımcı olmasını isteyebilir veya makbuzlardan bilgi çıkarıp bir e-tabloya yapıştırmalarını isteyebilir. Bu sık sık yaptığınız bir şeyse (örneğin, iş seyahatinde olan bir kişinin masrafları takip etmesi gibi), Gemini ayrıca gelecekte kullanmak üzere iş akışını otomatikleştirmeyi de önerebilir.
Aramalar sırasında dolandırıcılıkların tespiti
Google, kullanıcıları bir arama sırasında olası dolandırıcılıklara karşı uyarmak için yapay zeka destekli bir özelliğin ön izlemesini yaptı.
Android’in gelecekteki bir sürümüne yerleştirilecek olan bu özellik, “genellikle dolandırıcılıkla ilişkilendirilen konuşma kalıplarını” gerçek zamanlı olarak dinlemek için Google’ın üretken yapay zeka teklifinin en küçük sürümü olan ve tamamen cihaz üzerinde çalıştırılabilen Gemini Nano’yu kullanıyor. .
Özellik için belirli bir yayın tarihi belirlenmedi. Bunların çoğu gibi, Google da Gemini Nano’nun ileride ne kadar şey yapabileceğini önizliyor. Ancak özelliğin isteğe bağlı olacağını biliyoruz; bu iyi bir şey. Nano’nun kullanılması sistemin sesi otomatik olarak buluta yüklemeyeceği anlamına gelse de sistem hâlâ kullanıcıların konuşmalarını etkili bir şekilde dinliyor; bu potansiyel bir gizlilik riski.
Erişilebilirlik için yapay zeka
Google, Android için TalkBack erişilebilirlik özelliğini biraz üretken yapay zeka büyüsüyle geliştiriyor.
Yakında TalkBack, az gören ve görme engelli kullanıcılar için nesnelerin işitsel açıklamalarını oluşturmak üzere Gemini Nano’yu kullanacak. Örneğin, TalkBack bir giyim eşyasına şu şekilde atıfta bulunabilir: “Siyah beyaz bir pötikareli elbisenin yakın çekimi. Elbise kısa, yakalı ve uzun kolludur. Belden büyük bir fiyonkla bağlanıyor.”
Google’a göre TalkBack kullanıcıları günde yaklaşık 90 kadar etiketsiz görselle karşılaşıyor. Sistem, Nano’yu kullanarak içeriğe dair içgörü sunabilecek ve potansiyel olarak birisinin bu bilgiyi manuel olarak girmesine gerek kalmayacak.
Kaynak: https://techcrunch.com/2024/05/15/the-top-ai-announcements-from-google-i-o/