Google’ın yeni Gemini modeli bir saatlik videoyu analiz edebilir ancak çok az kişi bunu kullanabilir

Geçtiğimiz Ekim ayında, bir Google veri bilimci olan Databricks’in CTO’su Matei Zaharia ve UC Berkeley profesörü Pieter Abbeel tarafından yayınlanan bir araştırma makalesi, GenAI modellerinin (yani OpenAI’nin GPT-4 ve ChatGPT çizgisindeki modellerin) çok daha fazlasını almasına izin vermenin bir yolunu öne sürdü. daha önce mümkün olandan daha fazla veri. Çalışmada ortak yazarlar, yapay zeka modelleri için büyük bir bellek darboğazını ortadan kaldırarak, modellerin yüzbinlerce kelime yerine milyonlarca kelimeyi (o zamanın en yetenekli modellerinin maksimumu) işlemesini sağlayabileceklerini gösterdiler.

Görünüşe göre yapay zeka araştırmaları hızlı ilerliyor.

Bugün Google, Gemini GenAI model ailesinin en yeni üyesi olan Gemini 1.5 Pro’nun piyasaya sürüldüğünü duyurdu. Gemini 1.0 Pro’nun (daha önce yalnızca Google’ın labirent pazarlama kolunun bildiği nedenlerden dolayı “Gemini Pro 1.0” olarak anılan) yerini alacak şekilde tasarlanan Gemini 1.5 Pro, selefine kıyasla birçok alanda, belki de çoğu alanda geliştirildi. işleyebileceği veri miktarını önemli ölçüde artırır.

Gemini 1.5 Pro, ~700.000 kelime veya ~30.000 kod satırı alabilir; bu, Gemini 1.0 Pro’nun kaldırabileceği miktarın 35 katıdır. Ve model çok modlu olduğundan metinle sınırlı değildir. Gemini 1.5 Pro, çeşitli farklı dillerde 11 saate kadar ses veya bir saate kadar video alabilir.

Açık olmak gerekirse, bu bir üst sınırdır.

Bugünden itibaren çoğu geliştirici ve müşterinin kullanımına sunulan Gemini 1.5 Pro sürümü (sınırlı bir önizlemede) tek seferde yalnızca ~100.000 kelimeyi işleyebilir. Google’ın büyük veri girişli Gemini 1.5 Pro’yu “deneysel” olarak nitelendirmesi, yalnızca özel bir önizlemenin parçası olarak onaylanan geliştiricilerin şirketin GenAI geliştirme aracı AI Studio aracılığıyla pilot uygulamasına izin veriyor. Google’ın Vertex AI platformunu kullanan birçok müşteri aynı zamanda büyük veri girişli Gemini 1.5 Pro’ya da erişime sahip, ancak hepsine değil.

Yine de Google DeepMind Oriol Vinyals’ın araştırma başkan yardımcısı bunu bir başarı olarak müjdeledi.

“İletişim kurduğunuzda [GenAI] Vinyals bir basın toplantısında şunları söyledi: “Modellerde girdiğiniz ve çıkardığınız bilgiler bağlam haline gelir ve sorularınız ve etkileşimleriniz ne kadar uzun ve karmaşık olursa, modelin başa çıkabilmesi için ihtiyaç duyduğu bağlam da o kadar uzun olur” dedi. “Uzun bağlamın kilidini oldukça büyük bir şekilde açtık.”

Büyük bağlam

Bir modelin bağlamı veya bağlam penceresi, modelin çıktı (örneğin ek metin) oluşturmadan önce dikkate aldığı girdi verilerini (örneğin metin) ifade eder. Basit bir soru: “2020 ABD başkanlık seçimini kim kazandı?” — bir film senaryosu, e-posta veya e-kitap gibi bağlam görevi görebilir.

Küçük bağlam pencerelerine sahip modeller, en yeni konuşmaların içeriğini bile “unutmaya” eğilimlidir ve bu da onların konudan sapmasına yol açar – çoğu zaman sorunlu yollardan. Bu, geniş bağlamlara sahip modellerde mutlaka böyle değildir. Ek bir avantaj olarak, geniş bağlamlı modeller, aldıkları verilerin anlatı akışını daha iyi kavrayabilir ve bağlamsal olarak daha zengin yanıtlar üretebilir (en azından varsayımsal olarak).

Alışılmışın dışında geniş bağlam pencerelerine sahip modeller üzerinde başka girişimlerde bulunuldu ve deneyler yapıldı.

Yapay zeka girişimi Magic, geçen yaz 5 milyon jetonluk bağlam penceresine sahip büyük bir dil modeli (LLM) geliştirdiğini iddia etti. Geçtiğimiz yıl yayınlanan iki makale, görünüşte bir milyon jetona ve ötesine ölçeklenebilen model mimarilerini detaylandırıyordu. (“Jetonlar”, “fantastic” sözcüğündeki “fan”, “tas” ve “tic” heceleri gibi alt bölümlere ayrılmış ham veri parçalarıdır.) Ve yakın zamanda Meta, MIT ve Carnegie Mellon’dan bir grup bilim insanı, bir Söyledikleri teknik, model bağlam penceresi boyutundaki kısıtlamayı tamamen ortadan kaldırıyor.

Ancak Google, bu boyutta bir bağlam penceresine sahip bir modeli ticari olarak kullanıma sunan ilk şirket oldu ve önceki lider Anthropic’in 200.000 jetonlu bağlam penceresini geride bıraktı – eğer özel bir önizleme ticari olarak mevcut sayılırsa.

Gemini 1.5 Pro’nun maksimum bağlam penceresi 1 milyon jetondur ve modelin daha yaygın olarak bulunan versiyonu, OpenAI’nin GPT-4 Turbo’suyla aynı olan 128.000 jetonluk bir bağlam penceresine sahiptir.

Peki 1 milyon jetonluk bir bağlam penceresiyle neler başarılabilir? Google pek çok şeyi vaat ediyor: Kod kitaplığının tamamını analiz etmek, sözleşmeler gibi uzun belgeler üzerinde “akıl yürütmek”, bir sohbet robotuyla uzun görüşmeler yapmak ve videolardaki içeriği analiz etmek ve karşılaştırmak gibi.

Brifing sırasında Google, Gemini 1.5 Pro’nun 1 milyon jetonluk bağlam penceresinin etkin olduğu önceden kaydedilmiş iki demosunu gösterdi.

İlkinde, gösterici Gemini 1.5 Pro’dan Apollo 11’in aya iniş yayınının transkripsiyonunu (yaklaşık 402 sayfa) aramasını ve şakalar içeren alıntılar bulmasını ve ardından yayında kalem taslağına benzeyen bir sahne bulmasını istedi. . İkincisinde, gösterici modele Buster Keaton filmi “Sherlock Jr.”daki sahneleri açıklamalara ve başka bir taslağa göre aramasını söyledi.

Gemini 1.5 Pro kendisinden istenen tüm görevleri başarıyla tamamladı, ancak çok hızlı bir şekilde değil. Her birinin işlenmesi ~20 saniye ile bir dakika arasında sürdü; ortalama ChatGPT sorgusundan çok daha uzun.

Vinyals, model optimize edildikçe gecikmenin artacağını söylüyor. Şirket halihazırda Gemini 1.5 Pro’nun bir versiyonunu test ediyor. 10 milyon jeton bağlam penceresi.

“Gecikme yönü [is something] biz … optimize etmek için çalışıyoruz; bu henüz deneysel aşamada, araştırma aşamasında” dedi. “Yani bu sorunların diğer modellerde olduğu gibi mevcut olduğunu söyleyebilirim.”

Ben, yoksulluğun pek çok insan için çekici olacağından pek emin değilim – çok daha az para ödeyen müşteriler. Bir videoda arama yapmak için her seferinde dakikalarca beklemek kulağa hoş gelmiyor veya yakın vadede çok da ölçeklenebilir görünmüyor. Ve gecikmenin, sohbet robotu konuşmaları ve kod tabanlarını analiz etme gibi diğer uygulamalarda nasıl ortaya çıktığı konusunda endişeliyim. Vinyals bunu söylemedi; bu da pek güven vermiyor.

Daha iyimser meslektaşım Frederic Lardinois şunu belirtti: etraflı zaman tasarrufu, başparmağı çevirmeye değer hale getirebilir. Ancak bunun büyük ölçüde kullanım durumuna bağlı olacağını düşünüyorum. Bir dizinin olay örgüsünü belirlemek için mi? Belki de hayır. Ama sadece belli belirsiz hatırladığınız bir film sahnesinden doğru ekran görüntüsünü bulmak için mi? Belki.

Diğer iyileştirmeler

Gemini 1.5 Pro, genişletilmiş bağlam penceresinin ötesinde, yaşam kalitesine yönelik başka yükseltmeleri de masaya getiriyor.

Google, daha küçük, uzmanlaşmış “uzman” modellerden oluşan yeni mimarisi sayesinde, kalite açısından Gemini 1.5 Pro’nun, Google’ın amiral gemisi GenAI modeli olan Gemini Ultra’nın mevcut sürümüyle “karşılaştırılabilir” olduğunu iddia ediyor. Gemini 1.5 Pro, esasen görevleri birden fazla alt göreve böler ve ardından bunları uygun uzman modellere devreder ve kendi tahminlerine göre hangi görevin devredileceğine karar verir.

MoE yeni değil; yıllardır bir şekilde ortalıkta dolaşıyor. Ancak verimliliği ve esnekliği, onu model satıcıları arasında giderek daha popüler bir seçim haline getirdi (bkz: Microsoft’un dil çeviri hizmetlerini destekleyen model).

Şimdi, “karşılaştırılabilir kalite” biraz belirsiz bir tanımlayıcıdır. GenAI modelleri, özellikle de çok modlu modeller söz konusu olduğunda kalitenin ölçülmesi zordur; modeller, basını hariç tutan özel ön izlemelerin arkasında olduğunda bu durum iki kat zordur. Google, şirketin kullandığı kıyaslamalarda Gemini 1.5 Pro’nun Ultra ile karşılaştırıldığında “genel olarak benzer seviyede” performans gösterdiğini iddia ediyor. LLM’leri geliştirirken bunların %87’sinde Gemini 1.0 Pro’dan daha iyi performans gösterdi kıyaslamalar. (Gemini 1.0 Pro’dan daha iyi performans göstermenin düşük bir çıta olduğunu belirteceğim.)

Fiyatlandırma büyük bir soru işareti.

Google, özel önizleme sırasında 1 milyon jetonluk bağlam penceresine sahip Gemini 1.5 Pro’nun kullanımının ücretsiz olacağını söyledi. Ancak şirket bunu tanıtmayı planlıyor yakın gelecekte standart 128.000 bağlam penceresinden başlayan ve 1 milyon tokene kadar ölçeklendirilecek fiyatlandırma katmanları.

Daha geniş bağlam penceresinin ucuza gelmeyeceğini düşünmek zorundayım – ve Google brifing sırasında fiyatları açıklamamayı tercih ederek korkuları gidermedi. Fiyatlandırma Anthropic’in fiyatlarına uygunsa, bir milyon hızlı token başına 8 dolara ve üretilen bir milyon token başına 24 dolara mal olabilir. Ama belki daha düşük olacaktır; tuhaf şeyler oldu! Bekleyip görmemiz gerekecek.

Başta Gemini Ultra olmak üzere Gemini ailesindeki diğer modellere yönelik etkileri de merak ediyorum. Ultra model yükseltmelerinin kabaca Pro yükseltmeleriyle uyumlu olmasını bekleyebilir miyiz? Yoksa mevcut Pro modellerinin performans açısından, Google’ın Gemini portföyünde hala en üst düzey ürün olarak pazarladığı Ultra modellerine göre üstün olduğu, şu anda olduğu gibi, her zaman garip bir dönem mi olacak?

Eğer kendinizi yardımsever hissediyorsanız, diş çıkarma sorunlarına değinin. Değilseniz, olduğu gibi deyin: kahrolası kafa karıştırıcı.

Kaynak: https://techcrunch.com/2024/02/15/googles-new-gemini-model-can-analyze-an-hour-long-video-but-few-people-can-use-it/