Google, üretken yapay zeka modelleri, uygulamaları ve hizmetlerinden oluşan amiral gemisi paketi Gemini ile ses getirmeye çalışıyor.
Peki İkizler burcu nedir? Bunu nasıl kullanıyorsun? Peki rekabette nasıl bir performans sergiliyor?
Gemini’deki en son gelişmeleri takip etmeyi kolaylaştırmak için, yeni Gemini modelleri, özellikleri ve Google’ın Gemini planlarına ilişkin haberler yayınlandıkça güncel tutacağımız bu kullanışlı kılavuzu bir araya getirdik.
İkizler Nedir?
Gemini, Google’ın yapay zeka araştırma laboratuvarları DeepMind ve Google Research tarafından geliştirilen, Google’ın uzun süredir vaat edilen yeni nesil GenAI model ailesidir. Üç çeşit olarak gelir:
- İkizler Ultraen performanslı Gemini modeli.
- İkizler Probir “hafif” Gemini modeli.
- İkizler NanoPixel 8 Pro gibi mobil cihazlarda çalışan daha küçük “damıtılmış” bir model.
Tüm Gemini modelleri “doğal olarak çok modlu” olacak şekilde eğitildi; başka bir deyişle, yalnızca kelimelerle çalışabilecek ve daha fazlasını kullanabilecek şekilde eğitildi. Çeşitli ses, görüntü ve videolar, çok sayıda kod tabanı ve farklı dillerdeki metinler üzerinde önceden eğitilmiş ve ince ayarlar yapılmıştır.
Bu, Gemini’yi Google’ın yalnızca metin verileriyle eğitilmiş kendi LaMDA’sı gibi modellerden ayırıyor. LaMDA metinden başka hiçbir şeyi anlayamaz veya oluşturamaz (örn. makaleler, e-posta taslakları), ancak Gemini modellerinde durum böyle değildir.
Gemini uygulamaları ile Gemini modelleri arasındaki fark nedir?
Markalaşma konusunda beceriksiz olduğunu bir kez daha kanıtlayan Google, Gemini’nin web ve mobildeki Gemini uygulamalarından (eski adıyla Bard) ayrı ve farklı olduğunu en başından beri açıkça belirtmedi. Gemini uygulamaları yalnızca belirli Gemini modellerine erişilebilen bir arayüzdür; bunu Google’ın GenAI istemcisi olarak düşünün.
Bu arada Gemini uygulamaları ve modelleri, Google’ın şirketin bazı geliştirme araçları ve ortamlarında bulunan metinden resme modeli Imagen 2’den de tamamen bağımsızdır.
İkizler burcu ne yapabilir?
Gemini modelleri çok modlu olduğundan, teorik olarak konuşmanın yazıya geçirilmesinden resim ve videoların altyazılarının yazılmasına ve sanat eserlerinin oluşturulmasına kadar çeşitli çok modlu görevleri gerçekleştirebilirler. Bu yeteneklerin bir kısmı henüz ürün aşamasına ulaştı (bu konuya daha sonra değineceğiz) ve Google, çok da uzak olmayan bir gelecekte bunların hepsini ve daha fazlasını vaat ediyor.
Elbette şirketin sözüne güvenmek biraz zor.
Google, orijinal Bard’ın piyasaya sürülmesinde ciddi anlamda yetersiz teslimat yaptı. Ve yakın zamanda Gemini’nin yeteneklerini gösterdiği iddia edilen, üzerinde yoğun bir şekilde oynandığı ve aşağı yukarı istek uyandıran bir videoyla tüyleri karıştırdı.
Yine de, Google’ın iddialarında az çok dürüst olduğunu varsayarsak, Gemini’nin farklı katmanlarının tam potansiyellerine ulaştıklarında yapabilecekleri şunlardır:
İkizler Ultra
Google, Gemini Ultra’nın çok modlu olması sayesinde fizik ödevleri, problemleri bir çalışma sayfasında adım adım çözme ve önceden doldurulmuş yanıtlardaki olası hataları gösterme gibi konularda yardımcı olmak için kullanılabileceğini söylüyor.
Google, Gemini Ultra’nın belirli bir sorunla ilgili bilimsel makaleleri belirlemek, bu makalelerden bilgi çıkarmak ve grafiği daha yeni verilerle yeniden oluşturmak için gerekli formülleri üreterek bir grafiği “güncellemek” gibi görevlere de uygulanabileceğini söylüyor. .
Gemini Ultra, daha önce de belirtildiği gibi teknik olarak görüntü oluşturmayı destekler. Ancak bu yetenek henüz modelin ürünleştirilmiş versiyonuna girmedi; bunun nedeni belki de mekanizmanın, ChatGPT gibi uygulamaların görüntü oluşturma biçiminden daha karmaşık olmasıdır. Gemini, istemleri bir görüntü oluşturucuya beslemek yerine (ChatGPT’nin durumunda DALL-E 3 gibi), görüntüleri herhangi bir ara adım olmadan “doğal olarak” çıkarır.
Gemini Ultra, Google’ın tam olarak yönetilen yapay zeka geliştirici platformu Vertex AI ve Google’ın uygulama ve platform geliştiricilere yönelik web tabanlı aracı AI Studio aracılığıyla API olarak mevcuttur. Aynı zamanda Gemini uygulamalarına da güç veriyor; ancak ücretsiz değil. Google’ın Gemini Advanced olarak adlandırdığı yöntemle Gemini Ultra’ya erişim, aylık 20 ABD doları tutarındaki Google One AI Premium Planına abone olmayı gerektirir.
AI Premium Planı aynı zamanda Gemini’yi daha geniş Google Workspace hesabınıza da bağlar; Gmail’deki e-postaları, Dokümanlar’daki dokümanları, E-Tablolar’daki sunumları ve Google Meet kayıtlarını düşünün. Bu, örneğin e-postaları özetlemek veya Gemini’nin bir video görüşmesi sırasında not almasını sağlamak için kullanışlıdır.
İkizler Pro
Google, Gemini Pro’nun muhakeme, planlama ve anlama yetenekleri açısından LaMDA’ya göre bir gelişme olduğunu söylüyor.
Carnegie Mellon ve BerriAI araştırmacıları tarafından yapılan bağımsız bir çalışma, Gemini Pro’nun ilk sürümünün, daha uzun ve daha karmaşık akıl yürütme zincirlerini ele alma konusunda OpenAI’nin GPT-3.5’inden gerçekten daha iyi olduğunu buldu. Ancak çalışma aynı zamanda tüm büyük dil modelleri gibi Gemini Pro’nun bu sürümünün de özellikle birkaç rakam içeren matematik problemleriyle uğraştığını ve kullanıcıların kötü akıl yürütme ve bariz hata örnekleri bulduğunu da ortaya çıkardı.
Ancak Google çareler vaat etti ve ilki Gemini 1.5 Pro biçiminde geldi.
Hemen değiştirilebilecek şekilde tasarlanan Gemini 1.5 Pro, selefine kıyasla birçok alanda, belki de en önemlisi işleyebileceği veri miktarında geliştirildi. Gemini 1.5 Pro, ~700.000 kelime veya ~30.000 kod satırı alabilir; bu, Gemini 1.0 Pro’nun kaldırabileceği miktarın 35 katıdır. Ve model çok modlu olduğundan metinle sınırlı değildir. Gemini 1.5 Pro, yavaş da olsa, 11 saate kadar sesi veya çeşitli farklı dillerdeki bir saate kadar videoyu analiz edebilir (örneğin, bir saatlik bir videoda bir sahneyi aramak, işleme 30 saniye ila bir dakika sürer).
Gemini 1.5 Pro, Nisan ayında Vertex AI’de genel önizlemeye girdi.
Ek bir uç nokta olan Gemini Pro Vision, metni işleyebilir Ve fotoğraflar ve videolar da dahil olmak üzere görüntüler ve OpenAI’nin GPT-4 with Vision modelinin çizgileri doğrultusunda metin çıktısı alın.
Geliştiriciler, Vertex AI içerisinde Gemini Pro’yu belirli bağlamlara göre özelleştirebilir ve ince ayar veya “temelleme” sürecini kullanarak vakaları kullanabilir. Gemini Pro ayrıca belirli eylemleri gerçekleştirmek için harici, üçüncü taraf API’lere de bağlanabilir.
AI Studio’da Gemini Pro’yu kullanarak yapılandırılmış sohbet istemleri oluşturmaya yönelik iş akışları vardır. Geliştiricilerin hem Gemini Pro hem de Gemini Pro Vision uç noktalarına erişimi vardır ve çıktının yaratıcı aralığını kontrol etmek için model sıcaklığını ayarlayabilir, ton ve stil talimatları vermek için örnekler sağlayabilir ve ayrıca güvenlik ayarlarını ayarlayabilirler.
İkizler Nano
Gemini Nano, Gemini Pro ve Ultra modellerinin çok daha küçük bir versiyonudur ve görevi herhangi bir yerdeki bir sunucuya göndermek yerine (bazı) telefonlarda doğrudan çalıştırabilecek kadar verimlidir. Şu ana kadar Pixel 8 Pro, Pixel 8 ve Samsung Galaxy S24’te Kaydedicide Özetleme ve Gboard’da Akıllı Yanıtlama dahil olmak üzere birkaç özelliğe güç veriyor.
Kullanıcıların sesi kaydetmek ve yazıya dökmek için bir düğmeye basmasına olanak tanıyan Kaydedici uygulaması, kayıtlı konuşmalarınızın, röportajlarınızın, sunumlarınızın ve diğer parçacıkların Gemini destekli bir özetini içerir. Kullanıcılar bu özetleri, bir sinyal veya Wi-Fi bağlantılarına sahip olmasalar bile alırlar ve gizliliğe bir saygı duruşu olarak, bu süreçte telefonlarından hiçbir veri ayrılmaz.
Gemini Nano aynı zamanda Google’ın klavye uygulaması olan Gboard’da da bulunmaktadır. Burada, bir mesajlaşma uygulamasında sohbet ederken söylemek isteyeceğiniz bir sonraki şeyi önermeye yardımcı olan Akıllı Yanıt adı verilen bir özelliği çalıştırıyor. Google, özelliğin başlangıçta yalnızca WhatsApp’ta çalıştığını ancak zamanla daha fazla uygulamaya geleceğini söylüyor.
Nano, desteklenen cihazlardaki Google Mesajlar uygulamasında mesajları “heyecanlı”, “resmi” ve “lirik” gibi tarzlarda oluşturabilen Magic Compose’u etkinleştirir.
Gemini, OpenAI’nin GPT-4’ünden daha mı iyi?
Google, Gemini Ultra’nın “büyük dil modeli araştırma ve geliştirmesinde kullanılan yaygın olarak kullanılan 32 akademik kriterden 30’unda” mevcut en son sonuçları aştığını iddia ederek, Gemini’nin kıyaslamalardaki üstünlüğünü defalarca övdü. Şirket, Gemini 1.5 Pro’nun bazı senaryolarda içeriği özetleme, beyin fırtınası yapma ve yazma gibi görevlerde Gemini Ultra’dan daha yetenekli olduğunu söylüyor; muhtemelen bir sonraki Ultra modelinin piyasaya sürülmesiyle bu durum değişecek.
Ancak kıyaslamaların gerçekten daha iyi bir modeli gösterip göstermediği sorusunu bir kenara bırakırsak, Google’ın işaret ettiği puanlar, OpenAI’nin ilgili modellerinden yalnızca marjinal olarak daha iyi görünüyor. Ve – daha önce de belirtildiği gibi – kullanıcılar ve akademisyenler, Gemini Pro’nun eski sürümünün temel gerçekleri yanlış anlama eğiliminde olduğunu, çevirilerde sorun yaşadığını ve kötü kodlama önerileri verdiğini belirtmesiyle, bazı ilk izlenimler pek de iyi olmadı.
Gemini’nin maliyeti ne kadar?
Gemini 1.5 Pro, Gemini uygulamalarında ve şimdilik AI Studio ve Vertex AI’da ücretsizdir.
Ancak Gemini 1.5 Pro, Vertex’teki önizlemeden çıktığında modelin maliyeti karakter başına 0,0025 ABD Doları, çıktının ise karakter başına 0,00005 ABD Doları olacaktır. Vertex müşterileri 1.000 karakter başına (yaklaşık 140 ila 250 kelime) ve Gemini Pro Vision gibi modellerde görüntü başına (0,0025 ABD doları) ödeme yapar.
500 kelimelik bir makalenin 2.000 karakter içerdiğini varsayalım. Bu makaleyi Gemini 1.5 Pro ile özetlemek 5 dolara mal olacak. Bu arada, benzer uzunlukta bir makale üretmenin maliyeti 0,1 dolardır.
Ultra fiyatlandırma henüz açıklanmadı.
Gemini’yi nerede deneyebilirsiniz?
İkizler Pro
Gemini Pro’yu deneyimlemenin en kolay yeri Gemini uygulamalarıdır. Pro ve Ultra, çeşitli dillerdeki soruları yanıtlıyor.
Gemini Pro ve Ultra’ya ayrıca bir API aracılığıyla Vertex AI’de önizleme olarak erişilebilir. API’nin kullanımı şimdilik “sınır dahilinde” ücretsizdir ve Avrupa da dahil olmak üzere belirli bölgelerin yanı sıra sohbet işlevselliği ve filtreleme gibi özellikleri de desteklemektedir.
Diğer yerlerde Gemini Pro ve Ultra, AI Studio’da bulunabilir. Geliştiriciler, hizmeti kullanarak istemleri ve Gemini tabanlı sohbet robotlarını yineleyebilir ve ardından bunları uygulamalarında kullanmak için API anahtarlarını alabilir veya kodu daha tam özellikli bir IDE’ye aktarabilir.
Google’ın kod tamamlama ve oluşturmaya yönelik yapay zeka destekli yardım araçları paketi Code Assist (eski adıyla Geliştiriciler için Duet AI), Gemini modellerini kullanıyor. Geliştiriciler, kod tabanları arasında “büyük ölçekli” değişiklikler gerçekleştirebilir; örneğin, dosyalar arası bağımlılıkların güncellenmesi ve büyük kod parçalarının gözden geçirilmesi.
Google, Gemini modellerini Chrome ve Firebase mobil geliştirme platformuna yönelik geliştirme araçlarına ve veritabanı oluşturma ve yönetim araçlarına getirdi. Ve Gemini tarafından desteklenen yeni güvenlik ürünlerini piyasaya sürdü. Google’ın Mandiant siber güvenlik platformunun bir bileşeni olan Tehdit İstihbaratındaki Gemini, potansiyel olarak kötü amaçlı kodun büyük bölümlerini analiz edebilir ve kullanıcıların devam eden tehditler veya güvenlik ihlali göstergeleri için doğal dil aramaları yapmasına olanak tanır.
Kaynak: https://techcrunch.com/2024/04/29/what-is-google-gemini-ai/