Kaç tane yapay zeka modeli çok fazla? Nasıl baktığınıza bağlı ama haftada 10 muhtemelen biraz fazla. Son birkaç günde yaklaşık olarak bu sayıda piyasaya sürüldüğünü gördük ve bu modellerin birbiriyle karşılaştırılıp karşılaştırılamayacağını ve nasıl karşılaştırılacağını söylemek, eğer başlangıçta mümkün olsaydı, giderek zorlaşıyor. Peki amaç ne?
Yapay zekanın evriminde tuhaf bir dönemdeyiz, ancak elbette her zaman oldukça tuhaftı. Niş geliştiricilerden büyük, iyi finanse edilenlere kadar irili ufaklı modellerin çoğaldığını görüyoruz.
Bu haftanın listesini gözden geçirelim, olur mu? Her modeli birbirinden ayıran şeyleri özetlemeye çalıştım.
Bu 11, çünkü ben bunu yazarken bir tane duyuruldu. Ve bu, bu hafta piyasaya sürülen veya ön izlemesi yapılan modellerin tümü değil! Bunlar sadece gördüğümüz ve tartıştığımız şeyler. Dahil edilme koşullarını biraz gevşetirsek, düzinelerce ürün ortaya çıkabilir: bazı ince ayarlı mevcut modeller, bazı Idefics 2 gibi kombinasyonlar, bazıları deneysel veya niş vb. Bu haftanın yeni inşa etme (meşale) araçlarından ve (Glaze 2.0) üretken yapay zekaya karşı mücadeleden bahsetmeye bile gerek yok!
Bu bitmek bilmeyen çığdan ne anlamalıyız? Hepsini “inceleyemeyiz”. Peki siz okuyucularımızın tüm bunları anlamalarına ve takip etmelerine nasıl yardımcı olabiliriz?
Gerçek şu ki, devam etmenize gerek yok. ChatGPT ve Gemini gibi bazı modeller, birden fazla kullanım senaryosunu ve erişim noktasını kapsayan tam bir web platformuna dönüştü. LLaMa veya OLMo gibi diğer büyük dil modelleri teknik olarak temel bir mimariyi paylaşsalar da aslında aynı rolü üstlenmiyorlar. Bir marka olarak ön planda değil, bir hizmet veya bileşen olarak arka planda kalmaları amaçlanıyor.
Bu iki şeyle ilgili kasıtlı bir kafa karışıklığı var çünkü modellerin geliştiricileri, GPT-4V veya Gemini Ultra gibi büyük AI platformu sürümleriyle ilgili tantananın bir kısmını ödünç almak istiyor. Herkes onların serbest bırakılmasının önemli olduğunu düşünmenizi istiyor. Ve bu muhtemelen birileri için önemli olsa da, o kişinin siz olmadığı neredeyse kesindir.
Bunu otomobiller gibi başka bir geniş ve çeşitli kategori açısından düşünün. İlk icat edildiklerinde sadece bir “araba” satın alıyordunuz. Biraz sonra büyük bir araba, küçük bir araba ve bir traktör arasında seçim yapabilirsiniz. Günümüzde her yıl yüzlerce araba piyasaya sürülüyor, ancak muhtemelen bunların onda birinin bile farkında olmanıza gerek yok, çünkü onda dokuzu ihtiyacınız olan bir araba değil, hatta sizin anladığınız anlamda bir araba bile değil. Benzer şekilde, yapay zekanın büyük/küçük/traktör çağından yayılma çağına doğru ilerliyoruz ve yapay zeka uzmanları bile ortaya çıkan tüm modellere ayak uyduramıyor ve bunları test edemiyor.
Hikayenin diğer tarafı ise ChatGPT ve diğer büyük modeller ortaya çıkmadan çok önce zaten bu aşamadaydık. 7-8 yıl önce bu konuyu çok daha az insan okuyordu, ancak yine de bu konuyu ele aldık çünkü bu açıkça patlama anını bekleyen bir teknolojiydi. Sürekli olarak makaleler, modeller ve araştırmalar çıkıyordu ve SIGGRAPH ve NeurIPS gibi konferanslar, notları karşılaştıran ve birbirlerinin çalışmaları üzerine inşa eden makine öğrenimi mühendisleriyle doluydu. İşte 2011’de yazdığım bir görsel anlama hikayesi!
Bu faaliyet her gün devam ediyor. Ancak AI büyük bir iş haline geldiğinden (muhtemelen şu anda teknolojinin en büyüğü), bu gelişmelere biraz daha fazla ağırlık verildi, çünkü insanlar bunlardan birinin ChatGPT’nin öncüllerine göre ChatGPT’ye göre daha büyük bir sıçrama olup olmayacağını merak ediyor.
Basit gerçek şu ki, bu modellerden hiçbiri bu kadar büyük bir adım olmayacak çünkü OpenAI’nin ilerleyişi, makine öğrenimi mimarisinde şu anda tüm diğer şirketlerin benimsediği ve yerine geçilmeyen temel bir değişiklik üzerine inşa edildi. Sentetik bir kıyaslamada bir veya iki puan daha iyi olmak veya marjinal olarak daha ikna edici bir dil veya görüntü gibi artan iyileştirmeler, şu an için sabırsızlıkla beklememiz gereken tek şey.
Bu, bu modellerden hiçbirinin önemli olmadığı anlamına mı geliyor? Kesinlikle öyle. 2.1, 2.2, 2.2.1 vb. olmadan sürüm 2.0’dan 3.0’a geçemezsiniz. Bazen bu ilerlemeler anlamlıdır, ciddi eksiklikleri giderir veya beklenmedik güvenlik açıklarını ortaya çıkarır. İlginç olanları ele almaya çalışıyoruz, ancak bu tam sayının sadece bir kısmı. Aslında şu anda makine öğrenimi meraklılarının bilmesi gerektiğini düşündüğümüz tüm modelleri toplayan bir parça üzerinde çalışıyoruz ve bu bir düzine civarında.
Endişelenmeyin: Büyük bir olay geldiğinde bunu bileceksiniz, üstelik bunu sadece TechCrunch haber yaptığı için değil. Bu bizim için olduğu kadar sizin için de açık olacaktır.
Kaynak: https://techcrunch.com/2024/04/19/too-many-models/
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası