DeepSeek’in yeni yapay zeka modeli şu ana kadarki en iyi ‘açık’ rakiplerden biri gibi görünüyor

Çin’deki bir laboratuvar bugüne kadarki en güçlü “açık” yapay zeka modellerinden birini yarattı.

DeepSeek V3 modeli, AI firması DeepSeek tarafından geliştirildi ve geliştiricilerin ticari uygulamalar da dahil olmak üzere çoğu uygulama için onu indirmesine ve değiştirmesine olanak tanıyan izin verilen bir lisans kapsamında Çarşamba günü piyasaya sürüldü.

DeepSeek V3, açıklayıcı bir bilgi isteminden kodlama, çeviri ve makale ve e-posta yazma gibi çeşitli metin tabanlı iş yüklerini ve görevleri yerine getirebilir.

DeepSeek’in dahili karşılaştırma testine göre DeepSeek V3, hem indirilebilir, “açık” olarak mevcut modellerden hem de yalnızca bir API aracılığıyla erişilebilen “kapalı” AI modellerinden daha iyi performans gösteriyor. Programlama yarışmalarına yönelik bir platform olan Codeforces’ta düzenlenen kodlama yarışmalarının bir alt kümesinde DeepSeek, Meta’nın Llama 3.1 405B, OpenAI’nin GPT-4o ve Alibaba’nın Qwen 2.5 72B’sinin de aralarında bulunduğu modellerden daha iyi performans gösteriyor.

DeepSeek V3 ayrıca, diğer şeylerin yanı sıra, bir modelin mevcut koda entegre olan yeni kodu başarılı bir şekilde yazıp yazamayacağını ölçmek için tasarlanmış bir test olan Aider Polgyglot’taki rekabeti de eziyor.

DeepSeek-V3!

60 jeton/saniye (V2’den 3 kat daha hızlı!)
API uyumluluğu bozulmamış
Tamamen açık kaynaklı modeller ve makaleler
671B MoE parametreleri
37B etkinleştirilen parametreler
14,8T yüksek kaliteli jetonlarla eğitildi

Neredeyse tüm kıyaslamalarda Llama 3.1 405b’yi geçiyor https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

— Chubby♨️ (@kimmonismus) 26 Aralık 2024

DeepSeek, DeepSeek V3’ün 14,8 trilyon tokenden oluşan bir veri kümesi üzerinde eğitildiğini iddia ediyor. Veri biliminde jetonlar ham veri parçalarını temsil etmek için kullanılır; 1 milyon jeton yaklaşık 750.000 kelimeye eşittir.

Devasa olan yalnızca eğitim seti değil. DeepSeek V3 devasa bir boyuta sahiptir: 685 milyar parametre. (Parametreler, tahminlerde bulunmak veya kararlar almak için kullanılan dahili değişken modelleridir.) Bu, 405 milyar parametreye sahip olan Llama 3.1 405B’nin yaklaşık 1,6 katı büyüklüğündedir.

DeepSeek (Çin Yapay Zeka Şirketi), şaka niteliğinde bir bütçeyle (2 ay boyunca 2048 GPU, 6 milyon dolar) eğitilmiş, sınır düzeyinde bir LLM’nin açık ağırlık sürümüyle bugün her şeyin kolay görünmesini sağlıyor.

Referans olarak, bu düzeydeki yeteneğin 16K GPU’lara daha yakın kümeler gerektirmesi gerekiyor; bunlar… https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) 26 Aralık 2024

Parametre sayısı sıklıkla (ama her zaman değil) beceriyle ilişkilidir; Daha fazla parametreye sahip modeller, daha az parametreye sahip modellerden daha iyi performans gösterme eğilimindedir. Ancak büyük modellerin çalışması için daha güçlü donanımlar da gerekir. DeepSeek V3’ün optimize edilmemiş bir sürümünün, soruları makul hızlarda yanıtlamak için bir grup üst düzey GPU’ya ihtiyacı olacaktır.

DeepSeek V3 en pratik model olmasa da bazı açılardan bir başarıdır. DeepSeek, modeli yaklaşık iki ay içinde Nvidia H800 GPU’lardan oluşan bir veri merkezi kullanarak eğitmeyi başardı; bu GPU’lar, Çinli şirketlerin yakın zamanda ABD Ticaret Bakanlığı tarafından satın alması kısıtlanmıştı. Şirket ayrıca DeepSeek V3’ü eğitmek için yalnızca 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4 gibi modellerinin geliştirme maliyetinin çok küçük bir kısmı.

Dezavantajı ise modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermeyecektir.

Çinli bir şirket olan DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri içerdiğinden” emin olmak için Çin’in internet düzenleyicisi tarafından kıyaslamaya tabi tutuluyor. Pek çok Çin yapay zeka sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin öfkesini artırabilecek konulara yanıt vermeyi reddediyor.

Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir yanıt olan DeepSeek-R1’i tanıtan DeepSeek, meraklı bir organizasyon. Ticaret kararlarını bilgilendirmek için yapay zekayı kullanan Çinli bir niceliksel riskten korunma fonu olan High-Flyer Capital Management tarafından desteklenmektedir.

DeepSeek’in modelleri ByteDance, Baidu ve Alibaba gibi rakipleri bazı modellerin kullanım fiyatlarını düşürmeye, bazılarını ise tamamen ücretsiz yapmaya zorladı.

High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturuyor; bunlardan en yenilerinden birinin 10.000 Nvidia A100 GPU’ya sahip olduğu ve 1 milyar yen (~ 138 milyon $) maliyeti olduğu bildiriliyor. Bilgisayar bilimi mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek organizasyonu aracılığıyla “süper akıllı” yapay zekaya ulaşmayı hedefliyor.

Bu yılın başlarında yapılan bir röportajda Liang, açık kaynak kullanımını “kültürel bir eylem” olarak tanımladı ve OpenAI gibi kapalı kaynaklı yapay zekayı “geçici” bir hendek olarak nitelendirdi. “OpenAI’nin kapalı kaynak yaklaşımı bile diğerlerinin yetişmesini engellemedi” diye belirtti.

Aslında.

Kaynak: https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet/

Yorum yap

DeepSeek’in yeni yapay zeka modeli şu ana kadarki en iyi ‘açık’ rakiplerden biri gibi görünüyor

İlgili haberler: