Akıl yürütme olarak adlandırılan yapay zeka modellerinin geliştirilmesi daha kolay ve daha ucuz hale geliyor.
Cuma günü, UC Berkeley’in Sky Computing Lab’ından araştırmacılardan oluşan bir ekip olan NovaSky, bir dizi önemli kıyaslamada OpenAI’nin o1’in önceki bir sürümüyle rekabet edebilecek bir akıl yürütme modeli olan Sky-T1-32B-Preview’i piyasaya sürdü. Sky-T1, sıfırdan kopyalanabilmesi açısından gerçek anlamda ilk açık kaynak akıl yürütme modeli gibi görünüyor; Ekip, onu eğitmek için kullandıkları veri setini ve gerekli eğitim kodunu yayınladı.
Ekip bir blog yazısında “Dikkate değer bir şekilde, Sky-T1-32B-Preview 450 dolardan daha düşük bir ücret karşılığında eğitildi” diye yazdı ve “üst düzey muhakeme yeteneklerini uygun maliyetli ve verimli bir şekilde çoğaltmanın mümkün olduğunu gösterdi.”
450 dolar o kadar da uygun gelmeyebilir. Ancak yakın zamanlara kadar karşılaştırılabilir performansa sahip bir modelin eğitiminin fiyat etiketinin genellikle milyonlarca dolar civarında olduğu görülüyordu.
Çoğu yapay zekanın aksine, muhakeme modelleri kendilerini etkili bir şekilde kontrol ediyor ve bu da normalde modelleri tetikleyen bazı tuzaklardan kaçınmalarına yardımcı oluyor. Akıl yürütme modellerinin çözümlere ulaşması, tipik akıl yürütme olmayan modele kıyasla biraz daha uzun sürer (genellikle saniyelerden dakikalara kadar). İşin iyi yanı ise fizik, bilim ve matematik gibi alanlarda daha güvenilir olma eğiliminde olmalarıdır.
NovaSky ekibi, Sky-T1 için ilk eğitim verilerini oluşturmak için Alibaba’nın QwQ-32B-Preview adlı başka bir akıl yürütme modelini kullandığını, ardından veri karışımını “düzenlediğini” ve verileri daha kapsamlı bir şekilde yeniden düzenlemek için OpenAI’nin GPT-4o-mini’sinden yararlandığını söylüyor. uygulanabilir format. 32 milyar parametreli Sky-T1’in eğitimi, 8 adet Nvidia H100 GPU’dan oluşan bir raf kullanılarak yaklaşık 19 saat sürdü. (Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir.)
NovaSky ekibine göre Sky-T1, “rekabet düzeyinde” matematik mücadelelerinden oluşan bir koleksiyon olan MATH500’de o1’in erken önizleme sürümünden daha iyi performans gösteriyor. Model aynı zamanda bir kodlama değerlendirmesi olan LiveCodeBench’in bir dizi zorlu probleminde o1’in ön izlemesini de geride bırakıyor.
Ancak Sky-T1, bir doktora mezununun bilmesi beklenen fizik, biyoloji ve kimya ile ilgili soruları içeren GPQA-Diamond’daki o1 önizlemesinin gerisinde kalıyor.
OpenAI’nin o1 GA sürümünün, o1’in önizleme sürümünden daha güçlü bir model olduğunu ve OpenAI’nin önümüzdeki haftalarda daha da iyi performans gösteren bir akıl yürütme modeli olan o3’ü yayınlamasının beklendiğini de belirtmek önemlidir.
Ancak NovaSky ekibi, Sky-T1’in gelişmiş akıl yürütme yeteneklerine sahip açık kaynaklı modeller geliştirme yolculuğunun yalnızca başlangıcını işaret ettiğini söylüyor.
Ekip, gönderide şöyle yazdı: “İleriye dönük olarak, güçlü muhakeme performansını koruyan daha verimli modeller geliştirmeye ve modellerin test zamanındaki verimliliğini ve doğruluğunu daha da artıran gelişmiş teknikleri keşfetmeye odaklanacağız.” “Bu heyecan verici girişimlerde ilerleme kaydederken bizi takip etmeye devam edin.”
Kaynak: https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/