Endüstri lideri AI kapsamındaki en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Araştırmacılar Birlikte AI Ve Ajan Etkilenen tescilli modellerle karşılaştırılabilir etkileyici performans sunan yeni bir kodlama modeli olan DeepCoder-14B’yi yayınladım. Openai’s O3-Mini.
Deepseek-R1’in üzerine inşa edilen bu model, yüksek performanslı kod oluşturma ve akıl yürütme yeteneklerini gerçek dünya uygulamalarına entegre etmek için daha fazla esneklik sağlar. Daha da önemlisi, ekipler modeli, eğitim verilerini, kodunu, günlüklerini ve sistem optimizasyonlarını tamamen açık kaynaklıdır, bu da araştırmacıların çalışmalarını geliştirmelerine ve ilerlemeyi hızlandırmalarına yardımcı olabilir.
Daha küçük bir pakette rekabetçi kodlama özellikleri
Araştırma ekibinin deneyleri, DeepCoder-14B’nin LiveCodebench (LCB), Codeforces ve HumanEval+dahil olmak üzere birkaç zorlu kodlama ölçütünde güçlü bir performans sergilediğini göstermektedir.
Araştırmacılar, “Modelimiz tüm kodlama ölçütlerinde güçlü performans sergiliyor… O3-mini (düşük) ve O1’in performansıyla karşılaştırılabilir” diyor. Blog yazısı Bu modeli tanımlar.
İlginç bir şekilde, öncelikle kodlama görevleri konusunda eğitilmesine rağmen, model gelişmiş matematiksel akıl yürütme, AIME 2024 ölçütünde% 73.8 puanla, temel modeline (Deepseek-R1-Distill-Qwen-14B)% 4.1’lik bir iyileşme gösteriyor. Bu, RL on Code aracılığıyla geliştirilen akıl yürütme becerilerinin diğer alanlar için etkili bir şekilde genelleştirilebileceğini düşündürmektedir.
En çarpıcı yön, bu performans seviyesini sadece 14 milyar parametreyle elde etmektir. Bu, DeepCoder’ı birçok sınır modelinden önemli ölçüde daha küçük ve potansiyel olarak daha verimli hale getirir.
DeepCoder’ın Performansını Artıran Yenilikler
Modeli geliştirirken, araştırmacılar bazı temel zorlukları çözdü. Eğitim Kodlama Modelleri Takviye öğrenimi (RL) kullanma.
İlk zorluk, eğitim verilerini küratörlüğünü yapmaktı. Takviye öğrenimi, modelin çıktısının doğru olduğunu gösteren güvenilir ödül sinyalleri gerektirir. Araştırmacıların belirttiği gibi, “Bol yüksek kaliteli matematiğin aksine, doğrulanabilir veriler internette kolayca bulunabilir-kodlama alanı bu tür verilerin göreceli bir kıtlığından muzdariptir.”
Bu sorunu ele almak için DeepCoder ekibi, farklı veri kümelerinden örnekler toplayan ve bunları geçerlilik, karmaşıklık ve çoğaltma için filtreleyen katı bir boru hattı uyguladı. Bu süreç, etkili RL eğitimi için sağlam bir temel sağlayarak 24.000 yüksek kaliteli sorun vermiştir.
Ekip ayrıca, yalnızca oluşturulan kodun belirli bir zaman sınırında problem için örneklenmiş birim testleri geçmesi durumunda pozitif bir sinyal sağlayan basit bir ödül fonksiyonu tasarladı. Yüksek kaliteli eğitim örnekleri ile birleştiğinde, bu sonuç odaklı ödül sistemi, modelin kamu testleri için ezberlenmiş cevaplar yazdırmak veya temel problemi çözmeden basit kenar vakaları için optimize etmek gibi öğrenme hileleri öğrenmesini önler.
Modelin temel eğitim algoritması, kanıtlayan bir takviye öğrenme algoritması olan Grup Göreceli Politika Optimizasyonu’na (GRPO) dayanmaktadır. Deepseek-R1’de çok başarılı. Bununla birlikte, ekip algoritmada daha kararlı hale getirmek ve modelin daha uzun süre uzandıkça modelin iyileşmeye devam etmesini sağlamak için birkaç değişiklik yaptı.
Son olarak, ekip modelin bağlam penceresini yinelemeli olarak genişletti, önce daha kısa akıl yürütme dizileri üzerinde eğitim aldı ve uzunluğu yavaş yavaş artırdı. Ayrıca, zor bir istemi çözerken bağlam sınırlarını aşan akıl yürütme zincirleri yarattığında modeli cezalandırmaktan kaçınmak için bir filtreleme yöntemi geliştirdiler.
Araştırmacılar temel fikri açıklıyor: “Verimli eğitimi sağlarken uzun bağlam akıl yürütmesini korumak için, aşırı filtrelemeyi dahil ettik… Bu teknik, eğitim sırasında kesilmiş dizileri maskeler, böylece modeller mevcut bağlam sınırını aşan düşünceli ancak uzun çıkışlar üretmek için cezalandırılmaması.”
Eğitim kademeli olarak 16K’dan 32K bağlam penceresine ölçeklendirildi ve ortaya çıkan model ayrıca 64k jetona kadar gereken sorunları çözebilir.
Uzun kontext RL eğitimini optimize etmek
RL ile büyük modelleri, özellikle kodlama veya karmaşık akıl yürütme gibi uzun üretilen diziler gerektiren görevler üzerinde eğitmek hesaplama açısından yoğun ve yavaş. Büyük bir darboğaz, modelin partide örnek başına potansiyel olarak binlerce jeton ürettiği “örnekleme” adımıdır. Yanıt uzunluğundaki varyasyonlar, bazı yanıtların diğerlerinden çok daha geç bittiği anlamına gelir, GPU’ları boş bırakır ve tüm eğitim döngüsünü yavaşlatır.
Bunu hızlandırmak için ekip, açık kaynaklı VERL kütüphanesinin optimize edilmiş bir uzantısı olan Verl-Pipeline’ı geliştirdi. İnsan geri bildirimlerinden takviye öğrenimi (RLHF). “Bir kerelik boru hattı” dedikleri temel yenilik, darboğazları ve hızlandırıcı boşta kalmayı azaltmak için yanıt örneklemesini ve model güncellemelerini yeniden düzenler.
Deneyleri, tek seferlik boru hattının, RL görevlerini kodlama için temel uygulamalara kıyasla 2x’e kadar bir hız sağladığını gösterdi. Bu optimizasyon, makul bir zaman diliminde (32 H100’lerde 2,5 hafta) DeepCoder’ı eğitmek için çok önemliydi ve şimdi topluluğun kullanması ve inşa etmesi için Verl-Pipeline’ın bir parçası olarak açık kaynaklı.
Kurumsal Etki
Araştırmacılar, DeepCoder-14b’yi eğitim ve çalıştırmak için tüm eserleri kullanılabilir hale getirdiler. Zımpara Ve Sarılma Yüzü izin veren bir lisans altında.
Araştırmacılar, “Veri kümemizi, kodumuzu ve eğitim tarifimizi tam olarak paylaşarak, toplumu çalışmalarımızı yeniden üretme ve RL eğitimini herkes için erişilebilir hale getirme konusunda güçlendiriyoruz” diye yazıyor.
DeepCoder-14b, AI manzarasındaki daha geniş ve hızlandırıcı bir eğilimi güçlü bir şekilde göstermektedir: son derece yetenekli ancak verimli ve açıkça erişilebilir modellerin yükselişi.
Kurumsal dünya için, bu değişim gelişmiş modellerin daha fazla seçeneği ve daha yüksek erişilebilirliği anlamına gelir. En son performans artık sadece hiper ölçekli veya premium API ücretleri ödemek isteyenler alanı değildir. DeepCoder gibi modeller, her boyuttaki organizasyonları sofistike kod oluşturma ve muhakemeden yararlanabilmeleri, çözümleri özel ihtiyaçlarına göre özelleştirmeleri ve bunları çevrelerine güvenli bir şekilde dağıtmak için güçlendirebilir.
Bu eğilim, AI benimseme için giriş engelini düşürebilir ve daha rekabetçi ve yenilikçi bir ekosistemi teşvik edebilir, burada ilerleme açık kaynak işbirliği yoluyla ilerler.
Kaynak: https://venturebeat.com/ai/deepcoder-delivers-top-coding-performance-in-efficient-14b-open-model/