Açık kaynak yapay zeka topluluğundan herhangi birine sorun, size kendileriyle büyük özel şirketler arasındaki farkın bilgi işlem gücünden daha fazlası olduğunu söyleyeceklerdir. Ai2, önce tamamen açık kaynaklı veritabanları ve modellerle, şimdi de “ham” büyük dil modellerini (LLM’ler) kullanılabilir modellere dönüştürmek için açık ve kolayca uyarlanabilen bir eğitim sonrası rejimle bu sorunu çözmeye çalışıyor.
Pek çok kişinin düşündüğünün aksine, “temel” dil modelleri eğitim sürecinden uygulamaya hazır olarak çıkmaz. Ön eğitim süreci elbette gereklidir ancak yeterli olmaktan uzaktır. Hatta bazıları ön eğitimin yakında en önemli kısım olmaktan çıkabileceğine inanıyor.
Bunun nedeni, eğitim sonrası sürecin gerçek değerin yaratılabileceği yer olarak giderek daha fazla gösterilmesidir. Modelin, kurabiye tarifleri ürettiği kadar Holokost inkar konuşmalarını da kolayca üretecek dev, her şeyi bilen bir ağdan oluşturulduğu yer burasıdır. Genelde bunu istemezsin!
Şirketler eğitim sonrası rejimleri konusunda gizlidir çünkü herkes interneti araştırıp en son yöntemleri kullanarak bir model yapabilirken, bu modeli örneğin bir terapist veya araştırma analisti için kullanışlı hale getirmek tamamen farklı bir zorluktur.
Ai2 (eskiden Allen Yapay Zeka Enstitüsü olarak biliniyordu), Meta’nın Llama’sı gibi görünüşte “açık” yapay zeka projelerinde açıklık eksikliğinden bahsetti. Model aslında herkesin kullanması ve üzerinde değişiklik yapması ücretsiz olsa da, ham modeli oluşturma kaynakları ve süreci ile onu genel kullanım için eğitme yöntemi dikkatle korunan sırlar olarak kalmaya devam ediyor. Fena değil – ama aynı zamanda gerçekten “açık” da değil.
Öte yandan Ai2, veri toplama, iyileştirme, temizleme ve diğer işlem hatlarını açığa çıkarmaktan OLMo gibi LLM’ler üretmek için kullandığı tam eğitim yöntemlerine kadar olabildiğince açık olmaya kararlıdır.
Ancak basit gerçek şu ki, çok az geliştirici başlangıçta kendi yüksek lisans eğitimlerini yürütecek yetkiye sahip ve hatta daha azı Meta, OpenAI veya Anthropic’in yaptığı gibi eğitim sonrası işlemlerini gerçekleştirebiliyor; bunun nedeni kısmen nasıl yapılacağını bilmemeleri ama aynı zamanda da bunu yapmaları. teknik olarak karmaşık ve zaman alıcıdır.
Neyse ki Ai2, yapay zeka ekosisteminin bu yönünü de demokratikleştirmek istiyor. İşte Tülu 3 tam da burada devreye giriyor. Bu, daha erken, daha ilkel bir eğitim sonrası sürece (tahmin ettiğiniz gibi Tülu 2 olarak adlandırılıyor) göre çok büyük bir gelişme. Kâr amacı gütmeyen kuruluşun testlerinde bu, piyasadaki en gelişmiş “açık” modellerle aynı puanlarla sonuçlandı. Aylarca süren deneylere, okumaya ve büyük adamların ima ettiği şeyleri yorumlamaya ve çok sayıda yinelenen eğitim çalışmasına dayanıyor.
Temel olarak Tülu 3, modelinizin önem vermesini istediğiniz konuları seçmekten (örneğin, çok dilli yetenekleri küçümsemek, ancak matematik ve kodlamayı artırmak) uzun bir veri iyileştirme, pekiştirmeli öğrenme, ince ayar ve tercih rejiminden geçmeye kadar her şeyi kapsar. ayarlama, size yeterince açıklayamadığım bir dizi başka meta parametre ve eğitim sürecinde ince ayarlamalar yapmak. Sonuç, umarız sahip olmanız gereken becerilere odaklanmış, çok daha yetenekli bir modeldir.
Ancak asıl mesele, özel şirketlerin oyuncak kutusundan bir oyuncağı daha çıkarmaktır. Önceden, özel olarak eğitilmiş bir Yüksek Lisans eğitimi oluşturmak istiyorsanız, büyük bir şirketin kaynaklarını şu ya da bu şekilde kullanmaktan veya işi sizin için yapacak bir aracıyı işe almaktan kaçınmak çok zordu. Bu sadece pahalı değil, aynı zamanda bazı şirketlerin almaktan kaçındığı riskleri de beraberinde getiriyor.
Örneğin, tıbbi araştırma ve hizmet şirketleri: Elbette OpenAI’nin API’sini kullanabilir veya Scale ile ya da şirket içi bir modeli özelleştirmek isteyen herhangi biriyle konuşabilirsiniz, ancak bunların her ikisi de hassas kullanıcı verileri konusunda dış şirketleri içeriyor. Eğer bu kaçınılmazsa, kurşunu sıkmanız gerekir – ama değilse? Mesela bir araştırma kuruluşu, şirket içinde uygulayabileceğiniz çorbadan kuruyemişe eğitim öncesi ve sonrası rejimi yayınlamışsa? Bu daha iyi bir alternatif olabilir.
Ai2 bunu kendisi kullanıyor ve bu da verilebilecek en iyi destek. Bugün yayınladığı test sonuçları temel model olarak Llama’yı kullansa da, yakında OLMo tabanlı, Tülu 3 eğitimli bir model çıkarmayı planlıyorlar. Bu model, temelden daha fazla iyileştirme sunacak ve aynı zamanda tamamen açık kaynak olacak. kuyruk.
Modelin şu anda nasıl performans gösterdiğini merak ediyorsanız canlı demoya bir şans verin.
Kaynak: https://techcrunch.com/2024/11/21/ai2s-open-source-tulu-3-lets-anyone-play-the-ai-post-training-game/