Yalnızca VentureBeat Transform 2024’te OpenAI, Chevron, Nvidia, Kaiser Permanente ve Capital One liderlerini kaçırmayın. Bu üç günlük özel etkinlikte GenAI hakkında önemli bilgiler edinin ve ağınızı genişletin. Daha fazla bilgi edin
Yakın zamanda yapılan bir işbirliğinde yapay zeka girişimi Gradyan ve bulut bilişim platformu Crusoe uzattım”bağlam penceresi“Llama-3 modellerinin sayısı 1 milyon token’a yükseldi. Bağlam penceresi, büyük bir dil modelinin (LLM) işleyebileceği giriş ve çıkış belirteçlerinin sayısını belirler.
Büyük teknoloji şirketleri ve öncü yapay zeka laboratuvarları, Yüksek Lisanslarının bağlam pencerelerini genişletme yarışında kilitlendi. Birkaç ay içinde modeller birkaç bin jetonu desteklemekten bir yıldan kısa bir süre içinde bir milyonun üzerine çıktı. Bununla birlikte, çok uzun bağlam pencerelerine sahip Yüksek Lisanslar çoğunlukla aşağıdakiler gibi özel modellerle sınırlıdır: Antropik Claude (200 bin jeton), OpenAI GPT-4 (128 bin jeton) ve Google İkizler (1 milyon jeton).
Uzun bağlam pencerelerine sahip açık kaynaklı modeller yaratma yarışı, LLM pazarını yeniden karıştırabilir ve özel modellerle mümkün olmayan uygulamaların kilidini açabilir.
Açık kaynaklı uzun bağlamlı Yüksek Lisans’lara duyulan ihtiyaç
Gradient, LLM’leri iş akışlarına entegre etmek isteyen kurumsal müşterilerle çalışır. Llama-3 ortaya çıkmadan önce bile şirket, müşterileri için üzerinde çalıştıkları projelerde bağlamsal sorunlarla karşılaşıyordu.
VB Transform 2024’e Geri Sayım
Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zekanın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol
Örneğin programlama görevlerine yardımcı olan dil modelleri genellikle “kodlama yardımcı pilotları,” birçok şirkette önemli bir gelişim aracı haline geldi. Standart kodlama yardımcı pilotları, bir fonksiyon gibi, tek seferde küçük kod parçaları üretebilir. Artık şirketler bu yetenekleri tüm kod modüllerini oluşturmaya kadar genişletmenin yollarını arıyor.
Gradient AI Baş Bilim Adamı Leo Pekelis VentureBeat’e şunları söyledi: “Bunu yapabilmek için dil modelinin tüm kod tabanına veya belki birden fazla GitHub kod deposuna referans verebilmesi gerekiyor.”
Bunu yapmanın bir yolu kod tabanını LLM’ye parça parça sağlamak ve birden fazla çağrı yapmak olacaktır. Ancak süreç yavaş, karmaşık olacak ve hatalı sonuçlar üretecektir çünkü modelin herhangi bir zamanda kod tabanının tamamına erişimi yoktur.
“Kod tabanlarının tamamını doğrudan bir dil modeli bağlamına yerleştirebilmek, bu sorunların çoğunu hafifletiyor çünkü artık dil modeli yapabileceği en iyi şeyi yapabiliyor, bu da her şeyin mantığı ve çalışma belleğidir ve buna uygun bir yanıt sağlayabilir. Hem daha doğru hem de daha verimli” dedi Pekelis.
Birçok şirketin üçüncü taraflara ne tür veriler gönderebileceği konusunda kısıtlamaları olduğundan Gemini veya Claude gibi modelleri kullanamazlar. Bu, Gradient ekibini kendi milyon jetonlu açık modelini yaratmaya yöneltti.
Açık araştırma
Büyük dil modellerinin ticarileştirilmesi, yapay zeka laboratuvarlarının bulgularını ve araştırmalarını paylaşma teşviklerini azalttı. Dolayısıyla teknoloji şirketleri yüksek lisansların bağlam penceresini genişletmeye devam ederken, modellerini optimize etmek ve geliştirmek için kullandıkları tekniklerle ilgili kodu, verileri veya ayrıntıları yayınlama olasılıkları azalıyor.
Ancak bu, açık araştırma topluluğunun bulgularını paylaşmasını ve modellerin genel gelişimine katkıda bulunmasını engellemedi. Gradient, dünya çapındaki üniversite ve enstitülerden gelen birçok makaleye ve açık araştırmaya güvendi.
Temel modelleri, Meta’nın açık modelinin 8 milyar ve 70 milyar parametreli versiyonlarıydı. Lama 38.000 jetonluk varsayılan bağlam penceresine sahiptir.
Berkeley Yapay Zeka Araştırması (BAIR) tarafından dağıtılmış dikkat üzerine geliştirilen teknikleri kullandılar; bu, bellek ve hesaplama maliyetlerini artırmadan bağlam uzunluğunu artırmalarına yardımcı oldu. İlk kod uygulaması Singapur’daki bir araştırma enstitüsünün açık kaynaklı bir projesinden geldi. Modellerin uzun bağlam pencerelerinden öğrenmesini sağlayan matematiksel formüller de Şanghay’daki bir yapay zeka araştırma laboratuvarından geldi.
Modellerinin performansını Gemini gibi diğer uzun bağlamlı LLM’lerle karşılaştırmalı olarak takip etmek için Nvidia’nın değerlendirme kriterlerini kullandılar.
Pekelis, “Açık araştırma topluluğu olmasaydı bunların çoğu mümkün olmazdı” dedi. “Açık araştırma, tüm çalışmalarımızı etkiliyor.”
Bilgi işlem darboğazını ele alma
Bilgi işlem kaynakları, LLM araştırması yapmanın temel zorluklarından biridir. Çoğu yapay zeka laboratuvarı, modellerini eğitmek ve test etmek için büyük GPU kümelerine güveniyor. Gradient, uzun bağlamlı Yüksek Lisans’ları araştırmak için Crusoe ile birlikte çalıştı. Crusoe, iş ortaklarının farklı modelleri uygun maliyetle oluşturmasına ve keşfetmesine yardımcı olabilecek amaca yönelik oluşturulmuş bir yapay zeka bulutu yaratıyor.
“Bu işbirliğinin zamanlaması ilginçti çünkü çevrimiçi bir ürün getiriyorduk. [Nvidia] L40S kümesi,” Crusoe Kıdemli Geliştirici Avukatı Ethan Petersen VentureBeat’e söyledi. “Genelde insanlar bu çipler hakkında düşündüklerinde, onları çıkarım açısından düşünüyorlar ve biz de çıkarımların yanı sıra bunlar üzerinden gerçekten büyük ölçekli eğitimler yapabildiğimizi göstermek istedik.”
Büyük teknoloji şirketleri A100, H100 ve yakında çıkacak B100 gibi üst düzey GPU’ların satın alınması için rekabet ediyor. Çiplerin her biri onbinlerce dolara mal oluyor ve sunucu kümeleri kolaylıkla milyonlarca dolara ulaşabiliyor.
Crusoe ayrıca AMD’nin MI300X’i ve tüm Nvidia GPU’ları dahil olmak üzere üst düzey GPU’lar da sağlıyor. Ancak aynı zamanda her müşteri için en iyi çözümü bulmaya çalışırlar. Crusoe ekibi, L40S kümesini özelleştirmek ve modellerinin eğitim maliyetlerini önemli ölçüde azaltmalarına yardımcı olmak için Gradient ile yakın işbirliği içinde çalıştı.
“Gradient gibi iş ortaklarıyla çalışma şeklimiz, yaptıkları işe bağlı olarak farklı türlerde en verimli bilgi işlemi nerede sağlayabileceğimizi anlamaktır. Crusoe Ürün Sorumlusu Patrick McGregor, VentureBeat’e şöyle konuştu: “Ve bu durumda L40S doğru cevaptı.” “Farklı türdeki bilgi işlem tekliflerinin özelleştirilmesi veya uyarlanması konusunda büyük miktarda değer sağlayabiliriz.”
Pekelis, “Bu modelleri makul bir sürede eğitmemize ve Llama-3’ün ortaya çıkmasından yaklaşık bir hafta sonra piyasaya sürmemize yardımcı olan birçok Yenilik, tam olarak bu ağ optimizasyonunun bir kısmının L40S kümesinde yapılmasıydı” dedi. “Diğer bulut bilgi işlem sağlayıcılarıyla o kadar açık iletişim yok ve bu da bu özel yapılandırmaların çoğunu oldukça zorlaştırıyor.”
Modellerin değerlendirilmesi
Uzun bağlam pencerelerini değerlendirmeye yönelik temel ölçütlerden biri, uzun bir metin dizisinin farklı bölümlerine çok spesifik bir bilgi parçasının yerleştirildiği ve modelin bu konuda sorgulandığı “samanlıktaki iğne” testidir.
Pekelis, “Modellerimiz yaklaşık 2 milyon bağlam uzunluğuna kadar neredeyse mükemmel samanlıkta iğne performansına ulaşıyor ve bu da bizi yalnızca Gemini 1.5 Pro’da gördüklerimin dünyasına sokuyor” dedi.
Ancak “samanlıktaki iğne”, modelin tam bağlam performansına ilişkin mutlaka doğru bir ölçüm sağlamayabilir. Araştırmacılar aynı zamanda samanlıkta birden fazla iğne veya çelişkili bilgi parçalarının bağlama yerleştirildiği ve modelin bunlardan biri hakkında sorgulandığı “düşman iğneler” gibi daha gelişmiş önlemleri de değerlendirdi.
Ayrıca modellerini de değerlendirdiler. CETVELyapılandırılabilir sıra uzunluğu ve görev karmaşıklığı ile uzun bağlamlı dil modellerini değerlendirmek için 13 farklı görevi içeren, Nvidia tarafından yayımlanan bir kıyaslamadır.
Ayrıca modelleri daha etkili hale getirmek için de çalışıyorlar. çoklu çekim bağlam içi öğrenmeistemde yüzlerce hatta binlerce örnek yerleştirerek modelin anında yeni bir görev için yapılandırıldığı yer.
Kurumsal uygulamalar
Pekelis, uzun bağlamlı açık modellerin daha fazla şirket ve geliştiricinin Yüksek Lisans tabanlı uygulamalar geliştirmesini kolaylaştıracağına inanıyor.
Pekelis, “Şu anda yapay zekanın bireysel kullanımları ve uygulamaları ile dil modelleri ve kurumsal uygulamalar arasında biraz mesafe var ve bunlar biraz geride kalıyor” dedi. “Dil modellerinin daha fazlasını yapmasına ve bağlam pencerelerine daha fazlasını yerleştirebilmesine izin vermek, yeni uygulamaların kilidini açar.”
Örneğin, daha uzun bağlamlarda, ajan sistemleriBir veya daha fazla dil modelinin bir iş akışında birden fazla role yerleştirildiği , her istekte çok daha fazla bilgi işleyebildiği için daha az çağrıyla daha fazlasını yapabilir.
Uzun bağlamlı LLM’ler, aksi takdirde daha karmaşık veri işleme hatları gerektirecek şeyleri de yapabilir. Bir örnek stil aktarımıdır. Uzun bağlam modelleri olmadan, bir dil modelinin bir kişinin yazma stilini taklit etmesini istiyorsanız öncelikle farklı kaynaklardan veri toplamanız gerekir. Daha sonra verileri ön işlemeniz, özetlemeniz ve onu modele beslemenin bir yolunu bulmanız veya muhtemelen modelde ince ayar yapmanız gerekir.
Pekelis, “Burada şunu bulduk, örneğin geçmiş e-postalarımın tümünü alıp dil modeline verebilirsiniz ve o da benim gibi yazmayı öğrenir” dedi.
Çok uzun bağlam pencerelerine sahip LLM’ler, uygulamanın her bilgi istemi için ilgili belgeleri bulması ve bunları bağlama eklemesi gereken erişimle artırılmış oluşturma (RAG) ihtiyacını da azaltabilir.
Sonsuz bağlama sahip bir Yüksek Lisans, teorik olarak tüm belgelerinizi bilgi istemine eklemenize ve modelin her sorgu için en alakalı parçaları seçmesine olanak tanıyabilir; ancak sonuçta her sorgulamada tüm bu bağlam dahil edilerek yeniden sorgulanması gerekecektir. kullanıcı yeni bir sohbet oturumu başlattı (RAG’ın her sorgu veya yeni sohbet oturumu için veritabanını nasıl çağırması gerektiğine benzer).
Ve tabii ki uzun bağlam pencereleri, prototipler veya kavram kanıtları oluşturmanın önündeki engelleri azaltır ve hatta ürün ekiplerinin dil modelleriyle neler yapabileceklerini anlamalarına yardımcı olur.
Pekelis, “Müşterilerle konuştuğumuzda çoğu zaman neyin mümkün olduğunu anlatmak oldukça büyük bir ilk adımdır” dedi. “Bir prototip veya ilk örneği hazırlayıp çalıştırabilecek ve bir kuruluş için neler yapabileceğini gösterebilecek bir şeye sahip olmak gerçekten harika.”
Kaynak: https://venturebeat.com/ai/how-gradient-created-an-open-llm-with-a-million-token-context-window/