SambaNova Sistemleri bugün, bir trilyon parametreli Samba-1’in piyasaya sürülmesiyle şimdiye kadar piyasaya sürülen en büyük büyük dil modellerinden (LLM’ler) birinin ne olabileceğini duyurdu.
Samba-1, OpenAI’nin GPT-4’ü gibi tek bir model değil, SambaNova’nın Uzmanların Kompozisyonu mimarisi olarak adlandırdığı bir yaklaşımla bir araya getirilen 50’den fazla yüksek kaliteli AI modelinin birleşimidir. Samba-1’in genel boyutu çok büyük olsa da, model aslında belirli kurumsal kullanım durumları için oldukça özelleştirilebilir ve ayarlanabilir.
SambaNova Systems sadece yüksek lisans yapmakla kalmıyor, şirketin temel temeli aslında donanıma dayanıyor. Eylül ayında şirket, SN40L yapay zeka çipieğitim ve çıkarım konusunda son derece verimli bir yaklaşımla sektör lideri Nvidia’ya karşı rekabet etmeyi hedefliyor. Yeni Samba-1 modeli, SambaNova Süit Kuruluşların modelleri özelleştirmesine ve dağıtmasına olanak tanır.
“Şu anda yaptığımız şey aslında size, üretim ve çıkarım için yüksek performanslı ve yüksek ölçekli bir dağıtım yapmanıza olanak tanıyan, önceden oluşturulmuş, önceden eğitilmiş ve önceden optimize edilmiş bitmiş modeller sunmaktır; SambaNova’nın kurucu ortağı ve CEO’su Rodrigo Liang, VentureBeat’e verdiği demeçte, donanımın ince ayarını yapmak, hizalamak ve gerçekten optimize etmek “dedi.
Samba-1 devasa bir yüksek lisans derecesi oluşturmak için Uzmanlardan oluşan bir Kompozisyonu nasıl alır?
Samba-1, ayrı ayrı eğitilmiş ve daha sonra birlikte çalışacak şekilde optimize edilmiş 50’den fazla yapay zeka modelinden oluşur.
Buna SambaNova modellerinin yanı sıra belirli kurumsal görevler için seçilmiş açık kaynaklı modeller de dahildir. Samba-1’in parçası olan modeller arasında Lama 2, MistralDeepSeek Coder, Falcon, DePlot, CLIP ve Llava.
Liang, “En iyinin en iyisini aldık” dedi. “Hangilerinin işletmeler için en iyi olduğunu belirledik ve ardından bunları bir araya getirip 1 trilyon parametreli tek bir modelde optimize ettik.”
Liang, çeşitli bireysel bileşen modellerinin Samba-1’in içinde birbirleriyle uyum içinde etkileşime girebileceğini, böylece bir modelin yanıt sağlayan iş parçacığının daha sonra tek bir iş parçacığı olarak bir sonraki modelin girdisi haline gelebileceğini ekledi.
Bir çıktı elde etmek için birden fazla Yüksek Lisans’ı birbirine zincirleme fikri yeni değil. Popüler açık kaynak LangChain teknolojisi tam da bunu yapıyor, Yüksek Lisans’ları birbirine zincirliyor. Liang, Samba-1 Uzmanların Bileşimi yaklaşımının LangChain yönteminden büyük ölçüde farklı olduğunu savundu.
Liang, LangChain ile model zincirinin önceden belirlenmesi gerektiğini, dolayısıyla kullanıcının belirli bir istem için hangi model zincirini kullanacağını tahmin etmesi gerektiğini açıkladı. Samba-1 ile bireysel uzmanlar, istem ve yanıtlara göre dinamik olarak birbirine zincirlenebilir ve bu da daha fazla esnekliğe olanak tanır.
Bir adım daha ileri giderek, Samba-1’in farklı veri kümeleri üzerinde eğitilmiş modellerden girdi alarak kullanıcıların farklı bakış açılarını keşfetmesine olanak tanıdığını belirtti.
“Sadece sonuçları araştırmak için dinamik olarak 50 LangChain zinciri eşdeğeri oluşturabilir” dedi.
Uzman Oluşumu Bir Uzman Karması Değildir
Uzmanların Bileşimi yaklaşımı, Mistral gibi bazı Yüksek Lisans’ların sağladığı Uzmanlar Karması yaklaşımıyla karıştırılmamalıdır.
Liang’a göre Uzmanlar Karması, tek bir uzman modelinin birden fazla veri kümesi üzerinde eğitildiğini ima ediyor. Bu, bir veri kümesindeki verilerin potansiyel olarak modele sızmasına ve diğer veri kümelerinin güvenliğini ve gizliliğini ihlal etmesine olanak tanıyabilir.
Buna karşılık, Uzman Bileşimi, her uzman modelinin kendi güvenli veri kümesi üzerinde ayrı ayrı eğitilmesini ifade eder. Eğitim verilerinin güvenlik kısıtlamaları uzman modele yayılır. Liang, Uzmanların Bileşimi yaklaşımının yalnızca modellerin eğitimiyle ilgili olmadığını, aynı zamanda güvenli ve özel olarak dağıtım ve çıkarımlarla da ilgili olduğunu söyledi.
Herkesin trilyonlarca parametreye ihtiyacı yok
Samba-1 trilyonlarca parametre sağlasa da, bir kuruluşun dağıtmak isteyebileceği veya ihtiyaç duyabileceği şey bu olmayabilir.
Liang, tek bir büyük model yerine birden fazla özel modeli bir arada kullanarak, Samba-1’in yüksek verimlilikle geniş yetenekler sunabileceğini söyledi.
“Gördüğümüz şey, her istemi takip etmenin trilyonlarca parametrenin tamamının aynı anda etkinleştirilmesini gerektirmediğidir” dedi. “Sonuçlarda şu anda inanılmaz düzeyde bir verimlilik, ayak izi azaltma, güç azaltma ve bant genişliği iyileştirmesi görüyoruz çünkü diğer her şeyi getiren modelin tamamı yerine yalnızca gerekli olan uzmanı kullanıyorsunuz.”
SambaNova yaklaşımı, müşterilerin modelleri kendi özel verileriyle eğitmesine ve ardından bu özelleştirilmiş modelleri dağıtmasına olanak tanır. Bu, kuruluşların iş ihtiyaçlarına göre optimize edilmiş, farklılaştırılmış, özel varlıklar oluşturmasına olanak tanır.
Liang, “Samba-1’de artık trilyonlarca parametre boyutunda kendi özel modelinize sahip olabiliyorsunuz ve ona sonsuza kadar sahip olabiliyorsunuz; verileriniz üzerinde eğitildikten sonra sonsuza kadar sizin oluyor” dedi.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/sambanova-debuts-1-trillion-parameter-composition-of-experts-model-for-enterprise-gen-ai/