En büyük temel açık kaynaklı büyük dil modellerinden biri olan Llama’yı geliştiren Meta, gelecekte modelleri eğitmek için çok daha fazla bilgi işlem gücüne ihtiyaç duyacağına inanıyor.
Mark Zuckerberg, Salı günü Meta’nın ikinci çeyrek kazanç açıklamasında, Lama 4’ü eğitmek için şirketin Lama 3’ü eğitmek için gerekenden 10 kat daha fazla hesaplamaya ihtiyaç duyacağını söyledi. Ancak yine de Meta’nın rakiplerinin gerisine düşmek yerine modelleri eğitmek için kapasite geliştirmesini istiyor. .
Zuckerberg, “Llama 4’ü eğitmek için gereken bilgi işlem miktarı muhtemelen Llama 3’ü eğitmek için kullandığımızdan neredeyse 10 kat daha fazla olacak ve gelecekteki modeller bunun ötesinde büyümeye devam edecek” dedi.
“Bunun birden fazla nesli geleceğe nasıl taşıyacağını tahmin etmek zor. Ancak bu noktada, yeni çıkarım projelerinin başlatılmasının uzun teslim süreleri göz önüne alındığında, çok geç yerine, ihtiyaç duyulmadan önce kapasite oluşturma riskini almayı tercih ederim.”
Meta, Nisan ayında 80 milyar parametreli Llama 3’ü piyasaya sürdü. Şirket geçen hafta, Llama 3.1 405B adı verilen ve 405 milyar parametreye sahip olan modelin yükseltilmiş bir versiyonunu yayınladı ve bu da onu Meta’nın en büyük açık kaynaklı modeli haline getirdi.
Meta’nın CFO’su Susan Li ayrıca şirketin farklı veri merkezi projeleri düşündüğünü ve gelecekteki yapay zeka modellerini eğitmek için kapasite geliştirmeyi düşündüğünü söyledi. Meta’nın bu yatırımın 2025 yılında sermaye harcamalarını artırmasını beklediğini söyledi.
Büyük dil modellerini eğitmek maliyetli bir iş olabilir. Meta’nın sermaye harcamaları, sunuculara, veri merkezlerine ve ağ altyapısına yapılan yatırımların etkisiyle, bir önceki yılki 6,4 milyar dolardan 2024’ün ikinci çeyreğinde yaklaşık %33 artarak 8,5 milyar dolara yükseldi.
The Information’ın raporuna göre OpenAI, eğitim modellerine 3 milyar dolar, Microsoft’tan indirimli fiyatlarla sunucu kiralamaya da 4 milyar dolar harcıyor.
“Temel modellerimizi geliştirmek için üretken yapay zeka eğitim kapasitesini ölçeklendirirken, altyapımızı zaman içinde kullanma şeklimiz konusunda bize esneklik sağlayacak şekilde oluşturmaya devam edeceğiz. Bu, daha değerli olacağını düşündüğümüzde eğitim kapasitesini genel yapay zeka çıkarımına veya temel sıralama ve öneri çalışmamıza yönlendirmemize olanak tanıyacak” dedi Li görüşme sırasında.
Görüşme sırasında Meta, tüketiciye yönelik Meta AI kullanımından da bahsetti ve Hindistan’ın chatbot’unun en büyük pazarı olduğunu söyledi. Ancak Li, şirketin Nesil Yapay Zeka ürünlerinin gelire önemli bir katkıda bulunmasını beklemediğini belirtti.
Kaynak: https://techcrunch.com/2024/08/01/zuckerberg-says-meta-will-need-10x-more-computing-power-to-train-llama-4-than-llama-3/