Apple’ın ToolSandbox’ı çarpıcı gerçeği ortaya koyuyor: Açık kaynaklı yapay zeka hâlâ özel modellerin gerisinde kalıyor

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Araştırmacılar Elma tanıttım AraçSandboxYapay zeka asistanlarının gerçek dünyadaki yeteneklerini her zamankinden daha kapsamlı bir şekilde değerlendirmek için tasarlanmış yeni bir kıyaslama. Araştırma, arXiv’de yayınlandıgörevleri tamamlamak için harici araçlar kullanan büyük dil modelleri (LLM’ler) için mevcut değerlendirme yöntemlerindeki önemli boşlukları giderir.

ToolSandbox, diğer kıyaslamalarda genellikle eksik olan üç temel unsuru içerir: durum bilgisi olan etkileşimler, konuşma yetenekleri ve dinamik değerlendirme. Baş yazar Jiarui Lu şöyle açıklıyor: “ToolSandbox, durum bilgisi olan araç yürütmeyi, araçlar arasında örtülü durum bağımlılıklarını, politikaya dayalı konuşma değerlendirmesini destekleyen yerleşik bir kullanıcı simülatörünü ve dinamik bir değerlendirme stratejisini içerir.”

Bu yeni kıyaslama, gerçek dünya senaryolarını daha yakından yansıtmayı amaçlıyor. Örneğin, bir yapay zeka asistanının kısa mesaj göndermeden önce cihazın hücresel hizmetini etkinleştirmesi gerektiğini anlayıp anlamadığını test edebilir; bu, sistemin mevcut durumu hakkında muhakeme yapmayı ve uygun değişiklikleri yapmayı gerektiren bir görevdir.

Tescilli modeller açık kaynağı gölgede bırakıyor ancak zorluklar devam ediyor

Araştırmacılar, ToolSandbox’ı kullanarak bir dizi yapay zeka modelini test etti ve özel ve açık kaynaklı modeller arasında önemli bir performans farkı olduğunu ortaya çıkardı.

Bu bulgu zorluklar son raporlar açık kaynaklı yapay zekanın özel sistemlere hızla yetiştiğini öne sürüyor. Daha geçen ay, başlangıç Galileo bir kıyaslama yayınladı Tescilli liderlerle aradaki farkı daraltan açık kaynak modellerini gösterirken, Meta Ve Mistral rakip üst düzey tescilli sistemler olduğunu iddia ettikleri açık kaynaklı modelleri duyurdular.

Ancak Apple araştırması, en son teknolojiye sahip yapay zeka asistanlarının bile durum bağımlılıkları, kanonikleştirme (kullanıcı girişini standartlaştırılmış formatlara dönüştürme) ve yetersiz bilgi içeren senaryolar gibi karmaşık görevlerle uğraştığını ortaya çıkardı.

“Açık kaynak ve tescilli modellerin önemli bir performans açığına sahip olduğunu ve ToolSandbox’ta tanımlanan Durum Bağımlılığı, Kanonikleştirme ve Yetersiz Bilgi gibi karmaşık görevlerin, en yetenekli SOTA Yüksek Lisans Lisansüstü Programlarını bile zorladığını, araç kullanımı Yüksek Lisans yeteneklerine ilişkin yepyeni bilgiler sağladığını gösteriyoruz. ” Yazarlar makalede not ediyor.

İlginç bir şekilde, çalışma, özellikle devlet bağımlılıklarını içeren belirli senaryolarda, daha büyük modellerin bazen daha küçük modellerden daha kötü performans gösterdiğini buldu. Bu, ham model boyutunun her zaman karmaşık, gerçek dünya görevlerinde daha iyi performansla ilişkili olmadığını göstermektedir.

Boyut her şey değildir: Yapay zeka performansının karmaşıklığı

ToolSandbox’ın kullanıma sunulmasının, yapay zeka asistanlarının geliştirilmesi ve değerlendirilmesi üzerinde geniş kapsamlı etkileri olabilir. Daha gerçekçi bir test ortamı sunarak, araştırmacıların mevcut yapay zeka sistemlerindeki önemli sınırlamaları belirlemesine ve ele almasına yardımcı olabilir ve sonuçta kullanıcılar için daha yetenekli ve güvenilir yapay zeka asistanlarının ortaya çıkmasına yol açabilir.

Yapay zeka günlük hayatlarımıza daha derinlemesine entegre olmaya devam ettikçe, ToolSandbox gibi kriterler, bu sistemlerin gerçek dünya etkileşimlerinin karmaşıklığı ve nüanslarıyla başa çıkabilmesini sağlamada önemli bir rol oynayacak.

Araştırma ekibi, ToolSandbox değerlendirme çerçevesinin yakında Github’da yayınlanacakdaha geniş AI topluluğunu bu önemli çalışmayı geliştirmeye ve geliştirmeye davet ediyoruz.

Açık kaynaklı yapay zekadaki son gelişmeler, son teknoloji yapay zeka araçlarına erişimin demokratikleştirilmesi konusunda heyecan yaratırken, Apple çalışması, karmaşık, gerçek dünyadaki görevleri yerine getirebilecek yapay zeka sistemleri oluşturma konusunda önemli zorlukların devam ettiğini hatırlatıyor.

Alan hızla gelişmeye devam ettikçe, ToolSandbox gibi sıkı kriterler, abartıyı gerçeklikten ayırmada ve gerçekten yetenekli yapay zeka asistanlarının geliştirilmesine rehberlik etmede önemli olacaktır.


Kaynak: https://venturebeat.com/ai/apple-toolsandbox-reveals-open-source-ai-behind-proprietary-models/