Yalnızca VentureBeat Transform 2024’te OpenAI, Chevron, Nvidia, Kaiser Permanente ve Capital One liderlerini kaçırmayın. Bu üç günlük özel etkinlikte GenAI hakkında önemli bilgiler edinin ve ağınızı genişletin. Daha fazla bilgi edin
Araştırmacılar Tokyo Üniversitesi Ve Alternatif Makine doğal dil komutlarını doğrudan robot eylemleriyle eşleştirebilen insansı bir robot sistemi geliştirdiler. Adlandırılmış Alter3Robot, selfie çekmek veya hayalet gibi davranmak gibi karmaşık görevleri gerçekleştirmek için GPT-4 gibi büyük dil modellerinde (LLM’ler) bulunan geniş bilgiden yararlanmak üzere tasarlandı.
Bu, temel modellerin ve robotik sistemlerin gücünü bir araya getiren, sayıları giderek artan araştırmaların sonuncusudur. Bu tür sistemler henüz ölçeklenebilir bir ticari çözüme ulaşmamış olsa da, son yıllarda robotik araştırmalarını ileriye taşımış ve çok fazla umut vaat etmektedir.
Alter3’ün kullanım alanları GPT-4 arka uç modeli olarak. Model, robotun tepki vermesi gereken bir eylemi veya durumu tanımlayan doğal bir dil talimatı alır.
LLM, robotun amacına ulaşmak için gerçekleştirmesi gereken bir dizi eylemi planlamak için bir “ajans çerçevesi” kullanır. İlk aşamada model, istenen eylemi gerçekleştirmek için gerekli adımları belirlemesi gereken bir planlayıcı görevi görür.
VB Transform 2024’e Geri Sayım
Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zekanın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol
Daha sonra eylem planı, robotun her adımı gerçekleştirmesi için gerekli komutları üreten bir kodlama aracısına aktarılır. GPT-4, Alter3’ün programlama komutları konusunda eğitilmediğinden araştırmacılar Alter3’ü kullanıyor. bağlam içi öğrenme davranışını robotun API’sine uyarlama yeteneği. Bu, istemin bir komut listesi ve her komutun nasıl kullanılabileceğini gösteren bir dizi örnek içerdiği anlamına gelir. Model daha sonra adımların her birini, yürütülmek üzere robota gönderilen bir veya daha fazla API komutuyla eşleştirir.
Araştırmacılar, “Yüksek Lisans ortaya çıkmadan önce, bir kişinin pozunu taklit etmek veya çay servisi yapmak veya satranç oynamak gibi bir davranışı taklit etmek için 43 eksenin tamamını belirli bir sırayla kontrol etmemiz gerekiyordu” diye yazıyor. “LLM sayesinde artık tekrarlanan işlerden kurtulduk.”
Dil, fiziksel pozları tanımlamak için en ince taneli araç değildir. Bu nedenle model tarafından oluşturulan eylem dizisi, robotta tam olarak istenen davranışı üretmeyebilir.
Düzeltmeleri desteklemek için araştırmacılar, insanların “Kolunu biraz daha kaldır” gibi geri bildirimde bulunmasına olanak tanıyan işlevsellik eklediler. Bu talimatlar, kod üzerinde akıl yürüten, gerekli düzeltmeleri yapan ve eylem sırasını robota geri gönderen başka bir GPT-4 aracısına gönderilir. Geliştirilmiş eylem tarifi ve kodu, gelecekte kullanılmak üzere bir veritabanında saklanır.
Araştırmacılar Alter3’ü, selfie çekmek ve çay içmek gibi günlük eylemlerin yanı sıra hayalet veya yılan gibi davranmak gibi taklit hareketleri de dahil olmak üzere birçok farklı görev üzerinde test etti. Ayrıca modelin ayrıntılı eylem planlaması gerektiren senaryolara yanıt verme yeteneğini de test ettiler.
“Yüksek Lisans eğitimi, hareketlerin çok çeşitli dilsel temsillerini kapsar. Araştırmacılar, GPT-4’ün bu temsilleri Alter3’ün gövdesine doğru bir şekilde eşleyebildiğini belirtiyor.
GPT-4’ün insan davranışları ve eylemleri hakkındaki kapsamlı bilgisi, Alter3 gibi insansı robotlar için daha gerçekçi davranış planları oluşturulmasını mümkün kılıyor. Araştırmacıların deneyleri, robotta utanç ve sevinç gibi duyguları da taklit edebildiklerini gösteriyor.
Araştırmacılar, “Duygusal ifadelerin açıkça belirtilmediği metinlerden bile Yüksek Lisans yeterli duyguları çıkarabiliyor ve bunları Alter3’ün fiziksel tepkilerine yansıtabiliyor” diye yazıyor.
Robotik araştırmalarında temel modellerin kullanımı giderek daha popüler hale geliyor. Örneğin, FigürDeğeri 2,6 milyar dolar olan şirket, insan talimatlarını anlamak ve gerçek dünyada eylemler gerçekleştirmek için perde arkasında OpenAI modellerini kullanıyor. Çok modluluk temel modellerde norm haline geldikçe, robotik sistemler çevreleri hakkında akıl yürütme ve eylemlerini seçme konusunda daha donanımlı hale gelecektir.
Alter3, robotik kontrol sistemlerinde akıl yürütme ve planlama modülleri olarak kullanıma hazır temel modelleri kullanan bir proje kategorisinin parçasıdır. Alter3, GPT-4’ün ince ayarlı bir versiyonunu kullanmıyor ve araştırmacılar, kodun diğer insansı robotlar için kullanılabileceğini belirtiyor.
Gibi diğer projeler RT-2-X Ve OpenVLA Doğrudan robotik komutlar üretmek için tasarlanmış özel temel modellerini kullanın. Bu modeller daha istikrarlı sonuçlar üretme ve daha fazla görev ve ortama genelleme eğilimindedir. Ancak aynı zamanda teknik beceri gerektirirler ve yaratılması daha pahalıdır.
Bu projelerde sıklıkla gözden kaçırılan şeylerden biri, nesneleri kavramak, dengelerini korumak ve etrafta dolaşmak gibi ilkel görevleri yerine getirebilen robotlar yaratmanın temel zorluklarıdır. Yapay zeka ve robotik araştırma bilimcisi Chris Paxton, VentureBeat’e “modeller idare edemiyor” dedi. bu yılın başlarında bir röportaj. “Ve bu yapılması zor olan türden bir şey. Ve birçok açıdan bunun nedeni verinin mevcut olmaması.”
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası