Üretken yapay zeka, robotlarda şimdiden çok fazla umut vaat ediyor. Uygulamalar doğal dil etkileşimlerini, robot öğrenimini, kodsuz programlamayı ve hatta tasarımı içerir. Google’ın DeepMind Robotics ekibi bu hafta iki disiplin arasındaki bir başka potansiyel tatlı noktayı sergiliyor: navigasyon.
Ekip, “Mobilite VLA: Uzun Bağlamlı VLM’ler ve Topolojik Grafiklerle Çok Modlu Talimat Navigasyonu” başlıklı makalede, bir robota komutlara yanıt vermeyi ve ofiste gezinmeyi öğretmek için Google Gemini 1.5 Pro’yu nasıl uyguladığını gösteriyor. Doğal olarak DeepMind, Google’ın geçen yıl yaygın işten çıkarmalar nedeniyle projeyi kapatmasından bu yana ortalıkta dolaşan Gündelik Robotlardan bazılarını kullandı.
Projeye eklenen bir dizi videoda DeepMind çalışanları, sistemden 9.000 metrekarelik ofis alanı etrafında farklı görevleri gerçekleştirmesini istemeden önce akıllı asistan tarzı “Tamam, Robot” ile açılıyor.
Bir örnekte, bir Google çalışanı robottan kendisini bir şeyler çizmesi için bir yere götürmesini istiyor. “Tamam,” diye yanıt verir robot, gösterişli sarı bir papyon takarak, “bana bir dakika ver. İkizler ile Düşünmek…” Robot daha sonra insanı duvar boyutunda bir beyaz tahtaya doğru götürüyor. İkinci videoda farklı bir kişi robota beyaz tahtadaki talimatları takip etmesini söylüyor.
Basit bir harita, robota “Mavi Alan”a nasıl gidileceğini gösterir. Robot, herhangi bir robotik testi olduğu ortaya çıkan şeye doğru uzun bir yürüyüşe çıkmadan önce yine bir an düşünüyor. Robot, çoğu insanın ancak hayal edebileceği bir özgüvenle, “Beyaz tahtadaki talimatları başarıyla takip ettim” diye duyuruyor.
Bu videolardan önce robotlar, ekibin “Gösteri Turları ile Çok Modlu Talimat Navigasyonu (MINT)” olarak adlandırdığı yöntemi kullanarak alana alıştı. Etkili bir şekilde bu, robotun ofis içinde dolaşırken farklı yer işaretlerini konuşarak işaret etmesi anlamına gelir. Daha sonra ekip, hiyerarşik Vizyon-Dil-Eylem’i (VLA) kullanarak “bunun birleştirilmesi”ni sağlar.[e] çevre anlayışı ve sağduyu muhakeme gücü.” Süreçler birleştirildiğinde robot yazılı ve çizilen komutların yanı sıra jestlere de yanıt verebilir.
Google, robotun çalışanlarla 50’den fazla etkileşimde %90 civarında bir başarı oranına sahip olduğunu söylüyor.
Kaynak: https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini/