DeepMind ve Stanford’un yeni robot kontrol modeli, eskizlerdeki talimatları takip ediyor

Özel bir ağ oluşturma, içgörü ve sohbet gecesi için 27 Mart’ta Boston’daki liderlere katılın. Davet et Burada.


Dil ve görme modellerindeki son gelişmeler, Büyük ilerleme metin açıklamalarından veya resimlerden talimatları takip edebilen robotik sistemler oluşturmada. Ancak dil ve görüntü tabanlı talimatların başarabileceklerinin sınırları vardır.

A yeni çalışma araştırmacılar tarafından Stanford Üniversitesi Ve Google DeepMind robotlara yönelik talimatlar olarak eskizlerin kullanılmasını önerir. Çizimler, robotun, gerçekçi görüntülerin karmaşası veya doğal dildeki talimatların belirsizliği nedeniyle kafası karışmadan görevlerini yerine getirmesine yardımcı olacak zengin mekansal bilgilere sahiptir.

Araştırmacılar, robotları kontrol etmek için eskizler kullanan bir model olan RT-Sketch’i yarattılar. Normal koşullarda dil ve görüntü koşullu etmenlerle aynı performansı gösterir ve dil ve görüntü hedeflerinin yetersiz kaldığı durumlarda onlardan daha iyi performans gösterir.

Neden eskizler?

Dil, hedefleri belirlemenin sezgisel bir yolu olsa da, nesnelerin belirli düzenlemelere yerleştirilmesi gibi görevin hassas manipülasyonlar gerektirdiği durumlarda uygunsuz hale gelebilir.

VB Etkinliği

Yapay Zeka Etki Turu – Boston

27 Mart’ta Boston’daki AI Etki Turunun bir sonraki durağı için heyecanlıyız. Microsoft ile ortaklaşa gerçekleştirilen bu özel, yalnızca davetle katılabileceğiniz etkinlikte, 2024 ve sonrasında veri bütünlüğüne yönelik en iyi uygulamalara ilişkin tartışmalar yer alacak. Kontenjan sınırlıdır, bu nedenle bugün bir davet isteyin.

Davet et

Öte yandan görüntüler, robotun ulaşmak istediği hedefi tüm detaylarıyla tasvir etme konusunda etkilidir. Ancak bir gol görüntüsüne erişim çoğu zaman imkansızdır ve önceden kaydedilmiş bir gol görüntüsü çok fazla ayrıntıya sahip olabilir. Bu nedenle, hedef görüntüleri üzerinde eğitilen bir model, eğitim verilerine gereğinden fazla uyum sağlayabilir ve yeteneklerini diğer ortamlara genelleştiremeyebilir.

Priya Sundaresan, Ph.D. “Eskizler üzerinde koşullandırmanın orijinal fikri, aslında bir robotun IKEA mobilya şemaları gibi montaj kılavuzlarını yorumlayabilmesini ve gerekli manipülasyonu gerçekleştirebilmesini nasıl sağlayabileceğimize dair başlangıçtaki beyin fırtınasından kaynaklandı.” Stanford Üniversitesi öğrencisi ve makalenin baş yazarı VentureBeat’e söyledi. “Dil, bu tür mekansal açıdan hassas görevler için genellikle son derece belirsizdir ve istenen sahnenin görüntüsü önceden mevcut değildir.”

Ekip, minimal düzeyde olması, toplanması kolay ve bilgi açısından zengin olması nedeniyle eskizleri kullanmaya karar verdi. Bir yandan eskizler, doğal dildeki talimatlarla ifade edilmesi zor olan mekansal bilgileri sağlar. Öte yandan eskizler, bir görüntüdeki gibi piksel düzeyindeki ayrıntıların korunmasına gerek kalmadan, istenen mekansal düzenlemelerin belirli ayrıntılarını sağlayabilir. Aynı zamanda modellerin, hangi nesnelerin görevle ilgili olduğunu söylemeyi öğrenmelerine yardımcı olabilirler, bu da daha genelleştirilebilir yeteneklerle sonuçlanır.

Sundaresan, “Eskizleri, insanların robotlara hedef belirlemesi için daha kullanışlı ancak anlamlı yollara doğru bir basamak olarak görüyoruz” dedi.

RT-Kroki

RT-Sketch birçok yenilikten biri Transformatörler kullanan robotik sistemler, büyük dil modellerinde (LLM’ler) kullanılan derin öğrenme mimarisi. RT-Sketch’in temeli Robotik Transformatör 1 (RT-1), DeepMind tarafından geliştirilen, dil talimatlarını girdi olarak alan ve robotlar için komutlar üreten bir model. RT-Sketch, doğal dil girdisini eskizler ve görüntüler dahil olmak üzere görsel hedeflerle değiştirecek şekilde mimariyi değiştirdi.

Modeli eğitmek için araştırmacılar, nesnelerin taşınması ve manipüle edilmesi, dolapların açılıp kapatılması ve daha fazlası gibi görevlerin VR ile uzaktan çalıştırılan gösteriminin 80.000 kaydını içeren RT-1 veri setini kullandı. Ancak öncelikle gösterilerden eskizler oluşturmaları gerekiyordu. Bunun için 500 eğitim örneği seçtiler ve son video karesinden elle çizilmiş eskizler oluşturdular. Daha sonra görüntülerden çizimler oluşturabilen üretken bir rakip ağı (GAN) eğitmek için bu çizimleri ve karşılık gelen video çerçevesini diğer görüntüden çizime örnekleriyle birlikte kullandılar.

GAN ağı görüntülerden çizimler oluşturur

RT-Sketch modelini eğitmek amacıyla hedef taslakları oluşturmak için GAN ağını kullandılar. Ayrıca elle çizilmiş eskizlerdeki varyasyonları simüle etmek için oluşturulan bu eskizleri çeşitli renk alanı ve afin dönüşümlerle zenginleştirdiler. RT-Sketch modeli daha sonra orijinal kayıtlar ve hedef durumun taslağı üzerinde eğitildi.

Eğitilen model, sahnenin bir görüntüsünü ve nesnelerin istenen düzeninin kaba bir taslağını alır. Buna yanıt olarak istenen hedefe ulaşmak için bir dizi robot komutu üretir.

Sundaresan, “RT-Sketch, amaçlanan hedefi tanımlamanın bir taslaktan ziyade kelimelerle ifade edilmesinin daha uzun süreceği mekansal görevlerde veya bir görüntünün mevcut olmayabileceği durumlarda yararlı olabilir” dedi.

RT-Sketch görsel talimatları alır ve robotlar için eylem komutları üretir

Örneğin, bir yemek masası hazırlamak istiyorsanız, “mutfakları tabağın yanına koyun” gibi dil talimatları, birden fazla çatal ve bıçak seti ve birçok olası yerleşim nedeniyle belirsiz olabilir. Dil koşullu bir modelin kullanılması, modelde birden fazla etkileşim ve düzeltme yapılmasını gerektirir. Aynı zamanda istenen sahnenin görüntüsüne sahip olmak, görevi önceden çözmeyi gerektirecektir. RT-Sketch ile bunun yerine nesnelerin nasıl düzenlenmesini beklediğinizin hızlı bir şekilde çizilmiş bir taslağını sağlayabilirsiniz.

“RT-Sketch aynı zamanda mobil bir robotla yeni bir alanda nesneleri ve mobilyaları düzenlemek veya paketlerinden çıkarmak gibi senaryolara veya bir taslağın adımları görsel olarak aktarmaya yardımcı olabileceği çamaşırların çok adımlı katlanması gibi uzun ufuklu görevlere de uygulanabilir. adım adım alt hedefler, “dedi Sundaresan.

RT-Sketch iş başında

Araştırmacılar RT-Sketch’i farklı sahnelerde altı manipülasyon becerisine göre değerlendirdiler; bunlar arasında nesneleri birbirine yakın hareket ettirmek, kutuları yanlara doğru vurmak veya dik yerleştirmek ve çekmeceleri kapatıp açmak yer alıyor.

RT-Sketch, masa üstü ve tezgah üstü manipülasyonlar için görüntü ve dil koşullu modellerle aynı performansı gösterir. Bu arada, hedeflerin dil talimatlarıyla açıkça ifade edilemediği senaryolarda dil koşullu modellerden daha iyi performans gösterir. Ayrıca ortamın görsel dikkat dağıtıcı unsurlarla dolu olduğu ve görüntü tabanlı talimatların görüntü koşullu modellerin kafasını karıştırabileceği senaryolar için de uygundur.

“Bu, eskizlerin mutlu bir araç olduğunu gösteriyor; Sundaresan, görsel dikkat dağıtıcılardan etkilenmeyecek kadar minimal düzeyde ancak anlamsal ve mekansal farkındalığı koruyacak kadar ifade edicidir” dedi.

Gelecekte araştırmacılar, eskizlerin dil, görüntü ve insan hareketleri gibi diğer yöntemlerle tamamlanması gibi daha geniş uygulamalarını keşfedecekler. DeepMind zaten var diğer birkaç robotik modeli Çok modlu modelleri kullanan. RT-Sketch’in bulgularıyla bunların nasıl geliştirilebileceğini görmek ilginç olacak. Araştırmacılar ayrıca eskizlerin sadece görsel sahneleri yakalamanın ötesinde çok yönlülüğünü de keşfedecekler.

Sundaresan, “Çizimler, çizilmiş oklar yoluyla hareketi, kısmi eskizler yoluyla alt hedefleri, karalamalar yoluyla kısıtlamaları ve hatta karalanmış metin aracılığıyla anlamsal etiketleri aktarabilir” dedi. “Bunların hepsi, henüz keşfetmediğimiz, aşağı yönlü manipülasyon için yararlı bilgileri kodlayabilir.”

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.

Kaynak: https://venturebeat.com/automation/deepmind-and-stanfords-new-robot-control-model-follow-instructions-from-sketches/