Sistem, mekanik kollardan insansı robotlara ve sürücüsüz arabalara kadar farklı türde robotların görevleri tamamlaması için eğitilmesini kolaylaştırabilir. Ayrıca şunları yapmanıza da yardımcı olabilir: Yapay zeka web aracılarıProjede çalışan robotik manipülasyon konusunda uzmanlaşmış araştırma bilimcisi Mohit Shridhar, karmaşık görevleri çok az denetimle gerçekleştirebilen, kaydırma ve tıklama konusunda daha iyi olan yeni nesil yapay zeka araçları olduğunu söylüyor.
“Robot biliminde yapabileceğiniz hemen hemen her şeyi yapmak için görüntü oluşturma sistemlerini kullanabilirsiniz” diyor. “Yayılmada meydana gelen tüm bu harika şeyleri alıp robotik problemler için kullanıp kullanamayacağımızı görmek istedik.”
Bir robota bir görevi tamamlamayı öğretmek için araştırmacılar normalde bir sinir ağını robotun önünde ne olduğuna dair bir görüntü üzerinde eğitir. Ağ daha sonra farklı bir formatta (örneğin ilerlemek için gereken koordinatlar) bir çıktı verir.
Robot öğrenimi konusunda uzmanlaşmış ancak bu araştırmaya dahil olmayan Imperial College London’da doktora öğrencisi Ivan Kapelyukh, Genima’nın yaklaşımının farklı olduğunu, çünkü hem girdi hem de çıktının, makinelerin öğrenmesi daha kolay olan görüntüler olduğunu söylüyor.
“Kullanıcılar için de gerçekten harika çünkü robotunuzun nereye hareket edeceğini ve ne yapacağını görebiliyorsunuz. Bu, onu daha yorumlanabilir hale getiriyor ve eğer bunu gerçekten kullanacaksanız, robotunuzun bir duvardan falan geçmeden önce görebileceği anlamına geliyor” diyor.
Genima, Stable Diffusion’ın kalıpları tanıma yeteneğinden yararlanarak (örneğin, kupa görüntüleri üzerinde eğitim aldığı için bir kupanın neye benzediğini bilmek) ve ardından modeli bir tür aracıya, yani bir karar verme sistemine dönüştürerek çalışıyor.
MOHIT SHRIDHAR, YAT LONG (RICHIE) LO, STEPHEN JAMES ROBOT ÖĞRENME LABORATUVARI
İlk olarak araştırmacılar, robot sensörlerinden gelen verileri kameralarının yakaladığı görüntülerin üzerine yerleştirmelerine izin verecek şekilde kararlı Difüzyon’da ince ayar yaptı.
Sistem, bir kutuyu açmak, bir eşarp asmak veya bir not defterini almak gibi istenen eylemi görüntünün üstündeki bir dizi renkli küreye dönüştürüyor. Bu küreler robota ekleminin bir saniye sonra nereye hareket etmesi gerektiğini söylüyor.
Sürecin ikinci kısmı bu alanları eylemlere dönüştürür. Ekip bunu, aynı veriler üzerinde eşlenen ACT adı verilen başka bir sinir ağını kullanarak başardı. Daha sonra bir robot kolu kullanarak 25 simülasyonu ve dokuz gerçek dünya manipülasyon görevini tamamlamak için Genima’yı kullandılar. Ortalama başarı oranı sırasıyla %50 ve %64 idi.
Kaynak: https://www.technologyreview.com/2024/10/03/1104958/ai-generated-images-can-teach-robots-how-to-act/