İnsanlar amaç ve niyetlerini iletmek için ifade edici davranışları kullanırlar. Bir iş arkadaşımızın varlığını kabul etmek için başımızı sallarız, olumsuz bir yanıt vermek için başımızı sallarız ya da başkalarından yol vermelerini istemek için “afedersiniz” gibi basit ifadeler kullanırız. Ortamlarını insanlarla paylaşmak isteyen mobil robotların bu davranışı gösterebilmesi gerekiyor. Bu, robotiğin önemli zorluklarından biri olmayı sürdürüyor ve mevcut çözümler katı ve kapsam açısından sınırlı.
İçinde yeni çalışmaaraştırmacılar Toronto Üniversitesi, Google DeepMind Ve Yıldız Laboratuvarları Robotlar için ifade edici davranışlar oluşturmak amacıyla büyük dil modellerinde (LLM) mevcut olan geniş sosyal bağlamı kullanan bir çözüm öneriyoruz. GenEM adı verilen teknik, ortamın içeriğini anlamak ve robotun ifade edici davranışları taklit etme yeteneklerini kullanmak için çeşitli yönlendirme yöntemleri kullanıyor.
GenEM’in mevcut yöntemlerden daha çok yönlü olduğu ve insan geri bildirimlerine ve farklı robot türlerine uyum sağlayabildiği kanıtlanmıştır.
Anlamlı davranışlar
Robotlarda ifade edici davranış yaratmaya yönelik geleneksel yaklaşım, bir tasarımcının resmileştirilmiş bir dizi koşul ve bu sistemlerde karşılık gelen robot davranışını sağladığı kural veya şablon tabanlı sistemleri kullanmaktır. Kural tabanlı sistemlerdeki temel sorun, her robot türü ve ortam için gereken manuel çabadır. Üstelik ortaya çıkan sistemin davranışı katıdır ve yeni durumlara, yeni modalitelere veya değişen insan tercihlerine uyum sağlamak için yeniden programlamayı gerektirir.
Son zamanlarda araştırmacılar, daha esnek ve farklılıklara uyum sağlayabilen, ifade edici davranışlar oluşturmak için veriye dayalı yaklaşımları denediler. Bu yaklaşımlardan bazıları, robotlardan toplanan veriler aracılığıyla etkileşim mantığını öğrenmek için klasik makine öğrenimi modellerini kullanıyor. Diğerleri üretken modelleri kullanıyor. Veri güdümlü sistemlerin kural tabanlı sistemlerden daha iyi olmasına rağmen, her robot türü için özel veri kümelerine ihtiyaç duyulması ve bir davranışın kullanıldığı sosyal etkileşim gibi eksiklikleri de vardır.
Yeni tekniğin temel dayanağı, makine öğrenimi modellerini eğitmeye veya uzun bir kural listesi oluşturmaya gerek kalmadan, dinamik olarak ifade edici davranışlar oluşturmak için LLM’lerde yerleşik olan zengin bilgiyi kullanmaktır. Örneğin, Yüksek Lisans’lar size birini selamlarken göz teması kurmanın veya onun varlığını veya komutunu onaylamak için baş sallamanın kibarlık olduğunu söyleyebilir.
Araştırmacılar, “Temel görüşümüz, uyarlanabilir ve şekillendirilebilir ifade davranışı oluşturmak için Yüksek Lisans’ların sunduğu zengin sosyal bağlamdan yararlanmaktır” diye yazıyor.
Üretken İfade Edici Hareket (GenEM)
DeepMind tarafından önerilen teknik olan Üretken İfade Edici Hareket (GenEM), doğal dil talimatlarından ifade edici robot davranışlarını özerk bir şekilde oluşturmak için bir dizi LLM aracısı kullanır. Her aracı, sosyal bağlam üzerinde akıl yürütmede ve istenen ifade davranışını robot için API çağrılarıyla eşleştirmede ayrı bir rol oynar.
Araştırmacılar, “GenEM, robotun niyetini etkili bir şekilde ifade etmek için robotun mevcut imkanlarından (örneğin konuşma, vücut hareketi ve ışık şeritleri gibi diğer görsel özellikler) yararlanan çok modlu davranışlar üretebilir” diye yazıyor. “GenEM’in en önemli faydalarından biri, canlı insan geri bildirimlerine yanıt vermesi, yinelenen düzeltmelere uyum sağlaması ve mevcut olanları oluşturarak yeni ifade edici davranışlar üretmesidir.”
GenEM boru hattı doğal dilde yazılmış bir talimatla başlar. Girdi, “Başınızı sallayın” gibi anlamlı bir davranış olabilir veya “Dalgaların yanından size doğru yürüyen bir kişi” gibi robotun sosyal normları takip etmesi gereken bir sosyal bağlamı tanımlayabilir.
İlk adımda Yüksek Lisans, bir insanın böyle bir durumda nasıl tepki vereceğini açıklamak için düşünce zinciri akıl yürütmesini kullanır. Daha sonra, başka bir Yüksek Lisans temsilcisi, insanın ifadesel hareketini, robotun işlevlerine dayalı olarak adım adım bir prosedüre dönüştürüyor. Örneğin, robota kafasının kaydırma ve eğme özelliklerini kullanarak başını sallamasını veya ön ekranında önceden programlanmış bir ışık düzeni görüntüleyerek bir gülümsemeyi taklit etmesini söyleyebilir.
Son olarak, başka bir aracı, etkileyici robot hareketi için adım adım prosedürü, robotun API komutlarına dayalı olarak yürütülebilir kodla eşleştirir. İsteğe bağlı bir adım olarak GenEM, insanlardan geri bildirim alabilir ve oluşturulan ifade davranışını güncellemek için bir LLM kullanabilir.
Bu adımların hiçbiri LLM’lerin eğitilmesini gerektirmez ve yalnızca robotun olanaklarına ve API spesifikasyonlarına göre ayarlanması gereken hızlı mühendislik tekniklerine dayanmaktadır.
GenEM’in test edilmesi
Araştırmacılar, GenEM’in iki çeşidini (kullanıcı geri bildirimi ile ve kullanıcı geri bildirimi olmadan) kullanarak mobil bir robotta oluşturulan davranışları, profesyonel bir karakter animatörü tarafından tasarlanan bir dizi yazılı davranışla karşılaştırdı.
Bağlam hakkında akıl yürütmek ve ifade edici davranış oluşturmak için LLM olarak OpenAI’nin GPT-4’ünü kullandılar. Sonuçlara ilişkin düzinelerce kullanıcıyla anket yaptılar. Bulguları, genel olarak kullanıcıların GenEM tarafından oluşturulan davranışları, profesyonel bir animatör tarafından dikkatlice yazılanlar kadar anlaşılır bulduğunu gösteriyor. Ayrıca GenEM’de kullanılan modüler ve çok adımlı yaklaşımın, talimatları doğrudan robot davranışına dönüştürmek için tek bir Yüksek Lisans kullanmaktan çok daha iyi olduğunu buldular.
Daha da önemlisi, komut istemine dayalı yapısı sayesinde GenEM, modeli özel veri kümeleri üzerinde eğitmeye gerek kalmadan uygulandığı robotun türünden bağımsızdır. Son olarak GenEM, karmaşık ifade edici davranışlar oluşturmak için basit bir dizi robotik eylem kullanmak üzere LLM’lerin akıl yürütme yeteneklerinden yararlanabilir.
“Çerçevemiz, bağlam içi öğrenme ve birkaç adımlık yönlendirme yoluyla hızlı bir şekilde ifade edici davranışlar üretebilir. Bu, önceki çalışmalarda olduğu gibi belirli robot davranışları veya dikkatle hazırlanmış kurallar oluşturmak için seçilmiş veri kümelerine olan ihtiyacı azaltıyor” diye yazıyor araştırmacılar.
GenEM hala başlangıç aşamasındadır ve daha fazla araştırılması gerekmektedir. Örneğin, mevcut sürümünde yalnızca robot ve insanların yalnızca bir kez etkileşime girdiği senaryolarda test edildi. Aynı zamanda sınırlı eylem alanlarına da uygulanmıştır ve daha zengin ilkel eylemler dizisine sahip robotlar üzerinde araştırılabilir. Büyük dil modelleri tüm bu alanlarda umut verici sonuçlar verebilir.
Araştırmacılar, “Yaklaşımımızın, büyük dil modellerinin gücü aracılığıyla uyarlanabilir ve şekillendirilebilir ifadesel hareket üretmek için esnek bir çerçeve sunduğuna inanıyoruz” diye yazıyor.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/deepminds-genem-uses-llms-to-generate-expressive-behaviors-for-robots/