Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Somutlaştırılmış yapay zeka ajanları Fiziksel dünyayla etkileşime girebilen çeşitli uygulamalar için muazzam bir potansiyele sahiptir. Ancak eğitim verilerinin azlığı ana engellerden biri olmaya devam ediyor.
Bu zorluğun üstesinden gelmek için Imperial College London ve Google DeepMind’dan araştırmacılar, Difüzyonla Artırılmış Ajanlar (DAAG), büyük dil modellerinin (LLM’ler) gücünden yararlanan yeni bir çerçeve, görüş dili modelleri (VLM’ler) ve somutlaşmış aracıların öğrenme verimliliğini ve transfer öğrenme yeteneklerini geliştirmek için yayılma modelleri.
Veri verimliliği somutlaşmış aracılar için neden önemlidir?
Yüksek Lisans ve VLM’lerde son yıllarda kaydedilen etkileyici ilerleme, onların geleceğine dair umutları artırdı. robotik ve somutlaştırılmış yapay zekaya uygulama. Bununla birlikte, Yüksek Lisans ve VLM’ler internetten alınan devasa metin ve resim veri kümeleri üzerinde eğitilebilse de, somutlaştırılmış yapay zeka sistemleri fiziksel dünyayla etkileşime girerek öğrenmeleri gerekir.
Gerçek dünya, somutlaştırılmış yapay zekada veri toplama konusunda çeşitli zorluklar sunmaktadır. Birincisi, fiziksel ortamlar dijital dünyaya göre çok daha karmaşık ve öngörülemezdir. İkincisi, robotlar ve diğer yerleşik yapay zeka sistemleri, yavaş, gürültülü ve arızalanmaya yatkın olabilen fiziksel sensörlere ve aktüatörlere dayanır.
Araştırmacılar, bu engelin aşılmasının, acentenin mevcut verilerinin ve deneyiminin daha iyi kullanılmasına bağlı olacağına inanıyor.
Araştırmacılar, “Somutlaşmış aracıların, etkili bir şekilde keşfetmek ve bilgiyi görevler arasında aktarmak için geçmiş deneyimlerden yararlanarak daha fazla veri verimliliği elde edebileceğini varsayıyoruz” diye yazıyor.
DAAG nedir?
Imperial College ve DeepMind ekibi tarafından önerilen çerçeve olan Difüzyon Artırılmış Ajan (DAAG), ajanların geçmiş deneyimlerini kullanarak ve sentetik veriler üreterek görevleri daha verimli bir şekilde öğrenmelerini sağlamak için tasarlanmıştır.
Araştırmacılar, “Ajanların, dış ödüllerin yokluğunda bile alt hedefleri bağımsız olarak belirlemesine ve puanlamasına olanak tanımak ve yeni görevlerin öğrenilmesini hızlandırmak için önceki görevlerden elde edilen deneyimlerini yeniden kullanmasını sağlamakla ilgileniyoruz” diye yazıyor.
Araştırmacılar DAAG’ı, aracının sürekli olarak öğrendiği ve yeni görevlere uyum sağladığı, yaşam boyu öğrenme sistemi olarak tasarladı.
DAAG, Markov Karar Süreci (MDP) bağlamında çalışır. Temsilci, her bölümün başında bir görev için talimatlar alır. Çevresinin durumunu gözlemler, harekete geçer ve tanımlanan göreve uygun bir duruma ulaşmaya çalışır.
İki hafıza arabelleği vardır: mevcut göreve ilişkin deneyimleri saklayan göreve özgü bir arabellek ve toplandıkları görevlerden veya sonuçlarından bağımsız olarak tüm geçmiş deneyimleri saklayan “çevrimdışı yaşam boyu arabellek”.
DAAG, görevler hakkında akıl yürütebilen, çevrelerini analiz edebilen ve yeni hedefleri daha verimli bir şekilde öğrenmek için geçmiş deneyimlerini yeniden tasarlayabilen aracılar oluşturmak için LLM’lerin, VLM’lerin ve yayılma modellerinin güçlü yönlerini birleştirir.
LLM, acentenin merkezi kontrolörü olarak görev yapar. Etmen yeni bir görev aldığında LLM talimatları yorumlar, bunları daha küçük alt hedeflere böler ve hedeflerine ulaşmak için referans çerçeveleri elde etmek amacıyla VLM ve yayılma modeliyle koordinasyon sağlar.
DAAG, geçmiş deneyiminden en iyi şekilde yararlanmak için, aracının hafızasını artırmak için VLM’yi ve yayılma modelini kullanan, Geriye Dönük Deneyimi Artırma (HEA) adı verilen bir süreci kullanır.
İlk olarak VLM, deneyim arabelleğindeki görsel gözlemleri işler ve bunları istenen alt hedeflerle karşılaştırır. Eylemlerini yönlendirmeye yardımcı olmak için ilgili gözlemleri aracının yeni arabelleğine ekler.
Deneyim tamponunun ilgili gözlemleri yoksa, difüzyon modeli devreye giriyor. Aracının istenen durumun nasıl görüneceğini “hayal etmesine” yardımcı olmak için sentetik veriler üretir. Bu, aracının çevreyle fiziksel etkileşime girmeden farklı olasılıkları keşfetmesine olanak tanır.
Araştırmacılar, “HEA aracılığıyla, aracının arabelleklerinde depolayabileceği ve öğrenebileceği başarılı bölümlerin sayısını sentetik olarak artırabiliriz” diye yazıyor. “Bu, aracı tarafından toplanan verilerin mümkün olduğu kadar etkili bir şekilde yeniden kullanılmasına olanak tanıyor ve özellikle birden fazla görevi arka arkaya öğrenirken verimliliği önemli ölçüde artırıyor.”
Araştırmacılar, DAAG ve HEA’yı “insan denetiminden bağımsız, tutarlı artırılmış gözlemler oluşturmak için geometrik ve zamansal tutarlılıktan yararlanan tam bir otonom boru hattı öneren” ilk yöntem olarak tanımlıyor.
DAAG’ın faydaları nelerdir?
Araştırmacılar DAAG’ı çeşitli kıyaslamalarda ve üç farklı simüle edilmiş ortamda değerlendirerek navigasyon ve nesne manipülasyonu gibi görevlerdeki performansını ölçtüler. Çerçevenin temel takviyeli öğrenme sistemlerine göre önemli iyileştirmeler sağladığını buldular.
Örneğin, DAAG destekli temsilciler, kendilerine açık ödüller verilmese bile hedeflere ulaşmayı başarılı bir şekilde öğrenebildiler. Ayrıca çerçeveyi kullanmayan temsilcilere kıyasla hedeflerine daha hızlı ve çevreyle daha az etkileşimle ulaşabildiler. DAAG, yeni hedeflere yönelik öğrenme sürecini hızlandırmak amacıyla önceki görevlerden elde edilen verileri etkili bir şekilde yeniden kullanmaya daha uygundur.
Görevler arasında bilgi aktarma yeteneği, sürekli öğrenebilen ve yeni durumlara uyum sağlayabilen aracılar geliştirmek için çok önemlidir. DAAG’ın somutlaştırılmış aracılarda verimli transfer öğrenimini sağlamadaki başarısı, daha sağlam ve uyarlanabilir robotların ve diğer somutlaştırılmış yapay zeka sistemlerinin önünü açma potansiyeline sahiptir.
Araştırmacılar, “Bu çalışma, robot öğrenmede veri kıtlığının üstesinden gelmek ve daha genel olarak yetenekli ajanlar geliştirmek için umut verici yönler öneriyor” diye yazıyor.
Kaynak: https://venturebeat.com/ai/imperial-college-london-deepmind-introduce-embodied-agents-that-learn-with-less-data/