Google’ın yapay zeka araştırma kuruluşu DeepMind, “sonsuz” çeşitlilikte oynanabilir 3D dünyalar oluşturabilen bir modeli açıkladı.
Genie 2 olarak adlandırılan bu yılın başlarında piyasaya sürülen DeepMind Genie’nin halefi olan model, tek bir görüntü ve metin açıklamasından (örneğin “Ormanda sevimli bir insansı robot”) etkileşimli, gerçek zamanlı bir sahne oluşturabiliyor. Bu yönüyle Fei-Fei Li’nin şirketi, World Labs ve İsrailli startup Decart tarafından geliştirilmekte olan modellere benziyor.
DeepMind, Genie 2’nin, kullanıcıların bir fare veya klavye kullanarak atlama ve yüzme gibi eylemler gerçekleştirebileceği dünyalar da dahil olmak üzere “çok çeşitli zengin 3D dünyalar” oluşturabileceğini iddia ediyor. Videolar üzerinde eğitim alan model, nesne etkileşimlerini, animasyonları, aydınlatmayı, fiziği, yansımaları ve “NPC’lerin” davranışlarını simüle edebiliyor.
Genie 2’nin simülasyonlarının çoğu AAA video oyunlarına benziyor ve bunun nedeni, modelin eğitim verilerinin popüler oyunların oynanışlarını içermesi olabilir. Ancak birçok yapay zeka laboratuvarı gibi DeepMind da muhtemelen rekabet nedeniyle veri kaynağı yöntemleriyle ilgili pek fazla ayrıntıyı açıklamıyor.
IP’nin etkileri merak ediliyor. Bir Google yan kuruluşu olan DeepMind, YouTube’a sınırsız erişime sahip ve Google daha önce Hizmet Şartları’nın kendisine YouTube videolarını model eğitimi için kullanma izni verdiğini ima etmişti. Peki Genie 2 temelde “izlediği” oyunların izinsiz kopyalarını mı oluşturuyor? Sanırım buna mahkemeler karar verecek.
Genie 2, çoğunluğu 10-20 saniye süren, bir dakikaya kadar birinci şahıs ve izometrik görüşler gibi farklı perspektiflere sahip tutarlı dünyalar oluşturabilir.
DeepMind bir blog yazısında şöyle açıkladı: “Genie 2, klavyedeki tuşlara basılarak, karakteri tanımlayarak ve onu doğru şekilde hareket ettirerek gerçekleştirilen eylemlere akıllıca yanıt veriyor.” “Örneğin bizim modelimiz [can] Ok tuşlarının ağaçları veya bulutları değil, robotu hareket ettirmesi gerektiğini anlayın.”
Genie 2 gibi modellerin çoğu – dünya modelleri de diyebiliriz – oyunları ve 3 boyutlu ortamları simüle edebilir, ancak yapaylık, tutarlılık ve halüsinasyon sorunları vardır. Örneğin, Decart’ın Minecraft simülatörü Oasis’in çözünürlüğü düşük ve seviyelerin düzenini hızla “unutuyor”.
Ancak DeepMind, Genie 2’nin simüle edilmiş bir sahnenin görünürde olmayan kısımlarını hatırlayabildiğini ve tekrar görünür hale geldiklerinde bunları doğru bir şekilde oluşturabildiğini iddia ediyor. (World Labs’ın modelleri de bunu yapabilir.)
Aslında Genie 2 ile oluşturulan oyunlar o kadar da eğlenceli olmaz. İlerlemenizin her dakika silinmesi herkesi duvara sürükler. Dolayısıyla DeepMind, modeli daha çok bir araştırma ve yaratıcı araç olarak konumlandırıyor; “etkileşimli deneyimlerin” prototipini oluşturmaya ve yapay zeka aracılarını değerlendirmeye yönelik bir araç.
DeepMind, “Genie 2’nin dağıtım dışı genelleme yetenekleri sayesinde konsept çizimleri ve çizimler tamamen etkileşimli ortamlara dönüştürülebilir” diye yazdı. “Araştırmacılarımız, AI temsilcileri için hızlı bir şekilde zengin ve çeşitli ortamlar oluşturmak amacıyla Genie 2’yi kullanarak, temsilcilerin eğitim sırasında görmediği değerlendirme görevlerini oluşturabiliyor.”
DeepMind, Genie 2 henüz başlangıç aşamasında olsa da laboratuvarın bunun geleceğin yapay zeka ajanlarını geliştirmede önemli bir bileşen olacağına inandığını söylüyor.
Google, yapay zekada bir sonraki büyük gelişme olmayı vaat eden dünya modellerine giderek artan kaynaklar akıtıyor. Ekim ayında DeepMind, OpenAI’nin Sora video oluşturucusunun geliştirilmesinden sorumlu olan Tim Brooks’u video oluşturma teknolojileri ve dünya simülatörleri üzerinde çalışması için işe aldı.
Kaynak: https://techcrunch.com/2024/12/04/deepminds-genie-2-can-generate-interactive-worlds-that-look-like-video-games/