Anthropic’in Bilgisayar Kullanımı modu yeni çalışmada güçlü yönleri ve sınırlamaları gösteriyor

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin

O zamandan beri Antropik yayınladı”Bilgisayar Kullanımı” Ekim ayında Claude için hazırlanan bu özellik, yapay zeka ajanlarına insan etkileşimlerini taklit etme gücü verildiğinde neler yapabilecekleri konusunda büyük bir heyecan yarattı. A yeni çalışma ile Laboratuvarı Göster Singapur Ulusal Üniversitesi’ndeki yeni nesil grafik kullanıcı arayüzü (GUI) aracılarından neler bekleyebileceğimize dair genel bir bakış sunuyor.

Claude, insanların kullandığı arayüzlerin aynısı aracılığıyla bir cihazla GUI aracısı olarak etkileşime girebilen ilk sınır modelidir. Model yalnızca masaüstü ekran görüntülerine erişiyor ve klavye ve fare eylemlerini tetikleyerek etkileşime giriyor. Bu özellik, kullanıcıların basit talimatlarla ve uygulamalara API erişimine gerek kalmadan görevleri otomatikleştirmesine olanak sağlamayı vaat ediyor.

Araştırmacılar Claude’u web araması, iş akışını tamamlama, ofis üretkenliği ve video oyunları gibi çeşitli görevlerde test etti. Web arama görevleri, öğeleri aramak ve satın almak veya haber hizmetlerine abone olmak gibi web sitelerinde gezinmeyi ve etkileşimde bulunmayı içerir. İş akışı görevleri, bir web sitesinden bilgi çıkarmak ve bunu bir elektronik tabloya eklemek gibi çoklu uygulama etkileşimlerini içerir. Ofis üretkenliği görevleri, aracının belgeleri biçimlendirme, e-posta gönderme ve sunum oluşturma gibi genel işlemleri gerçekleştirme becerisini test eder. Video oyunu görevleri, temsilcinin oyunun mantığını anlamayı ve eylemleri planlamayı gerektiren çok adımlı görevleri gerçekleştirme yeteneğini değerlendirir.

Her görev, modelin yeteneğini üç boyutta test eder: planlama, eylem ve eleştiri. İlk olarak modelin görevi gerçekleştirmek için tutarlı bir plan bulması gerekir. Daha sonra, bir tarayıcı açmak, öğelere tıklamak ve metin yazmak gibi her adımı bir eyleme dönüştürerek planı gerçekleştirebilmelidir. Son olarak kritik unsuru, modelin görevi yerine getirmedeki ilerlemesini ve başarısını değerlendirip değerlendiremeyeceğini belirler. Model, yol boyunca hata yapıp yapmadığını anlayabilmeli ve rotayı düzeltebilmelidir. Ve eğer görev mümkün değilse mantıklı bir açıklama yapmalıdır. Araştırmacılar bu üç bileşene dayalı bir çerçeve oluşturdular ve insanlar tarafından yapılan tüm testleri inceleyip derecelendirdiler.

Genel olarak Claude karmaşık görevleri yerine getirirken harika bir iş çıkardı. Bir görevi yerine getirmek, eylemleri gerçekleştirmek ve yolun her adımındaki ilerlemeyi değerlendirmek için gereken birden fazla adımı akıl yürütüp planlayabiliyordu. Ayrıca web sayfalarından bilgi kopyalayıp elektronik tablolara yapıştırmak gibi farklı uygulamalar arasında da koordinasyon sağlayabilir. Üstelik bazı durumlarda, her şeyin hedefle uyumlu olduğundan emin olmak için görevin sonunda sonuçları tekrar gözden geçirir. Modelin muhakeme izi, farklı araçların ve uygulamaların nasıl çalıştığına dair genel bir anlayışa sahip olduğunu ve bunları etkili bir şekilde koordine edebildiğini gösteriyor.

Ancak ortalama insan kullanıcının kolayca kaçınabileceği önemsiz hatalar yapma eğilimindedir. Örneğin, bir görevde model, ilgili düğmeyi bulmak için bir web sayfasını aşağı kaydırmadığı için aboneliği tamamlayamadı. Diğer durumlarda, metni seçip değiştirmek veya madde işaretlerini sayılara dönüştürmek gibi çok basit ve net görevlerde başarısız oldu. Üstelik model ya hatasını fark etmemiş ya da neden istenilen hedefe ulaşamadığına dair yanlış varsayımlarda bulunmuştur.

Araştırmacılara göre, modelin ilerlemesine ilişkin yanlış değerlendirmeleri, “modelin öz değerlendirme mekanizmalarındaki bir eksikliği” vurguluyor ve “bunun için tam bir çözümün yine de GUI aracı çerçevesinde içselleştirilmiş bir katı eleştiri modülü gibi iyileştirmeler gerektirebileceğini” öne sürüyor. ” Sonuçlardan, GUI aracılarının insanların bilgisayarları kullanma şekline ilişkin tüm temel nüansları kopyalayamayacağı da açıktır.

İşletmeler için ne anlama geliyor?

Görevleri otomatikleştirmek için temel metin açıklamalarını kullanma vaadi çok çekici. Ancak en azından şimdilik teknoloji toplu kullanıma hazır değil. Modellerin davranışı kararsızdır ve öngörülemeyen sonuçlara yol açabilir, bu da hassas uygulamalarda zararlı sonuçlara yol açabilir. İnsanlar için tasarlanmış arayüzler aracılığıyla eylemler gerçekleştirmek, API’ler aracılığıyla yapılabilecek görevleri gerçekleştirmenin en hızlı yolu değildir.

Fare ve klavyenin kontrolünü büyük dil modellerine (LLM’ler) vermenin güvenlik riskleri hakkında öğrenecek daha çok şeyimiz var. Örneğin, bir çalışma web aracılarının kolaylıkla Düşman saldırılarına kurban gitmek insanların kolayca görmezden gelebileceği bir şey.

Görevleri geniş ölçekte otomatikleştirmek, güvenli bir şekilde bağlanabilen ve uygun ölçekte sunulabilen API’ler ve mikro hizmetler de dahil olmak üzere hâlâ sağlam bir altyapı gerektiriyor. Ancak Claude Bilgisayar Kullanımı gibi araçlar, ürün ekiplerinin fikirleri keşfetmesine ve görevleri otomatikleştirmek için yeni özellikler veya hizmetler geliştirmeye zaman ve para harcamadan bir soruna farklı çözümler üzerinde yineleme yapmasına yardımcı olabilir. Uygulanabilir bir çözüm keşfedildiğinde ekip, onu verimli ve güvenilir bir şekilde sunmak için gereken kodu ve bileşenleri geliştirmeye odaklanabilir.

VB Günlük

Haberdar kalın! En son haberleri günlük olarak gelen kutunuza alın

Abone olarak VentureBeat’in şartlarını kabul etmiş olursunuz Hizmet Şartları.

Abone olduğunuz için teşekkür ederiz. Daha fazlasına göz atın VB bültenleri burada.

Bir hata oluştu.

Kaynak: https://venturebeat.com/ai/anthropics-computer-use-mode-shows-strengths-and-limitations-in-new-study/

Yorum yap

Anthropic’in Bilgisayar Kullanımı modu yeni çalışmada güçlü yönleri ve sınırlamaları gösteriyor

İşletmeler için ne anlama geliyor?

İlgili haberler: