Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Kapsamlı yeni anket Microsoft araştırmacılarından ve akademik ortaklardan gelen bir araştırma, büyük dil modelleri (LLM’ler) tarafından desteklenen yapay zeka aracılarının, grafik kullanıcı arayüzlerini (GUI’ler) kontrol etme konusunda giderek daha yetenekli hale geldiğini ve potansiyel olarak insanların yazılımla etkileşime girme biçimini değiştirdiğini ortaya koyuyor.
Teknoloji esasen yapay zeka sistemlerine, tıpkı insanlar gibi bilgisayar arayüzlerini görme ve değiştirme yeteneği veriyor (düğmelere tıklamak, formları doldurmak ve uygulamalar arasında gezinmek). Bu “GUI aracıları”, kullanıcıların karmaşık yazılım komutlarını öğrenmesini gerektirmek yerine, doğal dil isteklerini yorumlayabilir ve gerekli eylemleri otomatik olarak yürütebilir.
Araştırmacılar, “Bu aracılar, kullanıcıların karmaşık, çok adımlı görevleri basit konuşma komutları aracılığıyla gerçekleştirmelerine olanak tanıyan bir paradigma değişimini temsil ediyor” dedi. yazmak. “Uygulamaları web navigasyonu, mobil uygulama etkileşimleri ve masaüstü otomasyonunu kapsıyor ve bireylerin yazılımla etkileşiminde devrim yaratan dönüştürücü bir kullanıcı deneyimi sunuyor.”
Bunu, sizin adınıza herhangi bir yazılım programını çalıştırabilecek çok yetenekli bir yönetici asistanına sahip olmak olarak düşünün. Asistana neyi başarmak istediğinizi söylemeniz yeterlidir ve onlar bunu gerçekleştirmenin tüm teknik ayrıntılarını hallederler.
Kurumsal yapay zeka asistanlarının yükselişi her şeyi değiştiriyor
Büyük teknoloji şirketleri halihazırda bu yetenekleri ürünlerine dahil etmek için yarışıyor. Microsoft’un Güç Otomatikleştirmesi kullanıcıların uygulamalar arasında otomatik iş akışları oluşturmasına yardımcı olmak için Yüksek Lisans’ı kullanır. Şirketin Yardımcı Pilot AI asistanı metin komutlarına dayalı olarak yazılımı doğrudan kontrol edebilir. Antropik Bilgisayar Kullanımı Claude’un işlevselliği, yapay zekanın web arayüzleriyle etkileşime girmesine ve karmaşık görevleri gerçekleştirmesine olanak tanır. Google’ın geliştirildiği bildiriliyor Jarvis ProjesiAraştırma, alışveriş ve seyahat rezervasyonu gibi web tabanlı görevleri gerçekleştirmek için Chrome tarayıcıyı kullanan bir yapay zeka sistemi, ancak bu özellik hâlâ geliştirilme aşamasında ve kamuya açıklanmadı.
Makalede, “Büyük Dil Modellerinin, özellikle de çok modlu modellerin ortaya çıkışı, GUI otomasyonunda yeni bir çağ başlattı” diye belirtiliyor. “Doğal dil anlama, kod oluşturma, görev genelleştirme ve görsel işleme konularında olağanüstü yetenekler sergilediler.”
Bu bir potansiyeli temsil ediyor 68,9 milyar dolarlık pazar fırsatı BCC Research’teki analistlere göre işletmeler 2028 yılına kadar tekrarlanan görevleri otomatikleştirmeye ve yazılımlarını teknik bilgisi olmayan kullanıcılar için daha erişilebilir hale getirmeye çalışıyor. Pazarın, tahmin dönemi boyunca %43,9 bileşik yıllık büyüme oranıyla (CAGR) 2022’de 8,3 milyar dolardan bu rakama ulaşması bekleniyor.
Kurumsal etki: Yapay zeka otomasyonundaki zorluklar ve fırsatlar
Ancak teknolojinin kurumsal olarak yaygın şekilde benimsenmesinin önünde önemli engeller var. Araştırmacılar aşağıdakiler de dahil olmak üzere çeşitli temel sınırlamaları tespit ediyor: gizlilik endişeleri Aracılar hassas verileri, hesaplama performansı kısıtlamalarını ve daha iyi güvenlik ve güvenilirlik garantilerine duyulan ihtiyacı ele aldığında.
Makalede daha önceki otomasyon yaklaşımlarıyla ilgili olarak “Önceden tanımlanmış iş akışları için etkili olsalar da, bu yöntemler dinamik, gerçek dünya uygulamaları için gereken esneklik ve uyarlanabilirlikten yoksundu” ifadesi yer alıyor.
Araştırma ekibi, bu zorlukların üstesinden gelmek için ayrıntılı bir yol haritası sunarak, daha verimli modeller geliştirmenin önemini vurguluyor. cihazlarda yerel olarak çalışabilirsağlam güvenlik önlemlerinin uygulanması ve standartlaştırılmış değerlendirme çerçevelerinin oluşturulması.
Araştırmacılar, teknolojinin kurumsal kullanıma hazır hale getirilmesinde son zamanlarda kaydedilen ilerlemeyi vurgulayarak, “Koruma önlemleri ve özelleştirilebilir eylemleri bir araya getirerek, bu aracılar karmaşık komutları yönetirken verimlilik ve güvenlik sağlıyor” dedi.
Kurumsal teknoloji liderleri için LLM destekli GUI aracılarının ortaya çıkışı hem bir fırsatı hem de stratejik bir düşünceyi temsil ediyor. Teknoloji, otomasyon yoluyla önemli üretkenlik kazanımları vaat etse de kuruluşların bu yapay zeka sistemlerini dağıtmanın güvenlik sonuçlarını ve altyapı gereksinimlerini dikkatli bir şekilde değerlendirmesi gerekecek.
Makale, “GUI aracıları alanı, çok aracılı mimarilere, çok modlu yeteneklere, çeşitli eylem kümelerine ve yeni karar verme stratejilerine doğru ilerliyor” diye açıklıyor. “Bu yenilikler, çeşitli ve dinamik ortamlarda yüksek performans gösterebilen akıllı, uyarlanabilir aracılar yaratmaya yönelik önemli adımları işaret ediyor.”
Endüstri uzmanları, en azından 2025 yılına kadar, Büyük işletmelerin %60’ı Bir tür GUI otomasyon aracısını pilot olarak kullanacak, bu da potansiyel olarak büyük verimlilik kazanımlarına yol açacak, ancak aynı zamanda veri gizliliği ve işten çıkarmayla ilgili önemli soruları da gündeme getirecek.
Kapsamlı araştırma, konuşmaya dayalı yapay zeka arayüzlerinin insanların yazılımla etkileşimini temelden değiştirebileceği bir dönüm noktasında olduğumuzu gösteriyor; ancak bu potansiyelin farkına varılması, hem temel teknolojide hem de kurumsal dağıtım uygulamalarında sürekli ilerlemeler gerektirecektir.
Araştırmacılar, yapay zeka asistanlarının bilgisayarlarla çalışma şeklimizin ayrılmaz bir parçası haline geleceği bir geleceğe işaret ederek, “Bu gelişmeler, karmaşık, dinamik ortamları idare edebilen daha çok yönlü ve güçlü aracıların temelini atıyor” sonucuna varıyor.
Kaynak: https://venturebeat.com/ai/ai-that-clicks-for-you-microsoft-research-points-to-the-future-of-gui-automation/