Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Microsoft’un OmniParser bir şeyin peşinde.
Ekran görüntülerini yapay zeka aracılarının anlayabileceği bir formata dönüştüren yeni açık kaynak modeli şuydu: Redmond tarafından bu ayın başlarında piyasaya sürüldüancak daha bu hafta AI kod deposu Hugging Face’te (son indirmelere göre belirlenen) bir numaralı trend model oldu.
Aynı zamanda bunu yapan ilk aracı bağlantılı modeldir. X’teki bir gönderiye göre Hugging Face’in kurucu ortağı ve CEO’su Clem Delangue tarafından.
Peki OmniParser tam olarak nedir ve neden birdenbire bu kadar ilgi görmeye başladı?
OmniParser özünde açık kaynaklı bir yazılımdır. üretken yapay zeka Büyük dil modellerinin (LLM’ler), özellikle GPT-4V gibi görme özellikli modellerin grafik kullanıcı arayüzlerini (GUI’ler) daha iyi anlamasına ve bunlarla etkileşime girmesine yardımcı olmak için tasarlanmış model.
Microsoft tarafından nispeten sessiz bir şekilde piyasaya sürülen OmniParser, üretken araçların ekran tabanlı ortamlarda gezinmesini ve anlamasını sağlama yönünde önemli bir adım olabilir. Bu teknolojinin nasıl çalıştığını ve neden bu kadar hızlı ilgi kazandığını açıklayalım.
OmniParser nedir?
OmniParser, ekran görüntülerini bir vizyon dili modelinin (VLM) anlayabileceği ve üzerinde işlem yapabileceği yapılandırılmış öğelere ayrıştırmak için tasarlanmış güçlü ve yeni bir araçtır. Yüksek Lisans’lar günlük iş akışlarına daha entegre hale geldikçe Microsoft, yapay zekanın çeşitli GUI’lerde sorunsuz bir şekilde çalışması ihtiyacını fark etti. OmniParser projesi, yapay zeka temsilcilerinin ekran düzenlerini görmesini ve anlamasını, metin, düğmeler ve simgeler gibi hayati bilgileri çıkarmasını ve bunları yapılandırılmış verilere dönüştürmesini sağlamayı amaçlıyor.
Bu, GPT-4V gibi modellerin bu arayüzleri anlamlandırmasına ve çevrimiçi formları doldurmaktan ekranın belirli bölümlerine tıklamaya kadar çeşitli görevler için kullanıcı adına bağımsız hareket etmesine olanak tanır.
Yapay zeka için GUI etkileşimi kavramı tamamen yeni olmasa da, OmniParser’ın yeteneklerinin verimliliği ve derinliği öne çıkıyor. Önceki modeller, özellikle belirli tıklanabilir öğelerin tanımlanmasında ve bunların daha geniş bir görev içindeki anlamsal değerinin anlaşılmasında, ekranda gezinme konusunda sıklıkla zorluk çekiyordu. Microsoft’un yaklaşımı, bu engellerin üstesinden gelmek için gelişmiş nesne algılama ve OCR’nin (optik karakter tanıma) bir kombinasyonunu kullanarak daha güvenilir ve etkili bir ayrıştırma sistemi sağlar.
OmniParser’ın arkasındaki teknoloji
OmniParser’ın gücü, her biri belirli bir role sahip olan farklı yapay zeka modellerini kullanmasında yatmaktadır:
- YOLOv8: Sınırlayıcı kutular ve koordinatlar sağlayarak düğmeler ve bağlantılar gibi etkileşimli öğeleri algılar. Temel olarak ekranın hangi bölümleriyle etkileşime geçilebileceğini tanımlar.
- BLIP-2: Amaçlarını belirlemek için tespit edilen unsurları analiz eder. Örneğin, bir simgenin “gönder” düğmesi mi yoksa “gezinme” bağlantısı mı olduğunu tanımlayarak önemli bir bağlam sağlayabilir.
- GPT-4V: Karar vermek ve düğmelere tıklamak veya formları doldurmak gibi görevleri gerçekleştirmek için YOLOv8 ve BLIP-2’den gelen verileri kullanır. GPT-4V, etkili bir şekilde etkileşim kurmak için gereken muhakeme ve karar alma süreçlerini yönetir.
Ek olarak, bir OCR modülü ekrandan metin çıkarır ve bu da GUI öğeleri etrafındaki etiketlerin ve diğer bağlamların anlaşılmasına yardımcı olur. OmniParser, algılama, metin çıkarma ve anlamsal analizi birleştirerek yalnızca GPT-4V ile değil aynı zamanda diğer görüş modelleriyle de çalışan ve çok yönlülüğünü artıran bir tak ve çalıştır çözümü sunuyor.
Açık kaynak esnekliği
OmniParser’ın açık kaynak yaklaşımı popülerliğinde önemli bir faktördür. GPT-4V, Phi-3.5-V ve Llama-3.2-V dahil olmak üzere çeşitli görüş dili modelleriyle çalışarak gelişmiş temel modellere geniş bir erişim yelpazesine sahip geliştiriciler için esneklik sağlar.
OmniParser’ın Hugging Face’teki varlığı aynı zamanda onu geniş bir izleyici kitlesi için erişilebilir hale getirerek deneyleri ve iyileştirmeleri davet etti. Bu topluluk odaklı gelişme, OmniParser’ın hızla gelişmesine yardımcı oluyor. Microsoft İş Ortağı Araştırma Müdürü Ahmed Awadallah şunu kaydetti açık işbirliği, yetenekli yapay zeka aracıları oluşturmanın anahtarıdır ve OmniParser bu vizyonun bir parçasıdır.
Yapay zeka ekran etkileşimine hakim olma yarışı
OmniParser’ın piyasaya sürülmesi, teknoloji devleri arasında yapay zeka ekran etkileşimi alanına hakim olmak için yapılan daha geniş bir rekabetin bir parçası. Son zamanlarda Anthropic, benzer ancak kapalı kaynaklı bir yeteneği yayınladı. “Bilgisayar Kullanımı” Yapay zekanın ekran içeriğini yorumlayarak bilgisayarları kontrol etmesine olanak tanıyan Claude 3.5 güncellemesinin bir parçası olarak. Apple da bu mücadeleye katıldı Gelincik-UImobil kullanıcı arayüzlerini hedefleyerek yapay zekanın widget’lar ve simgeler gibi öğeleri anlamasını ve bunlarla etkileşime geçmesini sağlıyor.
OmniParser’ı bu alternatiflerden ayıran şey, farklı platformlar ve GUI’ler arasında genelleştirilebilirlik ve uyarlanabilirlik konusundaki kararlılığıdır. OmniParser, yalnızca web tarayıcıları veya mobil uygulamalar gibi belirli ortamlarla sınırlı değildir; masaüstü bilgisayarlardan gömülü ekranlara kadar çok çeşitli dijital arayüzlerle etkileşime giren herhangi bir vizyon özellikli LLM için bir araç olmayı amaçlamaktadır.
Zorluklar ve önümüzdeki yol
Güçlü yönlerine rağmen OmniParser sınırlama olmaksızın. Devam eden zorluklardan biri, genellikle benzer bağlamlarda görünen ancak farklı amaçlara hizmet eden tekrarlanan simgelerin (örneğin, aynı sayfa içinde farklı formlarda bulunan birden fazla “Gönder” düğmesi) doğru şekilde algılanmasıdır. Microsoft’un belgelerine göre, mevcut modeller hâlâ bu tekrarlanan unsurlar arasında etkili bir şekilde ayrım yapmakta zorlanıyor ve bu da eylem tahmininde potansiyel yanlış adımlara yol açıyor.
Ayrıca, OCR bileşeninin sınırlayıcı kutu hassasiyeti bazen, özellikle de üst üste binen metinlerde, hatalı olabilir ve bu da hatalı tıklama tahminlerine yol açabilir. Bu zorluklar, çeşitli ve karmaşık ekran ortamlarıyla doğru şekilde etkileşime girebilen yapay zeka aracılarının tasarlanmasının doğasında bulunan karmaşıklıkları vurgulamaktadır.
Ancak AI topluluğu, özellikle OmniParser’ın açık kaynak kullanılabilirliği göz önüne alındığında, bu sorunların devam eden iyileştirmelerle çözülebileceği konusunda iyimser. Daha fazla geliştiricinin bu bileşenlere ince ayar yapmasına ve içgörülerini paylaşmasına katkıda bulunmasıyla, modelin yeteneklerinin hızla gelişmesi muhtemeldir.
Kaynak: https://venturebeat.com/ai/microsofts-agentic-ai-tool-omniparser-rockets-up-the-open-source-charts/