Telefonunuzun kamerası donanım olduğu kadar yazılım da içerir ve Glass her ikisini de geliştirmeyi umuyor. Ancak çılgın anamorfik lensi pazara sürünürken, şirket (9,3 milyon dolarlık yeni parayla çalışıyor), görüntü kalitesini büyük ölçüde artırdığını söylediği yapay zeka destekli bir kamera yükseltmesini yayınladı – herhangi bir tuhaf yapay zeka yükseltme eseri olmadan.
GlassAI, sinirsel görüntü sinyali işlemcisi (ISP) olarak adlandırdıkları, görüntüleri iyileştirmeye yönelik tamamen yazılımsal bir yaklaşımdır. İSS’ler temel olarak ham sensör çıktısını (çoğunlukla düz, gürültülü ve bozuk) alıp bunu gördüğümüz keskin, renkli görüntülere dönüştüren şeydir.
Apple ve Google gibi telefon üreticilerinin de göstermekten hoşlandığı gibi, birden fazla pozlamayı sentezleyerek, yüzleri hızlı bir şekilde algılayıp keskinleştirerek, küçük hareketlere göre ayar yaparak vb. ISP de giderek daha karmaşık hale geliyor. Birçoğunda bir tür makine öğrenimi veya yapay zeka bulunsa da dikkatli olmaları gerekiyor: Ayrıntı oluşturmak için yapay zekanın kullanılması, sistem hiçbir şeyin olmadığı yerde görsel bilgi oluşturmaya çalışırken halüsinasyonlar veya yapay yapılar üretebilir. Bu tür “süper çözünürlüklü” modeller bulundukları yerde faydalıdır ancak dikkatle izlenmeleri gerekir.
Glass, alışılmadık baklava şeklindeki ön öğeye dayalı tam bir kamera sistemi ve bunu destekleyecek bir ISP oluşturur. Birincisi, piyasaya sürülecek bazı cihazlarla pazarda yer almaya çalışırken, ikincisinin kendi başına satılmaya değer bir ürün olduğu ortaya çıktı.
CTO ve kurucu ortak Tom Bishop, haber bültenlerinde şöyle açıkladı: “Restorasyon ağlarımız optik sapmaları ve sensör sorunlarını düzeltirken gürültüyü etkili bir şekilde ortadan kaldırıyor ve ince doku kurtarma konusunda geleneksel Görüntü Sinyali İşleme hatlarından daha iyi performans gösteriyor.”
“Kurtarma” kelimesi anahtardır çünkü ayrıntılar basitçe oluşturulmaz, aynı zamanda çıkarılan ham görüntülerden. Kamera yığınınızın halihazırda nasıl çalıştığına bağlı olarak, belirli yapaylıkların, açıların veya gürültü modellerinin güvenilir bir şekilde çözülebileceğini ve hatta bunlardan yararlanılabileceğini biliyor olabilirsiniz. Bu ima edilen ayrıntıların nasıl gerçeğe dönüştürüleceğini öğrenmek veya çoklu pozlamalardan elde edilen ayrıntıları birleştirmek, herhangi bir hesaplamalı fotoğrafçılık yığınının büyük bir parçasıdır. Kurucu ortak ve CEO Ziv Attar, nöral ISP’lerinin sektördeki tüm ISP’lerden daha iyi olduğunu söylüyor.
Apple’ın bile tam bir sinirsel görüntü yığınına sahip olmadığını, bunu yalnızca ihtiyaç duyulan belirli durumlarda kullandığını ve sonuçlarının (kendi görüşüne göre) mükemmel olmadığını belirtti. Apple’ın sinirsel ISP’sinin metni doğru şekilde yorumlayamadığı ve Glass’ın çok daha iyi durumda olduğuna dair bir örnek verdi:
“Eğer Apple iyi sonuçlar almayı başaramazsa, bunun çözülmesi zor bir sorun olduğunu varsaymanın adil olduğunu düşünüyorum” dedi. “Bu gerçek yığınla ilgili değil, daha çok nasıl antrenman yaptığınızla ilgili. Bunu yapmanın, anamorfik lens sistemleri için geliştirilmiş ve her kamerada etkili olan çok benzersiz bir yöntemimiz var. Temel olarak, lenslerin sapmasını çok kapsamlı bir şekilde karakterize etmek ve herhangi bir optik bozulmayı temelde tersine çevirmek için bir ağı eğitmeyi başaran robotik sistemleri ve optik kalibrasyon sistemlerini içeren eğitim laboratuvarlarımız var.”
Örnek olarak, DXO’nun Moto Edge 40’taki kamerayı değerlendirmesini ve ardından GlassAI kuruluyken bunu tekrar yapmasını sağlayan bir vaka çalışması sundu. Camla işlenmiş görüntülerin tümü açıkça geliştirildi, bazen dramatik bir şekilde.
Düşük ışık seviyelerinde yerleşik ISP, gece modunda ince çizgileri, dokuları ve yüz ayrıntılarını ayırt etmekte zorlanır. GlassAI kullanıldığında, pozlama süresinin yarısı kadar olsa bile bir raptiye kadar keskindir.
Ham görüntüler ve finaller arasında geçiş yaparak Glass’ın sunduğu birkaç test fotoğrafındaki pikselleri gözetleyebilirsiniz.
Telefonları ve kameraları bir araya getiren şirketlerin, sensörün, lensin ve diğer parçaların birlikte düzgün bir şekilde çalışarak mümkün olan en iyi görüntüyü elde etmesi için ISP’yi ayarlamak için çok zaman harcaması gerekiyor. Ancak öyle görünüyor ki Glass’ın herkese uyan tek çözüm süreci, kısa sürede daha iyi bir iş çıkarabilir.
“Yeni bir cihaz türüne el attığımız andan itibaren gönderilebilir yazılımı eğitmemiz için gereken süre… birkaç saat ile birkaç gün arasında değişiyor. Referans olarak, telefon üreticileri büyük ekiplerle görüntü kalitesini ayarlamak için aylar harcıyor. Sürecimiz tamamen otomatik olduğundan birkaç gün içinde birden fazla cihazı destekleyebiliyoruz” dedi Attar.
Nöral ISP de uçtan ucadır; bu, bu bağlamda gürültü giderme, keskinleştirme vb. gibi ekstra işlemlere gerek kalmadan doğrudan sensör RAW’dan son görüntüye gittiği anlamına gelir.
Sorduğumda Attar, çalışmalarını bitmiş bir görüntüyü alıp onu yükselten süper çözünürlüklü yapay zeka hizmetlerinden ayırmaya dikkat etti. Bunlar çoğu zaman ayrıntıları “kurtarmak”tan ziyade, uygun göründüğü yerde onları icat etmek anlamına gelir; bu, bazen istenmeyen sonuçlar doğurabilen bir süreçtir. Glass yapay zekayı kullansa da görüntüyle ilgili birçok yapay zeka gibi üretken değil.
Bugün, muhtemelen ortaklarla yapılan uzun bir test döneminden sonra ürünün genel olarak kullanılabilirliği işaret ediyor. Bir Android telefon yaparsanız, en azından bir şans vermeniz iyi olabilir.
Donanım tarafında, tuhaf baklava şeklindeki anamorfik kameraya sahip telefonun, üreticinin halka açılmaya hazır olmasını beklemesi gerekecek.
Glass teknolojisini geliştirip müşterileri denerken, bir yandan da finansman bulmakla meşgul. Şirket, tohum turu 2021’de olduğu için bunu tırnak içine aldığım 9,3 milyon dolarlık bir “genişletilmiş tohum”u kapattı. Yeni fon, Future Ventures, Abstract Ventures ve LDV Capital’in katılımıyla GV tarafından yönetildi.
Kaynak: https://techcrunch.com/2024/02/08/glass-supercharges-smartphone-cameras-with-ai-minus-the-hallucinations/