Daha önce Tubi’de mühendislik başkan yardımcısı ve Cloudera emektarı olan Chang She, veri araçları ve altyapısı oluşturma konusunda uzun yıllara dayanan deneyime sahip. Ancak AI alanında çalışmaya başladığında, hızla geleneksel veri altyapısıyla ilgili sorunlarla karşılaştı; bu sorunlar onun AI modellerini üretime sokmasını engelledi.
TechCrunch’a bir röportajda şunları söyledi: “Makine öğrenimi mühendisleri ve yapay zeka araştırmacıları genellikle ortalamanın altında bir geliştirme deneyimine sahip oluyorlar.” “Veri altyapısı şirketleri, makine öğrenimi verileriyle ilgili sorunu temel düzeyde gerçekten anlayamıyor.”
Son derece popüler Python veri bilimi kütüphanesi Pandas’ın ortak yaratıcılarından biri olan Chang, LanceDB’yi birlikte başlatmak için yazılım mühendisi Lei Xu ile birlikte çalıştı.
LanceDB, metne ek olarak görüntüler, videolar ve daha fazlasını eğiten ve üreten modeller olan çok modlu yapay zeka modellerini desteklemek üzere tasarlanan, adını taşıyan açık kaynaklı veritabanı yazılımı LanceDB’yi geliştiriyor. Y Combinator tarafından desteklenen LanceDB, bu ay CRV, Essence VC ve Swift Ventures liderliğindeki tohum finansman turunda 8 milyon dolar toplayarak toplamını 11 milyon dolara çıkardı.
Chang, “Çok modlu yapay zeka, şirketinizin gelecekteki başarısı için kritik öneme sahipse, çok pahalı olan yapay zeka ekibinizin modele odaklanmasını ve yapay zeka ile iş değeri arasında köprü kurmasını istiyorsunuz” dedi. “Ne yazık ki günümüzde yapay zeka ekipleri zamanlarının çoğunu düşük seviyeli veri altyapısı ayrıntılarıyla uğraşarak geçiriyor. LanceDB, yapay zeka ekiplerinin ihtiyaç duyduğu temeli sağlıyor; böylece kurumsal değer açısından gerçekten önemli olan şeylere odaklanabiliyor ve yapay zeka ürünlerini pazara mümkün olandan çok daha hızlı sunabiliyorlar.”
LanceDB aslında bir vektör veritabanıdır; yapılandırılmamış verilerin (örneğin resimler, metin vb.) anlamını kodlayan bir dizi sayıyı (“vektörler”) içeren bir veritabanıdır.
Meslektaşım Paul Sawers’ın yakın zamanda yazdığı gibi, vektör veritabanları yapay zekanın ilgi çekici döngüsünün zirveye ulaştığı bir dönemden geçiyor. Bunun nedeni, e-ticaret ve sosyal medya platformlarındaki içerik önerilerinden halüsinasyonların azaltılmasına kadar her türlü yapay zeka uygulaması için faydalı olmalarıdır.
Vektör veri tabanı rekabeti şiddetli; birkaç tedarikçiyi isimlendirmek için Qdrant, Vespa, Weaviate, Pinecone ve Chroma’ya bakın (Big Tech yerleşiklerini saymıyoruz). Peki LanceDB’yi benzersiz kılan şey nedir? Chang’a göre daha iyi esneklik, performans ve ölçeklenebilirlik.
Chang, öncelikle Apache Arrow’un üzerine inşa edilen LanceDB’nin, çok modlu yapay zeka eğitimi ve analitiği için optimize edilmiş özel bir veri formatı olan Lance Format tarafından desteklendiğini söylüyor. Lance Format, LanceDB’nin milyarlarca vektör ve petabaytlarca metin, resim ve videoyu işlemesine ve mühendislerin bu verilerle ilişkili çeşitli meta veri biçimlerini yönetmesine olanak tanır.
Chang, “Şimdiye kadar eğitim, keşif, arama ve büyük ölçekli veri işlemeyi birleştirebilecek bir sistem asla olmadı” dedi. “Lance Format, yapay zeka araştırmacılarının ve mühendislerinin tek bir gerçek kaynaktan yararlanmasına ve yapay zeka hattının tamamında ışık hızında performans elde etmesine olanak tanıyor. Bu sadece vektörleri depolamakla ilgili değil.”
LanceDB, açık kaynak yazılımının donanım hızlandırma ve yönetişim kontrolleri gibi ek özelliklere sahip tam olarak yönetilen sürümlerini satarak para kazanıyor ve işlerin güçlendiği görülüyor. Şirketin müşteri listesinde metinden görsele dönüştürme platformu Midjourney, chatbot unicorn Character.ai, otonom araba girişimi WeRide ve Airtable yer alıyor.
Chang, LanceDB’nin yakın zamandaki VC desteğinin, dikkatini şu anda ayda yaklaşık 600.000 indirme gördüğünü söylediği açık kaynak projesinden uzaklaştırmayacağı konusunda ısrar etti.
“Büyük ölçekli çok modlu verilerle çalışan yapay zeka ekiplerinin işini 10 kat kolaylaştıracak bir şey yaratmak istedik” dedi. “LanceDB, benimseme çabalarını en aza indirmek için çok zengin bir ekosistem entegrasyonları seti sunuyor ve sunmaya devam edecek.”
Kaynak: https://techcrunch.com/2024/05/15/lancedb-which-counts-midjourney-as-a-customer-is-building-databases-for-multimodal-ai/