AI heyecan döngüsü zirveye ulaşırken vektör veritabanları neden bir an yaşıyor?

Vektör veritabanları Alana giren startupların sayısına ve pastadan pay almak için para yatıran yatırımcılara bakılırsa tüm öfke. Büyük dil modellerinin (LLM’ler) çoğalması ve üretken yapay zeka (GenAI) hareketi, vektör veritabanı teknolojilerinin gelişmesi için verimli bir zemin yarattı.

Postgres veya MySQL gibi geleneksel ilişkisel veritabanları yapılandırılmış verilere (satırlar ve sütunlar halinde düzgün bir şekilde dosyalanabilen önceden tanımlanmış veri türleri) çok uygun olsa da, bu durum resimler, videolar, e-postalar, sosyal medya gibi yapılandırılmamış veriler için pek işe yaramıyor gönderiler ve önceden tanımlanmış bir veri modeline uymayan tüm veriler.

Öte yandan vektör veritabanları, metni, belgeleri, görüntüleri ve diğer verileri, farklı veri noktaları arasındaki anlamı ve ilişkileri yakalayan sayısal temsillere dönüştüren vektör yerleştirmeleri biçiminde verileri depolar ve işler. Veritabanı, verileri her bir öğenin diğeriyle ne kadar alakalı olduğuna göre uzamsal olarak depoladığından ve anlamsal olarak benzer verilerin alınmasını kolaylaştırdığından, bu, makine öğrenimi için mükemmeldir.

Bu, özellikle OpenAI’nin GPT-4’ü gibi Yüksek Lisans’lar için kullanışlıdır çünkü AI chatbot’un önceki benzer konuşmaları analiz ederek bir konuşmanın içeriğini daha iyi anlamasını sağlar. Vektör arama aynı zamanda sosyal ağlardaki veya e-ticaret uygulamalarındaki içerik önerileri gibi her türlü gerçek zamanlı uygulama için de kullanışlıdır; çünkü bir kullanıcının ne aradığını görebilir ve benzer öğeleri anında geri getirebilir.

Vektör arama aynı zamanda orijinal eğitim veri setinde bulunmayan ek bilgiler sağlayarak LLM uygulamalarındaki “halüsinasyonların” azaltılmasına da yardımcı olabilir.

“Vektör benzerlik aramasını kullanmadan da AI/ML uygulamaları geliştirebilirsiniz ancak daha fazla yeniden eğitim ve ince ayar yapmanız gerekir.” Diğer Zayarniler, vektör arama girişimi Qdrant’ın CEO’su ve kurucu ortağı, TechCrunch’a açıkladı. “Büyük bir veri kümesi olduğunda vektör veritabanları devreye giriyor ve vektör yerleştirmelerle verimli ve rahat bir şekilde çalışmak için bir araca ihtiyacınız var.”

Ocak ayında Qdrant, büyümeden yararlanmak için 28 milyon dolarlık fon sağladı ve bu da onun geçen yıl en hızlı büyüyen 10 ticari açık kaynak startup’ından biri olmasını sağladı. Ve son zamanlarda nakit toplayan tek vektör veritabanı girişimi olmaktan çok uzak; Vespa, Weaviate, Pinecone ve Chroma, çeşitli vektör teklifleri için geçen yıl toplu olarak 200 milyon dolar topladı.

Yılın başından bu yana, Index Ventures’ın, karmaşık verileri vektör yerleştirmelerine dönüştüren bir platform olan Superlinked’e 9,5 milyon dolarlık bir başlangıç ​​turu düzenlediğini de gördük. Ve birkaç hafta önce Y Combinator (YC), Postgres için barındırılan bir vektör arama motoru satan bir girişim olan Lantern’in de dahil olduğu Winter ’24 kohortunu açıkladı.

Marqo, geçen yılın sonlarında 4,4 milyon dolarlık bir tohum turu topladı ve bunu Şubat ayında 12,5 milyon dolarlık bir A Serisi turu izledi. Marqo platformu, vektör oluşturmayı, depolamayı ve almayı kapsayan, kullanıma hazır tam bir vektör araçları yelpazesi sunarak kullanıcıların OpenAI veya Hugging Face gibi üçüncü taraf araçları atlatmasına olanak tanır ve her şeyi tek bir API aracılığıyla sunar.

Marqo’nun kurucu ortakları Tom Hamer ve Jesse N. Clark daha önce Amazon’da mühendislik görevlerinde çalışmışlar ve burada metin ve görseller gibi farklı yöntemler arasında semantik, esnek aramaya yönelik “karşılanmayan büyük ihtiyacın” farkına varmışlardır. İşte o zaman 2021’de Marqo’yu oluşturmak için gemiye atladılar.

Clark, TechCrunch’a şunları söyledi: “Amazon’da görsel arama ve robotik ile çalışmak, vektör aramaya gerçekten baktığım zamandı; ürün keşfi yapmanın yeni yollarını düşünüyordum ve bu çok hızlı bir şekilde vektör aramaya yaklaştı.” “Robot biliminde, hortumlar ve paketler gibi hatalı şeylerin olup olmadığını belirlemek amacıyla birçok görselimizde arama yapmak için çok modlu aramayı kullanıyordum. Aksi halde bunu çözmek çok zor olacaktı.”

İşletmeye girin

Vektör veritabanları, ChatGPT ve GenAI hareketinin kargaşasının ortasında bir an yaşıyor olsa da, her kurumsal arama senaryosu için her derde deva değiller.

Peter, “Özel veritabanları tamamen belirli kullanım senaryolarına odaklanma eğilimindedir ve bu nedenle, mevcut tasarıma uyması gereken genel amaçlı veritabanlarıyla karşılaştırıldığında, mimarilerini ihtiyaç duyulan görevlerde performans ve kullanıcı deneyimine göre tasarlayabilir” dedi. Veritabanı destek ve hizmet şirketi Percona’nın kurucusu Zaitsev, TechCrunch’a açıkladı.

Özel veritabanları bir konuda diğerlerini dışlayacak kadar üstün olabilirken, bu yüzden şunu görmeye başlıyoruz: veritabanı görevlileri Elastik gibi, Redis, Açık Arama, Kassandra, KahinVe MongoDB bulut hizmeti sağlayıcıları gibi vektör veritabanı arama akıllılarını da karışıma eklemek Microsoft’un Azure’u, Amazon’un AWS’siVe Bulut parlaması.

Zaitsev, bu son trendi, on yıldan fazla bir süre önce, web uygulamalarının daha yaygın hale geldiği ve geliştiricilerin, insanların okuması ve yazması kolay, dilden bağımsız bir veri formatına ihtiyaç duyduğu JSON’da yaşananlarla karşılaştırıyor. Bu durumda MongoDB gibi belge veritabanları şeklinde yeni bir veritabanı sınıfı ortaya çıkarken, mevcut ilişkisel veritabanları da JSON desteğini devreye soktu.

Zaitsev TechCrunch’a “Aynı şeyin vektör veritabanlarında da olabileceğini düşünüyorum” dedi. “Çok karmaşık ve büyük ölçekli yapay zeka uygulamaları geliştiren kullanıcılar, özel vektör arama veritabanlarını kullanacak, mevcut uygulamaları için bir miktar yapay zeka işlevselliği oluşturması gereken kişilerin ise halihazırda kullandıkları veritabanlarında vektör arama işlevini kullanma olasılıkları daha yüksek. ”

Ancak Zayarni ve Qdrant meslektaşları, şirketlerin sonradan akla gelen bir düşünce olarak vektör aramayı devreye sokmasıyla karşılaştırıldığında, tamamen vektörler etrafında oluşturulan yerel çözümlerin, vektör verileri patladığında ihtiyaç duyulan “hızı, bellek güvenliğini ve ölçeği” sağlayacağına bahse giriyor.

Zayarni, “Sözleri şu: ‘Gerekirse vektör araması da yapabiliriz'” dedi. “Bizim satış konuşmamız şu: ‘gelişmiş vektör aramasını mümkün olan en iyi şekilde yapıyoruz.’ Her şey uzmanlıkla alakalı. Aslında teknoloji yığınınızda halihazırda bulunan veritabanıyla başlamanızı öneririz. Vektör aramanın çözümünüzün kritik bir bileşeni olması durumunda kullanıcılar bir noktada sınırlamalarla karşılaşacaktır.”

Kaynak: https://techcrunch.com/2024/04/20/why-vector-databases-are-having-a-moment-as-the-ai-hype-cycle-peaks/