Vektör veritabanları: Parlak nesne sendromu ve kayıp tek boynuzlu at vakası

Özel bir ağ oluşturma, içgörü ve sohbet gecesi için 27 Mart’ta Boston’daki liderlere katılın. Davet et Burada.


2024’e hoş geldiniz; eğer üretken yapay zeka dalgasına binmiyorsanız, yapay zeka zaman çizelgesinde neredeyse eski bir tarih olan 2022’de sıkışıp kalabilirsiniz. Artık her kuruluşun bir yapay zeka yol haritası var. AI yastıklardan AI diş fırçalarınaHala aceleyle bir plan oluşturmadıysanız size üç adımlı bir yol haritası önereyim.

Adım 1: Görevi tamamlayan bir ekip oluşturun Andrew Ng Elbette, çünkü hiçbir şey bitirme sertifikası kadar ileri teknoloji sunamaz.

Adım 2: API anahtarlarını OpenAI’den alın. Hayır arayamazsın SohbetGPTbu bir şey değil.

Aşama 3: Vektör veritabanıyerleştirmeler, teknoloji büyücülüğü!

VB Etkinliği

Yapay Zeka Etki Turu – Atlanta

Turumuza devam ederek 10 Nisan’daki AI Impact Tour durağı için Atlanta’ya doğru yola çıkıyoruz. Microsoft ile ortaklaşa gerçekleştirilen bu özel, yalnızca davetle katılabileceğiniz etkinlikte, üretken yapay zekanın güvenlik iş gücünü nasıl dönüştürdüğüne ilişkin tartışmalar yer alacak. Kontenjan sınırlıdır, bu nedenle bugün bir davet isteyin.

Davet et

Şimdi gösteri başlasın: Tüm verileri vektör DB’sine boşaltın, biraz ekleyin RAG mimarisi, biraz hızlı mühendislik serpin ve işte! Gen AI dalgası resmi olarak şirketinize ulaştı. Şimdi arkanıza yaslanın, rahatlayın ve sihrin gerçekleşmesini bekleyen heyecanlı bekleme oyununun tadını çıkarın. Bekliyor, bekliyorum… hala bekliyorum. Ah, tatlı beklenti gen yapay zekanın büyüklüğü!

Yapay zeka genini ve görünüşte basit görünen bu kaotik sprintte büyük dil modeli (LLM) mimarilerde sorun, kuruluşların kullanım örneklerini unutup teknolojiyi takip etmeye başlamasıyla ortaya çıkar. Yapay zeka çekiciniz olduğunda her sorun çözülebilir görünür.

Şekil 1: Kelime yerleştirmeler, daha uzun bir geçmişe sahip tecrübeli gaziler, yüksek lisans ve uzak kuzenler olan vektör veri tabanları üzerindeki ilgi odağının ortasında sessizce duruyorlar

Yüksek Lisans ve Vektör Veritabanları trend gibi görünse de (Taylor Swift daha trendModern doğal dil işlemede çok önemli olan vektör tabanlı temsil kavramının derin kökleri vardır.

Kelime İlişkilendirmeleri: “Kim bir milyon dolar ister?” konusuna dönüp baktığımızda

George Millerkitabı Dil ve İletişim1951’de yayınlanan ve daha önceki çalışmalarından türetilen, dağıtım anlambilimi kavramını genişletiyor. Miller, benzer bağlamlarda görünen kelimelerin muhtemelen benzer anlamlara sahip olduğunu ve vektör tabanlı temsillerin temelini attığını öne sürdü.

Ayrıca kelimeler arasındaki ilişkilerin güçlü yanları olduğunu da gösterdi: “Daha moleküler düzeyde, ‘ben’in gücü bir andan diğerine büyük ölçüde değişiyor gibi görünüyor. Bu, ‘İngiltere’nin ilk kralı kimdi?’ sorusuna verilen son derece olanak dışı bir yanıttır. ve ‘Kim bir milyon dolar ister?’ sorusuna çok muhtemel bir yanıt.” Bir köpek “hayvan”a çağrışımsal bir tepki ortaya çıkarabilse de, Miller’in şu sonuca vardığı gibi “hayvan” ile “köpek” arasındaki ilişki zayıftır: “Bu çağrışım şu şekildedir: Bir vektörün hem büyüklüğü hem de yönü vardır.”

Kelime çağrışımları ise daha da eskilere dayanmaktadır. Kent ve Rosanoflf Katılımcılara “uyaran kelime dışında aklınıza gelen ilk kelime” sorulmuştur.

Şekil 2 (Sol) 1000 erkek ve kadın tarafından uyaran “sandalye” olduğunda ilişkili kelime tepkisi ve sıklığı (Kent ve Rosanoff, 1910). (Sağda) Her etnik grupla en yakından ilişkilendirilen ilk 10 meslek Google Haberler yerleştirme.

Thomas K. Landauer’in çalışması, “Platon’un Sorununa Bir Çözüm: Bilginin Edinimi, Tümevarımı ve Temsiliyle İlgili Gizli Anlamsal Analiz Teorisi1997’de yayınlanan, kavramların vektör tabanlı temsilinin ayrıntılarını araştırıyor. Landauer tarafından tanıtılan gizli semantik analiz (LSA), benzer anlamlara sahip kelimelerin birbirine yakın konumlandırıldığı vektör uzayları oluşturmak için tekil değer ayrıştırması gibi matematiksel teknikler kullanır. Bu, anlamsal ilişkinin etkili bir şekilde hesaplanmasını kolaylaştırır, bilgi alma ve belge sınıflandırma gibi görevlere katkıda bulunur.

2003 yılında Yoshua Bengio, Réjean Ducharme ve Pascal Vincent şunları yayınladı:Nöral Olasılıksal Dil Modeli,” kelime yerleştirmelerini öğrenebilen bir sinir ağı modelini tanıtıyor. Bu makale, kelime gösterimi için sinir ağı tabanlı yaklaşımlara doğru kayda değer bir değişime işaret etti ve word2vec, GloVe, ELMO, BERT ve mevcut gömme modelleri paketinin temelini attı.

Metnin vektör tabanlı temsilleri yeni bir şey değil ve sürekli bir gelişim gösteriyor, ancak vektör DB gösterisi ne zaman başlıyor?

Vector DB gösterisi ne zaman başlıyor?

Vector DB alanı giderek kalabalıklaşıyor ve her satıcı, bir dizi özellik arasında öne çıkmaya çalışıyor. Performans, ölçeklenebilirlik, kullanım kolaylığı ve önceden oluşturulmuş entegrasyonlar, farklılaşmalarını şekillendiren faktörlerden sadece birkaçıdır. Ancak işin püf noktası alakada yatıyor; birkaç saniye, hatta birkaç dakika içinde doğru sonuca ulaşmak, ışık hızında yanlış cevaba ulaşmaktan her zaman daha iyidir.

Kesin vektör aramanın inceliklerini derinlemesine inceleyen (hiçbir zaman iyi bir fikir değildir, aşağıya bakın), temel nokta yaklaşık en yakın komşudur (YSA). Vektör veri tabanları, her biri kendine has özelliklere sahip çeşitli YSA’lar sağlar:

Şartlar ve ayrıntılar bulanıklaştıkça, görünüşte basit olan şey Yüksek Lisans mimarisi artık basit görünmüyor. Bununla birlikte, OpenAI API’lerini kullanarak verilerinizin yerleştirmelerini oluşturmak ve bunları HSNW gibi aynı YSA’ları kullanarak almak olsaydı alaka düzeyi (veya ilgisizlik) aynı olmaz mıydı?

“Bilgisayarımı tamir edebilir misin?” Hayır, ama size muzların meyve olduğunu ve çileklerin olmadığını söyleyebilirim.

Birisinin sistemi nasıl kullanabileceğini ve verileri vektörlere dönüştürmenin gerçekten işe yarayıp yaramayacağını inceleyelim. Şu senaryoyu ele alalım: Bir kullanıcı, çözüme yardımcı olabilecek kılavuzları bulmak amacıyla “Hata 221” gibi basit bir sorgu yazar. Her zamanki gibi yapıyoruz; sorguyu kendi gömme işlemine dönüştürüyoruz, onu bir YSA varyasyonu kullanarak getiriyoruz ve kosinüs benzerliğini kullanarak puanlıyoruz. Standart şeyler, değil mi? İşin ilginç yanı: Sonuçlar, Hata 222 ile ilgili bir belgeye, Hata 221 ile ilgili belgeden daha yüksek bir puan verilmesiyle sonuçlanır.

Şekil 3 Gömmeler aşağıdakiler kullanılarak oluşturulmuştur: cümle dönüştürücü modeli “tümü-MiniLM-L6-v2”

Evet, bu, “Hata 221’i Bul” demeye benziyor ve sistem şöyle diyor: “İşte Hata 222 ile ilgili bir şey; umarım yardımcı olur!” Kullanıcının kaydolduğu şey tam olarak bu değil. O halde, bunun doğru hareket olup olmadığına karar vermeden vektörler dünyasına balıklama dalmayalım.

Aldatmacanın ötesinde, sorun nedir?

Vektör veritabanlarında son durum nedir? Bunların hepsi bilgi erişimiyle ilgili, ama gerçekçi olalım, etraftaki tüm abartılı reklamlara rağmen öyleymiş gibi gelse de bu yeni bir şey değil. Bu işin üstesinden gelmek için halihazırda SQL veritabanlarımız, NoSQL veritabanlarımız, tam metin arama uygulamalarımız ve vektör kitaplıklarımız var. Elbette, vektör veritabanları anlamsal erişim sunar ve bu harikadır, ancak SQL veritabanları Tek mağaza ve Postgres (ile pgvektör uzantısı), ACID gibi standart DB özelliklerini sağlarken anlamsal alımı da gerçekleştirebilir. Tam metin arama uygulamaları gibi Apache Solr, Elasticsearch Ve Açık Arama ayrıca vektör arama ortamını ve aşağıdaki gibi arama ürünlerini de sallayın Coveove biraz getir ciddi metin işleme Hibrit arama yetenekleri.

Ancak vektör veritabanlarıyla ilgili şöyle bir şey var: Bir nevi ortada kalmışlar. Geleneksel veritabanlarının yerini tamamen alamazlar ve kapsamlı arama işlevselliği için gereken metin işleme özelliklerini destekleme konusunda hala arayı kapatıyorlar. Uçurtma Hibrit aramayı yalnızca boolean ifadeleri kullanan nitelik filtreleme olarak kabul eder!

“Teknoloji sizi farklılaştıran şey değilse, abartılı reklamları tercih edin.”

Çam kozalağının hibrit araması sınırlamaların yanı sıra bir uyarıyla birlikte gelir ve bazıları bunun böyle olduğunu iddia edebilir zamanının ilerisindeŞenliklerin birkaç yıl sonra OpenAI devrimini beklemesi gerekiyorsa, partiye erken gitmenin pek bir önemi yok.

O kadar da erken değildi – Dokuma, Vespa Ve Mivlus vektör veritabanı teklifleriyle zaten ortalıktaydı ve Elasticsearch, OpenSearch ve Solr da aynı zamanlarda hazırdı. Teknoloji sizi farklılaştıran şey olmadığında abartılı reklamları tercih edin. Çam kozalakları 100 milyon dolarlık B Serisi finansman Birçok bakımdan kendisi için yarattığı taktik kitabına göre yaşayan Andreessen Horowitz tarafından yönetildi. teknolojide patlama zamanları. Yapay zeka devrimi ve yapay zeka nesli etrafındaki tüm heyecana rağmen, gen AI kurumsal partisi hala başlamadı. Çam Kozalağı’nın kayıp bir tek boynuzlu at vakası olup olmadığını zaman gösterecek, ancak kendisini diğer vektör veritabanlarından ayırmak giderek artan bir zorluk oluşturacak.

Parlak nesne sendromu

Girişim arama zor. Çözüm nadiren verileri bir vektör deposuna aktarmayı ve mucizelerin gerçekleşmesini beklemeyi içerir. PDF’leri doğru boyuta ayırmaktan doğru erişim kontrollerini ayarlamaya kadar her şey, optimum performansı ve kullanılabilirliği sağlamak için titiz bir planlama ve yürütme gerektirir. Kuruluşunuzun kullanım durumu sınırlı sayıda belgenin aranması etrafında dönüyorsa ölçeklenebilirlik acil bir sorun olmayabilir. Benzer şekilde, Şekil 3’te gösterildiği gibi, kullanım durumunuz ağırlıklı olarak anahtar kelime aramaya yönelikse, vektör uygulamasına dalmak geri tepebilir.

Sonuç olarak, son kullanıcı bunun bir vektör araması mı, anahtar kelime araması mı, kural odaklı arama mı, hatta “bir arkadaşına telefon et” araması mı olduğu konusundaki karmaşıklıklarla ilgilenmez. Kullanıcı için en önemli şey doğru cevabı almaktır. Bu nadiren yalnızca tek bir metodolojiye güvenmekten kaynaklanır. Kullanım durumunuzu anlayın ve test senaryolarınızı doğrulayın… ve… sırf popüler oldukları için parlak nesnelerin cazibesine kapılmayın.

Amit Verma, yapay zeka laboratuvarları ve mühendisliğinin başkanı ve şirketin kurucu üyesidir. Nöron7.

Veri Karar Vericileri

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri çalışması yapan teknik kişiler de dahil olmak üzere uzmanların veriyle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En son fikirleri, güncel bilgileri, en iyi uygulamaları ve veri ile veri teknolojisinin geleceğini okumak istiyorsanız DataDecisionMakers’ta bize katılın.

Hatta düşünebilirsiniz bir makaleye katkıda bulunmak kendinin!

DataDecisionMakers’dan Daha Fazlasını Okuyun

Kaynak: https://venturebeat.com/ai/vector-databases-shiny-object-syndrome-and-the-case-of-a-missing-unicorn/