Bugünlerde üretken yapay zeka hakkında okuma yapmadan bir saat bile geçiremezsiniz. Bazılarının dördüncü sanayi devriminin “buhar motoru” olarak adlandırdığı şeyin henüz embriyonik aşamasında olsak da, “GenAI”nin finans ve sağlık hizmetlerinden hukuka ve ötesine kadar hemen hemen her sektörü dönüştürmek için şekillendiğine dair çok az şüphe var. .
Kullanıcıya yönelik harika uygulamalar ilginin çoğunu çekebilir, ancak şu anda bu devrimden en çok yararlanan şirketler bu devrimden yararlanıyor. Daha bu ay, çip üreticisi Nvidia, kısa süreliğine dünyanın en değerli şirketi haline geldi; büyük ölçüde yapay zeka bilgi işlem gücüne olan talep nedeniyle 3,3 trilyon dolarlık dev bir şirket haline geldi.
Ancak GPU’lara (grafik işleme birimleri) ek olarak işletmelerin veri akışını yönetmek, depolamak, işlemek, eğitmek, analiz etmek ve sonuçta yapay zekanın tüm potansiyelini açığa çıkarmak için de altyapıya ihtiyacı var.
Bundan yararlanmak isteyen şirketlerden biri, Uber’de veri mimarı olarak hizmet verirken açık kaynaklı Apache Hudi projesini yaratan Vinoth Chandar tarafından kurulan, üç yıllık Kaliforniyalı bir girişim olan Onehouse’dur. Hudi, veri ambarlarının avantajlarını veri göllerine getirerek “veri göl evi” olarak bilinen şeyi yaratarak, yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış veriler olsun, büyük veri kümelerinde indeksleme ve gerçek zamanlı sorgular gerçekleştirme gibi eylemlere destek sağlar. .
Örneğin, siparişleri, geri bildirimleri ve ilgili dijital etkileşimleri kapsayan müşteri verilerini sürekli olarak toplayan bir e-ticaret şirketinin, tüm bu verileri alacak ve güncel tutulmasını sağlayacak bir sisteme ihtiyacı olacaktır; bu, kullanıcının tercihlerine göre ürünler önermesine yardımcı olabilir. aktivite. Hudi, bu tür gerçek zamanlı veri kullanım durumları için hayati önem taşıyan silme, güncelleme ve ekleme (“upsert”) desteğiyle verilerin çeşitli kaynaklardan minimum gecikmeyle alınmasını sağlar.
Onehouse, şirketlerin Hudi’yi dağıtmasına yardımcı olan, tam olarak yönetilen bir veri göl evi ile bunu temel alıyor. Veya Chandar’ın ifadesiyle, veri bilimi, yapay zeka ve makine öğrenimi ekosistemlerindeki neredeyse tüm önemli araçlarla kullanılabilecek “açık veri formatlarında veri alımını ve veri standardizasyonunu hızlı bir şekilde başlatır”.
Chandar, TechCrunch’a “Onehouse, düşük seviyeli veri altyapısı oluşumunu ortadan kaldırarak yapay zeka şirketlerinin modellerine odaklanmasına yardımcı oluyor” dedi.
Bugün Onehouse, Hudi’nin performansını artırmak ve bulut depolama ve işleme maliyetlerini azaltmak için pazara iki yeni ürün getirerek B Serisi finansman turunda 35 milyon dolar topladığını duyurdu.
(Veri) göl evinde
Chandar, Hudi’yi 2016 yılında Uber bünyesinde dahili bir proje olarak yarattı ve araç çağırma şirketi projeyi 2019 yılında Apache Vakfı’na bağışladığından beri Hudi, Amazon, Disney ve Walmart gibi şirketler tarafından benimsendi.
Chandar, 2019’da Uber’den ayrıldı ve Confluent’te kısa bir süre çalıştıktan sonra Onehouse’u kurdu. Başlangıç, 2022’de 8 milyon dolarlık tohum finansmanıyla gizlice ortaya çıktı ve bunu kısa bir süre sonra 25 milyon dolarlık A Serisi turla takip etti. Her iki tur da Greylock Partners ve Addition tarafından ortaklaşa yönetildi.
Bu VC firmaları Seri B’nin devamı için tekrar güçlerini birleştirdi, ancak bu kez David Sacks’ın Craft Ventures’ı liderliğini sürdürüyor.
Craft Ventures ortağı Michael Robinson yaptığı açıklamada, “Veri göl evi, gerçek zamanlı analiz, tahmine dayalı makine öğrenimi ve GenAI gibi yeni hizmetleri desteklemek için verilerini merkezileştirmek isteyen kuruluşlar için hızla standart mimari haline geliyor” dedi.
Bağlam açısından, veri ambarları ve veri gölleri, verilerin bir havuzda toplanması için merkezi bir depo görevi görme açısından benzerdir. Ancak bunu farklı şekillerde yapıyorlar: Veri ambarı, geçmiş, yapılandırılmış verileri işlemek ve sorgulamak için idealdir; oysa veri gölleri, çok sayıda veri türünü destekleyen, büyük miktarlarda ham veriyi orijinal formatında depolamak için daha esnek bir alternatif olarak ortaya çıkmıştır. Veri ve yüksek performanslı sorgulama.
Bu, önceden dönüştürülmüş ham verileri depolamak daha ucuz olduğundan ve aynı zamanda veriler orijinal biçiminde depolanabildiğinden daha karmaşık sorgular için destek sağladığından, veri göllerini yapay zeka ve makine öğrenimi iş yükleri için ideal hale getirir.
Ancak bu ödün, çok çeşitli veri türleri ve formatları göz önüne alındığında veri kalitesinin kötüleşmesi riskini taşıyan tamamen yeni bir dizi veri yönetimi karmaşıklığıdır. Hudi’nin, veri bütünlüğünü ve güvenilirliğini desteklemek için ACID işlemleri gibi veri ambarlarının bazı temel özelliklerini veri göllerine getirerek ve daha çeşitli veri kümeleri için meta veri yönetimini geliştirerek çözmeye çalıştığı şey kısmen budur.
Açık kaynaklı bir proje olduğundan herhangi bir şirket Hudi’yi dağıtabilir. Onehouse’un web sitesindeki logolara hızlı bir bakış, bazı etkileyici kullanıcıları ortaya çıkarıyor: AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber ve Huawei. Ancak bu kadar büyük şirketlerin Hudi’yi dahili olarak kullanması, onu şirket içi veri göl evi kurulumunun bir parçası olarak oluşturmak için gereken çaba ve kaynakların göstergesidir.
Chandar, “Hudi, verileri almak, yönetmek ve dönüştürmek için zengin işlevsellik sağlarken, şirketlerin üretim kalitesinde veri göl evi hedeflerine ulaşmak için hâlâ yarım düzine kadar açık kaynak aracını entegre etmesi gerekiyor” dedi.
Bu nedenle Onehouse, verileri çok kısa sürede alan, dönüştüren ve optimize eden, tamamen yönetilen, bulutta yerel bir platform sunuyor.
Chandar, “Kullanıcılar, tüm önemli bulut tabanlı hizmetler, depolar ve veri gölü motorlarıyla geniş bir birlikte çalışabilirlik özelliğiyle, bir saatten kısa bir sürede açık veri göl evini çalışır duruma getirebilirler” dedi.
Şirket, Hint tek boynuzlu atı Apna gibi örnek olaylarda listelenen çiftlerin dışında ticari müşterilerine isim vermek konusunda çekingen davrandı.
Chandar, “Genç bir şirket olarak Onehouse’un ticari müşterilerinin tam listesini şu anda kamuyla paylaşmıyoruz” dedi.
Bankada yeni 35 milyon dolar bulunan Onehouse, artık platformunu Onehouse LakeView adlı ücretsiz bir araçla genişletiyor. Bu araç, tablo istatistikleri, trendler, dosya boyutları, zaman çizelgesi geçmişi ve daha fazlası hakkında öngörüler için göl evi işlevselliğinin gözlemlenebilirliğini sağlıyor. Bu, temel Hudi projesi tarafından sağlanan mevcut gözlemlenebilirlik ölçümlerini temel alarak iş yükleri hakkında ekstra bağlam sağlar.
Chandar, “LakeView olmadan, kullanıcıların ölçümleri yorumlamak için çok fazla zaman harcaması ve performans sorunlarının veya boru hattı yapılandırmasındaki verimsizliklerin temel nedenini bulmak için tüm yığını derinlemesine anlaması gerekiyor” dedi. “LakeView bunu otomatikleştiriyor ve iyi veya kötü eğilimler hakkında e-posta uyarıları sağlayarak sorgu performansını iyileştirmek için veri yönetimi ihtiyaçlarını işaretliyor.”
Ayrıca Onehouse, veri alımını ve dönüşümü hızlandırmak için mevcut tabloları optimize eden yönetilen bir bulut hizmeti olan Table Optimizer adlı yeni bir ürünü de piyasaya sürüyor.
‘Açık ve birlikte çalışabilir’
Uzaydaki diğer sayısız ünlü oyuncuyu göz ardı etmek mümkün değil. Databricks ve Snowflake gibi firmalar göl evi paradigmasını giderek daha fazla benimsiyor: Bu ayın başlarında Databricks’in ortak bir göl evi standardı oluşturmak amacıyla Tabular adlı bir şirketi satın almak için 1 milyar dolar dağıttığı bildirildi.
Onehouse kesinlikle sıcak bir alana girdi, ancak satıcı bağımlılığını önlemeyi kolaylaştıran “açık ve birlikte çalışabilir” bir sisteme odaklanmanın zamana karşı ayakta kalmasına yardımcı olacağını umuyor. Temel olarak, Databricks, Snowflake, Cloudera ve AWS yerel hizmetleri de dahil olmak üzere, her biri için ayrı veri siloları oluşturmaya gerek kalmadan verilerin tek bir kopyasını hemen hemen her yerden evrensel olarak erişilebilir hale getirme yeteneği vaat ediyor.
GPU alanında Nvidia’da olduğu gibi, veri yönetimi alanında da herhangi bir şirketi bekleyen fırsatlar göz ardı edilemez. Veriler, yapay zeka gelişiminin temel taşıdır ve yeterli kalitede veriye sahip olmamak, birçok yapay zeka projesinin başarısız olmasının ana nedenidir. Ancak veriler yığınlar halinde orada olsa bile, şirketlerin onu yararlı kılmak için hâlâ altyapıya ihtiyacı var; bunları almak, dönüştürmek ve standartlaştırmak. Bu Onehouse ve benzerleri için iyiye işaret.
“Veri yönetimi ve işleme açısından bakıldığında, sağlam bir veri altyapısı temeli tarafından sağlanan kaliteli verilerin, bu yapay zeka projelerinin gerçek dünyadaki üretim kullanım senaryolarına dönüştürülmesinde – çöplerin/çöplerin önlenmesi için – çok önemli bir rol oynayacağına inanıyorum. Veri sorunlarını ortadan kaldırdık,” dedi Chandar. “Veri göl evi kullanıcılarında bu tür bir talebi görmeye başlıyoruz, çünkü veri işlemeyi ölçeklendirmek ve bu yeni yapay zeka uygulamalarını kurumsal ölçekteki veriler üzerinde oluşturmak için ihtiyaçları sorgulamak istiyorlar.”
Kaynak: https://techcrunch.com/2024/06/26/data-lakehouse-onehouse-nabs-35m-to-capitalize-on-genai-revolution/