Apache Hudi’nin yaratıcısı Onehouse, 30 kat daha hızlı veri göl evi sorguları vaat eden özel çalışma zamanını kullanıma sunuyor

Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin


Kuruluşlar giderek artan miktarda bilgiyi depolarken veri gölevlerisorgular potansiyel olarak daha yavaş ve daha maliyetli hale gelebilir.

Bu bir meydan okumadır Tek ev çözmeye yardımcı olmak istiyor. Veri göl evi teknolojisi satıcısı, açık kaynağa katkıda bulunan liderlerden biridir Apaçi Hudi Ve Apache XTable veri gölü tablo formatları. Bugün şirket, 30 kata kadar hızlandırılmış sorgu vaadi sunan yeni Onehouse Compute Runtime (OCR) ile evrensel veri göl evi vizyonunu geliştiriyor. Onehouse’a göre bu hız, potansiyel olarak %80’e kadar dramatik maliyet tasarrufu sağlayabilir.

Günümüzde Apache Hudi, Apache Iceberg ve Delta Lake dahil olmak üzere birden fazla açık veri gölü tablosu formatı kullanılmaktadır. Onehouse, Apache XTable projesinin (eski adıyla Apache XTable) yönetilmesine yardımcı oluyor Tek Masa), tüm açık tablo formatlarında bir dereceye kadar birlikte çalışabilirlik sağlar. Yeni bilgi işlem motoruyla amaç, kuruluşların herhangi bir açık veri gölü tablosu formatını daha kolay sorgulamasını sağlamaktır. Buna Amazon Redshift, Databricks, Google BigQuery ve Snowflake gibi popüler hizmetler de dahildir.

Yeni teklif, mevcut bilgi işlem motorlarındaki boşlukları gidermeyi ve veri yoğunluklu uygulamaları açık tablo formatlarında çalıştırmanın daha verimli bir yolunu sağlamayı amaçlıyor.

Onehouse’un kurucusu ve CEO’su Vinoth Chandar, VentureBeat’e özel bir röportajda “Göl evi iş yükleri için optimize edilmiş özel bir çalışma zamanına ihtiyacımız olduğunu düşünüyoruz” dedi. “Sektörde devam eden bir boşluk var; birçok satıcı mevcut motorlarını açık tablo formatlarından okuma ve yazmaya uyarladı; bu harika bir başlangıç, ancak daha derine inebileceğimize inanıyoruz.”

Açık veri gölü tablo formatlarını hızlandırmaya neden ihtiyaç var?

Apache Spark gibi yaygın olarak kullanılan veri işleme çerçeveleri, güçlü olmalarına rağmen genellikle tüm açık tablo formatlarının ve veri göl evi mimarilerinin gereksinimleri için optimize edilmemiştir.

Onehouse ürün müdürü Kyle Weller, Hudi ve Iceberg gibi tablo formatlarının tabloların nasıl oluşturulduğunu açıklamaya yardımcı olan meta veri soyutlamaları olduğunu açıkladı. Apache Spark’ın çoğunlukla genel bir veri işleme çerçevesi olduğunu belirtti. Bu nedenle kullanıcıların, açık tablo formatlarını kullanma konusunda Spark’ı nasıl optimize edecekleri konusunda özel bilgiye sahip olmaları gerekir.

Onehouse Compute Runtime’ın temel farklılığı, genel bilgi işlem optimizasyonlarının ötesine geçerek belirli göl evi iş yükü modellerini derinlemesine anlama ve optimize etme yeteneğidir.

Onehouse Compute Runtime nasıl çalışır?

Onehouse Compute Runtime, Apache Spark gibi açık bilgi işlem motorları ve açık tablo formatlarıyla entegre olan bir katman olarak çalışır. Üç ana bileşenden oluşur:

  • Uyarlanabilir iş yükü optimizasyonları
  • Yüksek performanslı göl evi giriş/çıkış (G/Ç)
  • Bir kuruluşun sanal özel bulutunda (VPC) sunucusuz bilgi işlem yönetimi

Uyarlanabilir iş yükü optimizasyonları, çalışma zamanının, gözlemlenen kalıplara dayalı olarak veri alımı veya sorgu işleme gibi belirli iş yüklerinin yürütülmesini akıllıca ayarlamasına olanak tanır. Sistem, genellikle manuel ayarlama gerektiren dosya boyutlarını ve veri düzenleme modellerini otomatik olarak optimize edebilir.

Chandar, “En çok kazanç gördüğümüz nokta ve aynı zamanda açık veri göl evleri oluşturmaya çalışan müşterilerin ortak sorunu, ya doğru bölümleme yapmamaları ya da verilerini doğru şekilde sıralamayıp düzenlememeleridir” dedi. .

Daha hızlı sorguların kurumsal etkisi

Onehouse Compute Runtime’ın ilk kullanıcıları arasında dijital optimizasyon sağlayıcısı yer alıyor İletken .

Conductor’ın baş yazılım mühendisi Emil Emilov, VentureBeat’e şirketinin bir yıldır Onehouse’u kullandığını söyledi. Onehouse’un, son kullanıcılar için tüm alt pazarlama analizlerini besleyen, şirketinin merkezi veri deposunu sağladığını açıkladı. Yeni çalışma zamanı şirkete çeşitli şekillerde yardımcı olacaktır.

Verileri Onehouse’a almak ve ardından herhangi bir alt kullanım durumu için doğru araçla sorgulama yapmak, yeni çalışma zamanının çözmeye yardımcı olduğu önemli zorluklardan biridir. Onehouse Compute Runtime, Conductor’ın daha güncel veriler sunmasını sağlayarak daha güncel içgörüler elde edilmesini sağlar.

Emilov, “Onehouse Compute Runtime ayrıca sorgu performansını da hızlandırıyor, bu da bu içgörülere daha hızlı erişim anlamına geliyor” dedi. “Sonuçta bu, daha iyi hizmet ve daha yüksek müşteri memnuniyeti sağlamak anlamına geliyor.”

Maliyet tasarruflarının ve yeni yeteneklerin kilidini açın

Onehouse Compute Runtime’ın sunduğu performans iyileştirmeleri, veri göl evi iş yüklerini çalıştıran kuruluşlar için önemli maliyet tasarrufları sağlayabilir.

Çalışma zamanı, veri organizasyonunu optimize ederek ve taranması gereken veri miktarını azaltarak genel bilgi işlem maliyetlerinin düşürülmesine yardımcı olabilir.

Chandar, “Göl evi söz konusu olduğunda maliyet ve performans aynı madalyonun iki yüzüdür, çünkü yaptığımız tek şey çok sayıda işi yürütmek ve çok sayıda veriyi taramaktır” dedi. “Yani burada yaptığımız her şey, bunu süper verimli hale getirmek için yapılıyor; dolayısıyla performans avantajları elde ederken aynı zamanda maliyetinizi de düşürdüğünüze inanıyorum.”


Kaynak: https://venturebeat.com/data-infrastructure/apache-hudi-creator-onehouse-debuts-compute-runtime-with-up-to-30x-faster-data-lakehouse-queries/