Databricks açık kaynaklı Birlik Kataloğu, veri iş yükleri için birlikte çalışabilirlik konusunda Snowflake’i zorluyor

Yapay zekaya öncülük eden inanılmaz kadınları kutlamanın zamanı geldi! VentureBeat’in Yapay Zekadaki Kadınlar Ödülleri için ilham veren liderlerinizi 18 Haziran’dan önce bugün aday gösterin. Daha fazla bilgi edin


Bugün, Veri tuğlaları yıllık Veri ve Yapay Zeka zirvesini uzun zamandır beklenen bir hamleyle başlattı: üç yıllık veri tabanının açık kaynak kullanımı Birlik Kataloğu Müşterilere veri yönetimi ihtiyaçları için birleşik bir çözüm sağlayan platform.

Unity Catalog önceden Databricks’in tescilli bir ürünüydü, ancak artık Apache 2.0 lisansı kapsamına girecek; bu, diğer firmaların temel mimariyi ve kodu alıp Databricks’e bir kuruş bile ödemeden kendi kataloglarını oluşturup bunlarda ince ayar yapabilecekleri anlamına geliyor. Unity Catalog’a ayrıca bir OpenAPI spesifikasyonu, sunucu ve istemciler de ekleniyor.

Bu hamle, kuruluşlara, satıcıya bağımlı kalmadan, katalogda yönetilen verilerine ve yapay zeka varlıklarına erişme esnekliği sağlayacak. Temel olarak, katalogda barındırılan bilgileri, Delta Lake ve Apache Iceberg uyumlu sorgu motorlarından oluşan geniş bir ekosistem dahil olmak üzere tercih ettikleri araçlarla kullanabilecekler.

Bu, Snowflake’ten sadece birkaç gün sonra geliyor. Databricks’in en büyük rakibibenzer bir hamle yaptı Polaris Kataloğunun duyurulmasıişletmeler için kendi açık katalog uygulamasıdır.


VB Transform 2024 Kayıtları Açıldı

Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri ​​arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zekanın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol


Ancak, hemen açık kaynaklı olan Unity Catalog’un aksine (Databricks CTO’su Matei Zaharia, kodu sahnede canlı olarak yayınladı), Snowflake’in Polaris Kataloğu önümüzdeki 90 gün içinde açık kaynaklı olacak.

Unity Katalog OSS: Müşteri kontrolü için çok ihtiyaç duyulan

Databricks başlatıldı Birlik Kataloğu platform ekosistemindeki verilere ve yapay zeka varlıklarına erişmek ve bunları yönetmek için tescilli, kapalı kaynaklı bir yönetim çözümü olarak.

Katalog, kullanıcılara merkezi veri erişim yönetimi, denetim, veri keşfi, köken takibi ve güvenli veri paylaşımı gibi özellikler sağladı.

Bununla birlikte, kapalı kaynak teklifinin açık Delta Lake tablo formatı ve diğer birkaç formatla sıkı entegrasyonu, kullanıcıların bunu diğer iki ana akım olan Apache Iceberg veya Hudi ile uyumlu motorlarla sorgulama gibi diğer teknolojilerle karıştırma ve eşleştirme yeteneğini kısıtladı. tablo formatlarını açın.

Databricks sorunu fark etti ve geçen yıl çözmeye başladı. Delta Lake Evrensel Formatı (Tek Biçim).

Birkaç hafta önce genel kullanıma sunulan teklif, Apache Iceberg veya Hudi için gereken meta verileri otomatik olarak oluşturuyor ve tablo formatlarını, herhangi bir destekleyici motordan sorgulanabilen tek bir kopyada birleştiriyor.

Şimdi, Unity Catalog’u açık API’ler ve Apache 2.0 lisanslı açık kaynak sunucusuyla açarak, şirket bu çalışmayı geliştiriyor ve kuruluşlara üç açık veri formatından herhangi birini (UniForm aracılığıyla) destekleyen ve çeşitli sorgu motorları arasında birlikte çalışan evrensel bir arayüz sağlıyor. , araçlar ve bulut platformları.

“Açık kaynaklı Unity Kataloğu ile mevcut Databricks müşterileri, Delta Lake ve Apache Iceberg uyumlu motorlardan ve çok daha fazla istemciden oluşan geniş bir ekosistemden yararlanabilir; bu onlara, Unity Kataloğunda yönetilen verilerine ve AI varlıklarına şu araçlardan erişme esnekliği sağlar: onların seçimi. Mevcut Unity Catalog dağıtımları aynı açık API’leri uygulayarak harici istemcilerin, mevcut erişim kontrolleri yerindeyken, ilk günden itibaren barındırılan Unity Catalog’daki tüm tablolardan (yönetilen ve harici tablolar dahil), birimlerden ve işlevlerden okuma yapmasına olanak tanır,” Joel Minnick, Databricks’in ürün pazarlama başkan yardımcısı VentureBeat’e söyledi.

Bu şekilde Unity Catalog, tüm önemli bulut platformlarıyla (Microsoft Azure, AWS, GCP ve Salesforce), Apache Spark, Presto, Trino, DuckDB, Daft, PuppyGraph ve StarRocks gibi bilgi işlem motorlarının yanı sıra veri ve yapay zeka platformlarıyla birlikte çalışabilirlik sağlar. dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton ve Yapılandırılmamış.

Katalog, farklı açık formatlara ve motorlara ek olarak Iceberg REST Catalog ve Hive Metastore (HMS) arayüz standartlarını da destekler. Ayrıca tablolu ve tablosuz veriler ile makine öğrenimi (ML) modelleri ve yapay zeka varlıkları arasında birleşik yönetim sağlar. üretken yapay zeka araçlarıKuruluşların yönetimi geniş ölçekte basitleştirmesine olanak tanır.

Snowflake’in Polaris Katalogundan farkı nedir?

Snowflake, Polaris Katalog ile birlikte çalışabilirlik için bağımlılığa gerek kalmadan açık katalog uygulamasına da odaklandı. Ancak teklif yalnızca Apache Iceberg tablo formatına uygun veriler içindir. Öte yandan Unity Catalog OSS, Iceberg ve Delta/Hudi’nin yanı sıra Parquet, CSV ve JSON (daha önce de yaptığı gibi) dahil olmak üzere her formattaki verileri kapsar.

Ayrıca Minnick, Databricks’in teklifinin aynı zamanda yapılandırılmamış veri kümelerini (birimleri) ve yapay zeka araçlarını ve işlevlerini de destekleyerek kuruluşların üretken yapay zeka uygulamalarında kullanılan görüntüleri, belgeleri ve diğer dosyaları yönetmesine olanak tanıdığını söyledi; Polaris’te durum böyle değil.

Minnick, “Snowflake’in özel depolama formatı Tablolarına Polaris üzerinden erişilemezken, Unity Catalog OSS API’leri sayesinde harici istemciler Databricks Unity Catalog’daki tüm tablolardan, birimlerden ve işlevlerden okuyabilir” diye ekledi. Ayrıca Polaris’in yönetişimi sağlamak için Snowflake’in yönetim çözümüne (Horizon) bağlanması gerektiğini, Unity Catalog OSS’nin ise kutudan çıktığı gibi nesne düzeyinde erişim kontrolleriyle birlikte geldiğini belirtti.

Dünya çapında, aralarında NASDAQ, Rivian ve AT&T’nin de bulunduğu 10.000’den fazla kuruluş, Databricks Veri Zekası Platformu içinde Unity Katalogunu kullanıyor. Açık kaynağa geçişle birlikte benimsemenin nasıl değişeceğini görmek ilginç olacak.

Databricks Veri ve Yapay Zeka Zirvesi 10 Haziran – 13 Haziran 2024 tarihleri ​​arasında geçerlidir.


Kaynak: https://venturebeat.com/data-infrastructure/databricks-open-sources-unity-catalog-challenging-snowflake-on-interoperability-for-data-workloads/