Databricks, 2013’teki lansmanından bu yana veri hazırlama ve yükleme araçları sağlamak için Fievtran, Rudderstack ve dbt gibi iş ortaklarından oluşan ekosistemine güveniyor. Ancak şimdi şirket, yıllık Veri + Yapay Zeka Zirvesi’nde veri alımını, dönüşümünü ve orkestrasyonunu gerçekleştirebilen ve üçüncü taraf bir çözüme olan ihtiyacı ortadan kaldıran kendi veri mühendisliği çözümü olan LakeFlow’u duyurdu.
Databricks kullanıcıları, LakeFlow ile yakında kendi veri hatlarını oluşturabilecek ve MySQL, Postgres, SQL Server ve Oracle gibi veritabanlarının yanı sıra Salesforce, Dynamics, Sharepoint, Workday, NetSuite ve Google Analytics gibi kurumsal uygulamalardan veri alabilecek.
Ortaklarına bu kadar uzun süre güvendikten sonra neden fikrini değiştirdi? Databricks kurucu ortağı ve CEO’su Ali Ghodsi, iki yıl önce Databricks CIO Forumu’ndaki danışma kuruluna gelecekteki yatırımlar hakkında soru sorduğunda, daha fazla makine öğrenimi özelliği için talep beklediğini açıkladı. Bunun yerine hedef kitle, çeşitli SaaS uygulamalarından ve veritabanlarından daha iyi veri alımı istiyordu. “İzleyicilerdeki herkes şunları söyledi: Tüm bu SaaS uygulamalarından ve veritabanlarından Databricks’e veri alabilmek istiyoruz” dedi. “Onlara kelimenin tam anlamıyla şunu söyledim: Bunun için harika ortaklarımız var. Bu gereksiz işi neden yapmalıyız? Bunu sektörde zaten elde edebilirsiniz.”
Görünen o ki, bağlayıcılar ve veri hatları oluşturmak artık ticarileştirilmiş bir iş gibi görünse de, Databricks müşterilerinin büyük çoğunluğu aslında ekosistem ortaklarını kullanmıyor, uç durumları ve güvenlik gereksinimlerini karşılamak için kendi özel çözümlerini oluşturuyorlardı.
Bu noktada şirket bu alanda neler yapabileceğini araştırmaya başladı ve bu da sonunda gerçek zamanlı veri kopyalama hizmeti Arcion’un geçtiğimiz Kasım ayında satın alınmasına yol açtı.
Ghodsi, Databricks’in iş ortağı ekosistemini “ikiye katlamaya devam etmeyi” planladığını ancak pazarın bir bölümünün buna benzer bir hizmetin platformda yer almasını istediğinin altını çizdi. “Bu, uğraşmak istemedikleri sorunlardan biri. Başka bir şey almak istemiyorlar. Başka bir şeyi yapılandırmak istemiyorlar. Sadece bu verilerin Databricks’te olmasını istiyorlar” dedi.
Bir bakıma, verileri bir veri ambarına veya veri gölüne almak gerçekten önemli olmalıdır çünkü gerçek değer yaratımı eninde sonunda gerçekleşir. LakeFlow’un vaadi, Databricks’in artık kuruluşların verilerini çok çeşitli sistemlerden almasına, dönüştürmesine ve neredeyse gerçek zamanlı olarak almasına ve ardından üretime hazır uygulamalar oluşturmasına olanak tanıyan uçtan uca bir çözüm sunabilmesidir. ondan.
LakeFlow sistemi özünde üç bölümden oluşur. Bunlardan ilki, farklı veri kaynakları ile Databricks hizmeti arasındaki bağlayıcıları sağlayan LakeFlow Connect’tir. Databricks’in Unity Data Catalog veri yönetimi çözümüyle tamamen entegredir ve kısmen Arcion teknolojisine dayanır. Databricks ayrıca bu sistemin ölçeğinin hızla genişletilebilmesini ve gerektiğinde çok büyük iş yüklerine genişletilebilmesini sağlamak için de birçok çalışma yaptı. Şu anda bu sistem SQL Server, Salesforce, Workday, ServiceNow ve Google Analytics’i desteklemektedir; çok yakında MySQL ve Postgres de bunu destekleyecektir.
İkinci bölüm, SQL veya Python’da veri dönüşümü ve ETL uygulamak için Databricks’in mevcut Delta Live Tables çerçevesinin bir versiyonu olan Flow Pipelines’tır. Ghodsi, Flow Pipelines’ın veri dağıtımını sağlamak için düşük gecikmeli bir mod sunduğunu ve çoğu kullanım durumunda yalnızca orijinal verilerde yapılan değişikliklerin Databricks ile senkronize edilmesi için artımlı veri işleme sunabileceğini vurguladı.
Üçüncü bölüm ise otomatik orkestrasyonu sağlayan, veri sağlığı ve dağıtımını sağlayan motor olan LakeFlow Jobs’tur. “Şu ana kadar verileri içeri almaktan bahsettik, bu Konnektörler. Sonra dedik ki: verileri dönüştürelim. Bu Boru Hatları. Peki ya başka şeyler yapmak istersem? Bir kontrol panelini güncellemek istersem ne olur? Bu veriler üzerinde bir makine öğrenimi modeli eğitmek istersem ne olur? Databricks’te yapmam gereken diğer eylemler nelerdir? Bunun için Jobs orkestratördür,” diye açıkladı Ghodsi.
Ghodsi ayrıca birçok Databricks müşterisinin artık maliyetlerini düşürme ve ödedikleri hizmet sayısını birleştirme arayışında olduklarını da belirtti; bu, son bir yıldır neredeyse her gün işletmelerden ve satıcılarından duyduğum bir nakarat. Veri alımı ve dönüşümü için entegre bir hizmet sunmak bu trendle uyumludur.
Databricks, LakeFlow hizmetini aşamalı olarak kullanıma sunuyor. Bunlardan ilki, yakında ön izleme olarak kullanıma sunulacak olan LakeFlow Connect. Şirketin burada bekleme listesi için bir kayıt sayfası var.
Kaynak: https://techcrunch.com/2024/06/12/databricks-launches-lakeflow-for-building-data-pipelines/