Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Verileri oluşturulduğu yerden veri analitiği ve yapay zeka için etkili bir şekilde kullanılabileceği yere taşımak her zaman düz bir çizgi değildir. Verileri olması gereken yere götüren bir veri hattının etkinleştirilmesine yardımcı olmak, açık kaynaklı Apache Airflow projesi gibi veri düzenleme teknolojisinin işidir.
Bugün Apache Hava Akışı projesi, projenin 2.10 güncellemesinden bu yana ilk büyük güncellemesini yayınlayacak. Hava akışı 2.9 sürümü Nisan ayında geri döndüm. Airflow 2.10, hibrit yürütmeyi sunarak kuruluşların basit SQL sorgularından yoğun bilgi işlem gerektiren makine öğrenimi (ML) görevlerine kadar çeşitli iş yükleri genelinde kaynak tahsisini optimize etmesine olanak tanıyor. Gelişmiş köken yetenekleri, yönetişim ve uyumluluk için hayati önem taşıyan veri akışlarına ilişkin daha iyi görünürlük sağlar.
Bir adım daha ileri giderek, AstronomApache Airflow’un arkasındaki lider ticari sağlayıcı, veri düzenleme ve dönüştürme iş akışlarını tek bir platformda birleştiren açık kaynaklı dbt-core (Veri Oluşturma Aracı) teknolojisini entegre etmek için Astro platformunu güncelliyor.
İyileştirmeler toplu olarak veri işlemlerini kolaylaştırmayı ve geleneksel veri iş akışları ile yeni ortaya çıkan yapay zeka uygulamaları arasındaki boşluğu doldurmayı amaçlıyor. Güncellemeler, işletmelere veri düzenleme konusunda daha esnek bir yaklaşım sunarak çeşitli veri ortamlarının ve yapay zeka süreçlerinin yönetilmesindeki zorlukları ele alıyor.
Julian LaNeve, CTO, “Neden orkestrasyonu en baştan benimsediğinizi düşünürseniz, tüm veri tedarik zinciri boyunca işleri koordine etmek istiyorsunuz, merkezi görünürlük panelini istiyorsunuz,” dedi. Astronom, VentureBeat’e söyledi.
Airflow 2.10, hibrit yürütmeyle veri düzenlemeyi nasıl geliştiriyor?
Airflow 2.10’daki büyük güncellemelerden biri, hibrit yürütme adı verilen bir özelliğin tanıtılmasıdır.
Bu güncellemeden önce Airflow kullanıcılarının tüm dağıtımları için tek bir yürütme modu seçmeleri gerekiyordu. Bu dağıtım bir Kubernetes kümesi seçmek veya Airflow’un Kereviz yürütücüsünü kullanmak olabilirdi. Kubernetes, bireysel görev düzeyinde daha ayrıntılı kontrol gerektiren daha ağır bilgi işlem işleri için daha uygundur. Kereviz ise daha hafiftir ve daha basit işler için daha verimlidir.
Ancak LaNeve’in açıkladığı gibi, gerçek dünyadaki veri hatları genellikle iş yükü türlerinin bir karışımına sahiptir. Örneğin, bir hava akışı dağıtımında bir kuruluşun veri almak için bir yerde basit bir SQL sorgusu yapması gerekebileceğini belirtti. Bir makine öğrenimi iş akışı da aynı veri hattına bağlanarak daha ağır bir Kubernetes dağıtımının çalışmasını gerektirebilir. Bu artık hibrit uygulamayla mümkün.
Hibrit yürütme kapasitesi, kullanıcıları tüm dağıtımları için herkese uygun tek bir seçim yapmaya zorlayan önceki Airflow sürümlerinden önemli ölçüde farklıdır. Artık veri işlem hatlarının her bileşenini uygun düzeyde bilgi işlem kaynakları ve kontrolü için optimize edebilirler.
LaNeve, “Her şeyin aynı yürütme modunu kullanmasını sağlamak yerine, işlem hattı ve görev düzeyinde seçim yapabilmenin Airflow kullanıcıları için gerçekten yepyeni bir esneklik ve verimlilik düzeyi açtığını düşünüyorum” dedi.
Veri düzenlemede veri kökeni yapay zeka için neden önemlidir?
Verilerin nereden geldiğini anlamak, veri soyunun alanıdır. Bu, hem geleneksel veri analitiği hem de kuruluşların verilerin nereden geldiğini anlaması gereken yeni ortaya çıkan yapay zeka iş yükleri için kritik bir yetenektir.
Airflow 2.10’dan önce veri kökeni takibinde bazı sınırlamalar vardı. LaNeve, Airflow’un yeni köken özellikleriyle, özel Python kodu için bile işlem hatları içindeki bağımlılıkları ve veri akışını daha iyi yakalayabileceğini söyledi. Bu iyileştirilmiş köken takibi, verilerin kalitesinin ve kaynağının çok önemli olduğu yapay zeka ve makine öğrenimi iş akışları için çok önemlidir.
LaNeve, “Günümüzde insanların oluşturduğu her türlü yapay zeka uygulamasının temel bileşeni güvendir” dedi.
Bu nedenle, bir yapay zeka sistemi yanlış veya güvenilmez bir çıktı sağlarsa kullanıcılar ona güvenmeye devam etmeyecektir. Sağlam köken bilgileri, mühendislerin modeli eğitmek için verileri nasıl elde ettiğini, dönüştürdüğünü ve kullandığını gösteren net, denetlenebilir bir iz sağlayarak bu sorunun çözülmesine yardımcı olur. Ek olarak, güçlü köken yetenekleri, yapay zeka uygulamalarında kullanılan hassas bilgilerle ilgili daha kapsamlı veri yönetimi ve güvenlik kontrollerine olanak tanır.
Airflow 3.0’ı Geleceğe Bakış
LaNeve, “Veri yönetişimi, güvenliği ve gizliliği her zamankinden daha önemli hale geliyor çünkü verilerinizin nasıl kullanıldığı üzerinde tam kontrole sahip olduğunuzdan emin olmak istiyorsunuz” dedi.
Airflow 2.10 sürümü birçok önemli iyileştirme getirirken LaNeve şimdiden Airflow 3.0’ı sabırsızlıkla bekliyor.
LaNeve’e göre Airflow 3.0’ın hedefi, teknolojiyi yapay zeka çağına uygun şekilde modernize etmek. Airflow 3.0’ın temel öncelikleri arasında platformun dilden bağımsız hale getirilmesi, kullanıcıların görevleri herhangi bir dilde yazmalarına olanak sağlanması, ayrıca Airflow’un verilere daha duyarlı hale getirilmesi ve odağın süreçleri düzenlemekten veri akışlarını yönetmeye kaydırılması yer alıyor.
“Gelecek 10 ila 15 yıl boyunca Airflow’un orkestrasyon standardı olmasını sağlamak istiyoruz” dedi.
Kaynak: https://venturebeat.com/data-infrastructure/do-you-know-where-your-data-comes-from-apache-airflow-does-and-its-getting-updated-to-advance-data-orchestration/