OpenAI, tarihindeki en uzun kesintilerden birini “yeni telemetri hizmetinin” ters gitmesinden sorumlu tutuyor.
Çarşamba günü, OpenAI’nin yapay zeka destekli sohbet robotu platformu ChatGPT; video oluşturucusu Sora; ve geliştiricilere yönelik API’sinde Pasifik saatiyle 15.00’ten itibaren büyük kesintiler yaşandı. OpenAI kısa süre sonra sorunu kabul etti ve bir düzeltme üzerinde çalışmaya başladı. Ancak şirketin tüm hizmetleri yeniden sağlaması yaklaşık üç saat sürecektir.
Perşembe günü geç saatlerde yayınlanan bir otopside OpenAI, kesintinin bir güvenlik olayından veya yakın zamanda piyasaya sürülen üründen kaynaklanmadığını, ancak Çarşamba günü Kubernetes ölçümlerini toplamak için devreye aldığı bir telemetri hizmetinden kaynaklandığını yazdı. Kubernetes, yazılımı yalıtılmış ortamlarda çalıştırmak için kullanılan kapsayıcıları veya uygulama paketlerini ve ilgili dosyaları yönetmeye yardımcı olan açık kaynaklı bir programdır.
OpenAI otopsi raporunda “Telemetri hizmetlerinin çok geniş bir alanı var, bu nedenle bu yeni hizmetin yapılandırması istemeden kaynak yoğun Kubernetes API işlemlerine neden oldu” diye yazdı. “[Our] Kubernetes API sunucuları aşırı yüklendi ve büyük sunucularımızın çoğunda Kubernetes kontrol düzlemi devre dışı kaldı [Kubernetes] kümeler.”
Bu çok fazla jargon ama temel olarak yeni telemetri hizmeti OpenAI’nin Kubernetes operasyonlarını etkiledi; buna şirket hizmetlerinin çoğunun DNS çözümü için güvendiği bir kaynak da dahil. DNS çözümlemesi IP adreslerini etki alanı adlarına dönüştürür; “142.250.191.78” yerine “Google.com” yazabilmenizin nedeni budur.
OpenAI’nin önceden aranan alan adları (web sitesi adresleri gibi) ve bunlara karşılık gelen IP adresleri hakkındaki bilgileri tutan DNS önbelleğe alma özelliğini kullanması, işleri “gecikme” nedeniyle karmaşık hale getirir.[ing] Görünürlük,” diye yazdı OpenAI ve “yayılmaya izin verilmesi [of the telemetry service] Sorunun tam kapsamı anlaşılmadan devam edilecek.”
OpenAI, müşterilerin sonuçta bir etki görmeye başlamasından “birkaç dakika” önce sorunu tespit edebildiğini ancak bunalmış Kubernetes sunucularını aşmak zorunda kalması nedeniyle hızlı bir şekilde bir düzeltme uygulayamadığını söylüyor.
Şirket, “Bu, aynı anda başarısız olan ve beklenmedik şekillerde etkileşime giren birden fazla sistem ve sürecin birleşimiydi” diye yazdı. “Testlerimiz, değişikliğin Kubernetes kontrol düzleminde yarattığı etkiyi yakalayamadı [and] Kilitlenme etkisi nedeniyle iyileştirme çok yavaştı.”
OpenAI, gelecekte benzer olayların meydana gelmesini önlemek için, altyapı değişikliklerinin daha iyi izlenmesiyle aşamalı dağıtımlarda iyileştirmeler ve OpenAI mühendislerinin her durumda şirketin Kubernetes API sunucularına erişebilmesini sağlayacak yeni mekanizmalar da dahil olmak üzere çeşitli önlemler alacağını söylüyor.
OpenAI, “Bu olayın ChatGPT kullanıcılarından geliştiricilere ve OpenAI ürünlerine güvenen işletmelere kadar tüm müşterilerimizde yarattığı etkiden dolayı özür dileriz” diye yazdı. “Beklentilerimizin gerisinde kaldık”
Kaynak: https://techcrunch.com/2024/12/13/openai-blames-its-massive-chatgpt-outage-on-a-new-telemetry-service/