‘Model çöküşü’: Bilim adamları yapay zekanın kendi kuyruğunu yemesine izin verilmemesi konusunda uyarıyor

Efsanevi ouroboros’u gördüğünüzde, “bu böyle sürmeyecek” diye düşünmek son derece mantıklıdır. Kendi kuyruğunu yutan güçlü bir sembol ama pratikte zor. Yeni bir çalışmaya göre, kendi ürettiği veriler üzerinde birkaç tur eğitim aldıktan sonra “modelin çökmesi” riskiyle karşı karşıya kalabilecek yapay zeka için de durum aynı olabilir.

Nature’da yayınlanan bir makalede, Oxford’dan Ilia Shumailov liderliğindeki İngiliz ve Kanadalı araştırmacılar, günümüzün makine öğrenimi modellerinin “model çöküşü” adını verdikleri bir sendroma karşı temelde savunmasız olduğunu gösteriyor. Makalenin girişinde yazdıkları gibi:

Diğer modeller tarafından üretilen verilerden ayrım gözetmeksizin öğrenmenin “modelin çökmesine” neden olduğunu keşfediyoruz; bu, zamanla modellerin temeldeki gerçek veri dağılımını unuttuğu yozlaştırıcı bir süreç…

Bu nasıl oluyor ve neden? Süreci anlamak aslında oldukça kolaydır.

Yapay zeka modelleri özünde kalıp eşleştirme sistemleridir: Eğitim verilerindeki kalıpları öğrenirler, ardından komut istemlerini bu kalıplarla eşleştirerek satırdaki sonraki noktaları doldurma olasılıkları yüksektir. “İyi bir snickerdoodle tarifi nedir?” veya “ABD başkanlarını göreve başlama sırasındaki yaş sırasına göre listeleyin” modeli, temelde bu kelime dizisinin en olası devamını döndürüyor. (Görüntü oluşturucular için farklıdır ancak birçok açıdan benzerdir.)

Ancak sorun şu ki, modeller en yaygın çıktıya yöneliyor. Size tartışmalı bir snickerdoodle tarifi değil, en popüler, sıradan olanı verecek. Ve bir görüntü oluşturucudan bir köpeğin resmini yapmasını isterseniz, size eğitim verilerinde yalnızca iki resmini gördüğü nadir bir türü vermez; muhtemelen bir Golden Retriever ya da Lab alacaksınız.

Şimdi, bu iki şeyi, web’in yapay zeka tarafından oluşturulan içerik tarafından istila edildiği ve yeni yapay zeka modellerinin muhtemelen bu içeriği besleyeceği ve üzerinde eğitim vereceği gerçeğiyle birleştirin. Bu onların bir şey görecekleri anlamına geliyor pay altınlardan!

Ve bir kez bu altınların çoğalması (ya da orta halli blog spam’ı, sahte yüzler ya da üretilen şarkılar) konusunda eğitim aldıklarında, bu onların yeni temel gerçeğidir. Köpeklerin %90’ının gerçekten altın olduğunu düşünecekler ve bu nedenle bir köpek üretmeleri istendiğinde, altınların oranını daha da yükseltecekler – ta ki köpeklerin ne olduğunun izini kaybedene kadar.

Nature’ın beraberindeki yorum makalesindeki bu harika örnek, süreci görsel olarak göstermektedir:

Resim Kredisi: Doğa

Benzer bir şey, yanıtlar için eğitim setlerindeki en yaygın verileri tercih eden dil modellerinde ve diğer modellerde de olur; açıkçası, bu genellikle yapılması gereken doğru şeydir. Şu anda halka açık ağ olan arkadaş okyanusuyla buluşana kadar bu gerçekten bir sorun değil.

Temel olarak, modeller birbirlerinin verilerini yemeye devam ederse, belki de farkında bile olmadan, çökene kadar giderek daha tuhaf ve aptal hale gelecekler. Araştırmacılar çok sayıda örnek ve hafifletme yöntemi sunuyor ancak modelin çöküşünü en azından teoride “kaçınılmaz” olarak adlandıracak kadar ileri gidiyorlar.

Her ne kadar yaptıkları deneylerin gösterdiği gibi sonuçlanmasa da bu olasılık yapay zeka alanındaki herkesi korkutmalı. Eğitim verilerinin çeşitliliği ve derinliği giderek artan bir şekilde bir modelin kalitesinde en önemli faktör olarak kabul edilmektedir. Verileriniz biterse ancak daha fazla risk oluşturma modeli çökerse, bu günümüzün yapay zekasını temelden sınırlandırır mı? Eğer bu gerçekleşmeye başlarsa bunu nasıl bileceğiz? Peki sorunu önlemek veya azaltmak için yapabileceğimiz bir şey var mı?

En azından son sorunun cevabı muhtemelen evet, ancak bu endişelerimizi hafifletmemeli.

Veri kaynağı ve çeşitliliğine ilişkin niteliksel ve niceliksel kıyaslamalar yardımcı olabilir, ancak bunları standartlaştırmaktan çok uzağız. Yapay zeka tarafından oluşturulan verilerin filigranları, diğer yapay zekaların bundan kaçınmasına yardımcı olabilir, ancak şu ana kadar hiç kimse görüntüleri bu şekilde işaretlemenin uygun bir yolunu bulamadı (peki… ben buldum).

Aslında, şirketler bu tür bilgileri paylaşmaktan vazgeçebilir ve bunun yerine, Shumailov ve ark. onlara “ilk hamle avantajı” diyorlar.

[Model collapse] Web’den alınan büyük ölçekli verilerden eğitimin faydalarını sürdürmek istiyorsak ciddiye alınmalıdır. Aslında, sistemlerle gerçek insan etkileşimleri hakkında toplanan verilerin değeri, İnternetten taranan verilerde Yüksek Lisans tarafından oluşturulan içeriğin varlığında giderek daha değerli olacaktır.

… teknolojinin kitlesel olarak benimsenmesinden önce İnternetten taranan verilere erişim olmadan veya insanlar tarafından oluşturulan verilere geniş ölçekte doğrudan erişim olmadan Yüksek Lisans’ın daha yeni sürümlerini eğitmek giderek daha zor hale gelebilir.

Bunu, yapay zeka modelleri için potansiyel olarak yıkıcı zorluklara ve yarının süper zekasını üreten bugünün yöntemlerine karşı argümanlara ekleyin.

Kaynak: https://techcrunch.com/2024/07/24/model-collapse-scientists-warn-against-letting-ai-eat-its-own-tail/