Halka açık bulut hizmet sağlayıcısı Cloudflare, botların kendi platformunda barındırılan web sitelerini yapay zeka modellerini eğitmek için veri toplamasını önlemek amacıyla yeni ve ücretsiz bir araç başlattı.
Google, OpenAI ve Apple dahil olmak üzere bazı AI tedarikçileri, sitelerinin robots.txt dosyasını (botlara bir web sitesinde hangi sayfalara erişebileceklerini bildiren metin dosyası) değiştirerek web sitesi sahiplerinin veri kazıma ve model eğitimi için kullandıkları botları engellemelerine izin veriyor. Ancak Cloudflare’in botlarla mücadele aracını duyuran bir gönderide işaret ettiği gibi, tüm AI kazıyıcılar buna saygı duymuyor.
Şirket, resmi blogunda “Müşteriler yapay zeka botlarının, özellikle de bunu dürüst olmayan bir şekilde yapanların web sitelerini ziyaret etmesini istemiyor” diye yazıyor. “İçeriğe erişim kurallarını aşmayı amaçlayan bazı yapay zeka şirketlerinin, bot tespitinden kaçınmak için ısrarla uyum sağlayacağından korkuyoruz.”
Bu nedenle, sorunu çözmek amacıyla Cloudflare, otomatik bot algılama modellerinde ince ayar yapmak için AI bot ve tarayıcı trafiğini analiz etti. Modeller, diğer faktörlerin yanı sıra, bir AI botunun, web tarayıcısı kullanan birinin görünüşünü ve davranışını taklit ederek tespitten kaçmaya çalışıp çalışmadığını da dikkate alıyor.
Cloudflare, “Kötü aktörler web sitelerini geniş ölçekte taramaya çalıştığında genellikle parmak izini alabileceğimiz araçları ve çerçeveleri kullanırlar” diye yazıyor. “Bu sinyallere dayanarak modellerimiz [are] Kaçamak yapay zeka botlarından gelen trafiği bot olarak uygun şekilde işaretleyebiliyoruz.”
Cloudflare, ana bilgisayarların şüpheli AI botlarını ve tarayıcılarını bildirmesi için bir form oluşturdu ve AI botlarını zaman içinde manuel olarak kara listeye almaya devam edeceğini söylüyor.
Üretken yapay zeka patlamasının model eğitim verilerine olan talebi artırmasıyla yapay zeka botlarının sorunu keskin bir şekilde ortaya çıktı.
Yapay Zeka satıcılarının içerikleri hakkında onları uyarmadan veya telafi etmeden eğitim modelleri konusunda ihtiyatlı davranan birçok site, Yapay Zeka kazıyıcılarını ve tarayıcılarını engellemeyi tercih etti. Bir araştırmaya göre, internetteki en iyi 1000 sitenin yaklaşık %26’sı OpenAI’nin botunu engelledi; bir diğeri 600’den fazla haber yayıncısının botu engellediğini tespit etti.
Ancak engelleme kesin bir koruma değildir. Daha önce de belirtildiği gibi, bazı sağlayıcılar yapay zeka yarışında rekabet avantajı elde etmek için standart bot hariç tutma kurallarını göz ardı ediyor gibi görünüyor. AI arama motoru Perplexity yakın zamanda web sitelerinden içerik çıkarmak için meşru ziyaretçilerin kimliğine bürünmekle suçlandı ve OpenAI ve Anthropic’in zaman zaman robots.txt kurallarını göz ardı ettiği söyleniyor.
İçerik lisanslama girişimi TollBit, geçen ay yayıncılara yazdığı bir mektupta, aslında “birçok yapay zeka aracısının” robots.txt standardını göz ardı ettiğini gördüğünü söyledi.
Cloudflare gibi araçlar yardımcı olabilir; ancak yalnızca gizli yapay zeka botlarını tespit etmede doğru olduklarını kanıtlarlarsa. Ve onlar alışkanlık Belirli AI tarayıcılarını engellemeleri durumunda siteleri dahil edilmeyen Google’ın AI Genel Bakışları gibi AI araçlarından gelen yönlendirme trafiğini feda etme riskiyle karşı karşıya kalan yayıncıların daha zorlu sorununu çözün.
Kaynak: https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots/