Cumartesi günü Triplegangers CEO’su Oleksandr Tomchuk, şirketinin e-ticaret sitesinin kapalı olduğu konusunda uyarıldı. Bir tür dağıtılmış hizmet reddi saldırısı gibi görünüyordu.
Kısa süre sonra suçlunun, devasa sitenin tamamını amansızca kazımaya çalışan bir OpenAI botu olduğunu keşfetti.
Tomchuk, TechCrunch’a “65.000’den fazla ürünümüz var, her ürünün bir sayfası var” dedi. “Her sayfada en az üç fotoğraf var.”
OpenAI, ayrıntılı açıklamalarıyla birlikte yüz binlerce fotoğrafın tamamını indirmeye çalışan “onbinlerce” sunucu isteği gönderiyordu.
Botun kendi sitesini tüketmek için kullandığı IP adresleri hakkında “OpenAI veri toplamak için 600 IP kullandı ve biz hala geçen haftaya ait günlükleri analiz ediyoruz, belki de bu çok daha fazladır” dedi.
“Tarayıcıları sitemizi eziyordu” dedi ve “Bu temelde bir DDoS saldırısıydı” dedi.
Triplegangers’ın web sitesi onun işidir. Yedi çalışanlı şirket, web üzerindeki “insanın dijital ikizleri” olarak adlandırdığı en büyük veri tabanını, yani gerçek insan modellerinden taranan 3 boyutlu görüntü dosyalarını bir araya getirmek için on yılı aşkın bir süre harcadı.
3D nesne dosyalarının yanı sıra fotoğrafları da (ellerden saça, tene ve tüm vücutlara kadar her şey) 3D sanatçılara, video oyunu yapımcılarına ve özgün insan özelliklerini dijital olarak yeniden yaratmaya ihtiyaç duyan herkese satıyor.
Tomchuk’un Ukrayna merkezli ama aynı zamanda Tampa, Florida dışında ABD’de de lisanslı ekibinin sitesinde, botların izinsiz resim çekmesini yasaklayan bir hizmet şartları sayfası var. Ama bu tek başına hiçbir şey yapmadı. Web siteleri, özellikle OpenAI’nin botu GPTBot’a siteyi yalnız bırakmasını söyleyen etiketlere sahip, düzgün yapılandırılmış bir robot.txt dosyası kullanmalıdır. (OpenAI’nin tarayıcılarındaki bilgi sayfasına göre, kendi etiketlerine sahip olan ChatGPT-User ve OAI-SearchBot adında birkaç başka botu da var.)
Robot Hariç Tutma Protokolü olarak da bilinen Robot.txt, arama motoru sitelerine web’i dizine eklerken neleri taramamaları gerektiğini anlatmak için oluşturuldu. OpenAI, bilgilendirme sayfasında, bu tür dosyaları kendi taramama etiketleri seti ile yapılandırıldığında dikkate aldığını söylüyor, ancak aynı zamanda botlarının güncellenmiş bir robot.txt dosyasını tanımasının 24 saate kadar sürebileceği konusunda da uyarıyor.
Tomchuk’un deneyimlediği gibi, eğer bir site robot.txt’yi düzgün şekilde kullanmıyorsa, OpenAI ve diğerleri bunu gönüllerinin içeriğine kazıyabilecekleri anlamına geliyor. Bu bir tercih sistemi değil.
Yaralanmaya bir de hakaret eklemek gerekirse, Tripleganger’lar ABD’deki çalışma saatleri sırasında OpenAI’nin botu tarafından çevrimdışı duruma getirilmekle kalmadı, aynı zamanda Tomchuk, tüm CPU ve bottan indirme etkinliği sayesinde yüksek bir AWS faturası bekliyor.
Robot.txt aynı zamanda güvenli bir dosya değildir. Yapay zeka şirketleri buna gönüllü olarak uyuyor. Başka bir yapay zeka girişimi olan Perplexity, geçen yaz Wired’ın yaptığı bir araştırmada Perplexity’nin bunu onurlandırmadığını ima eden bazı kanıtlar nedeniyle çağrılmıştı.
Neyin alındığını kesin olarak bilemiyorum
Çarşamba günü, OpenAI’nin botunun geri döndüğü günler sonrasında, Triplegangers düzgün bir şekilde yapılandırılmış bir robot.txt dosyasına sahip oldu ve ayrıca GPTBot’u ve keşfettiği Barkrowler (bir SEO tarayıcısı) ve Bytespider () gibi diğer birkaç botu engellemek için bir Cloudflare hesabı kurdu. TokTok’un tarayıcısı). Tomchuk ayrıca diğer AI model şirketlerinin tarayıcılarını engellediğinden de umutlu. Perşembe sabahı sitenin çökmediğini söyledi.
Ancak Tomchuk’un, OpenAI’nin başarıyla neyi aldığını tam olarak öğrenmenin veya bu materyali kaldırmanın hâlâ makul bir yolu yok. OpenAI ile iletişime geçip sormanın bir yolunu bulamadı. OpenAI, TechCrunch’ın yorum talebine yanıt vermedi. TechCrunch’ın yakın zamanda bildirdiği gibi OpenAI, uzun süredir vaat ettiği devre dışı bırakma aracını şu ana kadar sunamadı.
Bu Tripleganger’lar için özellikle çetrefilli bir konu. “Hakların ciddi bir sorun olduğu bir işteyiz çünkü gerçek insanları tarıyoruz” dedi. Avrupa’nın GDPR’si gibi yasalarla “web’deki herhangi birinin fotoğrafını çekip kullanamazlar.”
Triplegangers’ın web sitesi de yapay zeka tarayıcıları için özellikle lezzetli bir keşifti. Scale AI gibi milyarlarca dolar değerindeki girişimler, insanların yapay zekayı eğitmek için titizlikle görselleri etiketlediği bir ortamda yaratıldı. Triplegangers’ın sitesi ayrıntılı olarak etiketlenmiş fotoğraflar içeriyor: etnik köken, yaş, dövmeler ve yara izleri, tüm vücut tipleri vb.
Buradaki ironi, OpenAI botunun açgözlülüğünün Tripleganger’ları botun ne kadar açığa çıktığı konusunda uyarmasıdır. Daha yumuşak bir şekilde kazımış olsaydı Tomchuk’un bunu asla bilemeyeceğini söyledi.
Tomchuk, “Bu korkutucu çünkü bu şirketlerin, “robot.txt dosyanızı etiketlerimizle güncellerseniz kapsam dışında kalabilirsiniz” diyerek verileri taramak için kullandıkları bir boşluk var gibi görünüyor, diyor Tomchuk, ancak bu, iş sahibinin sorumluluğunu üstleniyor. onları nasıl engelleyeceğinizi anlayın.
Diğer küçük çevrimiçi işletmelerin, bir AI botunun bir web sitesinin telif hakkıyla korunan eşyalarını alıp almadığını keşfetmenin tek yolunun aktif olarak bakmak olduğunu bilmesini istiyor. Kesinlikle onlar tarafından terörize edilen tek kişi o değil. Diğer web sitelerinin sahipleri yakın zamanda Business Insider’a OpenAI botlarının sitelerini nasıl çökerttiğini ve AWS faturalarını nasıl artırdığını anlattı.
Sorun 2024’te boyutlarına ulaştı. Dijital reklamcılık şirketi DoubleVerify’ın yeni araştırması, AI tarayıcılarının ve kazıyıcılarının 2024’te “genel geçersiz trafikte”, yani gerçek bir kullanıcıdan gelmeyen trafikte %86’lık bir artışa neden olduğunu ortaya çıkardı.
Tomchuk yine de “çoğu sitenin bu botlar tarafından kazındığına dair hiçbir fikri yok” diye uyarıyor. “Artık bu botları tespit etmek için günlük etkinliğini günlük olarak izlememiz gerekiyor.”
Düşündüğünüzde, modelin tamamı bir nevi mafya saldırısı gibi işliyor: Korumanız olmadığı sürece yapay zeka botları istediklerini alacaktır.
Tomchuk, “Sadece verileri kazımak değil, izin de istemeleri gerekiyor” diyor.
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Her Çarşamba gelen kutunuza almak için buradan kaydolun.
Kaynak: https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/