Sohbet robotlarının internetten alınan içeriğe dayalı sorulara ayrıntılı yanıtlar verebildiği üretken yapay zeka çağında, adil kullanım ile intihal arasındaki ve rutin web kazıma ile etik olmayan özetleme arasındaki çizgi çok incedir.
Perplexity AI, bir arama motorunu, yalnızca bağlantılardan ziyade ayrıntılı yanıtlarla yanıtlar üreten geniş bir dil modeliyle birleştiren bir girişimdir. OpenAI’nin ChatGPT’si ve Anthropic’in Claude’undan farklı olarak Perplexity, kendi temel yapay zeka modellerini eğitmiyor; bunun yerine internetten topladığı bilgileri alıp yanıtlara dönüştürmek için açık veya ticari olarak mevcut olanları kullanıyor.
Ancak Haziran ayındaki bir dizi suçlama, girişimin yaklaşımının etik dışı olma sınırında olduğunu gösteriyor. Forbes, girişimin beta Perplexity Pages özelliğindeki haber makalelerinden birinin çalıntı olduğu iddiasıyla Perplexity’ye seslendi. Ve Wired, Perplexity’yi diğer sitelerle birlikte kendi web sitesini de yasa dışı olarak kazımakla suçladı.
Nisan ayı itibarıyla 3 milyar dolara yakın bir değerlemeyle 250 milyon doları toplamak için çalışan Perplexity, yanlış bir şey yapmadığını savunuyor. Nvidia ve Jeff Bezos tarafından desteklenen şirket, yayıncıların içerikten alıntı yapmama yönündeki taleplerini yerine getirdiğini ve adil kullanım telif hakkı yasaları çerçevesinde faaliyet gösterdiğini söylüyor.
Durum karmaşık. Kalbinde iki kavramı çevreleyen nüanslar var. Bunlardan ilki, web siteleri tarafından içeriklerinin web tarayıcıları tarafından erişilmesini veya kullanılmasını istemediklerini belirtmek için kullanılan bir standart olan Robot Hariç Tutma Protokolüdür. İkincisi, telif hakkıyla korunan materyalin belirli durumlarda izinsiz veya ödeme yapılmaksızın kullanılmasına izin veren yasal çerçeveyi oluşturan telif hakkı yasasındaki adil kullanımdır.
Web içeriğini gizlice kazımak
Wired’ın 19 Haziran tarihli hikayesi, Perplexity’nin, yayıncıların botların erişmesini istemediği web sitelerini gizlice kazımak için Robot Hariç Tutma Protokolünü göz ardı ettiğini iddia ediyor. Wired, Perplexity’ye bağlı bir makinenin bunu kendi haber sitesinde ve ana şirketi Condé Nast’ın altındaki diğer yayınlarda yaptığını gözlemlediğini bildirdi.
Raporda, geliştirici Robb Knight’ın da benzer bir deney yaptığı ve aynı sonuca vardığı belirtildi.
Hem Wired muhabirleri hem de Knight, Perplexity’den bir dizi URL’yi özetlemesini isteyerek ve ardından sunucu tarafında Perplexity ile ilişkili bir IP adresinin bu siteleri ziyaret etmesini izleyerek şüphelerini test ettiler. Perplexity daha sonra bu URL’lerdeki metni “özetledi” – ancak Wired’ın bu amaç için oluşturduğu sınırlı içeriğe sahip sahte bir web sitesi söz konusu olduğunda, sayfadaki metni kelimesi kelimesine döndürdü.
Robotları Hariç Tutma Protokolünün nüansları burada devreye giriyor.
Web kazıma teknik olarak Tarayıcılar olarak bilinen otomatik yazılım parçaları, web sitelerini dizine eklemek ve web sitelerinden bilgi toplamak için web’i taradığında. Google gibi arama motorları bunu web sayfalarının arama sonuçlarına dahil edilebilmesi için yapar. Diğer şirketler ve araştırmacılar, pazar analizi, akademik araştırma ve öğrendiğimiz kadarıyla makine öğrenimi modellerini eğitmek amacıyla internetten veri toplamak için tarayıcıları kullanıyor.
Bu protokole uygun web kazıyıcılar, öncelikle neye izin verildiğini ve neye izin verilmediğini görmek için bir sitenin kaynak kodundaki “robots.txt” dosyasını arayacaktır. Günümüzde izin verilmeyen şey genellikle büyük eğitim veri kümeleri oluşturmak için bir yayıncının sitesini kazımaktır. AI için. Perplexity dahil arama motorları ve yapay zeka şirketleri protokole uyduklarını ancak yasal olarak buna mecbur olmadıklarını belirttiler.
Perplexity’nin iş başkanı Dmitry Shevelenko, TechCrunch’a bir URL’yi özetlemenin taramayla aynı şey olmadığını söyledi. Shevelenko, “Taramak, etrafta dolaşıp bilgiyi alıp onu dizininize eklemektir” dedi. Perplexity’nin IP’sinin, yalnızca bir kullanıcı sorgusuna “tarama tanımına uymayan” bir URL koyduğunda “robots.txt tarafından bir şekilde yasaklanmış” bir web sitesinin ziyaretçisi olarak görünebileceğini belirtti.
Shevelenko, “Sadece kullanıcının o URL’ye gitme yönündeki doğrudan ve spesifik isteğine yanıt veriyoruz” dedi.
Başka bir deyişle, bir kullanıcı bir yapay zekaya manuel olarak bir URL sağlarsa Perplexity, yapay zekanın bir web tarayıcısı gibi davranmadığını, bunun yerine kullanıcının talep ettiği bilgileri almasına ve işlemesine yardımcı olacak bir araç olduğunu söylüyor.
Ancak Wired ve diğer birçok yayıncı için bu, hiçbir farkı olmayan bir ayrım çünkü bir URL’yi ziyaret etmek ve metni özetlemek için oradan bilgi almak, günde binlerce kez yapıldığında kesinlikle kazımaya çok benziyor.
(Wired ayrıca Perplexity’nin bulut hizmet sağlayıcılarından biri olan Amazon Web Services’in, kullanıcıların isteminde alıntı yaptığı web sayfalarını silmek için robots.txt protokolünü göz ardı eden girişimi araştırdığını da bildirdi. AWS, TechCrunch’a Wired’ın raporunun hatalı olduğunu ve bunun doğru olmadığını söyledi. hizmetin kötüye kullanıldığını iddia eden diğer raporlar gibi medya soruşturmasını da yürütüyordu.)
İntihal mi yoksa adil kullanım mı?
Wired ve Forbes ayrıca Perplexity’yi intihalle suçladı. İronik bir şekilde Wired, Perplexity’nin startup’ın web içeriğini gizlice kazıdığını bildiren makalenin çalıntı olduğunu söylüyor.
Wired muhabirleri, Perplexity sohbet robotunun “hikayenin sonuçlarını ve bunlara ulaşmak için kullanılan kanıtları yakından özetleyen altı paragraflık, 287 kelimelik bir metin ürettiğini” söyledi. Bir cümle, orijinal öyküdeki bir cümleyi tam olarak yeniden üretir; Wired bunun intihal teşkil ettiğini söylüyor. Poynter Enstitüsü’nün yönergeleri, yazarın (veya yapay zekanın) orijinal kaynak çalışmadan art arda yedi kelime kullanması durumunda bunun intihal olabileceğini söylüyor.
Forbes ayrıca Perplexity’yi intihalle suçladı. Haber sitesi, Haziran başında Google CEO’su Eric Schmidt’in yeni girişiminin nasıl yoğun bir şekilde işe alım yaptığı ve yapay zeka destekli dronları askeri uygulamalarla test ettiği hakkında bir araştırma raporu yayınladı. Ertesi gün, Forbes editörü John Paczkowski, X’te Perplexity’nin beta özelliği Perplexity Pages’in bir parçası olarak kepçeyi yeniden yayınladığını söyleyen bir paylaşım yaptı.
Şimdilik yalnızca belirli Perplexity abonelerinin kullanımına sunulan Perplexity Sayfaları, Perplexity’ye göre kullanıcıların araştırmalarını “görsel olarak çarpıcı, kapsamlı içeriğe” dönüştürmelerine yardımcı olmayı vaat eden yeni bir araç. Sitedeki bu tür içeriğe örnekler startup çalışanlarından geliyor ve “Yeni başlayanlar için davul çalma kılavuzu” veya “Steve Jobs: vizyoner CEO” gibi makaleler içeriyor.
Paczkowski, “Haberlerimizin çoğunu çalıyor” diye yazdı. “Bizi ve bizi yeniden bloglayan birkaç kişiyi, mümkün olan en kolay göz ardı edilebilecek şekilde kaynak olarak gösteriyor.”
Forbes, Perplexity ekibinin küratörlüğünü yaptığı gönderilerin çoğunun “Forbes, CNBC ve Bloomberg dahil birçok yayındaki orijinal hikayelere çarpıcı derecede benzediğini” bildirdi. Forbes, gönderilerin on binlerce kez görüntülendiğini ve makale metninde hiçbir yayının isminden bahsetmediğini söyledi. Bunun yerine, Perplexity’nin makaleleri “kendilerine bağlantı veren küçük, gözden kaçması kolay logolar” biçimindeki atıfları içeriyordu.
Ayrıca Forbes, Schmidt hakkındaki paylaşımın Forbes’un haberleriyle “neredeyse aynı ifadeleri” içerdiğini söyledi. Toplama aynı zamanda Forbes tasarım ekibi tarafından oluşturulan ve Perplexity tarafından biraz değiştirilmiş gibi görünen bir görseli de içeriyordu.
Perplexity CEO’su Aravind Srinivas, o dönemde Forbes’a, girişimin gelecekte kaynaklardan daha belirgin bir şekilde alıntı yapacağını söyleyerek yanıt vermişti; alıntıların kendisi teknik zorluklarla karşı karşıya olduğundan kusursuz bir çözüm değil. ChatGPT ve diğer modeller halüsinasyonlu bağlantılara sahiptir ve Perplexity, OpenAI modellerini kullandığından bu tür halüsinasyonlara karşı duyarlı olması muhtemeldir. Aslında Wired, Perplexity’nin tüm hikayeleri halüsinasyonla gördüğünü gözlemlediğini bildirdi.
Perplexity’nin “pürüzlü yönlerine” dikkat çekmek dışında Srinivas ve şirket, Perplexity’nin bu tür içerikleri özetleme amacıyla kullanma hakkını büyük ölçüde ikiye katladı.
Adil kullanımın incelikleri burada devreye giriyor. İntihal her ne kadar hoş karşılanmasa da teknik olarak yasa dışı değildir.
ABD Telif Hakkı Bürosu’na göre, bir eserin alıntılar da dahil olmak üzere sınırlı bölümlerinin yorum, eleştiri, habercilik ve bilimsel rapor gibi amaçlarla kullanılması yasaldır. Perplexity gibi yapay zeka şirketleri, bir makalenin özetinin sunulmasının adil kullanım sınırları dahilinde olduğunu öne sürüyor.
Shevelenko, “Gerçekler kimsenin tekelinde değil” dedi. “Gerçekler bir kez ortaya çıktığında herkesin kullanımına açık olur.”
Shevelenko, Perplexity’nin özetlerini, gazetecilerin kendi haberlerini desteklemek için sıklıkla diğer haber kaynaklarından alınan bilgileri nasıl kullandıklarına benzetti.
UCLA Teknoloji, Hukuk ve Politika Enstitüsü’nde hukuk profesörü olan Mark McKenna, TechCrunch’a durumun çözülmesi kolay olmadığını söyledi. Adil kullanım davasında mahkemeler, özette yalnızca fikirlerin yerine orijinal makaledeki ifadelerin çoğunun kullanılıp kullanılmadığını değerlendirecektir. Ayrıca özeti okumanın makaleyi okumanın yerini alıp alamayacağını da inceleyebilirler.
McKenna, “Parlak çizgiler yok” dedi. “Bu yüzden [Perplexity] Bir makalenin söylediklerini veya bildirdiklerini gerçek anlamda söylemek, çalışmanın telif hakkıyla korunamayan yönlerini kullanmak olacaktır. Bu sadece gerçekler ve fikirler olurdu. Ancak özet ne kadar çok gerçek ifadeyi ve metni içerirse, bir özetten ziyade o kadar çok kopya gibi görünmeye başlar.
Ne yazık ki yayıncılar için, Perplexity tam ifadeleri kullanmadığı sürece (ve görünüşe göre bazı durumlarda öyle), özetleri adil kullanımın ihlali olarak değerlendirilmeyebilir.
Şaşkınlık kendini nasıl korumayı hedefliyor?
OpenAI gibi yapay zeka şirketleri, algoritmalarını eğitmek amacıyla mevcut ve arşiv içeriklerine erişmek için bir dizi haber yayıncısıyla medya anlaşmaları imzaladı. Bunun karşılığında OpenAI, ChatGPT’deki kullanıcı sorgularına yanıt olarak bu yayıncıların haber makalelerini ortaya çıkarma sözü veriyor. (Ancak Nieman Lab’ın geçen hafta bildirdiği gibi bunda da çözülmesi gereken bazı aksaklıklar var.)
Şaşkınlık kendi medya anlaşmalarını duyurmaktan kaçındı, belki de kendisine yönelik suçlamaların ortadan kalkmasını bekliyordu. Ancak şirket, yayıncılarla bir dizi reklam geliri paylaşımı anlaşması konusunda “tam gaz ilerliyor”.
Buradaki fikir, Perplexity’nin sorgu yanıtlarının yanına reklamları da dahil etmeye başlaması ve herhangi bir yanıtta alıntı yapılan içeriğe sahip yayıncıların ilgili reklam gelirinden bir pay almasıdır. Shevelenko, Perplexity’nin ayrıca yayıncıların kendi teknolojisine erişmesine izin vermek için çalıştığını, böylece soru-cevap deneyimleri oluşturabilmelerini ve sitelerinde ve ürünlerinde yerel olarak ilgili sorular gibi şeyleri güçlendirebilmelerini sağlamak için çalıştığını söyledi.
Peki bu sadece sistemik IP hırsızlığı için bir incir yaprağı mı? İçeriği tamamen özetlemekle tehdit eden tek sohbet robotu Perplexity değil; okuyucular orijinal kaynak materyale tıklama ihtiyacını göremiyorlar.
Ve bunun gibi yapay zeka kazıyıcıları yayıncıların çalışmalarını alıp kendi işleri için yeniden kullanmaya devam ederse, yayıncıların reklam parası kazanması daha da zorlaşacak. Bu, sonuçta kazınacak daha az içerik olacağı anlamına gelir. Alınacak içerik kalmadığında, üretken yapay zeka sistemleri sentetik veriler üzerinde eğitime yönelecek ve bu da potansiyel olarak önyargılı ve hatalı içerikten oluşan cehennem gibi bir geri bildirim döngüsüne yol açabilir.
Kaynak: https://techcrunch.com/2024/07/02/news-outlets-are-accusing-perplexity-of-plagiarism-and-unethical-web-scraping/