YouTuber, OpenAI’nin içerik oluşturucuların transkriptlerini kazıması nedeniyle toplu dava açtı

Bir YouTube içerik oluşturucusu, şirketin üretken yapay zeka modellerini video sahiplerine bildirimde bulunmadan veya tazminat ödemeden YouTube videolarından alınan milyonlarca transkript üzerinde eğittiğini iddia ederek OpenAI’ye karşı toplu dava açmaya çalışıyor.

Geçen Cuma ABD’nin Kaliforniya Kuzey Bölgesi Bölge Mahkemesine sunulan bir şikayette, Massachusetts merkezli bir YouTube kullanıcısı olan David Millette’nin avukatları, OpenAI’nin şirketin yapay zekasını güçlendiren modelleri eğitmek için Millette’nin ve diğer içerik oluşturucuların videolarını gizlice kopyaladığını iddia ediyor. destekli chatbot platformu, ChatGPT ve diğer üretken yapay zeka araçları ve ürünleri. Şikayette, OpenAI’nin bu verileri toplayarak içerik oluşturucuların çalışmalarından “önemli ölçüde kâr elde ettiği”, aynı zamanda telif hakkı yasasını ve YouTube’un videoların kendi hizmetinden bağımsız uygulamalar için kullanımını yasaklayan hizmet şartlarını ihlal ettiği iddia ediliyor.

“Gibi [OpenAI’s] Yapay zeka ürünleri, eğitim veri kümelerinin kullanımı yoluyla daha karmaşık hale gelir ve erişim için abonelik satın alan potansiyel ve mevcut kullanıcılar için daha değerli hale gelir. [OpenAI’s] AI ürünleri” şikayeti yazıyor. “Ancak OpenAI’nin eğitim veri setlerindeki materyallerin çoğu, OpenAI tarafından izinsiz, kredisiz ve tazminatsız kopyalanan çalışmalardan geliyor.”

Bursor ve Fisher hukuk firması tarafından temsil edilen Millette, jürili duruşma yapılmasını ve verileri OpenAI eğitiminde silinmiş olabilecek tüm YouTube kullanıcıları için 5 milyon doların üzerinde tazminat talep ediyor.

OpenAI’ler gibi üretken AI modellerinin gerçek bir zekası yoktur. Çok sayıda örnekle (örn. filmler, ses kayıtları, makaleler vb.) beslenen modeller, çevredeki verilerin bağlamı da dahil olmak üzere, verilerin kalıplara dayalı olarak oluşma olasılığının ne kadar olduğunu “öğrenir”.

Çoğu model, halka açık web sitelerinden ve web’deki veri kümelerinden elde edilen verilerle eğitilir. Şirketler, adil kullanımın, verileri ayrım gözetmeksizin kazıma ve ticari modelleri eğitmek için kullanma çabalarını koruduğunu savunuyor. Ancak birçok telif hakkı sahibi aynı fikirde değil ve uygulamayı durdurmayı amaçlayan davalar açıyorlar.

Diğer veri kuyuları kurudukça, video transkripsiyonları önemli bir eğitim verisi bileşeni haline geldi.

Originality.AI verilerine göre, dünyanın en iyi 1000 web sitesinin %35’inden fazlası artık OpenAI’nin web tarayıcısını engelliyor. MIT’nin Data Provenance Initiative tarafından yapılan bir araştırmaya göre, “yüksek kaliteli” kaynaklardan gelen verilerin yaklaşık %25’inin yapay zeka modellerini eğitmek için kullanılan ana veri kümelerinden kısıtlandığı ortaya çıktı. Mevcut erişim engelleme eğilimi devam ederse, Epoch AI araştırma grubu, geliştiricilerin 2026 ile 2032 arasında üretken yapay zeka modellerini eğitmek için verilerinin tükeneceğini öngörüyor.

Nisan ayında The New York Times, OpenAI’nin ek eğitim verileri toplamak amacıyla videolardan sesi yazıya dökmek amacıyla ilk konuşma tanıma modeli Whisper’ı oluşturduğunu bildirdi. The Times’a göre, şirketin başkanı Greg Brockman’ın da dahil olduğu bir OpenAI ekibi, Whisper’ı kullanarak YouTube’dan bir milyon saatten fazla videoyu yazıya geçirdi ve bu yazıları OpenAI’nin metin oluşturma ve analiz etme modeli GPT-4’ü eğitmek için kullandı.

The Times’a göre bazı OpenAI çalışanları böyle bir hareketin YouTube kurallarına nasıl aykırı olabileceğini tartıştı.

Temmuz ayında Proof News, Anthropic, Apple, Salesforce ve Nvidia gibi şirketlerin üretken yapay zeka modellerini eğitmek için yüz binlerce YouTube videosundan altyazılar içeren The Pile adlı bir veri seti kullandığını bildirdi. Altyazıları The Pile’a sürüklenen birçok YouTube içerik oluşturucusu bunun farkında değildi ve buna rıza göstermedi; Apple daha sonra, bu modelleri ürünlerindeki herhangi bir AI özelliğini güçlendirmek için kullanmayı düşünmediğini belirten bir açıklama yayınladı.

YouTube’un ana şirketi Google da modellerini eğitmek için transkriptleri kullanmaya çalıştı.

Geçtiğimiz yıl Google, şirketin üretken yapay zeka modeli eğitimi için daha fazla kullanıcı verisinden yararlanmasına olanak sağlamak amacıyla hizmet şartlarını (ToS) kısmen genişletti. Eski Hizmet Şartları kapsamında, Google’ın video platformunun ötesinde ürünler oluşturmak için YouTube verilerini kullanıp kullanamayacağı açık değildi. Dizginleri önemli ölçüde gevşeten yeni şartlara göre durum böyle değil.

Toplu dava hakkında yorum yapmak için OpenAI ve Google’a ulaştık ve yanıt vermeleri halinde bu yazıyı güncelleyeceğiz.

OpenAI için aya zorlu bir başlangıç ​​oldu.

Tesla ve X CEO’su Elon Musk Pazartesi günü OpenAI ve CEO Sam Altman’a karşı, şirketi en gelişmiş teknolojilerinden bazılarını ticari müşteriler için ayırarak orijinal kar amacı gütmeyen misyonunu terk etmekle suçlayan yeni bir dava açtı. Musk aynı iddiaları Şubat ayında OpenAI’ye karşı açılan bir davada da dile getirdi ancak yeni davada OpenAI’nin de şantaj faaliyetlerine karıştığı iddia ediliyor.

Kaynak: https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/