Özel bir ağ oluşturma, içgörü ve sohbet gecesi için 27 Mart’ta Boston’daki liderlere katılın. Davet et Burada.
OpenAI CTO’su Mira Murati için Wall Street Journal’a özel röportaj Dün kişisel teknoloji köşe yazarı Joanna Stern’le olan görüşmemiz tam bir smaç gibi görünüyordu. OpenAI’nin Sora metinden videoya modelinin gösterilen klipleri bir demoda Geçen ay ve Murati, birkaç ay içinde kamuya açıklanabileceğini, “bizi korkutacak kadar iyi” ama aynı zamanda bizi gülümsetecek kadar da sevimli ve iyi niyetli olduğunu söyledi. Porselen dükkanındaki hiçbir şeyi kırmayan o boğa! Ahh.
Ancak 4:24 sıralarında Stern, Murati’ye Sora’yı eğitmek için hangi verilerin kullanıldığını sorduğunda röportaj sınıra ulaştı ve çılgınca sıçradı. Murati’nin cevabı: “Kamuya açık ve lisanslı verileri kullandık.” Ancak daha sonra OpenAI’nin kullanıldığını doğruladı Shutterstock içeriği (Temmuz 2023’te açıklanan altı yıllık eğitim verileri anlaşmasının bir parçası olarak), Stern’ün Sora’nın YouTube, Facebook veya Instagram videolarında eğitim alıp almadığına dair sivri uçlu sorularıyla boğuştu.
‘Verilerin ayrıntısına girmeyeceğim’
YouTube hakkında soru sorulduğunda Murati yüzünü buruşturdu ve “Aslında bundan emin değilim” dedi. Facebook ve Instagram’a gelince? İlk başta, eğer videolar kamuya açık olsaydı “olabileceğini” ancak bu konuda “emin olmadığını, kendine güvenmediğini” söyleyerek konuyu dağıttı ve sonunda “Ben bu konuya girmeyeceğim” diyerek videoyu kapattı. kullanılan verilerin ayrıntıları – ancak bunlar kamuya açık veya lisanslı verilerdi.”
Pek çok halkla ilişkiler uzmanının röportajı bir PR başyapıtı olarak görmediğinden eminim. Ayrıca, en büyükleri de dahil olmak üzere telif hakkıyla ilgili davalarla ilgili olarak Murati’nin ayrıntı verme ihtimali de yoktu. New York Times’ın sunduğuşu anda OpenAI ile karşı karşıyayız.
Ancak OpenAI’nin Sora’yı eğitmek için YouTube videolarını kullandığına inansanız da inanmasanız da (unutmayın, The Information rapor edildi Haziran 2023’te OpenAI’nin “bazı yapay zeka modellerini eğitmek için sitedeki verileri gizlice kullandığı” ortaya çıktı. dır-dir Verilerin ayrıntılarında. Üretken yapay zeka telif hakkı savaşları bir yılı aşkın süredir hazırlanıyor ve yazarlar, fotoğrafçılar ve sanatçılardan avukatlara, politikacılara, düzenleyicilere ve kurumsal şirketlere kadar pek çok paydaş, Sora ve diğer modellerin hangi veriler tarafından eğitildiğini bilmek ve bunların gerçekten kamuya açık olup olmadığını incelemek istiyor. mevcut, uygun şekilde lisanslanmış vb.
Bu sadece OpenAI’ye özgü bir sorun değil
Eğitim verileri konusu da sadece bir telif hakkı meselesi değildir. Bu aynı zamanda bir güven ve şeffaflık meselesidir. Örneğin OpenAI, YouTube’da veya “halka açık” diğer videolarda eğitim verdiyse, “halkın” bunu bilmemesi ne anlama gelir? Yasal olarak izin veriliyor olsa bile halk anlıyor mu?
Bu sadece OpenAI için de geçerli bir sorun değil. Hangi şirket kesinlikle video modellerini eğitmek için herkese açık olarak paylaşılan YouTube videolarını mı kullanıyorsunuz? elbette GoogleYouTube’un sahibi. Ve hangi şirket kesinlikle Modellerini eğitmek için Facebook ve Instagram’ın herkese açık olarak paylaştığı görselleri ve videoları kullanıyor musunuz? Facebook ve Instagram’ın sahibi olan Meta, onayladı tam da bunu yapıyor. Yine – belki de tamamen yasal. Ancak Hizmet Şartları anlaşmaları sessizce değiştiğinde – FTC’nin yaptığı bir şey bir uyarı yayınladı son zamanlarda hakkında – halk gerçekten farkında mı?
Son olarak bu sadece önde gelen yapay zeka şirketlerinin ve onların kapalı modellerinin sorunu değil. Eğitim verileri konusu, Ağustos 2023’te yalnızca ABD mahkemelerinde değil, aynı zamanda bir hesaplaşmayla karşı karşıya kalabileceğini söylediğim, temel bir üretken yapay zeka sorunudur. kamuoyu mahkemesinde.
O yazıda söylediğim gibi, “Yakın zamana kadar yapay zeka topluluğu dışından çok az kişi, yüksek lisansların büyük miktarlarda veriyi işlemesine ve metin veya resim çıktısı üretmesine olanak tanıyan yüzlerce veri kümesinin nasıl olduğunu derinlemesine düşünmüştü; bu muhtemelen ImageNet’in 2009’da piyasaya sürülmesi Princeton Üniversitesi’nde yardımcı doçent olan Fei-Fei Li’nin yazdığı gibi, yaratıcı çalışmaları veri kümelerine dahil edilenlerin çoğunu etkileyecektir.
İnsan verilerinin ticari geleceği
Veri toplamanın elbette uzun bir geçmişi var; çoğunlukla pazarlama ve reklam amaçlı. Bu her zaman, en azından teoride, bir tür alış-verişle ilgili olmuştur (her ne kadar veri komisyoncuları ve çevrimiçi platformlar bunu mahremiyet patlaması yaratan milyonlarca dolarlık bir işe dönüştürmüş olsa da). Bir şirkete verilerinizi verirsiniz ve karşılığında daha kişiselleştirilmiş reklamlar, daha iyi bir müşteri deneyimi vb. elde edersiniz. Facebook için ödeme yapmazsınız, ancak karşılığında verilerinizi paylaşırsınız ve pazarlamacılar akışınızda reklamları gösterebilir.
Gönüllü olarak sağlanmayan devasa modeller için üretken yapay zeka eğitim verileri söz konusu olduğunda teoride bile aynı doğrudan değişim söz konusu değil. Aslında pek çok kişi bunun tam tersi olduğunu düşünüyor; üretken yapay zeka modellerinin işlerini “çaldığını”, işlerini tehdit ettiğini veya deepfake ve içerik dışında pek bir şey yapmadığını düşünüyor.eğim.’
Birçok uzman var bana açıkladı Modelleri daha iyi hale getiren, iyi seçilmiş ve belgelenmiş eğitim veri kümeleri için çok önemli bir yer var ve bu insanların çoğu, kamuya açık büyük miktarda verinin adil bir oyun olduğuna inanıyor – ancak bu, araştırmacıların çalıştığı gibi genellikle araştırma amaçlıdır. giderek daha kapalı ve gizli hale gelen bir ekosistemde modellerin nasıl çalıştığını anlamak.
Ancak bu konuda daha eğitimli hale geldikçe halk, yayınladıkları YouTube videolarının, paylaştıkları Instagram Reel’lerinin, “herkese açık” olarak ayarlanan Facebook gönderilerinin, Büyük Teknoloji için büyük banka oluşturan ticari modelleri eğitmek için kullanıldığı gerçeğini kabul edecek mi? ? Modelin Sünger Bob videoları ve halka açık bir milyar doğum günü partisi klibiyle eğitildiğini öğrenirlerse Sora’nın büyüsü önemli ölçüde azalacak mı?
Belki de değil. Belki zamanla her şey daha az iğrenç hissedecektir. Belki OpenAI ve diğerleri, “AGI” olduğuna inandıkları şeye ulaşmak için çabalarken “kamuoyunun” fikrini o kadar da umursamıyorlar. Belki de mesele daha çok tüketici olmayan seçeneklerini kullanan geliştiricileri ve kurumsal şirketleri kazanmakla ilgilidir. Belki tüketicilerin gerçek veri gizliliği meseleleri konusunda uzun süredir kararsız kaldıklarına inanıyorlar ve belki de haklılar.
Ancak şeytan verilerin ayrıntılarında gizlidir. OpenAI, Google ve Meta gibi şirketler kısa vadede avantaja sahip olabilir ancak uzun vadede, bugünün AI eğitim verileriyle ilgili sorunlarının bir şeytan pazarlığı olup olmayacağını merak ediyorum.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/openais-sora-the-devil-is-in-the-details-of-the-data/