Harvard ve Google, yapay zeka eğitim veri seti olarak 1 milyon kamu malı kitabı yayınlayacak

Yapay zeka eğitim verilerinin büyük bir fiyat etiketi var ve bu fiyat bütçesi kısıtlı teknoloji firmaları için en uygun olanı. Bu nedenle Harvard Üniversitesi, yaşları nedeniyle artık telif hakkı koruması altında olmayan, aralarında Dickens, Dante ve Shakespeare’in de bulunduğu çeşitli türler, diller ve yazarları kapsayan, kamuya açık 1 milyona yakın kitabı içeren bir veri kümesi yayınlamayı planlıyor.

Yeni veri seti henüz mevcut değil ve ne zaman ve nasıl yayınlanacağı da belli değil. Ancak, Google’ın uzun süredir devam eden kitap tarama projesi Google Kitaplar’dan türetilmiş kitapları içermektedir ve dolayısıyla Google, “bu hazine hazinesinin geniş çapta” yayınlanmasına dahil olacaktır.

Harvard, Kurumsal Veri Girişimi (IDI) ile ilk kez Mart ayında dalga geçmiş ve “Yapay zeka için yasal veriler için güvenilir bir kanal” oluşturma planlarının ana hatlarını çizmişti. Ancak, IDI’nin Microsoft ve OpenAI’den mali destek içerdiğinin doğrulanmasıyla birlikte bugünkü resmi lansmanına kadar pek bir şey duyulmadı.

IDI’nin genel müdürü Greg Leppert, veri kümesinin, bu kadar büyük bir veri kümesini, araştırma laboratuvarlarından AI startup’larına kadar, büyük dil modellerini (LLM’ler) eğitmek isteyen herkese açarak “oyun alanını eşitlemek” için tasarlandığını söylüyor.

Kaynak: https://techcrunch.com/2024/12/12/harvard-and-google-to-release-1-million-public-domain-books-as-ai-training-dataset/