Apple, önümüzdeki birkaç ay içinde iOS, macOS ve iPadOS’a yönelik üretken yapay zeka özellikleri yelpazesi olan Apple Intelligence’ı desteklemek için geliştirdiği modelleri ayrıntılarıyla anlatan bir teknik makale yayınladı.
Makalede Apple, bazı modellerinin eğitiminde etik açıdan sorgulanabilir bir yaklaşım benimsediği yönündeki suçlamalara karşı çıkıyor, özel kullanıcı verilerini kullanmadığını ve Apple Intelligence için kamuya açık ve lisanslı verilerin bir kombinasyonunu kullandığını yineliyor.
“[The] Eğitim öncesi veri seti yayıncılardan lisansladığımız verilerden, halka açık veya açık kaynaklı veri kümelerinden seçilmiş ve web tarayıcımız Applebot tarafından taranan kamuya açık bilgilerden oluşuyor,” diye yazıyor Apple gazetede. “Kullanıcı gizliliğini korumaya odaklandığımız göz önüne alındığında, veri karışımına hiçbir özel Apple kullanıcı verisinin dahil edilmediğini not ediyoruz.”
Temmuz ayında Proof News, Apple’ın cihaz üzerinde işleme için tasarlanmış bir model ailesini eğitmek için yüz binlerce YouTube videosundan altyazılar içeren The Pile adlı bir veri kümesini kullandığını bildirdi. Altyazıları The Pile’a sürüklenen birçok YouTube içerik oluşturucusu bunun farkında değildi ve buna rıza göstermedi; Apple daha sonra, bu modelleri ürünlerindeki herhangi bir AI özelliğini güçlendirmek için kullanmayı düşünmediğini belirten bir açıklama yayınladı.
Apple’ın ilk kez Haziran ayında WWDC 2024’te tanıttığı modellerin perdelerini aralayan ve Apple Foundation Models (AFM) adı verilen teknik belge, AFM modellerine yönelik eğitim verilerinin “sorumlu” bir şekilde veya Apple’ın sorumluları tarafından elde edildiğini vurguluyor. en azından tanım.
AFM modellerinin eğitim verileri, kamuya açık web verilerinin yanı sıra adı açıklanmayan yayıncılardan alınan lisanslı verileri de içerir. The New York Times’a göre Apple, 2023’ün sonlarına doğru aralarında NBC, Condé Nast ve IAC’nin de bulunduğu çok sayıda yayıncıya, yayıncıların haber arşivlerindeki modelleri eğitmek için en az 50 milyon dolar değerinde çok yıllı anlaşmalar konusunda ulaştı. Apple’ın AFM modelleri ayrıca GitHub’da barındırılan açık kaynak kod, özellikle Swift, Python, C, Objective-C, C++, JavaScript, Java ve Go kodu konusunda da eğitildi.
Modelleri izinsiz, hatta açık kod üzerinde eğitmek, geliştiriciler arasında bir çekişme noktasıdır. Bazı geliştiriciler, bazı açık kaynak kod tabanlarının lisanslı olmadığını veya kullanım şartlarında yapay zeka eğitimine izin vermediğini savunuyor. Ancak Apple, kodun yalnızca MIT, ISC veya Apache lisansı altındakiler gibi minimum kullanım kısıtlamalarına sahip depoları dahil etmeye çalışmasının “lisans filtreli” olduğunu söylüyor.
Makaleye göre, AFM modellerinin matematik becerilerini artırmak için Apple, eğitim setine özellikle web sayfaları, matematik forumları, bloglar, eğitimler ve seminerlerdeki matematik sorularını ve yanıtlarını dahil etti. Şirket ayrıca, hassas bilgileri kaldırmak için filtrelenen “eğitim modelleri için kullanıma izin veren lisanslara” sahip “yüksek kaliteli, kamuya açık” veri setlerinden (makalede adı belirtilmeyen) yararlandı.
Sonuç olarak, AFM modellerine yönelik eğitim veri seti yaklaşık 6,3 trilyon token ağırlığındadır. (Jetonlar, üretken yapay zeka modellerinin alması genellikle daha kolay olan küçük veri parçalarıdır.) Karşılaştırma yapmak gerekirse, bu, Meta’nın amiral gemisi metin oluşturma modeli olan Llama 3.1 405B’yi eğitmek için kullanılan jeton sayısının yarısından daha azdır (15 trilyon). .
Apple, AFM modellerinde ince ayar yapmak ve zehirli madde püskürtme gibi istenmeyen davranışları azaltmaya çalışmak için insan geri bildirimlerinden ve sentetik verilerden elde edilen veriler de dahil olmak üzere ek veriler elde etti.
“Modellerimiz, kullanıcıların Apple ürünleri genelinde günlük aktivitelerini temellendirilmiş bir şekilde gerçekleştirmelerine yardımcı olmak amacıyla oluşturuldu.
Apple’ın temel değerlerine bağlıyız ve her aşamada sorumlu yapay zeka ilkelerimize bağlıyız” diyor şirket.
Makalede hiçbir açık delil ya da şok edici bir görüş yok – ve bu dikkatli bir tasarımdan kaynaklanıyor. Bu gibi makaleler, rekabet baskıları nedeniyle nadiren çok açıklayıcıdır, aynı zamanda ifşa edilmesi de mümkündür. fazla pek çok şey şirketleri hukuki açıdan sıkıntıya sokabilir.
Kamuya açık web verilerini toplayarak modelleri eğiten bazı şirketler, uygulamalarının adil kullanım doktrini tarafından korunduğunu iddia ediyor. Ancak bu, tartışmaya açık ve giderek artan sayıda davanın konusu olan bir konu.
Apple gazetede, web yöneticilerinin tarayıcısının verilerini kazımasını engellemesine izin verdiğini belirtiyor. Ancak bu, bireysel yaratıcıları zor durumda bırakıyor. Örneğin, portföyü Apple’ın veri kazımasını engellemeyi reddeden bir sitede barındırılıyorsa bir sanatçı ne yapmalıdır?
Mahkeme salonundaki savaşlar, üretken yapay zeka modellerinin kaderini ve eğitilme şekillerini belirleyecek. Ancak şimdilik Apple, istenmeyen yasal incelemelerden kaçınırken kendisini etik bir oyuncu olarak konumlandırmaya çalışıyor.
Kaynak: https://techcrunch.com/2024/07/29/apple-says-it-took-a-responsible-approach-to-training-its-apple-intelligence-models/