Bu deney için araştırmacılar, Avustralya’nın Adelaide yakınlarında yaşayan bir çocuğun giydiği kask kamerasından alınan 61 saatlik videoya güvendiler. O çocuk, Sam, altı aylıktan ikinci yaş gününe kadar bir buçuk yıl boyunca kamerayı kapatıp açtı. Kamera, Sam’in uyanık olduğu saatlerin yaklaşık %1’inde baktığı ve dikkat ettiği şeyleri kaydetti. Sam’in iki kedisi, ebeveynleri, beşiği ve oyuncakları, evi, yemekleri ve çok daha fazlası kaydedildi. Lake, “Bu veri seti tamamen benzersizdi” diyor. “Bu, tek bir çocuğun erişebildiği şeylere dair şimdiye kadar sahip olduğumuz en iyi pencere.”
Modeli eğitmek için Lake ve meslektaşları, görüntü yakalandığında Sam’in ebeveynleri veya odadaki diğer kişiler tarafından söylenen ifadelerle eşleştirilmiş 600.000 video karesi kullandı; toplam 37.500 “söz”. Bazen kelimeler ve nesneler eşleşiyordu. Bazen yapmadılar. Örneğin, fotoğraflardan birinde Sam bir şekil ayırıcıya bakıyor ve bir ebeveyn “İpi beğendin” diyor. Diğerinde, yetişkin bir el bazı blokları kapatıyor ve bir ebeveyn şöyle diyor: “Sen de blokları istiyorsun.”
Ekip modele iki ipucu verdi. Nesnelerin ve kelimelerin bir arada bulunması, bunların birbiriyle bağlantılı olabileceğinin işaretidir. Ancak bir nesne ve bir kelime bir arada bulunmuyorsa, bu onların muhtemelen eşleşmediğinin bir işaretidir. New York Üniversitesi’nden hesaplamalı bilişsel bilim insanı ve çalışmanın yazarı Wai Keen Vong, “Yani modelde bir araya gelme ve birbirinden ayrılma gibi durumlar var” diyor. “O halde verilerde ebeveyn ‘top’ kelimesini söylediğinde çocuğun bir top gördüğüne dair yeterli sayıda örneğin bulunmasını umuyoruz” diyor.
Kelimeleri temsil ettikleri nesnelerle eşleştirmek basit bir iş gibi görünebilir ancak aslında öyle değil. Sorunun kapsamı hakkında fikir sahibi olmanız için küçük çocuklu bir ailenin oturma odasını hayal edin. Tüm normal oturma odası mobilyalarına sahip, aynı zamanda çocuk dağınıklığı da var. Yerler oyuncaklarla dolu. Boya kalemleri sehpanın üzerine dağılmış durumda. Pencere kenarında bir atıştırmalık fincanı ve sandalyenin üzerinde çamaşırlar var. Yeni yürümeye başlayan bir çocuk “top” kelimesini duyarsa, bu bir topa atıfta bulunabilir. Ama aynı zamanda başka bir oyuncağa, kanepeye, pantolona, nesnenin şekline, rengine ya da günün saatine de işaret edebilir. Lake, “Herhangi bir kelimenin sonsuz sayıda olası anlamı vardır” diyor.
Sorun o kadar çetrefilli ki, bazı gelişim psikologları çocukların dili bu kadar hızlı öğrenebilmeleri için dilin nasıl çalıştığına dair doğuştan bir anlayışla doğmaları gerektiğini öne sürüyorlar. Ancak Sam’in kask kamerası verilerini toplayan ekibin bir parçası olan ancak bu konuda uzman olmayan Skidmore Üniversitesi’nden gelişim psikoloğu Jess Sullivan, çalışmanın, dilin bazı bölümlerinin, bu doğuştan gelen yetenek olmasa bile, çok küçük bir dizi deneyimden öğrenilebileceğini öne sürdüğünü söylüyor. yeni çalışmaya dahil oldu. “Bu benim için gerçekten dünya görüşümü sarsıyor.”
Ancak Sullivan, zorlu bir öğrenme sorunu olsa da, kelimeleri temsil ettikleri nesnelerle eşleştirebilmenin, dili oluşturan şeyin sadece bir parçası olduğuna dikkat çekiyor. Kelimelerin nasıl bir araya getirileceğini belirleyen kurallar da vardır. Köpeğiniz “top” veya “yürüyüş” kelimelerini biliyor olabilir ancak bu onun İngilizceyi anlayabildiği anlamına gelmez. Ve bebeklerin sahip olduğu doğuştan gelen dil kapasitesi, kelime dağarcığının ötesine geçebilir. Bu onların dünyada nasıl hareket ettiklerini, neye dikkat ettiklerini veya dile nasıl tepki verdiklerini etkileyebilir. “Bebekler sinir ağının öğrendiği veri setini yaratmamış olsaydı, çalışmanın işe yarayacağını düşünmüyorum” diyor.
Lake ve meslektaşları için bir sonraki adım, modelin öğreniminin çocuklarda erken dil öğrenimini daha yakından kopyalamasını sağlamak için neye ihtiyaç duyduklarını bulmaya çalışmak. “Tamamen iki yaşındakilerinkine benzer yeteneklere sahip bir model elde etmek için yapılması gereken daha çok iş var” diyor. Bu daha fazla veri sağlamak anlamına gelebilir. Lake’in şu anda 18 aylık olan çocuğu, bu verileri sağlayan bir sonraki çocuk grubunun bir parçası. Haftada birkaç saat kask kamerası takıyor. Ya da belki de modelin ebeveynlerin bakışlarına dikkat etmesi ya da nesnelerin sağlamlığı hakkında bir miktar fikir sahibi olması gerekiyor ki bu da çocukların sezgisel olarak kavrayabileceği bir şey. Çocuklar gibi daha fazla öğrenebilecek modeller oluşturmak, araştırmacıların insan öğrenmesini ve gelişimini daha iyi anlamalarına yardımcı olacaktır.
İnsanların dili öğrenme yollarından bazılarını tespit edebilen yapay zeka modelleri, öğrenmede çok daha verimli olabilir; Dilbilimci Noam Chomsky ve meslektaşlarının bir zamanlar ChatGPT gibi büyük dil modellerini tanımladıkları gibi, “örüntü eşleştirme için hantal bir istatistik motoru” olmaktan ziyade daha çok insan gibi hareket edebilirler. Lake’in ekibinin finansmanına yardımcı olan ABD hükümetinin Savunma İleri Araştırma Projeleri Ajansı’ndaki programı yöneten Howard Shrobe, “Yapay zeka sistemleri hâlâ kırılgan ve sağduyudan yoksun” diyor. Ancak bir çocuk gibi öğrenebilen yapay zeka, anlamı anlama, yeni durumlara tepki verme ve yeni deneyimlerden öğrenme yeteneğine sahip olabilir. Amaç, yapay zekayı insan zekasına bir adım daha yaklaştırmaktır.
Kaynak: https://www.technologyreview.com/2024/02/01/1087527/baby-ai-language-camera/