ChatGPT’de yakın zamanda başlatılan Gelişmiş Ses Modunun alfasını güçlendiren üretken yapay zeka modeli OpenAI’nin GPT-4o’su, şirketin metin ve görüntü verilerinin yanı sıra ses konusunda da eğitilen ilk modelidir. Bu da bazen kendisiyle konuşan kişinin sesini taklit etmek veya bir konuşmanın ortasında rastgele bağırmak gibi tuhaf davranışlar sergilemesine neden oluyor.
OpenAI, modelin güçlü yönlerine ve risklerine ilişkin araştırmaları belgeleyen yeni bir ‘kırmızı ekip’ raporunda, yukarıda bahsedilen ses klonlama gibi GPT-4o’nun tuhaf tuhaflıklarından bazılarını ortaya koyuyor. OpenAI, nadir durumlarda, özellikle de bir kişinin yoldaki bir araba gibi “arka plan gürültüsünün yüksek olduğu bir ortamda” GPT-4o ile konuştuğu durumlarda, GPT-4o’nun “kullanıcının sesini taklit edeceğini” söylüyor. Neden? OpenAI, bunu hatalı biçimlendirilmiş konuşmayı anlamakta zorlanan modele bağlıyor. Haklısın!
Aşağıdaki örnekte (rapordan) kulağa nasıl geldiğini dinleyin. Garip, değil mi?
Açık olmak gerekirse, GPT-4o bunu şu anda yapmıyor; en azından Gelişmiş Ses Modunda. Bir OpenAI sözcüsü TechCrunch’a şirketin bu davranış için “sistem düzeyinde bir hafifletme” eklediğini söyledi.
GPT-4o ayrıca belirli şekillerde istendiğinde rahatsız edici veya uygunsuz “sözsüz sesler” ve erotik inlemeler, şiddetli çığlıklar ve silah sesleri gibi ses efektleri üretmeye de eğilimlidir. OpenAI, modelin olduğunu gösteren kanıtların olduğunu söylüyor genel olarak ses efektleri oluşturma isteklerini reddediyor ancak bazı isteklerin gerçekten yerine getirildiğini kabul ediyor.
GPT-4o ayrıca müzik telif haklarını da ihlal edebilir; daha doğrusu, OpenAI bunu önlemek için filtreler uygulamamış olsaydı olurdu. Raporda OpenAI, GPT-4o’ya, muhtemelen tanınabilir sanatçıların stilini, tonunu ve/veya tınısını kopyalamaktan kaçınmak için Gelişmiş Ses Modunun sınırlı alfası için şarkı söylememesi talimatını verdiğini söyledi.
Bu, OpenAI’nin GPT-4o’yu telif hakkıyla korunan materyaller konusunda eğittiği anlamına gelir ancak bu doğrudan doğrulanmaz. Daha önce açıklandığı gibi Gelişmiş Ses Modu sonbaharda daha fazla kullanıcıya sunulduğunda OpenAI’nin kısıtlamaları kaldırmayı isteyip istemediği henüz belli değil.
“GPT-4o’nun ses yöntemini hesaba katmak için, sesli konuşmalarda çalışacak belirli metin tabanlı filtreleri güncelledik [and] OpenAI, raporda “müzik içeren çıktıları tespit etmek ve engellemek için filtreler oluşturduk” diye yazıyor. “GPT-4o’yu, daha geniş uygulamalarımıza uygun olarak, ses de dahil olmak üzere telif hakkıyla korunan içerik isteklerini reddetmek üzere eğittik.”
OpenAI’nin yakın zamanda günümüzün önde gelen modellerini telif hakkıyla korunan materyaller kullanılmadan eğitmenin “imkansız” olacağını söylemesi dikkat çekicidir. Şirketin veri sağlayıcılarla bir dizi lisans anlaşması olmasına rağmen, aynı zamanda adil kullanımın, şarkılar gibi IP korumalı veriler üzerinde izinsiz olarak eğitim verdiği yönündeki suçlamalara karşı makul bir savunma olduğunu da savunuyor.
Kırmızı takım raporu – OpenAI’nin yarıştaki atları göz önüne alındığında, değeri ne olursa olsun – yapmak Çeşitli hafifletmeler ve önlemlerle daha güvenli hale getirilen bir yapay zeka modelinin genel resmini çizin. GPT-4o, örneğin insanları nasıl konuştuklarına göre tanımlamayı reddediyor ve “Bu konuşmacı ne kadar zeki?” gibi yüklü soruları yanıtlamayı reddediyor. Ayrıca şiddet içeren ve cinsel içerikli dil yönlendirmelerini de engeller ve aşırıcılık ve kendine zarar vermeyle ilgili tartışmalar gibi belirli içerik kategorilerine tamamen izin vermez.
Kaynak: https://techcrunch.com/2024/08/08/openai-finds-that-gpt-4o-does-some-truly-bizarre-stuff-sometimes/