Anında videolar ve etkileşimli 3D ortamlar oluşturabilen OpenAI’nin Sora’sı, GenAI’deki en ileri teknolojinin dikkate değer bir göstergesidir – iyi niyetli bir kilometre taşı.
Ancak merak uyandırıcı bir şekilde, buna yol açan yeniliklerden biri olan, halk arasında difüzyon transformatörü olarak bilinen bir yapay zeka modeli mimarisi, yıllar önce yapay zeka araştırma sahnesine çıktı.
Aynı zamanda AI girişimi Stability AI’nin en yeni görüntü oluşturucusu Stable Diffusion 3.0’a da güç veren difüzyon transformatörü, GenAI modellerinin daha önce mümkün olanın ötesine ölçeklenmesini sağlayarak GenAI alanını dönüştürmeye hazır görünüyor.
NYU’da bilgisayar bilimi profesörü olan Saining Xie, difüzyon transformatörünü ortaya çıkaran araştırma projesine Haziran 2022’de başladı. Peebles, Meta’nın yapay zeka araştırma laboratuvarında staj yaparken ve şu anda OpenAI’de Sora’nın eş-başkanlığını yaparken mentisi William Peebles ile birlikte Xie, makine öğrenimindeki iki kavramı birleştirdi — yayılma ve trafo — difüzyon transformatörünü oluşturmak için.
OpenAI’nin DALL-E 3’ü de dahil olmak üzere çoğu modern yapay zeka destekli medya oluşturucu, görüntülerin, videoların, konuşmaların, müziğin, 3D ağların, sanat eserlerinin ve daha fazlasının çıktısını almak için difüzyon adı verilen bir sürece güveniyor.
Bu pek sezgisel bir fikir değil, ancak temel olarak gürültü, bir medya parçasına (örneğin bir görüntüye) tanınmaz hale gelinceye kadar yavaş yavaş eklenir. Bu, gürültülü ortamlardan oluşan bir veri seti oluşturmak için tekrarlanır. Bir yayılma modeli bunun üzerinde eğitim aldığında, hedef çıktı ortamına (örneğin yeni bir görüntü) adım adım yaklaşarak gürültüyü kademeli olarak nasıl çıkaracağını öğrenir.
Difüzyon modelleri tipik olarak U-Net adı verilen bir “omurgaya” veya bir tür motora sahiptir. U-Net omurgası, kaldırılacak gürültüyü tahmin etmeyi öğrenir ve bunu da gayet iyi yapar. Ancak U-Net’ler, difüzyon boru hattını önemli ölçüde yavaşlatabilen özel olarak tasarlanmış modüller nedeniyle karmaşıktır.
Neyse ki transformatörler U-Net’lerin yerini alabilir ve süreçte verimlilik ve performans artışı sağlayabilir.
Transformatörler, GPT-4, Gemini ve ChatGPT gibi modellere güç veren karmaşık akıl yürütme görevleri için tercih edilen mimaridir. Pek çok benzersiz özelliğe sahiptirler, ancak transformatörlerin açık ara belirleyici özelliği onların “dikkat mekanizmasıdır”. Her giriş verisi parçası için (yayılma, görüntü gürültüsü durumunda), transformatörler tartmak diğer tüm girdilerin (görüntüdeki diğer gürültü) alaka düzeyi ve çıktıyı (görüntü gürültüsünün tahmini) oluşturmak için bunlardan yararlanılır.
Dikkat mekanizması transformatörleri diğer model mimarilere göre daha basit hale getirmekle kalmıyor, aynı zamanda mimariyi paralelleştirilebilir hale getiriyor. Başka bir deyişle, gittikçe daha büyük transformatör modelleri, hesaplamada önemli ancak ulaşılamaz olmayan artışlarla eğitilebilir.
Xie, TechCrunch’a bir e-posta röportajında ”Transformatörlerin difüzyon sürecine katkısı motor yükseltmesine benzer” dedi. “Transformatörlerin piyasaya sürülmesi… ölçeklenebilirlik ve verimlilik açısından önemli bir sıçramaya işaret ediyor. Bu, özellikle geniş hacimli video verileri üzerinde eğitimden yararlanan ve geniş ölçekte uygulandığında transformatörlerin dönüştürücü potansiyelini sergilemek için kapsamlı model parametrelerinden yararlanan Sora gibi modellerde belirgindir.”
Peki, difüzyon transformatörleri fikrinin bir süredir ortaya çıktığı göz önüne alındığında, Sora ve Stable Diffusion gibi projelerin bunlardan yararlanmaya başlaması neden yıllar aldı? Xie, ölçeklenebilir bir omurga modeline sahip olmanın öneminin yakın zamana kadar ortaya çıkmadığını düşünüyor.
“Sora ekibi, bu yaklaşımla büyük ölçekte ne kadar fazlasını yapabileceğinizi göstermek için gerçekten beklenenin çok ötesine geçti” dedi. “U-Net’lerin devre dışı olduğunu açıkça ortaya koydular ve transformatörler için varız yayılma Artık modeller.”
Difüzyon transformatörleri meli Xie, mevcut yayılma modelleri için basit bir takas olabileceğini söylüyor; modeller ister görüntü, ister video, ses veya başka bir medya biçimi oluşturuyor olsun. Difüzyon transformatörlerini eğitmeye yönelik mevcut süreç, potansiyel olarak bazı verimsizliklere ve performans kaybına neden oluyor, ancak Xie, bunun uzun vadede çözülebileceğine inanıyor.
“Asıl çıkarım oldukça basit: U-Net’leri unutun ve U-Net’lere geçin. transformatörler, çünkü daha hızlılar, daha iyi çalışıyorlar ve daha ölçeklenebilirler” dedi. “İçerik anlama ve yaratma alanlarını yayılma transformatörleri çerçevesinde bütünleştirmekle ilgileniyorum. Şu anda bunlar iki farklı dünya gibi; biri anlamak için, diğeri yaratmak için. Bu yönlerin entegre olduğu bir gelecek hayal ediyorum ve bu entegrasyonun sağlanmasının, temel mimarilerin standartlaştırılmasını gerektirdiğine ve transformatörlerin bu amaç için ideal bir aday olduğuna inanıyorum.”
Sora ve Stable Diffusion 3.0, difüzyon transformatörlerinden neler beklenebileceğinin bir önizlemesiyse, çılgın bir yolculuğa çıktığımızı söyleyebilirim.
Kaynak: https://techcrunch.com/2024/02/28/diffusion-transformers-are-the-key-behind-openais-sora-and-theyre-set-to-upend-genai/