Teknik aksaklıklar ve lisans değişikliklerinden kaynaklanan bir dizi tartışmanın ardından, AI girişimi Stability AI, en yeni görüntü oluşturma modelleri ailesini duyurdu.
Şirket, yeni Stable Diffusion 3.5 serisinin, Stability’nin önceki nesil teknolojisine göre daha özelleştirilebilir ve çok yönlü olduğunu ve aynı zamanda daha performanslı olduğunu iddia ediyor. Toplamda üç model var:
- Kararlı Difüzyon 3,5 Büyük: 8 milyar parametresiyle 1 megapiksele kadar çözünürlükte görüntü üretebilen en güçlü modeldir. (Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir.)
- Kararlı Difüzyon 3.5 Büyük Turbo: Stable Diffusion 3.5 Large’ın kaliteden ödün vererek daha hızlı görüntü oluşturan damıtılmış bir versiyonu.
- Kararlı Difüzyon 3.5 Ortamı: Akıllı telefonlar ve dizüstü bilgisayarlar gibi uç cihazlarda çalışacak şekilde optimize edilmiş, 0,25 ila 2 megapiksel çözünürlükte görüntüler üretebilen bir model.
Stabil Difüzyon 3,5 Büyük ve 3,5 Büyük Turbo bugün mevcut olsa da, 3,5 Orta 29 Ekim’e kadar piyasaya sürülmeyecek.
Stabilite, Stable Diffusion 3.5 modellerinin, “kapsamlı” yönlendirmeye gerek kalmadan daha “çeşitli” çıktılar (yani farklı cilt tonları ve özelliklere sahip insanları gösteren görüntüler) üretmesi gerektiğini söylüyor.
Stability’nin baş teknoloji sorumlusu Hanno Basse, bir röportajda TechCrunch’a şunları söyledi: “Eğitim sırasında, her görüntüye birden fazla bilgi istemi sürümü eklendi ve daha kısa istemlere öncelik verildi.” “Bu, herhangi bir metin açıklaması için görüntü kavramlarının daha geniş ve daha çeşitli dağılımını sağlıyor. Çoğu üretken yapay zeka şirketi gibi, filtrelenmiş halka açık veri kümeleri ve sentetik veriler de dahil olmak üzere çok çeşitli veriler üzerinde eğitim veriyoruz.”
Bazı şirketler geçmişte bu tür “çeşitlendirici” özellikleri görüntü oluşturuculara ustalıkla yerleştirmiş ve bu da sosyal medyada tepkilere yol açmıştı. Örneğin, Google’ın Gemini sohbet robotunun eski bir sürümü, “Roma lejyonu” veya “ABD senatörleri” gibi tarihsel yönlendirmeler için anakronik bir grup rakam gösteriyordu. Google, bir düzeltme geliştirirken yaklaşık altı ay boyunca insanların görsellerini oluşturmayı duraklatmak zorunda kaldı.
Şansımız yaver giderse, Stability’nin yaklaşımı diğerlerinden daha düşünceli olacaktır. Stabilite erken erişim sağlamadığı için maalesef izlenim veremiyoruz.
Stabilite’nin önceki amiral gemisi görüntü oluşturucusu Stable Diffusion 3 Medium, tuhaf yapıları ve yönlendirmelere zayıf uyumu nedeniyle şiddetle eleştirildi. Şirket, Stable Diffusion 3.5 modellerinin benzer yönlendirme hatalarından muzdarip olabileceği konusunda uyarıyor; mühendislik ve mimari değiş tokuşları suçluyor. Ancak Stability aynı zamanda modellerin, 3D sanat da dahil olmak üzere çeşitli farklı tarzlarda görüntüler oluşturma konusunda önceki modellere göre daha sağlam olduğunu da öne sürüyor.
Stability, TechCrunch ile paylaşılan bir blog yazısında şöyle yazdı: “Farklı tohumlarla aynı istemden elde edilen çıktılarda daha büyük farklılıklar meydana gelebilir; bu, temel modellerde daha geniş bir bilgi tabanının ve çeşitli stillerin korunmasına yardımcı olduğu için kasıtlıdır.” “Ancak sonuç olarak, spesifiklikten yoksun yönlendirmeler çıktıda belirsizliğin artmasına neden olabilir ve estetik düzey değişebilir.”
Yeni modellerde değişmeyen tek şey Stability’nin lisansları.
Önceki Stability modellerinde olduğu gibi, Stable Diffusion 3.5 serisindeki modellerin de araştırma dahil “ticari olmayan” amaçlarla kullanımı ücretsizdir. Yıllık geliri 1 milyon dolardan az olan işletmeler de bunları ücretsiz olarak ticarileştirebiliyor. Ancak geliri 1 milyon dolardan fazla olan kuruluşların kurumsal lisans için Stability ile sözleşme yapması gerekiyor.
İstikrar, bu yaz, şirkete görüntü oluşturucularından görüntüler üzerinde eğitilen modeller için ücret alma hakkı veren (veya en azından veriyormuş gibi görünen) kısıtlayıcı ince ayar koşulları nedeniyle heyecan yarattı. Geri tepmeye yanıt olarak şirket, koşullarını daha liberal ticari kullanıma izin verecek şekilde ayarladı. Stabilite, kullanıcıların Stabilite modelleriyle oluşturdukları medyaya sahip olduklarını bugün yeniden doğruladı.
Stability’nin pazarlama ve iletişimden sorumlu başkan yardımcısı Ana Guillén e-postayla yaptığı açıklamada, “Yaratıcıları, çalışmalarını tüm boru hattı boyunca dağıtmaya ve para kazanmaya teşvik ediyoruz” dedi ve “topluluk lisansımızın bir kopyasını bu sitelerin kullanıcılarına sağlamaları koşuluyla” dedi. kreasyonlar ve ilgili web sitelerinde, kullanıcı arayüzlerinde, blog yazılarında, Hakkında sayfalarında veya ürün belgelerinde ‘Stabilite Yapay Zekası Tarafından Desteklenmektedir’ ifadesi belirgin bir şekilde görüntülenir.
Stable Diffusion 3.5 Large ve Diffusion 3.5 Large Turbo, kendi kendine barındırılabilir veya Stability’nin API’si ve Hugging Face, Fireworks, Replicate ve ComfyUI gibi üçüncü taraf platformları aracılığıyla kullanılabilir. Stabilite, önümüzdeki birkaç gün içinde ince ayar yapılmasına olanak tanıyan modeller için ControlNet’leri piyasaya sürmeyi planladığını söylüyor.
Stabilite’nin modelleri, çoğu yapay zeka modeli gibi, kamuya açık web verileriyle eğitilir; bunlardan bazıları telif hakkıyla korunabilir veya kısıtlayıcı bir lisans kapsamında olabilir. İstikrar ve diğer birçok yapay zeka sağlayıcısı, adil kullanım doktrininin kendilerini telif hakkı taleplerinden koruduğunu savunuyor. Ancak bu, veri sahiplerinin giderek artan sayıda toplu dava açmasını engellemedi.
İstikrar, telif hakkı iddialarına karşı kendilerini savunma işini müşterilere bırakıyor ve diğer bazı satıcıların aksine, sorumlu bulunması durumunda herhangi bir ödeme yapılmıyor.
Kararlılık yapmak Ancak veri sahiplerinin, verilerinin eğitim veri kümelerinden kaldırılmasını talep etmelerine izin verin. Şirkete göre Mart 2023 itibarıyla sanatçılar Stable Diffusion’ın eğitim verilerinden 80 milyon görüntüyü kaldırmıştı.
Yaklaşan ABD genel seçimleri ışığında yanlış bilgilendirmeyle ilgili güvenlik önlemleri sorulduğunda Stability, “Stabil Yayılımın kötü aktörler tarafından kötüye kullanılmasını önlemek için makul adımlar attığını ve atmaya devam ettiğini” söyledi. Ancak girişim bu adımlarla ilgili spesifik teknik ayrıntılar vermeyi reddetti.
Mart ayı itibarıyla Stability, yalnızca kendi üretken yapay zeka araçları kullanılarak oluşturulan açıkça “yanıltıcı” içeriği yasakladı; seçimleri etkileyebilecek, seçim bütünlüğüne zarar verebilecek veya politikacıların ve tanınmış kişilerin yer aldığı içerikleri değil.
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.
Kaynak: https://techcrunch.com/2024/10/22/stability-claims-its-newest-stable-diffusion-models-generate-more-diverse-images/