Endüstri lideri AI kapsamındaki en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Openai’nin ilk “Omni” veya multimodal modelini, Mayıs 2024’te GPT-4O’yu yayınladığından beri bir yıllık yıldönümünde geliyoruz, ancak eski bekleme hala bazı hileler var.
Case-in Point, bugün Openai sonunda yerel çok modlu görüntü oluşturma özelliklerini açtı GPT-4O, Plus, Pro, Team ve ücretsiz kullanım katmanlarındaki hit chatbot Chatgpt kullanıcıları için, ancak şirket yakında Enterprise, EDU ve uygulama programlama arayüzü (API) aracılığıyla sunulacağını söyledi.
ChatGPT’de bulunan önceki üretken AI görüntü modelinin aksine – Openai’s Dall-E 3piksellerden gürültüyü kaldırarak metin istemlerinden görüntüleri yeniden yapılandırmak için eğitilmiş klasik bir difüzyon transformatör modeli – bu yeni görüntü jeneratörü, openai tüm modeli aynı anda anlamak için tüm modeli eğitti.
Openai Başkanı Greg Brockman Uzun zaman önce Mayıs 2024’te GPT-4O’nun bu yerel yeteneğini önizlemişti, ancak halka açık olarak bilinmeyen nedenlerden dolayı, şirket şimdiye kadar tuttu-birçok AI Power kullanıcısının benzer bir özellik olarak gördüklerinin halka açık olarak yayınlanmasının ardından Gemini 2 Flash Deneysel Modeli ile Google AI Studio.
Bu, çok daha gerçekçi görüntüler ve pişirilmiş doğru metin üreten çok daha yüksek kaliteli bir görüntü üreticisi ile sonuçlandı ve zaten kullanıcıları etkiliyor – biri kaliteyi çağırıyor ”inanılmaz. “
Aynı jetonla (pun amaçlı), Openai hala GPT-4O’nun görüntü oluşturma yeteneklerinin hangi verilerin eğitildiğini tam olarak söylemedi-ve şirketin ve diğer model sağlayıcıların geçmişi göz önüne alındığında, muhtemelen web’den kazınmış, muhtemelen telif hakkıyla korunan, bunların arkasındaki sanatçıları öfkelendirmesi muhtemel.
Chatgpt ve Sora’ya görüntü üretimi getirme
Openai uzun zamandır görüntü üretimini AI modellerinin temel bir yeteneği haline getirmeyi amaçlamıştır. GPT-4O ile kullanıcılar artık doğrudan ChatGPT’de görüntüler oluşturabilir, bunları konuşma yoluyla rafine edebilir ve detayları anında ayarlayabilir.
Model ayrıca Openai’nin video nesil platformu Sora’ya entegre olur ve multimodal yetenekleri daha da genişletir.
X ile ilgili bir duyuruda Openai, GPT-4O’nun görüntü üretiminin şu şekilde tasarlandığını doğruladı:
- Görüntülerin, menülerin, davetiyelerin ve infographics’in oluşturulmasına izin veren görüntüler içinde doğru bir şekilde metin oluşturun.
- Ayrıntılı kompozisyonlarda bile yüksek sadakatini koruyarak karmaşık bilgi istemlerini hassasiyetle takip edin.
- Birden çok etkileşim arasında görsel tutarlılık sağlayarak önceki görüntüler ve metin üzerine inşa edin.
- Fotogeralizmden stilize çizimlere kadar çeşitli sanatsal stilleri destekleyin.
Kullanıcılar, en boy oranı, renk şemaları (onaltılık kodlar) veya şeffaflık gibi ayrıntıları belirten chatgpt’teki bir görüntüyü tanımlayabilir ve GPT-4O bir dakika içinde üretecektir.
Bağımsız AI danışmanı Allie K. Miller’ın X’de yazdığı gibi, bu bir “Metin üretiminde büyük sıçrama”Ve gördüğü“ en iyi ”yapay zeka imaj üretimi modeli.
Temel yetenekler ve kullanım durumları
GPT-4O, görüntü üretimini sadece görsel olarak çarpıcı değil, aynı zamanda pratik hale getirmek için tasarlanmıştır. Temel uygulamalardan bazıları şunlardır:
- Tasarım ve Markalaşma – Hassas metin yerleştirme ile logolar, posterler ve reklamlar oluşturun.
- Eğitim ve Görselleştirme – Öğrenme için bilimsel diyagramlar, infografikler ve tarihsel görüntüler oluşturun.
- Oyun Geliştirme – Farklı tasarım yinelemeleri arasında karakter tutarlılığını koruyun.
- Pazarlama ve İçerik Oluşturma – Sosyal medya varlıkları, etkinlik davetiyeleri ve marka ihtiyaçlarına göre uyarlanmış dijital resimler üretin.
GPT-4O, Dall-E üzerinden üretken görüntüleri nasıl geliştirir
Openai’nin X’teki resmi iş parçacığına göre, GPT-4O önceki modellere göre çeşitli iyileştirmeler sunuyor:
- Daha iyi metin entegrasyonu: Okunabilir, iyi yerleştirilmiş metinle mücadele eden geçmiş AI modellerinin aksine, GPT-4O artık kelimeleri görüntülere doğru bir şekilde gömebilir.
- Geliştirilmiş bağlamsal anlayış: GPT-4O, sohbet geçmişinden yararlanır ve kullanıcıların görüntüleri etkileşimli olarak geliştirmelerine ve birden fazla nesilde tutarlılığı korumasına olanak tanır.
- Geliştirilmiş çok nesneli bağlama: Önceki modeller bir sahnede birçok farklı nesneyi doğru bir şekilde konumlandırmakta güçlük çekerken, GPT-4O artık aynı anda 10-20 nesneyi işleyebilir.
- Çok yönlü stil uyarlaması: Model, elle çizilmiş eskizlerden yüksek çözünürlüklü fotogeralizme kadar görüntüleri çeşitli stillere dönüştürebilir veya dönüştürebilir.
Sınırlamalar
Gelişmelerine rağmen, GPT-4O’nun hala bilinen bazı zorlukları var:
- Kırpma sorunları: Posterler gibi büyük görüntüler bazen çok sıkı bir şekilde kırpılabilir.
- Latin olmayan komut dosyalarında metin doğruluğu: Bazı İngilizce olmayan karakterler doğru bir şekilde işlenmeyebilir.
- Küçük metinde detay tutma: Oldukça ayrıntılı veya küçük yazı metni netliği kaybedebilir.
- Düzenleme Hassasiyeti: Bir görüntünün belirli kısımlarını değiştirmek yanlışlıkla diğer unsurları etkileyebilir.
Openai, devam eden model iyileştirmeleri yoluyla bu sorunları aktif olarak ele almaktadır.
Güvenlik ve etiketleme önlemleri
Openai’nin sorumlu AI gelişimine olan bağlılığının bir parçası olarak, tüm GPT-4O-oluşturulan görüntüler, kullanıcıların AI kökenlerini doğrulamalarına izin veren C2PA meta verilerini içerir.
Ayrıca, Openai, AI tarafından oluşturulan görüntüleri tespit etmeye yardımcı olmak için dahili bir arama aracı oluşturmuştur.
Zararlı, aldatıcı veya zararlı görüntüleri yasaklamak gibi zararlı içeriği engellemek ve kötüye kullanımı önlemek için katı önlemler mevcuttur.
Openai ayrıca, gerçek insanları içeren görüntülerin artan kısıtlamalara tabi olmasını sağlar.
Openai CEO’su Sam Altman açıkladı “Yaratıcı özgürlük için yeni bir yüksek su işareti” olarak yayınlanarak, kullanıcıların gerçek dünya kullanımına dayalı yaklaşımını gözlemleyip geliştirmesiyle kullanıcıların çok çeşitli görseller oluşturabileceğini vurguladı.
AI tarafından üretilen görüntüler daha hassas ve erişilebilir hale geldikçe, GPT-4O, metin neslini iletişim, yaratıcılık ve üretkenlik için ana akım bir araç haline getirmede önemli bir adımdır.
Kaynak: https://venturebeat.com/ai/insane-openai-introduces-gpt-4o-native-image-generation-and-its-already-wowing-users/