Salı günü düzenlenen re:Invent konferansında, Amazon’un bulut bilişim bölümü Amazon Web Services (AWS), Nova adını verdiği yeni bir multimodal üretken yapay zeka modelleri ailesini duyurdu.
Toplamda dört metin oluşturma modeli vardır: Micro, Lite, Pro ve Premier. Amazon CEO’su Andy Jassy sahnede yaptığı açıklamada, Micro, Lite ve Pro’nun Salı günü AWS müşterilerine sunulacağını, Premier’in ise 2025’in başlarında geleceğini söyledi.
Bunlara ek olarak, bir görüntü oluşturma modeli olan Nova Canvas ve bir video oluşturma modeli olan Nova Reel de bulunmaktadır. Her ikisi de bu sabah AWS’de başlatıldı.
Jassy şöyle konuştu: “Kendi sınır modellerimiz üzerinde çalışmaya devam ettik ve bu sınır modelleri son dört ila beş ayda muazzam bir ilerleme kaydetti. Ve eğer biz onlardan değer buluyorsak, sizin de muhtemelen onlardan değer bulacağınızı düşündük.”
Mikro, Lite, Pro ve Premier
15 dil (ancak öncelikle İngilizce) için optimize edilmiş metin üreten Nova modelleri, çok çeşitli boyut ve yeteneklere sahiptir.
Micro yalnızca metni alıp metnin çıktısını alabilir, ancak gruptaki en düşük gecikmeyi sağlar; metni en hızlı şekilde işler ve yanıtlar üretir.
Lite, resim, video ve metin girişlerini oldukça hızlı bir şekilde işleyebilir. Pro, çeşitli görevler için doğruluk, hız ve maliyetin dengeli bir kombinasyonunu sunar. Ve Premier, karmaşık iş yükleri için tasarlanmış en yetenekli olanıdır.
Pro ve Premier, Lite gibi metin, görsel ve videoları analiz edebilir. Üçü de belgeleri özetlemek ve çizelgeleri, toplantıları ve diyagramları özetlemek gibi görevler için çok uygundur. Ancak AWS, Premier’i kendi başına kullanılacak bir modelden ziyade, ayarlanmış özel modeller oluşturmaya yönelik bir “öğretmen” modeli olarak konumlandırıyor.
Micro’nun 128.000 jetonluk bir bağlam penceresi vardır, bu da yaklaşık 100.000 kelimeye kadar işleyebileceği anlamına gelir. Lite ve Pro, yaklaşık 225.000 kelimeye, 15.000 satır bilgisayar koduna veya 30 dakikalık görüntüye karşılık gelen 300.000 jetonlu bağlam penceresine sahiptir.
AWS, 2025’in başlarında bazı Nova modellerinin içerik pencerelerinin 2 milyondan fazla tokenı destekleyecek şekilde genişleyeceğini söylüyor.
Jassy, Nova modellerinin kendi sınıflarının en hızlıları ve çalıştırması en ucuz modeller arasında olduğunu iddia ediyor. Bunlar, Amazon’un yapay zeka geliştirme platformu olan AWS Bedrock’ta mevcuttur; burada metin, görsel ve video üzerinde ince ayarlar yapılabilir ve daha iyi hız ve daha yüksek verimlilik için ayrıştırılabilirler.
Jassy, ”Bu modelleri özel sistemler ve API’lerle çalışacak şekilde optimize ettik, böylece birden fazla düzenlenmiş otomatik adımı (aracı davranışını) bu modellerle çok daha kolay bir şekilde gerçekleştirebilirsiniz” diye ekledi. “Bu yüzden bunların çok ilgi çekici olduğunu düşünüyorum.”
Kanvas ve Makara
Canvas ve Reel, AWS’nin üretken medya için şimdiye kadarki en güçlü oyunu.
Canvas, kullanıcıların istemleri kullanarak görseller oluşturmasına ve düzenlemesine olanak tanır (örneğin, arka planları kaldırmak için) ve oluşturulan görsellerin renk şemaları ve düzenleri için kontroller sağlar. İki modelden daha iddialı olanı olan Reel, istemlerden veya isteğe bağlı olarak referans görsellerinden altı saniyeye kadar uzunlukta videolar oluşturuyor. Kullanıcılar, Reel’i kullanarak kaydırma, 360 derece döndürme ve yakınlaştırma içeren videolar oluşturmak için kamera hareketini ayarlayabilir.
Reel şu anda altı saniyelik videolarla sınırlıdır (oluşturulması yaklaşık üç dakika sürer), ancak AWS’ye göre iki dakikalık videolar oluşturabilen bir sürüm “yakında gelecek”.
İşte bir örnek:
Ve bir tane daha:
Ve işte Canvas’tan görüntüler:
Jassy, hem Canvas hem de Reel’in filigranlama ve içerik denetimi de dahil olmak üzere sorumlu kullanıma yönelik “yerleşik” kontrollere sahip olduğunu vurguladı. “[We’re trying] Zararlı içerik oluşumunu sınırlandırmak için” dedi.
AWS, bir blog gönderisinde güvenlik önlemlerini genişletti ve Nova’nın “genişlediğini” söyledi. [its] Yanlış bilgilerin yayılması, çocuklara yönelik cinsel istismar materyalleri ve kimyasal, biyolojik, radyolojik veya nükleer risklerle mücadele etmek için güvenlik önlemleri.” Ancak bunun pratikte ne anlama geldiği ya da bu önlemlerin ne şekilde olacağı açık değil.
AWS ayrıca tüm üretken modellerini eğitmek için tam olarak hangi verileri kullandığı konusunda da belirsizliğini koruyor. Şirket daha önce TechCrunch’a yalnızca bunun özel ve lisanslı verilerin bir kombinasyonu olduğunu söylemişti.
Çok az satıcı bu tür bilgileri isteyerek açıklar. Eğitim verilerini rekabet avantajı olarak görüyorlar ve bu nedenle bunları ve buna ilişkin bilgileri sıkı bir şekilde korunan bir sır olarak saklıyorlar. Eğitim verilerinin ayrıntıları aynı zamanda fikri mülkiyetle ilgili davaların da potansiyel bir kaynağıdır; bu da pek çok şeyin ortaya çıkmasını engelleyen başka bir engeldir.
AWS, şeffaflık yerine, modellerinden birinin potansiyel olarak telif hakkıyla korunan bir fotoğrafın yeniden ortaya çıkması (yani kopyasının kopyası çıkması) durumunda müşterileri kapsayan bir tazminat politikası sunmaktadır.
Peki Nova için sırada ne var? Jassy, AWS’nin 2025’in ilk çeyreği için konuşmadan konuşmaya modeli (konuşmayı alıp dönüştürülmüş bir versiyonunu çıkaracak bir model) ve 2025’in ortaları için “herhangi birinden herhangi birine” modeli üzerinde çalıştığını söylüyor. .
Amazon, konuşmadan konuşmaya modelinin ton ve ritim gibi sözlü ve sözsüz ipuçlarını da yorumlayabileceğini ve doğal, “insan benzeri” sesler sunabileceğini söylüyor. Herhangi birinden herhangi birine modele gelince, teorik olarak çevirmenlerden içerik editörlerine ve yapay zeka asistanlarına kadar tüm uygulamalara güç sağlayacak.
Elbette herhangi bir aksilik yaşamayacağını varsayıyoruz.
Jassy, herhangi birinden herhangi birine modeli hakkında şunları söyledi: “Metin, konuşma, resim veya video girişi yapabilecek ve metin, konuşma, resim veya videonun çıktısını alabileceksiniz.” “Bu, öncü modellerin nasıl inşa edileceğinin ve tüketileceğinin geleceği.”
Kaynak: https://techcrunch.com/2024/12/03/amazon-announces-nova-a-new-family-of-multimodal-ai-models/