Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Startup’ın üzerinden çok zaman geçmedi Cognition, Devin ürünüyle akıllara durgunluk veriyorduarka uçta OpenAI’nin GPT-4 temel büyük dil modeli (LLM) tarafından desteklenen, doğal dildeki metinde talimatlar verildiğinde kodu özerk bir şekilde yazıp düzenleyebilen yapay zeka tabanlı bir yazılım mühendisi.
Ancak Devin, Mart 2024’te, yani beş ay önce, hızlı hareket eden üretken yapay zeka alanında sonsuzluk boyunca ortaya çıktı.
Şimdi ise “C” başlıklı başka bir girişim olan Cosine, saygın Y Combinator başlangıç hızlandırıcısı San Francisco’da var kendi yeni otonom yapay zeka destekli mühendisi Genie’yi duyurduDevin’den kolayca daha iyi performans gösterdiğini, üçüncü taraf kıyaslama testi SWE-Bench’te Devin’in %13,8’ine kıyasla %30 puan aldığını ve hatta Amazon’un Q ve Factory Code Droid’inin puanladığı %19’u aştığını söylüyor.
“Bu model bir kıyaslama puanından çok daha fazlasıdır: başından beri bir insan SWE gibi düşünmek ve davranmak üzere eğitilmiştir. [software engineer]Cosine’in kurucu ortağı ve CEO’su Alistair Pullen şöyle yazdı: X sosyal ağındaki hesabında yayınlayın.
Genie nedir ve neler yapabilir?
Genie, insan mühendisler veya yöneticiler tarafından talimat verildiği şekilde, hata düzeltmeden özellik oluşturmaya, kodu yeniden düzenlemeye ve kapsamlı testlerle doğrulamaya kadar çok çeşitli kodlama görevlerini özerk bir şekilde ele almak üzere tasarlanmış gelişmiş bir yapay zeka yazılım mühendisliği modelidir.
Tamamen özerk olarak veya kullanıcılarla işbirliği içinde çalışır ve yetenekli bir meslektaşla birlikte çalışma deneyimi sunmayı amaçlar.
Pullen, “Uçtan uca programlama görevlerini hiçbir müdahale olmadan ve yüksek derecede güvenilirlikle, gerçekten otomatik olarak gerçekleştirebilecek bir şey – yapay bir meslektaş – oluşturma hayalinin peşinde koşuyorduk,” diye yazdı Genie, tam olarak bunu yapmanın ilk adımıdır,” diye yazdı Pullen Cosine blog yazısında duyuruluyor Genie’nin performansı ve sınırlı, yalnızca davetle kullanılabilirliği.
Yapay zeka çok sayıda dilde yazılım yazabilir; kendi listesinde 15 tane listelenmiştir. teknik rapor aşağıdakileri içeren veri kaynakları olarak:
- JavaScript
- Python
- TypeScript
- TSX
- Java
- C#
- C++
- C
- Pas
- Scala
- Kotlin
- Süratli
- Golang
- PHP
- Yakut
Cosine, Genie’nin insan mühendislerin bilişsel süreçlerini taklit edebileceğini iddia ediyor.
Pullen blog yazısında şöyle açıklıyor: “Bu konudaki tezim basit: bir insan mühendisin işini nasıl yaptığını izlemesini ve bu süreci taklit etmesini sağlayın.”
Uzun bağlamlı OpenAI modeliyle güçlendirilmiştir
Birkaç araçla desteklenen temel modellere dayanan birçok yapay zeka modelinin aksine Genie, eğitim ve ince ayar yapılmasını içeren özel bir süreçle geliştirildi. OpenAI’den token çıktısı AI modeline .
Pullen, VentureBeat’e e-posta yoluyla şunları yazdı: “Kullandığımız model açısından, OpenAI’nin deneysel erişim programının bir parçası olarak eğitim vermemize izin verdiği (şu anda) genel kullanıma sunulmayan bir GPT-4o çeşididir.” “Model iyi performans gösterdi ve bunun sonucunda öğrendiklerimizi OpenAI ince ayar ekibi ve mühendislik liderleriyle paylaştık. Bu bizim için gerçek bir dönüm noktasıydı çünkü onları yeni tekniklerimize kaynak ve dikkat yatırmaya ikna etti.”
Kosinüs belirli bir modeli belirtmese de, OpenAI yakın zamanda yeni bir GPT-4o Uzun Çıkış Bağlamı modelinin sınırlı sayıda mevcut olduğunu duyurdu GPT-4o’nun başlangıçtaki 4.000 jetonu yerine 64.000 jetona kadar çıktı üretebilir; bu, 16 kat artış demektir.
Eğitim verileri önemliydi
“En son eğitim çalışması için Genie milyarlarca token veri üzerinde eğitildi ve bunların karışımı, modeli kullanıcılarımızın şu anda en çok önemsediği diller konusunda mümkün olduğunca yetkin hale getirmek için seçildi.” diye yazdı Pullen, Cosine’in menajer hakkındaki teknik raporunu sundu.
Kapsamlı bağlam penceresi ve sürekli iyileştirme döngüsüyle Genie, istenen sonucu karşılayana kadar çözümlerini yineler ve geliştirir.
Kosinüs diyor ki onun blog yazısı gerçek mühendislerin geniş yelpazedeki yazılım geliştirme faaliyetlerini içeren bir veri kümesinin küratörlüğünü yapmak için neredeyse bir yıl harcadığını söyledi.
Pullen blog yazısında “Ancak pratikte bunu elde etmek ve daha sonra bu verileri etkili bir şekilde kullanmak son derece zordur, çünkü aslında mevcut değildir” diye ekledi. “Veri hattımız, büyük miktarda etiketli veri üzerinde eğitilmiş yapay zeka, statik analiz, kendi kendine oynatma, adım adım doğrulama ve ince ayarlı yapay zeka modellerinin bir kombinasyonunu kullanarak, adli olarak meydana gelmiş olması gereken ayrıntılı süreci türetiyor. nihai çıktıya ulaştık. Veri etiketlemenin etkisi hafife alınamaz; yetkili yazılım mühendislerinden çok yüksek kalitede veri elde etmek zordur, ancak geliştiricilerin sorunlara yaklaşma konusunda üstü kapalı olarak nasıl düşündüklerine dair çok fazla fikir verdiği için sonuçlar buna değdi.”
Pullen, VentureBeat’e gönderdiği bir e-postada şunu açıkladı: “PR’ler, taahhütler, OSS depolarından (MIT lisanslı) gelen sorunlar gibi işlerini yapan SWE’lerin eserleriyle başladık ve ardından adli olarak gerekçeyi türetmek, nasıl yeniden yapılandırmak için bu verileri hattımız üzerinden çalıştırdık. insanlar yaptıkları sonuçlara vardılar. Bu özel veri seti, v1’i eğittiğimiz şeydi ve ardından yolun geri kalanını bize ulaştırmak için kendi kendine oynama ve kişisel geliştirmeyi kullandık.”
Bu veri seti yalnızca mükemmel bilgi kökenini ve artan bilgi keşfini temsil etmekle kalmıyor, aynı zamanda insan mühendislerin adım adım karar verme sürecini de yansıtıyor.
“Aslında eğitim Pullen, “Herkesin yaptığı gibi, basit bir şekilde temel modelleri yönlendirmek yerine, bu veri kümesiyle modellerimizde artık yalnızca bazı işler işe yarayana kadar rastgele kod üretmediğimizi, sorunlarla insan gibi mücadele ettiğimizi gördük” dedi.
Çıkarımlar ve Gelecekteki Gelişmeler
Genie’nin lansmanının, özellikle üretkenliği artırmak ve rutin görevlere harcanan zamanı azaltmak isteyen yazılım geliştirme ekipleri için geniş kapsamlı etkileri var. Karmaşık programlama zorluklarını özerk bir şekilde ele alma yeteneği sayesinde Genie, mühendislik kaynaklarının tahsis edilme şeklini potansiyel olarak dönüştürebilir ve ekiplerin daha stratejik girişimlere odaklanmasına olanak tanıyabilir.
Pullen, “Mühendislik kaynaklarının artık bir kısıtlama olmadığı bir geleceğe doğru hızla ilerliyoruz” dedi. “Bilinmeyen bir kod tabanına atlayabilen, görünmeyen sorunları çözebilen ve bunu bir insandan çok daha hızlı yapabilen bir yapay zeka meslektaşının değeri ortadadır.”
Cosine’nin Genie’nin gelecekteki gelişimi için iddialı planları var. Şirket, model portföyünü, daha basit görevler için daha küçük modelleri ve daha karmaşık zorlukların üstesinden gelebilecek daha büyük modelleri içerecek şekilde genişletmeyi planlıyor. Ek olarak Cosine, önde gelen açık kaynak modellerinden birini bağlamsal olarak genişleterek ve geniş bir veri kümesi üzerinde ön eğitim vererek çalışmalarını açık kaynak topluluklarına genişletmeyi planlıyor.
Kullanılabilirlik ve Sonraki Adımlar
Genie hali hazırda belirli kullanıcılara sunuluyor olsa da daha geniş erişim hâlâ yönetiliyor.
İlgilenen taraflar, Genie’yi projelerinde denemek için web sitesindeki bir web formunu doldurarak erken erişim başvurusunda bulunabilirler. Kosinüs web sitesi.
Cosine, müşteri geri bildirimlerine dayalı olarak Genie’nin yeteneklerine yönelik düzenli güncellemeler gönderme planlarıyla sürekli iyileştirme kararlılığını sürdürüyor.
Pullen, “SWE-Bench yakın zamanda gönderim gereksinimlerini yapay zeka modellerinin tam çalışma sürecini içerecek şekilde değiştirdi; bu da özel metodolojilerin açıklanmasını gerektireceğinden bizim için zorluk teşkil ediyor” dedi. “Şimdilik bu dahili süreçleri gizli tutmaya karar verdik, ancak Genie’nin nihai çıktılarını GitHub’da bağımsız doğrulama için kamuya açık hale getirdik.”
Kosinüs hakkında daha fazla bilgi
Kosinüs, yapay zekaya bu görevleri taklit etmeyi, bu görevleri başarıyla tamamlamayı ve genişletmeyi öğretmek amacıyla, insanların görevleri nasıl yerine getirdiğini araştırmaya ve kodlamaya odaklanan bir insan akıl yürütme laboratuvarıdır.
2022’de kuruldu Pullen, Sam Stenner ve Yang Li tarafından yazılan şirketin misyonu, yazılım mühendisliğinden başlayarak karmaşık sorunları çözmek için insan aklını uygulayarak yapay zekanın sınırlarını zorlamak.
Küçük ama son derece yetenekli bir ekiple Cosine, yapay zeka alanında şimdiden önemli ilerlemeler kaydetti ve Genie yalnızca bir başlangıç.
Pullen duyuru blog yazısında, “Herhangi bir iş ve sektör için insani muhakemeyi kodlayabileceğimize gerçekten inanıyoruz” dedi. “Yazılım mühendisliği sadece en sezgisel başlangıç noktasıdır ve üzerinde çalıştığımız diğer her şeyi size göstermek için sabırsızlanıyoruz.”
Kaynak: https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/