Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Amazon’un AWS AI ekibi Yapay zekanın daha zorlu sorunlarından birini ele almak için tasarlanmış yeni bir araştırma aracını açıkladı: Yapay zeka sistemlerinin dış bilgileri doğru bir şekilde alabilmesini ve yanıtlarına entegre edebilmesini sağlamak.
Araç adı verildi RAGCheckerAlma-Artırılmış Üretim (RAG) sistemlerini değerlendirmeye yönelik ayrıntılı ve incelikli bir yaklaşım sunan bir çerçevedir. Bu sistemler, daha kesin ve bağlamsal olarak uygun yanıtlar üretmek için büyük dil modellerini harici veritabanlarıyla birleştirir; bu, ilk eğitim verilerinin ötesinde güncel bilgilere erişmeye ihtiyaç duyan yapay zeka asistanları ve sohbet robotları için çok önemli bir yetenektir.
RAGChecker’ın kullanıma sunulması, hukuki tavsiye, tıbbi teşhis ve karmaşık finansal analiz gibi güncel ve gerçeklere dayanan bilgiler gerektiren görevler için yapay zekaya güvenen kuruluşların sayısının artmasıyla birlikte geliyor. Amazon ekibine göre, RAG sistemlerini değerlendirmeye yönelik mevcut yöntemler genellikle yetersiz kalıyor çünkü bu sistemlerde ortaya çıkabilecek karmaşıklıkları ve potansiyel hataları tam olarak yakalayamıyorlar.
Araştırmacılar şöyle açıklıyor: “RAGChecker, iddia düzeyinde gereklilik kontrolüne dayanıyor.” onların kağıtlarıBunun, RAG sistemlerinin hem alma hem de oluşturma bileşenlerinin daha ayrıntılı bir analizini mümkün kıldığına dikkat çekiyor. Yanıtları genellikle daha genel bir düzeyde değerlendiren geleneksel değerlendirme metriklerinden farklı olarak RAGChecker, yanıtları bireysel iddialara böler ve sistem tarafından alınan bağlama göre bunların doğruluğunu ve alaka düzeyini değerlendirir.
Şu an itibariyle, RAGChecker’ın Amazon’un araştırmacıları ve geliştiricileri tarafından dahili olarak kullanıldığı ve halka açık bir yayın yapılmadığı görülüyor. Kullanıma sunulduğu takdirde açık kaynaklı bir araç olarak yayınlanabilir, mevcut AWS hizmetlerine entegre edilebilir veya bir araştırma iş birliğinin parçası olarak sunulabilir. Şimdilik, RAGChecker’ı kullanmak isteyenlerin, Amazon’un kullanılabilirliğiyle ilgili resmi duyurusunu beklemesi gerekebilir. VentureBeat, sürümün ayrıntıları hakkında yorum yapmak için Amazon’a ulaştı ve geri dönüş aldığımızda bu hikayeyi güncelleyeceğiz.
Yeni çerçeve yalnızca araştırmacılara veya yapay zeka meraklılarına yönelik değil. İşletmeler için bu, yapay zeka sistemlerini değerlendirme ve iyileştirme konusunda önemli bir gelişmeyi temsil edebilir. RAGChecker, sistem performansına ilişkin bütünsel bir görünüm sunan genel ölçümler sağlayarak şirketlerin farklı RAG sistemlerini karşılaştırmasına ve ihtiyaçlarını en iyi karşılayanı seçmesine olanak tanır. Ancak aynı zamanda bir RAG sisteminin operasyonunun alma veya oluşturma aşamalarındaki belirli zayıflıkları tespit edebilen teşhis ölçümlerini de içerir.
Makale, RAG sistemlerinde meydana gelebilecek hataların ikili yapısını vurgulamaktadır: sistemin en ilgili bilgiyi bulamadığı erişim hataları ve sistemin aldığı bilgileri doğru şekilde kullanmakta zorlandığı jeneratör hataları. Araştırmacılar, “Yanıt olarak ortaya çıkan hataların nedenleri, alma hataları ve oluşturucu hataları olarak sınıflandırılabilir” diye yazdı ve RAGChecker’in ölçümlerinin geliştiricilerin bu sorunları teşhis etmesine ve düzeltmesine yardımcı olabileceğini vurguladı.
Kritik alanlardaki testlerden elde edilen bilgiler
Amazon ekibi, tıp, finans ve hukuk gibi doğruluğun kritik olduğu alanlar da dahil olmak üzere 10 farklı alanı kapsayan bir kıyaslama veri kümesi kullanarak RAGChecker’ı sekiz farklı RAG sisteminde test etti. Sonuçlar, geliştiricilerin dikkate alması gereken önemli tavizleri ortaya çıkardı. Örneğin, ilgili bilgiyi alma konusunda daha iyi olan sistemler aynı zamanda daha ilgisiz verileri de getirme eğilimindedir ve bu da sürecin üretim aşamasında kafa karışıklığına neden olabilir.
Araştırmacılar, bazı RAG sistemlerinin doğru bilgiyi alma konusunda usta olmasına rağmen çoğu zaman alakasız ayrıntıları filtrelemede başarısız olduklarını gözlemledi. Makalede “Jeneratörler parça düzeyinde bir sadakat gösteriyor” ifadesi yer alıyor; bu da ilgili bir bilgi parçası alındıktan sonra, hatalar veya yanıltıcı içerik içerse bile sistemin ona büyük ölçüde güvenme eğiliminde olduğu anlamına geliyor.
Çalışma aynı zamanda GPT-4 gibi açık kaynak ve tescilli modeller arasında da farklılıklar buldu. Araştırmacılar, açık kaynaklı modellerin kendilerine sağlanan bağlama daha körü körüne güvenme eğiliminde olduğunu ve bazen yanıtlarında yanlışlıklara yol açtığını belirtti. Makalede, “Açık kaynak modeller sadıktır ancak bağlama körü körüne güvenme eğilimindedir” denilerek geliştiricilerin bu modellerin muhakeme yeteneklerini geliştirmeye odaklanmaları gerekebileceği öne sürülüyor.
Yüksek riskli uygulamalar için yapay zekanın iyileştirilmesi
Yapay zeka tarafından oluşturulan içeriğe güvenen işletmeler için RAGChecker, sürekli sistem iyileştirmesi açısından değerli bir araç olabilir. Bu sistemlerin bilgiyi nasıl alıp kullandığına ilişkin daha ayrıntılı bir değerlendirme sunan çerçeve, şirketlerin yapay zeka sistemlerinin özellikle riskli ortamlarda doğru ve güvenilir kalmasını sağlamalarına olanak tanıyor.
Yapay zeka gelişmeye devam ettikçe RAGChecker gibi araçlar yenilik ve güvenilirlik arasındaki dengenin korunmasında önemli bir rol oynayacak. AWS AI ekibi, “RAGChecker’ın ölçümlerinin araştırmacılara ve uygulayıcılara daha etkili RAG sistemleri geliştirme konusunda rehberlik edebileceği” sonucuna varıyor; bu iddianın doğrulanması durumunda, AI’nın endüstriler genelinde nasıl kullanıldığı üzerinde önemli bir etkisi olabilir.
Kaynak: https://venturebeat.com/ai/amazon-ragchecker-change-ai-but-you-cant-use-it-yet/