Üretken yapay zeka modelleri, sağlık hizmetleri ortamlarına giderek daha fazla, belki de bazı durumlarda erken getiriliyor. İlk benimseyenler, aksi takdirde gözden kaçacak öngörüleri ortaya çıkarırken artan verimliliğin kilidini açacaklarına inanıyorlar. Bu arada eleştirmenler, bu modellerin daha kötü sağlık sonuçlarına katkıda bulunabilecek kusurları ve önyargıları olduğuna dikkat çekiyor.
Ancak bir modelin hasta kayıtlarını özetlemek veya sağlıkla ilgili soruları yanıtlamak gibi şeylerle görevlendirildiğinde ne kadar yararlı veya zararlı olabileceğini bilmenin niceliksel bir yolu var mı?
Yapay zeka girişimi Hugging Face, Open Medical-LLM adı verilen yeni yayınlanan bir kıyaslama testinde bir çözüm öneriyor. Kâr amacı gütmeyen Open Life Science AI ve Edinburgh Üniversitesi Doğal Dil İşleme Grubu’ndaki araştırmacılarla ortaklaşa oluşturulan Open Medical-LLM, üretken yapay zeka modellerinin tıbbi bir dizi görevdeki performansını değerlendirmeyi standartlaştırmayı amaçlıyor.
Açık Tıp-LLM bir sıfırdan kendi başına bir kıyaslama olmaktan ziyade, genel tıbbi bilgi ve anatomi, farmakoloji, genetik ve klinik uygulama gibi ilgili alanlara yönelik modelleri araştırmak üzere tasarlanmış mevcut test setlerinin (MedQA, PubMedQA, MedMCQA ve benzeri) bir araya getirilmesidir. Karşılaştırmalı değerlendirme, ABD ve Hindistan tıbbi lisans sınavları ve üniversite biyoloji testi soru bankaları dahil olmak üzere materyallerden yararlanılarak, tıbbi muhakeme ve anlayış gerektiren çoktan seçmeli ve açık uçlu sorular içermektedir.
“[Open Medical-LLM] Hugging Face bir blog yazısında, araştırmacıların ve uygulayıcıların farklı yaklaşımların güçlü ve zayıf yönlerini tespit etmelerine, alanda daha fazla ilerleme kaydetmelerine ve sonuçta daha iyi hasta bakımı ve sonuçlarına katkıda bulunmalarına olanak tanıyor” diye yazdı.
Hugging Face, referansı sağlık hizmetine bağlı üretken yapay zeka modellerinin “sağlam bir değerlendirmesi” olarak konumlandırıyor. Ancak sosyal medyadaki bazı tıp uzmanları, yanlış bilgilendirilmiş dağıtımlara yol açmaması için Open Medical-LLM’ye çok fazla stok konulmaması konusunda uyarıda bulundu.
Alberta Üniversitesi’nde nöroloji alanında asistan doktor olan Liam McCoy, X hakkında, tıbbi soru cevaplamanın “yapma ortamı” ile tıbbi soru cevaplama arasındaki boşluğa dikkat çekti. gerçek klinik uygulama oldukça geniş olabilir.
Blog yazısının ortak yazarı olan Hugging Face araştırma bilimcisi Clémentine Fourrier de aynı görüşte.
“Bu skor tabloları yalnızca ilk tahmin olarak kullanılmalı. [generative AI model] Belirli bir kullanım durumunu araştırmak için, ancak daha sonra modelin sınırlarını ve gerçek koşullardaki uygunluğunu incelemek için her zaman daha derin bir test aşamasına ihtiyaç vardır.” Fourrier yanıtladı X üzerinde. “Tıbbi [models] Kesinlikle hastalar tarafından tek başına kullanılmamalı, bunun yerine tıp doktorlarına destek aracı olacak şekilde eğitilmelidir.”
Tayland’daki sağlık sistemlerine diyabetik retinopati için bir yapay zeka tarama aracı getirmeye çalışan Google’ın deneyimini akla getiriyor.
Google, görme kaybının önde gelen nedenlerinden biri olan retinopatiye dair kanıt arayan, gözün görüntülerini tarayan bir derin öğrenme sistemi oluşturdu. Ancak yüksek teorik doğruluğa rağmen aracın gerçek dünyadaki testlerde pratik olmadığı ortaya çıktı; tutarsız sonuçlar ve sahadaki uygulamalarla genel uyum eksikliği nedeniyle hem hastaları hem de hemşireleri hayal kırıklığına uğrattı.
ABD Gıda ve İlaç İdaresi’nin bugüne kadar onayladığı 139 yapay zeka ile ilgili tıbbi cihazdan hiçbirinin üretken yapay zeka kullanmadığı belirtiliyor. Üretken bir yapay zeka aracının laboratuvardaki performansının hastanelere ve ayakta tedavi kliniklerine nasıl yansıyacağını ve belki daha da önemlisi sonuçların zaman içinde nasıl bir eğilim gösterebileceğini test etmek son derece zordur.
Bu, Open Medical-LLM’nin yararlı veya bilgilendirici olmadığı anlamına gelmez. Sonuç sıralama tablosu, başka hiçbir şey olmasa bile, nasıl olduğunu hatırlatıyor kötü modeller temel sağlık sorularına yanıt verir. Ancak Open Medical-LLM ve bu konuda başka hiçbir kriter, dikkatlice düşünülmüş gerçek dünya testlerinin yerini almaz.
Kaynak: https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası