Büyük Dil Modellerinin Güvenilirliği: Yeni Araştırma Sonuçları

ABONE OL

News

1 Ekim 2024 12:12

BEĞENDİM

ABONE OL

News

Büyük Dil Modellerinin Yanıt Güvenilirliği Üzerine Yeni Bir Araştırma

Son zamanlarda gerçekleştirilen bir araştırma, büyük dil modellerinin (LLM) kullanıcıların sorularına yanlış yanıt verme olasılığının, bu sorulara doğru cevap veremediğini kabul etme olasılığından daha yüksek olduğunu ortaya koydu. Bu durum, bu modellerin güvenilirliğini sorgulanır hale getiriyor. Euronews’in haberine göre, İspanya’daki Universitat Politecnica de Valencia’dan yapay zeka (AI) araştırmacıları, BigScience’ın BLOOM, Meta’nın Llama ve OpenAI’nin en son sürümü olan GPT’yi, matematik, fen ve coğrafya konularında binlerce soru ile test ederek doğruluk oranlarını incelemişlerdir.

Araştırmacılar, her bir modelin verdiği yanıtların kalitesini titizlikle karşılaştırmış ve bu yanıtları doğru, yanlış veya kaçıngan cevaplar olarak sınıflandırmışlardır. Nature dergisinde yayımlanan çalışmada, her yeni modelin daha karmaşık problemlerde doğru cevap verme oranının arttığı gözlemlenmiştir. Ancak, bu modellerin bir soruyu doğru yanıtlayıp yanıtlayamadıkları konusunda daha az şeffaf olma eğiliminde oldukları da dikkat çekmektedir.

Önceki LLM modelleri, cevap bulamadıklarını ya da bir sonuca ulaşmak için daha fazla bilgiye ihtiyaç duyduklarını belirtirken, yeni modellerin tahmin yapma yetenekleri ve basit sorulara bile yanlış cevap verme olasılıkları artmıştır.

TEMEL PROBLEMLERİ ÇÖZMEDE BELİRGİN BİR GELİŞME YOK

LLM’ler, veri setlerini anlama, tahmin etme ve bu verilere dayalı yeni içerikler üretme yeteneğine sahip derin öğrenme algoritmaları olarak tanımlanmaktadır. Yeni nesil modeller, daha karmaşık sorunları daha doğru bir şekilde çözebilme kapasitesine sahipken, çalışmada incelenen LLM’ler temel düzeyde soruları yanıtlarken hala bazı hatalar yapmaya devam etmektedir. Araştırmaya göre, çok düşük zorluk seviyelerinde bile tam bir güvenilirlik sağlanamamaktadır.

Modeller, son derece zorlu örnekleri çözebilse de, çok basit sorularda başarısız olma eğilimindedir. Örneğin, OpenAI’nin GPT-4 modelinde de benzer bir durum gözlemlenmektedir; “kaçıngan” yanıtların sayısı, bir önceki model olan GPT-3.5’e kıyasla önemli ölçüde azalmıştır. Çalışmanın yazarları, “Bu durum, daha yeni LLM’lerin kendi çalışma aralıkları dışında yanıt vermekten daha başarılı bir şekilde kaçınacağı beklentisiyle çelişiyor,” ifadesini kullanmıştır.

Araştırmacılar, teknoloji ölçeklendirilmiş olsa bile bu modeller için “belirgin bir gelişme olmadığı” sonucuna ulaşmışlardır.