Yapay Zeka Modellerinin Performans Analizi: Başarı Dağılımı ve Hata Türleri

ABONE OL

News

30 Aralık 2025 21:24

BEĞENDİM

ABONE OL

News

Bir dizi yapay zeka modelinin özellikle farklı konulardaki performanslarına dair bir karşılaştırma yapıldı. ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) adlı modeller, aynı sorulara yanıt ararken doğruluk oranlarında belirgin farklılıklar gösterdi. Genel tablo, yaklaşık olarak %45 ile %63 aralığında bir başarı yelpazesine işaret etti ve Gemini bu değerlendirmede en üst sırada yer aldı. Ancak bu, her 10 sorunun yaklaşık 4’ünün yanlış cevaplandığı anlamına geliyor; Grok bu durumu hemen yakından takip etti.

DeepSeek yüzde 52 ile üçüncü, ChatGPT ise yaklaşık %49,4 doğrulukla dördüncü sırada kaldı. Listenin son sıralarında %45,2 ile Claude bulunuyor. Sonuçlar, kategoriler arası farkların özellikle matematik ve dönüşümler alanında belirginleştiğini gösterdi; Gemini bu kategoride %83’lük bir başarı elde ederken Grok %76,9 ve DeepSeek %74,1 ile onları takip etti. Bu bölümün ortalama doğruluk oranı %72,1 olarak kaydedildi. Fizik kategorisi ise en düşük başarıya sahip alan olarak dikkat çekti ve 128 soruluk sınavda ortalama doğruluk yalnızca %35,8 olarak ölçüldü; Grok bu alanda da liderliğini %43,8 ile sürdürdü, Claude ise sadece %26,6 ile geride kaldı.

Yapay Zeka Modellerinin Performans Analizi: Başarı Dağılımı ve Hata Türleri

Biyoloji ve kimya gibi alanlarda ise DeepSeek’in performansı beklenenin çok altında kaldı ve yalnızca %10,6 doğruluk elde edildi. Finans ve ekonomi konularında Grok ve Gemini %76,7 ile en yüksek oranları paylaşırken, genel olarak güvenilirlik seviyesinin mutlak güvence sunmadığı değerlendirildi.

Çapraz kontrol şartı görüşünü paylaşan araştırmanın yazarlarından Dawid Siuda, yapay zeka modellerinin doğruluklarının hâlâ sınırlı olduğunu belirterek, kritik görevlerde hesap makineleri ya da başka bir yapay zeka modeliyle çapraz kontrolün yapılması gerektiğini vurguladı. Çalışma, yapay zekaların yaptığı hataları dört ana kategoride topladı: özensiz matematik (yüzde 68), hatalı mantık (yüzde 26), talimatı yanlış anlama (yüzde 5) ve vazgeçme. En yaygın hata türü, doğru formül kullanılsa bile hesaplamalarda görülen basit hatalardan kaynaklandı. Özellikle çok adımlı işlemlerdeki yuvarlama hatalarının sonuçları ciddi biçimde saptırdığı tespit edildi. Bu bulgular, günlük hesaplamalarda yapay zekaların kullanıma uygun olsa da mutlak güvenilirlik taşımadığını gösteriyor; kullanıcıların sonuçları dikkatle kontrol etmeyi ihmal etmemesi gerekiyor.