Üç Taraflı Turing Testinde GPT-4.5’in Başarısı

ABONE OL

News

13 Nisan 2025 21:24

BEĞENDİM

ABONE OL

News

Üç Taraflı Turing Testinde Yeni Başarılar

31 Mart 2023 tarihinde arXiv platformunda yayımlanan ancak henüz hakem değerlendirmesinden geçmemiş yeni bir araştırmada, üç taraflı Turing testinde farklı yapay zeka modellerinin karşılaştırılması gerçekleştirildi. Bu testin sonuçları, GPT-4.5 modelinin katılımcıların büyük bir kısmını kandırmayı başardığını ortaya koydu. Önceki çalışmalarda ise GPT-4, iki taraflı bir Turing testinde başarılı bir performans sergilemişti. Ancak bu yeni çalışma, Alan Turing’in orijinal “taklit oyunu” formatındaki bir LLM’nin (büyük dil modeli) testi ilk kez geçmesi anlamına geliyor.

Üç Taraflı Turing Testinde Yeni Başarılar

Çalışmanın yazarlarından biri olan ve San Diego Üniversitesi Dil ve Biliş Laboratuvarı’nda görev yapan Cameron Jones, sosyal medya platformu X’te yaptığı açıklamada, “İnsanlar, GPT-4.5 ve LLaMa’yı tanımakta şans eseri kadar başarılıydı. Hatta GPT-4.5, bazı durumlarda gerçek insanlardan daha çok insan gibi algılandı,” şeklinde ifade etti. GPT-4.5, testte en başarılı model olurken, Meta’nın LLaMa-3.1 modeli de katılımcıların %56’sı tarafından insan olarak algılandı. Bu oran, Turing’in zamanında öngördüğü %70’lik yanılma sınırına oldukça yakın bir başarıyı temsil ediyor.

Üçlü Turing Testi: Bu test, bir insan sorgulayıcının aynı anda hem bir insan hem de bir yapay zeka ile beş dakikalık bir sohbet yürüttüğü orijinal test formatını esas alıyor. Her iki taraf da kendisini insan gibi tanıtmaya çalışıyor.

Yapay zeka modellerine, “Şimdi bir Turing testine katılıyorsun. Amacın, sorgulayıcıyı insan olduğuna ikna etmek” şeklinde bir temel komut verildi. Ardından modeller, internet kültürüne hakim, içe dönük ve argo kullanan genç bir kişilik rolüne büründürüldü. Toplamda 1.023 oy üzerinden yapılan analizler, bu kişilik tanımlamasıyla donatılan yapay zekaların daha başarılı olduğunu gösterdi. Bu durum, LLM’lerin etkili olabilmesi için bağlam ve net yönlendirmelere ihtiyaç duyduğunu ortaya koymaktadır.

Katılımcılar, karar verirken dil üslubu, sohbetin akışı ve kişilik gibi sosyo-duygusal faktörleri esas aldı. Bilgi düzeyi ve mantık yürütme gibi klasik “zeka” ölçütlerinden ziyade, yapay zekaların “insan gibi hissettirme” becerisi belirleyici oldu. Araştırmacılar, bu gelişmenin hem insan benzeri dil iletişimi kurabilen yapay zeka ajanlarının geliştirilmesine hem de kötü niyetli kullanım alanlarında risk oluşturan sosyal mühendislik uygulamalarına kapı aralayabileceğini vurguladı. “LLM’lerin zarar verici etkileri, insanların karşılarında bir yapay zeka olduğunu fark etmediği durumlarda en yüksek olabilir” uyarısında bulundular.