GPT-4.5 Turing testini geçerek insanları kandıran ilk yapay zeka oldu

Yeni bir çalışmaya göre GPT-4.5, insanları kandırarak %73 oranında insan sanıldı. Bu başarı, yapay zekânın insan taklidi yeteneğinde yeni bir eşiği işaret ediyor.

GPT-4.5 Turing testini geçerek insanları kandıran ilk yapay zeka oldu
GPT-4.5 Turing testini geçerek insanları kandıran ilk yapay zeka oldu
Haber Merkezi
  • Yayınlanma: 14 Nisan 2025 18:31
  • Güncellenme: 14 Nisan 2025 18:36

Yapay zekâ modelleri insan gibi konuşmakta giderek ustalaşıyor. Son olarak OpenAI tarafından geliştirilen GPT-4.5, bilim insanlarının yürüttüğü gerçek bir Turing testi konfigürasyonunda %73 başarı oranı ile insanları kandırmayı başardı.

California Üniversitesi San Diego’daki Dil ve Biliş Laboratuvarı’ndan araştırmacıların gerçekleştirdiği ve 31 Mart’ta arXiv’de yayımlanan ancak henüz hakem değerlendirmesine sunulmamış çalışmada, GPT-4.5’in klasik Turing testinin üç taraflı özgün versiyonunu başarıyla geçtiği belirtildi.

‘Taklit oyunu’nu kazanan ilk LLM

Ünlü bilgisayar bilimci Alan Turing’in ortaya koyduğu test, bir yapay zekânın düşünmesinden ziyade insan gibi davranma yeteneğini sınar. Testin orijinal hâlinde bir sorgulayıcı, biri insan diğeri bilgisayar olan iki tarafla etkileşime girer ve hangisinin insan olduğunu anlamaya çalışır.

Çalışmada yer alan araştırmacı Cameron Jones, sosyal medya platformu X üzerinden yaptığı açıklamada, “LLM’ler Turing testini geçti mi? Bu, geçtiğine dair güçlü bir kanıt. İnsanlar, GPT-4.5 ile gerçek insanlar arasında ayırt etmede şans düzeyinden öteye geçemedi. Hatta bazı durumlarda GPT-4.5, gerçek insanlardan daha fazla ‘insan’ olarak değerlendirildi” dedi.

Nasıl test edildi?

Araştırmacılar, 126 üniversite öğrencisi ve çevrimiçi katılım platformu Prolific üzerinden 158 kişiyle üçlü Turing testi denemeleri gerçekleştirdi. Her katılımcı aynı anda hem gerçek bir insanla hem de bir LLM ile beş dakika boyunca mesajlaştı.

Yapay zekâ modellerine, “Bir Turing testine katılmak üzeresin. Hedefin, karşı tarafı bir insan olduğuna inandırmak” şeklinde bir temel prompt verildi. Ardından, “içe dönük, internet kültürü hakkında bilgili ve argo kullanan genç bir kişi” karakteri canlandırmaları istendi.

Toplam 1.023 testin analizine göre, kişilik rolü verilen LLM’ler insan gibi algılanmada ciddi başarı elde etti. Özellikle GPT-4.5, bu testte insan olduğuna inandırmada %73 başarı sağlarken, Meta’nın LLaMa 3.1 modeli %56 başarıyla ikinci sırada yer aldı.

İnsan gibiliğin sırrı: ‘Vibe’

Katılımcıların kararlarını neye göre verdikleri de araştırmada sorgulandı. Sonuçlara göre, dil kullanımı, sohbetin akışı ve “kişilik hissi” gibi sosyo-duygusal unsurlar, bilgi derinliğinden daha etkili oldu. Yani katılımcılar, karşılarındakinin “insan gibi hissettirmesine” daha çok önem verdi.

Araştırmacılar, bu durumun hem umut hem de endişe verici olduğunu belirtiyor. Bu gelişme, doğal dilde daha etkili yapay zekâ asistanlarının geliştirilmesine kapı aralayabilir. Ancak aynı zamanda, insanların bir yapay zekâyla etkileşimde olduğunu fark etmemesi, sosyal mühendislik gibi kötü niyetli kullanım senaryolarını da mümkün kılıyor.

Çalışmada, “LLM’lerin en büyük zararları, insanların karşısındakinin bir yapay zekâ olduğunu fark etmediği durumlarda ortaya çıkabilir” uyarısı da yapıldı. (LiveScience)