Yapay zeka araştırmalarında son devrin beğenilen başlığı olan “akıl yürütme yetenekleri”, beklenmedik bir yan tesirle gündemde: artan halüsinasyon oranları. OpenAI’ın yakın vakitte tanıttığı o3 ve o4-mini isimli yeni “reasoning” yani akıl yürütme odaklı modelleri, performans açısından birçok alanda öne çıkarken, doğruluk konusunda kaygı yaratıyor. Yapılan testler, bu modellerin daha evvelki sürümlerden çok daha fazlahalüsinasyon ürettiğini gösteriyor. Üstelik bunun nedeni de tam olarak bilinmiyor.
Yeni modelleri daha fazla hayal görüyor
Halüsinasyon, yapay zeka modellerinin gerçek olmayan bilgiler üretmesi manasına geliyor. Bu sorun, bilhassa bilgiye dayalı uygulamalarda önemli riskler barındırıyor. OpenAI’ın teknik raporuna nazaran, o3modeli, şirketin insanlara dair bilgi doğruluğunu ölçmek için kullandığı PersonQA testinde yüzde 33 oranında halüsinasyon üretti. Bu oran, evvelki modeller o1 (%16) ve o3-mini (%14,8) ile karşılaştırıldığında neredeyse iki kat fazla. Dahası, o4-mini bu alanda daha da berbat bir tablo çizerek yüzde 48 halüsinasyon oranına ulaştı.
OpenAI, bu beklenmedik artışın nedenini şimdi netleştirebilmiş değil. Şirketin açıklamasına nazaran, daha fazla araştırmaya muhtaçlık var. Yeni modeller birtakım misyonlarda, bilhassa matematik ve yazılım üretimi üzere alanlarda daha yüksek doğruluk sergilese de, daha fazla argüman üretmeleri nedeniyle hem hakikat hem de yanlış bilgi sayısı artıyor.
Bu durumun kaynağına dair farklı görüşler de var. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin birtakım yanıtlar verirken, gerçekte yapamayacağı adımları gerçekleştirmiş üzere gösterdiğini belirtiyor. Örneğin, modelin bir karşılıkta, ChatGPT dışında bir MacBook Pro’da kod çalıştırdığını ve çıkan sonuçları cevabına eklediğini argüman ettiği kaydedildi. Elbette bu, teknik olarak mümkün değil. Kimilerine nazaran ise halüsinasyon eğilimleri modelin eğitiminde kullanılan pekiştirmeli öğrenme sürecinden kaynaklanıyor olabilir.