Новейшие версии ChatGPT, такие как o3 и o4-mini, стали в два раза чаще ошибаться по сравнению с предыдущими, менее продвинутыми моделями.
Согласно исследованию OpenAI, эти новые модели склонны к “галлюцинациям” – выдаче ложной информации с уверенностью в ее правдивости.
В ходе теста PersonQA, оценивающего знания ChatGPT о людях, o3 допустила ошибки в 33% случаев, а o4-mini – в 43%. Для сравнения, у более старой модели o3-mini этот показатель не превышал 15%.
Другой тест, Transluce, проведенный независимым разработчиком, показал, что o3 может выдумывать свои действия. Например, на один из запросов она заявила, что запускала код на MacBook Pro 2021 вне ChatGPT и копировала числа в ответ, хотя фактически у нее не было таких возможностей.
Разработчики считают, что одним из решений проблемы галлюцинаций может стать предоставление ИИ доступа к веб-поиску для получения более достоверной информации, что уже показало эффективность на примере нерассуждающей модели o4.