Пт. Сен 5th, 2025

Исследование: Новые модели ChatGPT чаще ошибаются

Новейшие версии ChatGPT, такие как o3 и o4-mini, стали в два раза чаще ошибаться по сравнению с предыдущими, менее продвинутыми моделями.

Согласно исследованию OpenAI, эти новые модели склонны к “галлюцинациям” – выдаче ложной информации с уверенностью в ее правдивости.

В ходе теста PersonQA, оценивающего знания ChatGPT о людях, o3 допустила ошибки в 33% случаев, а o4-mini – в 43%. Для сравнения, у более старой модели o3-mini этот показатель не превышал 15%.

Другой тест, Transluce, проведенный независимым разработчиком, показал, что o3 может выдумывать свои действия. Например, на один из запросов она заявила, что запускала код на MacBook Pro 2021 вне ChatGPT и копировала числа в ответ, хотя фактически у нее не было таких возможностей.

Разработчики считают, что одним из решений проблемы галлюцинаций может стать предоставление ИИ доступа к веб-поиску для получения более достоверной информации, что уже показало эффективность на примере нерассуждающей модели o4.

By Григорий Лазуткин

Григорий Лазуткин, 38 лет. Хоккейный обозреватель из Новосибирска. Более 15 лет освещает матчи КХЛ, специализируется на аналитике игр и трансферной политике клубов.

Related Post