1. Главная
  2. Что такое «Последний экзамен человечества» и зачем он нужен

Что такое «Последний экзамен человечества» и зачем он нужен

15 сентября 20254 минуты чтения
Иллюстрация материала

С каждым годом искусственный интеллект становится все умнее. Чтобы проверить его способности и оценить качество ответов нейросетей, разработчики используют специальные бенчмарки. Искусственный интеллект быстро обучается, поэтому нужно регулярно обновлять тесты. В 2025 году вышел «Последний экзамен человечества». Рассказываем, как он работает и какие результаты показывают популярные модели.

Что такое «Последний экзамен человечества»

Бенчмарки для искусственного интеллекта — это стандартизированные тесты, которые нужны для оценки производительности, точности и других характеристик нейросетей. Они помогают определить, насколько хорошо модель справляется с разными типами задач: обработкой текста, распознаванием изображений или выполнением сложных математических расчетов.

Существует несколько известных бенчмарков, применяемых для оценки возможностей ИИ-систем: 

  • EronEmail проверяет, не допускает ли языковая модель утечки конфиденциальных промптов;
  • Ethics оценивает результаты работы нейросети на соответствие этическим стандартам;
  • HellaSwag предназначен для оценки коммонсенс (здравого смысла) у языковых моделей;
  • MTBench оценивает поток ведения беседы и способность следовать инструкциям;
  • TrustLLM проверяет правдивость, справедливость, оценивает надежность, конфиденциальность и машинную этику.

В 2025 году Scale AI совместно с Центром безопасности искусственного интеллекта создали новый тест и назвали его «Последний экзамен человечества» (Humanity’s Last Exam, HLE). Он позволяет оценить, как близко языковые модели приблизились к экспертному уровню. 

В разработке участвовали более 1000 специалистов из 50 стран. Тест включает 2500 вопросов по более чем 100 дисциплинам: от математики до экологии. Некоторые задания предлагают выбор нескольких ответов, в других — только один правильный вариант. 

Тематически задания распределены так: 

  • 41 % вопросов посвящен математике;
  • 11 % приходится на биологию/медицину;
  • 10 % — на информатику и ИИ;
  • по 9 % — физику и гуманитарные науки;
  • 7 % — химию;
  • 4 % — инженерные задачи;
  • 9 % включают оставшиеся дисциплины.

Ключевая особенность «Последнего экзамена человечества» — вопросы затрагивают области знаний, которые могут поставить в тупик даже экспертов. Многие задания задействуют сразу несколько дисциплин, что делает их особенно сложными. 

Вопросы подбирали специальным образом. Сначала их фильтровали с помощью ведущих языковых моделей — в тест добавили те, на которые нейросети не смогли ответить. Из более чем 70 тысяч вопросов рецензенты уровня выпускников отобрали задания, которые затем проходили ревизию организатора и эксперта. Окончательно перечень вопросов согласовали в марте 2025-го. Например, языковые модели должны расшифровать римские надписи, найденные на надгробии, и дать перевод пальмирского письма. 

«Последний экзамен человечества» помогает: 

  • оценить реальные возможности современных ИИ-систем;
  • выявить их слабые места;
  • определить направления для дальнейшего развития технологий;
  • создать более эффективные методы тестирования ИИ.

Какие результаты показали нейросети

Современные большие языковые модели показали низкие результаты. Это подтверждает сложность экзамена и его эффективность в оценке способностей нейросетей: 

  • Самым высокий результат продемонстрировала модель Gemini 2.5 Pro (Google DeepMind) — точность около 21,6 %.
  • Версии GPT-4 OpenAI и Claude Anthropic показали результат менее 10 %.
  • Даже лучшие модели провалили около 4/5 вопросов HLE.

Экспериментальный агент ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы, правильно решил 26,6 % заданий. Этот результат почти в два раза лучше, чем у моделей без такой функции. 

Исследователи ожидают быстрого роста показателей ИИ-моделей. К концу года их результаты могут превысить 50 %. Тогда придется искать новые способы тестирования ИИ. 

Однако умение сдать экзамен не значит, что ИИ сможет помогать в сложных исследованиях. Ведь там информация более разрознена, и пока с таким справляются только эксперты.

Перспективы тестирования нейросетей

Современные методы оценки результативности ИИ-систем постоянно совершенствуются, появляются новые подходы к проверке их работы. Одно из перспективных направлений — каскадный метод тестирования. Он предполагает использование независимых нейросетей-верификаторов. Такой подход позволяет существенно снизить зависимость от человеческих ресурсов и сократить затраты на тестирование до 70 %. 

В будущем особое внимание будет уделяться качеству ответов нейросетей и их практической применимости. Системы оценки будут учитывать не только точность и полноту информации, но и полезность для конечных пользователей. 

Многоуровневые системы оценки, подобные HHEM-2.0, будут анализировать ответы по нескольким параметрам качества, что позволит создавать более надежные и эффективные ИИ-решения. Важным аспектом станет способность нейросетей адаптироваться к различному контексту и задачам.

Перспективное направление развития тестирования — создание интегрированных систем контроля, которые будут отслеживать работу нейросетей в реальном времени. Такие системы смогут автоматически выявлять ошибки и аномалии в поведении ИИ. 

Кроме того, развитие методов тестирования будет способствовать созданию более безопасных и этичных ИИ-систем, способных решать сложные задачи в различных сферах. 

Стремительное развитие больших языковых моделей привело к необходимости создания детальных и достоверных систем оценки. Современные бенчмарки стали незаменимым инструментом не только для измерения потенциала языковых моделей, но и для выявления возможных угроз и этических проблем, связанных с их применением.

Текст: