Что такое «Последний экзамен человечества»
Бенчмарки для искусственного интеллекта — это стандартизированные тесты, которые нужны для оценки производительности, точности и других характеристик нейросетей. Они помогают определить, насколько хорошо модель справляется с разными типами задач: обработкой текста, распознаванием изображений или выполнением сложных математических расчетов.

Существует несколько известных бенчмарков, применяемых для оценки возможностей ИИ-систем:
- EronEmail проверяет, не допускает ли языковая модель утечки конфиденциальных промптов;
- Ethics оценивает результаты работы нейросети на соответствие этическим стандартам;
- HellaSwag предназначен для оценки коммонсенс (здравого смысла) у языковых моделей;
- MTBench оценивает поток ведения беседы и способность следовать инструкциям;
- TrustLLM проверяет правдивость, справедливость, оценивает надежность, конфиденциальность и машинную этику.

В 2025 году Scale AI совместно с Центром безопасности искусственного интеллекта создали новый тест и назвали его «Последний экзамен человечества» (Humanity’s Last Exam, HLE). Он позволяет оценить, как близко языковые модели приблизились к экспертному уровню.
В разработке участвовали более 1000 специалистов из 50 стран. Тест включает 2500 вопросов по более чем 100 дисциплинам: от математики до экологии. Некоторые задания предлагают выбор нескольких ответов, в других — только один правильный вариант.
Тематически задания распределены так:
- 41 % вопросов посвящен математике;
- 11 % приходится на биологию/медицину;
- 10 % — на информатику и ИИ;
- по 9 % — физику и гуманитарные науки;
- 7 % — химию;
- 4 % — инженерные задачи;
- 9 % включают оставшиеся дисциплины.

Ключевая особенность «Последнего экзамена человечества» — вопросы затрагивают области знаний, которые могут поставить в тупик даже экспертов. Многие задания задействуют сразу несколько дисциплин, что делает их особенно сложными.
Вопросы подбирали специальным образом. Сначала их фильтровали с помощью ведущих языковых моделей — в тест добавили те, на которые нейросети не смогли ответить. Из более чем 70 тысяч вопросов рецензенты уровня выпускников отобрали задания, которые затем проходили ревизию организатора и эксперта. Окончательно перечень вопросов согласовали в марте 2025-го. Например, языковые модели должны расшифровать римские надписи, найденные на надгробии, и дать перевод пальмирского письма.
«Последний экзамен человечества» помогает:
- оценить реальные возможности современных ИИ-систем;
- выявить их слабые места;
- определить направления для дальнейшего развития технологий;
- создать более эффективные методы тестирования ИИ.

Какие результаты показали нейросети
Современные большие языковые модели показали низкие результаты. Это подтверждает сложность экзамена и его эффективность в оценке способностей нейросетей:
- Самым высокий результат продемонстрировала модель Gemini 2.5 Pro (Google DeepMind) — точность около 21,6 %.
- Версии GPT-4 OpenAI и Claude Anthropic показали результат менее 10 %.
- Даже лучшие модели провалили около 4/5 вопросов HLE.
Экспериментальный агент ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы, правильно решил 26,6 % заданий. Этот результат почти в два раза лучше, чем у моделей без такой функции.
Исследователи ожидают быстрого роста показателей ИИ-моделей. К концу года их результаты могут превысить 50 %. Тогда придется искать новые способы тестирования ИИ.
Однако умение сдать экзамен не значит, что ИИ сможет помогать в сложных исследованиях. Ведь там информация более разрознена, и пока с таким справляются только эксперты.

Перспективы тестирования нейросетей
Современные методы оценки результативности ИИ-систем постоянно совершенствуются, появляются новые подходы к проверке их работы. Одно из перспективных направлений — каскадный метод тестирования. Он предполагает использование независимых нейросетей-верификаторов. Такой подход позволяет существенно снизить зависимость от человеческих ресурсов и сократить затраты на тестирование до 70 %.
В будущем особое внимание будет уделяться качеству ответов нейросетей и их практической применимости. Системы оценки будут учитывать не только точность и полноту информации, но и полезность для конечных пользователей.
Многоуровневые системы оценки, подобные HHEM-2.0, будут анализировать ответы по нескольким параметрам качества, что позволит создавать более надежные и эффективные ИИ-решения. Важным аспектом станет способность нейросетей адаптироваться к различному контексту и задачам.

Перспективное направление развития тестирования — создание интегрированных систем контроля, которые будут отслеживать работу нейросетей в реальном времени. Такие системы смогут автоматически выявлять ошибки и аномалии в поведении ИИ.
Кроме того, развитие методов тестирования будет способствовать созданию более безопасных и этичных ИИ-систем, способных решать сложные задачи в различных сферах.
Стремительное развитие больших языковых моделей привело к необходимости создания детальных и достоверных систем оценки. Современные бенчмарки стали незаменимым инструментом не только для измерения потенциала языковых моделей, но и для выявления возможных угроз и этических проблем, связанных с их применением.
