Что такое «Последний экзамен человечества» и зачем он нужен

Что такое «Последний экзамен человечества»

Бенчмарки для искусственного интеллекта — это стандартизированные тесты, которые нужны для оценки производительности, точности и других характеристик нейросетей. Они помогают определить, насколько хорошо модель справляется с разными типами задач: обработкой текста, распознаванием изображений или выполнением сложных математических расчетов.

Существует несколько известных бенчмарков, применяемых для оценки возможностей ИИ-систем:

EronEmail проверяет, не допускает ли языковая модель утечки конфиденциальных промптов;
Ethics оценивает результаты работы нейросети на соответствие этическим стандартам;
HellaSwag предназначен для оценки коммонсенс (здравого смысла) у языковых моделей;
MTBench оценивает поток ведения беседы и способность следовать инструкциям;
TrustLLM проверяет правдивость, справедливость, оценивает надежность, конфиденциальность и машинную этику.

В 2025 году Scale AI совместно с Центром безопасности искусственного интеллекта создали новый тест и назвали его «Последний экзамен человечества» (Humanity’s Last Exam, HLE). Он позволяет оценить, как близко языковые модели приблизились к экспертному уровню.

В разработке участвовали более 1000 специалистов из 50 стран. Тест включает 2500 вопросов по более чем 100 дисциплинам: от математики до экологии. Некоторые задания предлагают выбор нескольких ответов, в других — только один правильный вариант.

Тематически задания распределены так:

41 % вопросов посвящен математике;
11 % приходится на биологию/медицину;
10 % — на информатику и ИИ;
по 9 % — физику и гуманитарные науки;
7 % — химию;
4 % — инженерные задачи;
9 % включают оставшиеся дисциплины.

Ключевая особенность «Последнего экзамена человечества» — вопросы затрагивают области знаний, которые могут поставить в тупик даже экспертов. Многие задания задействуют сразу несколько дисциплин, что делает их особенно сложными.

Вопросы подбирали специальным образом. Сначала их фильтровали с помощью ведущих языковых моделей — в тест добавили те, на которые нейросети не смогли ответить. Из более чем 70 тысяч вопросов рецензенты уровня выпускников отобрали задания, которые затем проходили ревизию организатора и эксперта. Окончательно перечень вопросов согласовали в марте 2025-го. Например, языковые модели должны расшифровать римские надписи, найденные на надгробии, и дать перевод пальмирского письма.

«Последний экзамен человечества» помогает:

оценить реальные возможности современных ИИ-систем;
выявить их слабые места;
определить направления для дальнейшего развития технологий;
создать более эффективные методы тестирования ИИ.

Какие результаты показали нейросети

Современные большие языковые модели показали низкие результаты. Это подтверждает сложность экзамена и его эффективность в оценке способностей нейросетей:

Самым высокий результат продемонстрировала модель Gemini 2.5 Pro (Google DeepMind) — точность около 21,6 %.
Версии GPT-4 OpenAI и Claude Anthropic показали результат менее 10 %.
Даже лучшие модели провалили около 4/5 вопросов HLE.

Экспериментальный агент ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы, правильно решил 26,6 % заданий. Этот результат почти в два раза лучше, чем у моделей без такой функции.

Исследователи ожидают быстрого роста показателей ИИ-моделей. К концу года их результаты могут превысить 50 %. Тогда придется искать новые способы тестирования ИИ.

Однако умение сдать экзамен не значит, что ИИ сможет помогать в сложных исследованиях. Ведь там информация более разрознена, и пока с таким справляются только эксперты.

Перспективы тестирования нейросетей

Современные методы оценки результативности ИИ-систем постоянно совершенствуются, появляются новые подходы к проверке их работы. Одно из перспективных направлений — каскадный метод тестирования. Он предполагает использование независимых нейросетей-верификаторов. Такой подход позволяет существенно снизить зависимость от человеческих ресурсов и сократить затраты на тестирование до 70 %.

В будущем особое внимание будет уделяться качеству ответов нейросетей и их практической применимости. Системы оценки будут учитывать не только точность и полноту информации, но и полезность для конечных пользователей.

Многоуровневые системы оценки, подобные HHEM-2.0, будут анализировать ответы по нескольким параметрам качества, что позволит создавать более надежные и эффективные ИИ-решения. Важным аспектом станет способность нейросетей адаптироваться к различному контексту и задачам.

Перспективное направление развития тестирования — создание интегрированных систем контроля, которые будут отслеживать работу нейросетей в реальном времени. Такие системы смогут автоматически выявлять ошибки и аномалии в поведении ИИ.

Кроме того, развитие методов тестирования будет способствовать созданию более безопасных и этичных ИИ-систем, способных решать сложные задачи в различных сферах.

Стремительное развитие больших языковых моделей привело к необходимости создания детальных и достоверных систем оценки. Современные бенчмарки стали незаменимым инструментом не только для измерения потенциала языковых моделей, но и для выявления возможных угроз и этических проблем, связанных с их применением.