Представьте себе экзамен, который оценивает не только знания, но и умения современных искусственных интеллектов (ИИ). Это и есть Humanity’s Last Exam (HLE) — бенчмарк, разработанный исследователями из центра по ИИ-безопасности. Этот бенчмарк помогает оценить, насколько хорошо большие языковые модели (LLMs) справляются с задачами высокого уровня, такими как те, которые встречаются в PhD-исследованиях. Давайте разберемся, что это такое и почему это важно.
Что такое Humanity’s Last Exam (HLE)?
HLE — это комплексный набор вопросов, охватывающий различные дисциплины, от математики до археологии. Вопросы составлены таким образом, чтобы проверить способность моделей давать точные и верифицируемые ответы. Это как экзамен для ИИ, который показывает, насколько хорошо они справляются с задачами, требующими глубоких знаний и умений.
Как создавался HLE?
- Сбор вопросов: Исследователи собрали более 3000 вопросов с участием экспертов со всего мира. Вопросы охватывают широкий спектр дисциплин, чтобы проверить универсальность моделей.
- Тестирование и отбор: Вопросы прошли тестирование на нескольких продвинутых моделях, чтобы отобрать только самые сложные и нетривиальные. Это гарантирует, что бенчмарк действительно проверяет глубокие знания и умения.
- Форматы вопросов: Вопросы представлены в форматах множественного выбора и точного соответствия. Около 10% вопросов мультимодальные, что означает, что они включают различные типы данных, такие как текст, изображения или аудио.
- Проверка и ревью: После автоматической проверки вопросы проходят несколько раундов ревью профильными специалистами. Это гарантирует высокое качество и точность вопросов.
Примеры вопросов
- Математика: Вопросы могут включать сложные математические задачи, такие как решение уравнений или доказательство теорем.
- Археология: Вопросы могут касаться анализа археологических находок или интерпретации исторических данных.
- Мультимодальные вопросы: Например, вопрос может включать изображение древнего артефакта и текстовое описание, а модель должна будет дать ответ, основанный на обоих типах данных.
Зачем нужен HLE?
HLE служит надежным маркером прогресса ИИ-систем. Он показывает, насколько хорошо современные модели справляются с задачами, требующими глубоких знаний и умений. Это важно для оценки безопасности и регулирования ИИ, так как позволяет понять, насколько модели готовы к решению реальных, сложных задач.
Результаты и вызовы
- Результаты: Даже передовые модели, такие как Deep Research от OpenAI, показывают результаты около 26,6% в этом бенчмарке. Это показывает, что модели еще далеки от экспертного уровня в решении узкопрофильных и «не заученных» задач.
- Вызовы: Большие языковые модели развиваются настолько быстро, что могут преодолеть большую часть существующих тестов уже через несколько месяцев. Это означает, что создателям HLE важно следить за тем, чтобы бенчмарк оставался актуальным и сложным.
Заключение
Humanity’s Last Exam (HLE) — это важный инструмент для оценки знаний и умений современных больших языковых моделей. Он помогает понять, насколько хорошо модели справляются с задачами высокого уровня и стимулирует дискуссии о безопасности и регулировании ИИ. Несмотря на существующие вызовы, HLE остается надежным маркером прогресса ИИ-систем и помогает улучшать их способности к решению сложных задач.
Дополнительные разъяснения
Что такое бенчмарк?
Бенчмарк — это стандартный набор задач или тестов, используемый для оценки производительности и способностей различных систем или моделей. В контексте ИИ бенчмарк помогает понять, насколько хорошо модели справляются с определенными типами задач.
Что такое мультимодальные вопросы?
Мультимодальные вопросы — это вопросы, которые включают различные типы данных, такие как текст, изображения или аудио. Например, вопрос может включать изображение и текстовое описание, и модель должна дать ответ, основанный на обоих типах данных.
Примеры применения в реальной жизни
- Образование: HLE может использоваться для оценки образовательных систем, помогая понять, насколько хорошо студенты справляются с задачами высокого уровня.
- Медицина: В медицине HLE может помочь оценить способности ИИ-систем к диагностике и лечению сложных заболеваний, требующих глубоких знаний и умений.
- Научные исследования: HLE может использоваться для автоматизации рутинных задач в научных исследованиях, таких как обзор литературы и проведение экспериментов, что позволяет ученым сосредоточиться на более сложных задачах.
Humanity’s Last Exam (HLE) — это мощный инструмент, который помогает оценить способности современных больших языковых моделей к решению сложных задач. Он стимулирует дискуссии о безопасности и регулировании ИИ, делая нашу жизнь более безопасной и эффективной.








