Модели ИИ приблизились к прохождению "Последнего экзамена человечества"

Следите за нами в социальных сетях:

Исследователи зафиксировали рост результатов искусственного интеллекта (ИИ) в тесте "Последний экзамен человечества" (Humanity`s Last Exam). За год показатели увеличились с нескольких процентов до десятков.

Как передает Oxu.Az, об этом пишет sciencedaily.com.

Тест "Последний экзамен человечества" разработали специалисты Scale AI и некоммерческой организации Center for AI Safety. В основу легли 70 000 вопросов, которые подготовили ученые из 50 стран. Из них авторы выбрали 2 500 заданий. Каждый вопрос требует уровня подготовки, сопоставимого с докторской степенью. Формат предполагает короткий и точный ответ, который сложно найти через открытые источники.

В 2024 году модели показывали низкие результаты. ChatGPT набрал около 3%, показатели Gemini и Claude оказались немного выше. Тогда тест зафиксировал заметный разрыв между возможностями языковых моделей и уровнем научных специалистов.

Сейчас ситуация изменилась. По данным разработчиков, Gemini достигла 45.9%, Claude - 34.2%. Представитель Scale AI Кэлвин Чжан допустил, что модели могут выйти на 100% уже в течение нескольких месяцев или года. В таком случае, по его словам, потребуется создавать задачи, на которые нет готовых ответов даже у специалистов.

При этом разработчики считают, что даже при максимальном результате ИИ не заменит человека полностью. Речь идет о задачах, требующих нестандартных решений, а также о работе в узких научных областях, где важны интерпретация и креативный подход.