Нажмите "Enter" для перехода к содержанию

“Последний экзамен человечества”: ИИ через год будет знать больше всех экспертов-людей

Фото: создано с помощью нейросети gigachat

тестовый баннер под заглавное изображение

Тест HLE был создан техническими руководителями, чтобы показать, насколько интеллектуальны их системы, и состоит из 2500 тщательно подобранных вопросов, охватывающих около сотни тем — от ракетостроения и мифологии до физиологии.

Каждый из них, пишет Daily Mail, требует, по крайней мере, докторского уровня знаний, и достижение результата, даже близкого к 100 процентам, принесло бы кому-то звание «универсального эксперта». Всего два года назад хваленая система ChatGPT от OpenAI набрала на экзамене жалкие 3%, в то время как ее конкуренты из Google и Anthropic показали не намного лучшие результаты.

Этот тест помог развеять опасения по поводу растущего господства искусственного интеллекта, и исследователи заявили, что он доказал «заметный разрыв» между крупными языковыми моделями (LLM) и лучшими учеными мира. Но, казалось бы, невыполнимый тест может оказаться еще одной вехой в неудержимом росте ИИ, констатирует Daily Mail. В прошлом месяце Google Gemini набрал впечатляющие 45,9% на экзамене, достигнув 18,8% в течение нескольких месяцев после первой попытки.

И, по словам Кэлвина Чжана, руководителя исследования в компании Scale, занимающейся искусственным интеллектом и стоящей за HLE, на горизонте не за горами окончательные результаты. «Мы хотели создать этот всеобъемлющий академический тест, ориентированный на уровень опытных людей, который по-настоящему может решить лишь горстка людей на земле, — сказал он. – За последние несколько лет мы стали свидетелями невероятного прогресса в разработке этих языковых моделей. Это впечатляет, разработчики моделей действительно проделали огромную работу по улучшению этих логических моделей».

Кейт Ольшевска, менеджер по продуктам Google DeepMind, добавила: «Если бы мы действительно заботились об этом как о единственной вещи в жизни, я думаю, мы смогли бы добиться этого довольно быстро».

Компания Anthropic, разработавшая систему искусственного интеллекта Claude, набрала 34,2% баллов в HLE и продолжает быстрыми темпами повышать свои показатели.

По словам авторов теста, искусственный интеллект, набравший на экзамене 100% баллов, стал бы значительным достижением, учитывая, что тест «задуман как окончательный закрытый академический тест такого рода». Это означает, что если технология взломает HLE, в будущем ее нужно будет протестировать на вопросах, на которые ни один человек не знает ответа, поясняет Daily Mail.

Тест был создан исследователями из Scale и некоммерческой организацией Center for AI Safety, чтобы проверить как широту знаний ИИ, так и глубину его рассуждений. Эксперты примерно из 50 стран представили на рассмотрение 70 000 вопросов в ответ на глобальный призыв в сентябре 2024 года, в рамках которого предлагался призовой фонд в размере 500 000 долларов. Они должны были содержать короткий и однозначный ответ, который было трудно найти в Интернете. Список был сокращен до 13 000 после того, как были сняты с рассмотрения вопросы, на которые могла ответить любая существующая модель. Некоторые из 2500 отобранных моделей были удалены или отредактированы после получения отзывов от пользователей. Тест требует широкого спектра знаний — от знания биологии до владения иностранными языками.

Успех в HLE вызвал бы воспоминания о том, как суперкомпьютер IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова* (внесён Минюстом России в реестр «иностранных агентов», а Росфинмониторинг включил его в список террористов и экстремистов) в 1997 году, опровергнув прогнозы большинства экспертов.

С тех пор был улучшен ряд основных тестов для ИИ, включая мультидисциплинарный инструмент Massive Multitask Language Understanding, выпущенный в 2020 году, который был закрыт после того, как системы стали находить его слишком простым и часто набирали более 90 процентов баллов.

Кейт Ольшевска добавила, что по мере того, как искусственный интеллект приближается к той стадии, когда он может справиться с тестами, созданными человеком, расширение существующих границ человеческих знаний все чаще становится главной задачей разработчиков. Но, по словам Чжана, всегда будет место для специализации человека, поскольку ИИ сложнее овладеть физическими областями, такими как хирургия, а также навыками, основанными на принятии решений, включая рассудительность и креативность.

 

Источник