Известие от Nvidia: компания признала, что модели искусственного интеллекта в целом лишены "здравого смысла". Хотя это и не сенсация — многие уже слышали об этом. Например, не стоит добавлять клей в соус для пиццы, хотя AI от Google мог бы предложить сделать его более липким. Как Nvidia пытается исправить это? С помощью человеческих наставников.
В недавнем блоге Nvidia рассказала, как команда из "фабрики данных" обучает генеративный AI пониманию мира, которое людям кажется очевидным. Состоящая из аналитиков с различным опытом, включая биоинженерию, бизнес и лингвистику, команда "разрабатывает, анализирует и компилирует сотни тысяч единиц данных" в надежде научить AI модели от Nvidia готовить метафорический соус для пиццы.
Cosmos Reason — это модель AI, на которую Nvidia возлагает большие надежды. Компания объясняет, что "Cosmos Reason уникальна по сравнению с предыдущими моделями [визуально-языковыми моделями или VLM], поскольку она предназначена для ускорения развития физического AI для таких областей, как робототехника, автономные транспортные средства и умные пространства. Модель способна делать выводы и рассуждать в беспрецедентных сценариях, используя физические знания здравого смысла."
Как же Nvidia этого добилась? Путём использования менее впечатляющего метода серии вопросов с выбором ответа — своего рода теста для AI.
Nvidia пишет: "Всё начинается с группы аннотирования NVIDIA, которая создаёт пары вопрос-ответ на основе видео данных."
Это и есть 'визуальная' часть 'визуально-языковой модели'. Например, в видео, где кто-то режет свежие спагетти, человек-аннотатор спрашивает AI, какой рукой разрезают нити (и это 'языковая' часть). AI должен выбрать правильный ответ из четырёх возможных, включая 'не использует руки' (хотелось бы на это посмотреть).
Тестирование AI как студента, которого проверяет учитель с обратной связью по неверным ответам, называется обучением с подкреплением. Через многочисленные раунды таких тестов и тщательную проверку качества между лидерами команды фабрики данных и командой исследований Cosmos Reason, надеются, что некоторые знания о физическом мире закрепятся в модели.
Всё это направлено на разработку AI моделей, которые смогут управлять, например, физическими машинами на фабрике. Исследователь Nvidia Ин Цуй отмечает: "Без базовых знаний о физическом мире робот может упасть или случайно что-то сломать, что создаст опасность для окружающих людей и среды."
Действительно, нехватка знаний о физическом мире — это сценарий, который можно наблюдать снова и снова. Оставив в стороне неудачи человекоподобных роботов, Amazon имеет более 1 миллиона сотрудников, работающих вместе с армией роботов, которые однажды могут их превзойти числом. Учитывая это, легко понять, почему разработка моделей AI, способных надежно взаимодействовать с физическим миром, так привлекает внимание крупных технологических компаний.

Очень интересно, как AI будет обучаться здравому смыслу! Надеюсь, что такие усилия помогут сделать взаимодействие с машинами более безопасным и эффективным. Но интересно, как быстро можно будет добиться результатов в этой области и какие новые проблемы могут возникнуть.