Компьютерный ученый Луис Кастрикато восемь лет изучал большие языковые модели (LLM) - технологию, лежащую в основе ChatGPT, Claude и Gemini. И вдруг понял, что зашел в тупик.
«По сути, мы уже прошли тот этап, когда можно было бы проводить настоящие фундаментальные исследования в области LLM. Теперь речь идет только о практическом применении»
Кастрикато бросил аспирантуру в Брауновском университете и основал стартап Overworld. Его амбиции отражены в названии: искусственный интеллект, способный понимать и ориентироваться в мире, а не только в словах. Он перешел от «языковых моделей» к «моделям мира».
Что такое физический ИИ
Большие языковые модели обучены на текстах - книгах, статьях, сайтах. Они умеют предсказывать следующее слово, писать стихи, код, отвечать на вопросы. Но они не понимают физику. Они не знают, как падает яблоко, как свет отражается от поверхности, как рука берет кружку.
ФизическийИИ это следующий этап. Они учат ИИ понимать пространство, время, причинно-следственные связи. Они должны предсказывать не следующее слово, а то, что произойдет в физическом мире через секунду, минуту, час.
По словам Фэй-Фэй Ли, профессора Стэнфорда и основателя стартапа World Labs (которую называют «крестной матерью ИИ»):
«В то время как языковые модели изучают статистическую структуру текста, модели мира изучают статистическую структуру пространства и времени: как свет падает на поверхность, как выглядит сад под углом, который не удалось запечатлеть ни одной камере, как объекты реагируют на силу и подчиняются законам физики»
Почему ИИ, обученный на книгах, бесполезен для роботов
Чат-боты не могут поднять кружку кофе, отмечает Марсиаль Эбер, декан факультета компьютерных наук в Университете Карнеги-Меллона:
«Здесь учитывается вся геометрия мира, динамика движений моей руки, физическое взаимодействие при контакте с чашкой. Это гораздо сложнее, чем просто предсказать следующее слово в предложении»
Роботы нуждаются не в книгах, а в «физическом интеллекте» - способности адаптироваться к реальному миру, где колено болит по утрам, стакан может поскользнуться в руке, а освещение меняется.
В вашем теле и спинном мозге есть общая модель равновесия и ходьбы. Вы не думаете о том, как переставить ногу, если поскользнулись. ИИ должен научиться тому же.
Игровые миры, погода и чипы
Физический ИИ это не только про роботов. Кастрикато создает их для видеоигр, где виртуальный лес адаптируется под действия игрока в реальном времени.
Другие стартапы используют модели мира для прогнозирования погоды (Causal Labs) или создают специализированные чипы, оптимизированные для таких вычислений (Extropic).
Стив Джанг, соучредитель Kindred Ventures, инвестор в Overworld и другие проекты, говорит:
«Я думаю, что в будущем нас ждут множество различных моделей с разными философиями и архитектурами. Я не думаю, что будет одна большая модель, которая будет править всеми»
Три типа моделей мира
Ли попыталась создать «таксономию» моделей мира, чтобы разобраться в путанице.
· Рендереры. Приоритет - визуальная точность. Они создают красивые, но физически невозможные миры. Им нельзя доверять обучение роботов.
· Симуляторы. Создают виртуальные тренировочные площадки, точно воспроизводящие физический мир.
· Планировщики. Пытаются предсказать, что должен сделать робот в неструктурированной среде.
«Робот, способный планировать - это робот, способный работать, и вся отрасль стремится первой достичь этой цели» - пишет Ли.
В России дискуссия о «моделях мира» только начинается. Яндекс, Сбер и VK активно развивают LLM (YandexGPT, GigaChat), но до физического ИИ и «моделей мира» им далеко. Однако тренд очевиден: через 5-10 лет чат-боты, которые не понимают физику, будут казаться архаизмом, как кнопочные телефоны.
Для российских разработчиков и предпринимателей это сигнал: пора задуматься не только о том, как генерировать текст, но и о том, как научить ИИ видеть и понимать мир.




