Статьи QuantRise
За гранью видимого: Как искусственный интеллект учится понимать пространство в видео
Новый подход к анализу видеоданных позволяет системам предсказывать изменения в пространстве и обнаруживать неожиданные события.

В статье представлена концепция ‘пространственного сверхчувствительного восприятия’ и предложена основа для разработки более надежных систем пространственного рассуждения на основе прогностического анализа и оценки неожиданности.
Несмотря на успехи в области многомодальных больших языковых моделей, их способность к полноценному пространственному рассуждению над видео остается ограниченной. В работе ‘Cambrian-S: Towards Spatial Supersensing in Video’ предлагается концепция «пространственного сверхчувствия» как парадигмы, выходящей за рамки реактивных систем и требующей активного моделирования мира. Авторы демонстрируют, что предложенный бенчмарк VSI-SUPER и разработанная модель Cambrian-S, несмотря на значительное улучшение результатов, не решают проблему полностью, указывая на необходимость принципиально новых подходов. Возможно ли достижение настоящего пространственного сверхчувствия путем создания моделей, способных не только видеть, но и предвидеть и организовывать опыт на основе оценки «удивления» от несовпадения предсказаний и реальности?
За гранью реактивного ИИ: Обещание предиктивного зондирования
Современные системы искусственного интеллекта демонстрируют впечатляющие результаты в распознавании паттернов, однако испытывают трудности с пониманием динамично меняющихся сред. Их способность к обобщению ограничена, что приводит к ошибкам в новых ситуациях.
Необходим переход от реактивного к проактивному интеллекту, способному предвидеть изменения. Традиционные методы машинного обучения часто оказываются недостаточными.
Перспективным подходом является Predictive Sensing – концепция, вдохновлённая биологическими системами. Она основана на построении внутренних моделей, предсказывающих будущие сенсорные входы и формирующих соответствующую реакцию. Это позволяет системе не просто реагировать, но и активно формировать поведение, предвидя последствия.
Данные – это не истина, а компромисс между багом и Excel.
Самообучение как двигатель предсказаний
Традиционное обучение с учителем требует больших объемов размеченных данных, что является препятствием для практического применения. Ручная разметка трудоемка, дорога и ограничивает масштабируемость алгоритмов.
Самообучение (Self-Supervised Learning) открывает возможности использования неразмеченных данных, генерируя сигналы обучения непосредственно из них. Этот подход позволяет извлекать полезные представления из больших объемов неструктурированной информации, снижая зависимость от ручной разметки.
В рамках предиктивного зондирования метод предсказания латентных кадров использует принципы самообучения для построения внутренних прогностических моделей видеопоследовательностей. Модель обучается предсказывать будущие кадры на основе предыдущих, изучая динамику видео и строя эффективные представления о его содержимом.

Удивление и эффективность: Сегментирование мира с помощью предиктивных моделей
Оценка удивления, производная от ошибки в предсказании будущих кадров, позволяет системам ИИ концентрироваться на наиболее информативных сегментах. Этот подход сокращает вычислительные затраты, поскольку обработка фокусируется на изменениях и новых событиях, а не на статических элементах видео.

Сегментация событий использует эту метрику «удивления» для разделения видеопотоков на значимые сегменты. Это позволяет снизить вычислительную нагрузку за счет обработки только тех частей видео, которые содержат существенные изменения или новые события.
Методы управления памятью дополнительно оптимизируют эффективность, выборочно сохраняя или сжимая кадры на основе уровня их «удивления». Кадры, вызывающие наибольшее удивление, сохраняются в полном разрешении, в то время как менее значимые кадры сжимаются или отбрасываются.
Cambrian-S: Новое поколение пространственно-ориентированных мультимодальных LLM
Семейство мультимодальных больших языковых моделей Cambrian-S было обучено на крупномасштабном наборе данных VSI-590K. В основе архитектуры Cambrian-S лежит интеграция принципов Predictive Sensing, что позволяет достичь высоких результатов в области пространственного мышления и анализа видеоданных.
Рigorозная оценка производительности Cambrian-S проводилась с использованием набора данных VSI-Super. Модель продемонстрировала до 38% точности recall при анализе 120-минутных видеороликов, значительно превосходя показатели моделей, таких как Gemini-2.5-Flash, испытывающих затруднения при обработке более длинных последовательностей. На потоковых данных VSI-Super Count (VSC) длительностью 10 минут, Cambrian-S достигает 38% Mean Relative Accuracy (MRA), что существенно превышает показатели Gemini-Live и GPT-Realtime (менее 15%).

На бенчмарке VSI-Bench, Cambrian-S демонстрирует точность 67.5%, превосходя все модели с открытым исходным кодом и опережая Gemini-2.5-Pro более чем на 16 абсолютных пунктов. Подобные результаты указывают на потенциал Cambrian-S в решении задач, требующих глубокого понимания визуальной информации и долгосрочного контекста.
Мир не дискретен, просто у нас недостаточно памяти для float.
Исследование поднимает вопрос о способности современных многомодальных больших языковых моделей к действительному пониманию пространства. Авторы справедливо отмечают, что текущие системы часто полагаются на поверхностные корреляции, а не на глубокое моделирование мира. В этой связи вспоминается высказывание Дэвида Марра: “Искусственный интеллект — это не решение проблем, а их элегантная переформулировка.” Действительно, предложенный подход к ‘пространственному сверхчувствию’ через предсказательное зондирование и оценку удивления – это попытка переформулировать задачу пространственного рассуждения, сделать её более устойчивой к шуму и неопределенности, присущим реальным видеопотокам. По сути, это алхимическая попытка извлечь порядок из хаоса пикселей, где каждая ошибка – лишь возможность для более точной переформулировки задачи.
Что дальше?
Представленная работа лишь приоткрывает завесу над тем, насколько хрупок наш образ «понимания» видео. Говорить о «пространственном сверхощущении» – значит признать, что текущие мультимодальные языковые модели скорее угадывают, чем действительно моделируют мир. Они ловят отблески закономерностей, но не способны предвидеть, что скрывается за поворотом. Удивительно, как быстро мы соглашаемся на иллюзию компетентности.
Ключевым вопросом остаётся оценка «удивления». Как научить машину удивляться правильным вещам? Ведь истинное понимание рождается не из предсказаний, а из осознания непредсказуемого. Предложенный подход к оценке удивления – это лишь первый шаг, карта, на которой ещё множество белых пятен. Истинно ценное исследование будет заключаться не в улучшении точности предсказаний, а в разработке метрик для измерения степени «неожиданности» и её влияния на процесс обучения.
В конечном счете, стремление к «пространственному сверхощущению» – это не технологическая задача, а философский вызов. Это попытка создать систему, которая не просто видит мир, но и пытается понять его непоследовательность, его хаос. И, возможно, в этом хаосе и кроется ключ к настоящему интеллекту.
Оригинал статьи: https://arxiv.org/pdf/2511.04670.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/