Команда Faceter тестирует собственного AI-ассистента, который учится понимать происходящее в кадре и объяснять события обычным человеческим языком. Мы поговорили с Александром Черновым, руководителем продуктового направления и архитектуры Faceter и узнали, зачем видеонаблюдению такие модели, как они работают и что нас ждет дальше.

Александр, какие технологические или рыночные предпосылки легли в основу решения о разработке GPT-ассистента для видеонаблюдения?
Причина – в проблемных точках видеонаблюдения. Сейчас «умные» уведомления большинства систем могут напоминать спам: детекции срабатывают слишком часто, сообщения ничего не объясняют, людям хочется их отключить, а не использовать.
Параллельно стали быстро развиваться языковые и мультимодальные модели. Мы подумали: а что, если ИИ сможет объяснять событие текстом прямо в Телеграм? Например, не «зафиксировано движение», а «белая Лада Гранта подъехала к воротам».
После первых шагов стало понятно, что можно пойти и дальше: сделать агента, который понимает происходящее, отвечает на вопросы, находит нужные фрагменты и помогает так же, как живой ассистент. Только быстрее и без дополнительных затрат со стороны пользователя.
Пример первых тестов:

Система получает от камеры кадры, видеофрагменты и историю предыдущих событий. Каждый элемент превращается в цифровое представление, и модель анализирует всю сцену как совокупность объектов и действий во времени.
Если говорить проще, AI-ассистент видит картинку не как статичное изображение, а как набор смысловых элементов.
Важно понимать, что мы не обучаем AI-ассистента «с нуля», а создаем ИИ-агента. Берем мощные мультимодальные модели и строим вокруг них: промпты, контекст, экспертную базу знаний и саму архитектуру агента.
ИИ для видеонаблюдения — это не ChatGPT с камерой. В чем принципиальное отличие?
Когда речь заходит об искусственном интеллекте, многие сразу представляют себе чат-бота, способного поддержать беседу. Но ИИ в видеонаблюдении — задача другого уровня. Если языковая модель (LLM) работает только с текстом, то наша система должна:
Это сложнее, но именно так рождается интеллект, который действительно полезен для безопасности и анализа. Поэтому наша задача — добиться двух вещей одновременно:
1. Максимальная детализация для памяти агента. Чтобы потом можно было спросить, например, «когда приезжала синяя Toyota?».
2. Лаконичность в уведомлениях. Пользователь не хочет читать длинный текст, поэтому мы тонко настраиваем промпты, создаем свою базу знаний, задаем правила интерпретации: что считать важным, какие объекты и действия выделять, как избегать повторов и ошибок, какие данные добавлять, что сохранять в память, а что нет.

Вариантов множество:
1. Умные уведомления вместо спама. Не просто «детекция человека», а полноценное описание происходящего.
2. История событий в структурированном виде. Без лишних слов, только главное.
3. Поиск по архиву через чат. Например, «найди момент, когда приезжала курьерская машина» или «что важного было в офисе за сутки?».
4. Персонализация. Самый простой пример: «Не присылай уведомления, если приезжает синяя RAV4 – это моя».
5. Логическая сборка событий. ИИ понимает, что человек, который исчез за столбом и снова появился – это одно действие.
Многие современные системы видят всё, но не понимают ничего. Они фиксируют движение, но не знают, курьер это или злоумышленник; снимают складскую зону, но не видят логистических сбоев.
Рынок совершает переход от «слепого архива» к интеллектуальному интерпретатору. ИИ нового поколения учится:
Скоро видеонаблюдение станет не системой записи, а полноценным участником операционных процессов — тем, кто не только показывает, но и подсказывает, советует и предвосхищает.
Умнеть будут не камеры. Умнеть будет взаимодействие пользователя с реальностью.
Забавных моментов было множество. Например, доставка мусора домой:

Или случай, когда AI-ассистент не догадался, что камера может лежать перевернутой.

Нам еще многое предстоит сделать, но одно можно сказать точно: интеграция ИИ в видеонаблюдение уже выходит за рамки отдельных экспериментов. Она формирует новое поколение систем, где камера перестает быть просто сенсором и превращается в полноценного аналитика.
Faceter показывает, что будущее отрасли – в понимании контекста, диалоге с пользователем и способности превращать видеопоток в осмысленные ответы и действия. Это шаг к системам, которые не только фиксируют события, но и помогают принимать решения.
Еще больше обзоров, кейсов и полезной информации о видеонаблюдении в нашем официальном Telegram-канале. Подписывайтесь, чтобы оставаться в курсе важных событий.