Все больше производителей камер и программного обеспечения для видеонаблюдения добавляют ИИ-описание происходящего в кадре. Системы учатся просто фиксировать движение или человека и формулировать события словами: «в кадре появился кот», «дети пришли домой», «собака зашла в комнату».

С одной стороны, это важный шаг для рынка. Но с другой – насколько реальна польза подобных объяснений именно в таком формате? Как показывают отзывы реальных пользователей, сам по себе текст не обладает исключительной полезностью. Постараемся узнать, почему так произошло и как инженеры Faceter делают ИИ полезными для видеонаблюдения.
В основе решения от большинства разработчиков лежит визуально-языковая модель, которая интерпретирует изображение и переводит его в текст. Пользователь вместо обезличенного «движение в кадре» получает понятное сообщение: кто именно появился и что произошло. Например, недавно такой функционал появился в IP-камере от Яндекса.
В маркетинговых материалах это выглядит впечатляюще и снижает порог входа, ведь камера начинает «говорить на человеческом языке». Но что пишут реальные пользователи, получившие такое обновление на своих камерах?

Мы в Faceter тестируем ИИ-уведомления с текстовым описанием уже достаточно долгое время. Они действительно выглядят эффектнее стандартных пушей и поначалу воспринимаются как шаг вперед. Но в реальном использовании быстро проявляется проблема: описание не равно пользе.
Рассказывает Александр Чернов, руководитель продуктового направления и архитектуры Faceter:
«ИИ-описания создают вау-эффект и точно выглядят интереснее, чем обычные уведомления о детекции. Но сами по себе они все равно остаются «спамящими». Не очень интересно каждый день видеть по десять пушей «Камера в гостиной: прибежала собака», «Камера в гостиной: собака убежала».
Та же история и с саммари дня. Первые несколько дней их читают с интересом, но затем они превращаются в фоновый шум. Камера по-прежнему сообщает обо всем подряд, просто красивыми словами.
Мы считаем, что ценность ИИ в видеонаблюдении не в описании картинки, а в поведении как осмысленного агента.

По нашему мнению, ИИ должен:
1. Понимать контекст. Один и тот же объект может означать разное в зависимости от места и сценария.
«Где-нибудь в гостиной собака может свободно бегать и уведомлять об этом не нужно. А если подобное происходит, например, на кухне ресторана – это уже ЧП».
ИИ должен учитывать тип объекта, назначение зоны, время суток, правила конкретного бизнеса или дома. Без этого любые уведомления – просто шум.
2. Выделять важное и выбирать форму сообщения. Для разных задач важна разная скорость и формат реакции.
«В одном бизнесе если сотрудник отлучился с рабочего места – надо сообщить сразу. В другом лучше прислать это строкой в отчете об увеличении среднего времени отсутствия персонала».
Это принципиальное отличие от универсальных уведомлений «на все случаи жизни».
3. Заменять просмотр архива диалогом. Мы движемся к тому, чтобы вместо бесконечного листания архива пользователь мог задать вопрос и получить ответ. Например: «Были ли сегодня посторонние на объекте после 22:00?» или «Сколько времени касса была без оператора за смену?»
4. Учиться через общение. ИИ-агент должен уметь принимать корректировки прямо в чате и запоминать их. Проще говоря, пользователь может попросить делать что-то по-другому и система должна это запомнить. Данный подход снижает потребность в сложных настройках и делает систему адаптивной под конкретный объект.
5. Работать в привычных каналах. Лучше всего такой агент раскрывается вне интерфейса камеры – например, в Telegram. Там привычнее общаться, туда можно пригласить других участников, подключить бизнес-процессы.
Как и любая обучающаяся система, ИИ иногда интерпретирует события неожиданно или неточно. Но это нормальный этап развития.

Мы сознательно уделяем внимание тому, чтобы агент работал не «топорно», а с учетом реального контекста объектов, отраслей и сценариев использования – при минимальной необходимости ручной настройки.
Детально о процессе обучения нашего ИИ-агента мы рассказывали в отдельных статьях:
ИИ-описания – это только первый, самый простой уровень эволюции видеонаблюдения. Следующий шаг – переход от камеры, которая «рассказывает, что видит», к системе, которая понимает, зачем она смотрит.
Именно в этом направлении Faceter развивает свои решения уже сегодня.
Еще больше обзоров, кейсов и полезной информации о видеонаблюдении в нашем официальном Telegram-канале. Подписывайтесь, чтобы оставаться в курсе важных событий.