Как работает компьютерное зрение в умной урне для раздельного сбора отходов BPA. Рассказываем о сборе датасета, обучении нейросети и интеллектуальной сортировке отходов.

Современная интеллектуальная сортировка отходов невозможна без компьютерного зрения. Однако создание такой системы заключается не только в выборе нейросети и обучении модели. Большая часть работы связана со сбором данных, испытаниями в реальных условиях и постоянным улучшением алгоритмов на основе найденных ошибок.
В этой статье расскажем, как создавалась система компьютерного зрения для «Умной урны» BPA, какие задачи пришлось решать при обучении модели и почему даже небольшие особенности датасета могут влиять на качество распознавания объектов.
Основная задача системы — определить тип отхода и направить его в соответствующий отсек. Для этого используется модель детекции объектов: она определяет не только класс отхода, но и его положение в кадре с помощью bounding box. Такой подход позволяет системе работать именно с объектом, который появился в зоне камеры, а не анализировать изображение целиком.
Логика распознавания построена поэтапно. Сначала система отслеживает изменения в кадре и переходит к обработке только тогда, когда в зоне наблюдения появляется новый объект. Пока сцена остается неизменной, модель не запускается. Это помогает рационально распределять вычислительную нагрузку и обеспечивает стабильную работу устройства на встроенной платформе.
После появления объекта начинается процесс распознавания. Модель анализирует его положение, выделяет объект в кадре и определяет предполагаемый класс. При этом итоговое решение принимается не по одному изображению, а на основе нескольких последовательных кадров.
Такой подход был выбран по результатам испытаний. В реальном сценарии объект может появляться в кадре постепенно, находиться в движении, частично перекрываться рукой пользователя или попадать под особенности освещения. Поэтому система анализирует три кадра подряд, фиксирует результаты распознавания, сравнивает предсказания и только после этого принимает итоговое решение по классу объекта.
Например, если на одном кадре объект был определен менее уверенно из-за движения или блика, а на следующих кадрах модель стабильно относит его к другому классу, система учитывает последовательность результатов и выбирает наиболее устойчивое решение. Это позволяет повысить точность интеллектуальной сортировки отходов без потери отзывчивости устройства.
Количество кадров подбиралось экспериментально. Три последовательных кадра стали оптимальным вариантом для текущего сценария: система успевает быстро принять решение, но при этом получает достаточно информации, чтобы отфильтровать случайные ошибки распознавания.
После определения класса отхода управляющая логика передаёт команду механической части устройства. Для каждой категории заранее задан соответствующий отсек, в который должен быть направлен объект.

Отдельно реализована логика безопасности. Одним из распознаваемых классов являются руки человека. Пока рука находится в рабочей зоне, механизмы сортировки не активируются. После того как пользователь завершает взаимодействие с платформой и рука покидает область наблюдения камеры, система продолжает выполнение алгоритма и переходит к сортировке объекта.
Разработка модели началась еще до появления первой рабочей версии устройства. Для обучения системы требовалось большое количество изображений различных типов отходов в условиях, максимально приближенных к реальной эксплуатации. Поэтому датасет формировался непосредственно в процессе разработки проекта.
Команда собирала фотографии различных объектов внутри прототипов устройства, проводила испытания с новыми сценариями использования и регулярно пополняла выборку новыми примерами. Поскольку система использует технологии компьютерного зрения и распознавания объектов, особое внимание уделялось сбору данных в условиях, соответствующих будущей эксплуатации устройства.
После каждого этапа тестирования анализировались ошибки распознавания, а проблемные случаи добавлялись в датасет для последующего обучения. Фактически развитие модели происходило циклически: сбор данных, разметка, обучение, испытания, анализ ошибок и повторный сбор данных.
На старте проект располагал примерно 10 тысячами изображений. Сегодня объем датасета превышает 20 тысяч изображений и продолжает расти вместе с развитием системы и расширением возможностей встроенной видеоаналитики.

Для подготовки данных использовались инструменты разметки объектов, а также различные методы аугментации изображений: изменение яркости, контрастности, цветовых характеристик, отражения, повороты, шумы и частичные перекрытия объектов. Это позволило моделировать условия, которые могут возникать во время реальной эксплуатации умной урны.
Одной из наиболее сложных задач при обучении модели стало формирование датасета для так называемых пограничных сценариев.
Например, отдельные виды темных отходов могли визуально сливаться с элементами конструкции устройства. Для человека такие различия кажутся очевидными, однако для нейросети и системы компьютерного зрения подобные случаи требуют дополнительного количества обучающих примеров и более тщательной настройки модели.
Отдельное внимание пришлось уделить различным условиям освещения. Во время испытаний выяснилось, что точность распознавания объектов может изменяться в зависимости от яркости сцены и характера освещения. Для повышения устойчивости модели датасет был дополнен новыми изображениями, а также расширен набор световых аугментаций.

Подобные пограничные сценарии играют важную роль в задачах компьютерного зрения и видеоаналитики. Именно они позволяют оценить, насколько стабильно работает модель не в лабораторных условиях, а в реальной эксплуатации, где объекты, освещение и окружающая среда постоянно меняются.
Часть особенностей модели компьютерного зрения удалось обнаружить только во время длительных испытаний.
Один из таких случаев был связан с распознаванием рук пользователя. Поскольку на ранних этапах проекта большинство данных собиралось внутри команды, в датасете оказалось больше изображений мужских рук.
Во время тестирования модели выяснилось, что некоторые женские руки система распознавания объектов определяет менее уверенно. Причина оказалась достаточно простой: в обучающей выборке такие примеры встречались значительно реже.
После расширения датасета и добавления более разнообразных обучающих данных проблема была устранена. Этот случай хорошо показывает, насколько сильно качество ИИ-системы зависит не только от архитектуры нейросети, но и от состава данных, на которых строится машинное обучение.
Сегодня система выполняет обработку данных полностью локально и не требует подключения к внешним серверам. Это позволяет обеспечить автономную работу устройства и исключить задержки, связанные с передачей данных по сети.
В настоящее время продолжается развитие алгоритмов компьютерного зрения умной урны с автоматической сортировкой отходов. На текущий момент продолжаются работы по расширению перечня распознаваемых категорий отходов и ведется разработка следующей версии устройства.
В целом развитие ИИ-проектов редко происходит по принципу «обучили модель — внедрили — забыли». Чаще всего наиболее успешные решения развиваются вместе с задачей: появляются новые данные, расширяются сценарии использования, добавляются классы объектов, меняются требования пользователей и условия эксплуатации.
Именно поэтому ИИ-системы важно настраивать под конкретные сценарии, а не воспринимать как универсальную модель, которая одинаково работает в любых условиях. Это особенно заметно в задачах компьютерного зрения, видеоаналитики и распознавания объектов, где на качество работы влияет не только модель компьютерного зрения, но и реальная среда использования системы: освещение, ракурсы, движение, перекрытия и поведение пользователей.
Чем точнее ИИ-решение адаптировано к конкретному процессу, тем стабильнее оно работает в эксплуатации. Такой подход важен для внедрения ИИ в бизнесе, промышленности, ритейле, городской среде и других сферах, где искусственный интеллект должен не просто распознавать объекты, а помогать автоматизировать реальные процессы.
Именно с такими задачами работает BPA как разработчик ИИ-систем для бизнеса. Мы создаём решения, которые адаптируются под конкретные процессы заказчика, а не существуют отдельно от них: от моделей машинного обучения и встраиваемой видеоаналитики до программно-аппаратных комплексов на базе компьютерного зрения. Такой подход особенно важен там, где внедрение ИИ в бизнес связано не только с распознаванием объектов, но и с реальной автоматизацией процессов.