banner
Дом / Блог / Команда из Иллинойса выиграла первый приз в конкурсе OpenCV AI
Блог

Команда из Иллинойса выиграла первый приз в конкурсе OpenCV AI

Aug 15, 2023Aug 15, 2023

09.08.2023

Дебра Леви Ларсон

Создание набора данных размеченных изображений вручную является дорогостоящим и требует больших усилий. Стремясь уменьшить оба этих фактора, команда из четырех студентов из Университета Иллинойса Урбана-Шампейн разработала решение, которое автоматизирует процесс генерации и аннотирования данных для обучения моделей компьютерного зрения на основе глубокого обучения.

В этом году команда выиграла первый приз в основной дисциплине конкурса OpenCV AI Competition 2022. Их программное обеспечение под названием COCOpen следует подходу маркировки изображений, представленному в наборе данных Microsoft «Common Objects in Context».

Созданное ими программное обеспечение генерирует данные изображения, используемые для обучения моделей идентификации и выделению конкретных объектов на сцене, которая может содержать несколько объектов одной и той же категории.

В примере использования в своем репозитории кода они генерируют изображения, которые содержат несколько объектов категорий проводных и сетевых устройств. Эти синтетические изображения можно использовать для обучения модели глубокого обучения обнаружению этих категорий объектов на новых изображениях, которые модель никогда раньше не видела.

Автоматизированное создание и маркировка этих обучающих изображений значительно сокращают время и затраты, связанные с этим процессом. Код можно использовать в различных приложениях, таких как производство, логистика, автономное вождение и бытовые услуги.

Холли Динкель , доктор философии. Студент факультета аэрокосмической техники UIUC объяснил, что COCOpen работает, создавая простые, немаркированные изображения отдельных объектов на черном фоне.

Программное обеспечение использует OpenCV для создания масок для этих отдельных объектов на основе их цвета. Затем он объединяет несколько изображений объектов в одно изображение, используя метод увеличения данных копирования-вставки. Кроме того, OpenCV используется для применения улучшений, включая рандомизацию ориентации объекта или изменение его цвета.

Данные, генерируемые библиотекой COCOpen, проверяются путем обучения модели Detectron2 Mask R-CNN обнаружению проводов Ethernet и сетевых устройств для приложения роботизированных манипуляций.

Яш Ратод, младший факультет компьютерных наук, сказал, что его видение COCOpen заключалось в том, чтобы взять результаты лабораторных исследований и создать удобный для пользователей процесс генерации данных для специалистов по машинному обучению.

«Идея заключалась в том, чтобы создать конвейер, в котором мы извлекаем тысячи изображений из облака, предварительно обрабатываем их и применяем методы генерации данных, изученные в лаборатории, для создания данных в формате COCO, готовых для обучения моделей компьютерного зрения», — сказал он.

Ратод использовал свой семестровый опыт участия в программе содействия бакалаврским инженерным исследованиям в UIUC для разработки и тестирования программного обеспечения для взаимодействия с ресурсами облачного хранения данных — первоначально Microsoft Azure, затем Box.

«Автоматическое создание данных означает, что пользователи могут просто клонировать репозиторий кода и следовать минимальным инструкциям по установке и запуску. Мы хотим сэкономить время пользователей и ценные вычислительные ресурсы, используя облако», — сказал Ратод.

Гарри Чжао , получивший степень бакалавра в области аэрокосмической техники в мае этого года, подчеркнул способность COCOpen решать реальные проблемы компьютерного зрения с использованием OpenCV с приложениями для многих дисциплин. Среди других 45 заявок в этой категории были решения медицинских, экологических и строительных проблем.

«На создание исходного набора данных Microsoft COCO потребовалось в общей сложности 55 000 рабочих часов, и не все, конечно, было выполнено одним человеком», — сказал Чжао. «Но здесь может быть много несоответствий. Некоторые этикетки могут быть неточными, и их придется отклонять или уточнять, что приводит к потере еще большего количества времени. COCOpen преобразует данные в формат, который люди могут использовать для автоматического создания меток на изображениях».

Чжао сказал, что COCOpen вдохновлен кодом и данными, которые он и Динкель создали два года назад во время его стажировки в программе студенческих исследований Консорциума космических грантов штата Иллинойс.

Что касается сложности маркировки, Чжао сказал: «Если бы нас заботило только обнаружение или классификация проводов, мы бы просто сказали: это провод, а это не провод. Это ноль или один. Двоичный. Семантическая сегментация — это когда вы знаете, что представляют собой пиксели.