Исследователи компьютерного зрения используют движение для обнаружения объектов на видео

Исследователи из Института робототехники Университета Карнеги—Меллон показали, что системы компьютерного зрения могут легче обнаруживать движущиеся объекты — например, автомобиль, едущий по улице, или человека, идущего по пешеходному переходу, — чем неподвижные объекты.

Мартиал Хеберт, декан факультета компьютерных наук CMU и профессор Института робототехники, и аспирант по робототехнике Чжипен Бао сотрудничали в проекте с Исследовательским институтом Toyota, который спонсировал работу. Исследование могло бы помочь компьютерам и роботам лучше автоматически обнаруживать объекты на видео.

Распознавание объектов имеет фундаментальное значение для понимания сцен реального мира, поэтому разработка методов обнаружения объектов, управляемых движением, могла бы улучшить автономное вождение. Это также может оказаться полезным для розничной робототехники, роботизированных манипуляций и роботов в домашних условиях.

Работая с коллегами из Toyota, Калифорнийского университета в Беркли и Университета Иллинойса в Урбана-Шампейне, исследователи CMU разработали фреймворк под названием MoTok, который позволяет компьютеру самостоятельно определять особенности объектов, которые он видит движущимися. Затем MoTok использует эти функции для восстановления объекта, позволяя компьютеру обнаружить объект таким образом, чтобы он мог снова найти тот же самый объект.

С тех пор исследователи расширили работу, чтобы компьютер мог отображать эти функции упрощенным, виртуализированным способом. Эта разработка позволяет компьютеру лучше идентифицировать высокоуровневые функции, позволяя компьютеру классифицировать объекты, а не просто идентифицировать конкретный объект. В настоящее время статья доступна на сервере препринтов arXiv.

Визуализация объектов является естественной для людей — на самом деле настолько естественной, что видение трудно поддается самоанализу.

«Мы понятия не имеем, как мы это делаем», — сказал Хеберт.

Достижения в области машинного обучения помогли улучшить способность компьютеров распознавать объекты, хотя и значительно иным способом, чем у людей. Однако эти методы требуют десятков тысяч часов видеозаписи, содержащей помеченные объекты. Это трудоемкий, дорогостоящий процесс, который может привести к сбоям за пределами лаборатории.

«Очевидно, что это не масштабируется», — сказал Хеберт.

Что необходимо, так это обобщенный метод, который позволяет компьютерным программам самостоятельно обнаруживать объекты в видеороликах, без необходимости в надписях или контроле. Как демонстрирует MoTok, использование движения для управления обнаружением объектов является одним из способов достижения этой цели.

«Движущиеся объекты легко отличить от статичного фона», — сказал Бао, который завершил исследование во время стажировки в Исследовательском институте Toyota. «Движение также может помочь определить объект, имеющий несколько движущихся частей. Дверца автомобиля может открываться и закрываться, колеса могут вращаться, но все детали, движущиеся вместе, когда автомобиль едет по улице, могут помочь компьютерным программам лучше понять концепцию автомобиля».