Доработка алгоритма на основе HOG для выделения лиц малых размеров


Алгоритм обнаружения на основе гистограмм направленных градиентов доработан таким образом, чтобы масштабировать тестовые изображения до минимального размера в 300 точек по горизонтали или вертикали, что позволило преодолеть ограничения по минимальному размеру лица в кадре.

Доработка алгоритма немного прямолинейна и сделана в расчете на работу с базами тестовых изображений, снимки которых содержат одно или несколько близкорасположенных изображений лиц. Для применения в реальных условиях, скорее всего, потребуется более эффективный алгоритм, который будет увеличивать лишь некоторые области изображения, которые с высокой долей вероятности содержат лица.

Проведенное тестирование на 10000 размеченных изображений базы Megaface показало снижение количества ошибок второго рода до 1788 (~17,9%), что, к сожалению, по-прежнему является недостаточным для построения системы распознавания «Wild Faces».

Начато исследование нейросетевого алгоритма обнаружения лиц на основе сверточной нейронной сети (Convilutional Neural Network, CNN), реализованного в библиотеке dlib (dnn_mmod_face_detection_ex.cpp). Использована предварительно обученная сеть mmod_human_face_detector.dat.
При сборке dlib с поддержкой CUDA и библиотекой CudNN данный детектор в одиночных экспериментах демонстрирует как более высокую точность, так и скорость работы по сравнению с классическим алгоритмом на основе HOG.

Ведется создание конвейера для работы с базой Megaface с учетом наличия ограничений нейросетевого алгоритма по минимальному размеру изображения лица в 40х40 точек. Первые результаты будут представлены в ближайшее время.


Ссылки


1. LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.
2. King, Davis E. "Max-margin object detection." arXiv preprint arXiv:1502.00046 (2015).