Автор: Дмитрий ЗАВАРИКИН, генеральный директор компании «Вокорд»

Принципы построения и преимущества системы 3D-распознавания лиц

Распознавание объектов, попадающих в поле зрения систем видеонаблюдения, – важная и технически сложная задача. Данной проблематикой давно и успешно занимаются многие разработчики, в том числе и компания «Вокорд».
В частности, уже давно применяются на практике принципы построения систем распознавания на основе анализа двухмерного изображения. Следующий шаг – разработка более перспективной технологии распознавания объектов по его трехмерной модели (3D-распознавание).

Преимущества 3D-технологий
В настоящее время системы распознавания принято делить на две категории – двухмерные (в основе лежат плоские, или двухмерные, изображения, 2D) и трехмерные (распознавание ведется по реконструированным трехмерным образам, 3D).
В системах распознавания на основе двухмерных изображений есть ряд существенных недостатков. Например, системы 2D-распознавания весьма чувствительны к условиям освещенности. При неравномерном освещении лица достоверность 2D-распознавания заметно падает. В то время как для систем 3D-распознавания изменения в освещенности влияют лишь на текстуру лица, а реконструированная поверхность лица сохраняется неизменной.
Другим важным отличием технологий 3D-распознавания по сравнению с 2D-распознаванием является устойчивость к изменению лица. Для компенсации этого эффекта в двухмерном распознавании используется преобразование изображения к каноническому положению. Однако эффективность такого подхода зависит от точности расположения антропометрических точек на лице и плохо работает при сильных отклонения ракурса от фронтального вида. Ситуация усугубляется еще и тем, что даже при идеально точной расстановке антропометрических точек задача приведения к каноническому виду не имеет строгого математического решения из-за свойства перспективной проекции. В результате допустимое отклонение ракурса от фронтального положения составляет 15 градусов по вертикали и горизонтали для лучших образцов систем 2D-распознавания.
При 3D-распознавании допустимый угол отклонения головы от фронтального ракурса может достигать 45 градусов. Если реконструированная модель и хранящееся в базе данных ее эталонное изображение получены в разных ракурсах, то можно повернуть модель программными средствами. Кроме того, можно повернуть объект и привести его к виду фас для последующего распознавания стандартными двухмерными алгоритмами.
В системах распознавания лиц используются устойчивые антропометрические точки, расположение которых характеризует индивидуальные особенности лица. На 3D-моделях антропометрические точки определяются с большей точностью, чем на 2D-изображениях. Кроме того, точки на 3D-моделях имеют три координаты и, соответственно, дают больше информации, чем те же точки на 2D-изображении. На рисунке 1 приведен пример автоматической расстановки 68 антропометрических точек.



Рисунок 1. Антропометрические точки, соединенные в треугольники

Другим важным преимуществом систем 3D-распознавания является возможность использования абсолютных расстояний между биометрическими точками, в то время как в системах 2D-распознавания возможна работа только с относительными размерами.
Традиционные системы двухмерного распознавания используют участки изображения с высокой контрастностью, такие как глаза, рот, нос, границы лица, и плохо используют информацию в областях низкого контраста – на щеках, лбу, подбородке. В отличие от двухмерного распознавания, трехмерное также использует для анализа информацию с участков низкой контрастности. Более того, форма поверхности лба и других слабо деформируемых участков лица мало подвержена изменениям при различных выражениях лица (как, например, улыбка), что также используется в 3D-распознавании.
Однако и 3D-распознавание не является идеальным. Например, освещение не является проблемой на этапе 3D-распознавания, но может отрицательно повлиять на результат 3D-реконструкции формы лица. В зависимости от алгоритма реконструкции некоторые части лица (например, засвеченные участки либо области с очень низким контрастом) могут выглядеть как пробелы или выбросы (артефакты) на поверхности реконструкции.
Еще одним недостатком 3D-распознавания является высокая стоимость используемого оборудования, поскольку система 3D-распознавания требует гораздо больших вычислительных ресурсов, чем системы 2D-распознавания.
До недавнего времени недостаточное внедрение 3D-систем было связано, вероятно, с отсутствием на рынке видеосенсоров высокого разрешения. Исследования ведущих разработчиков в области 3D-распознавания, а также появление коммерчески доступных видеокамер должны, на мой взгляд, стимулировать развитие систем 3D-распознавания.

Направления 3D-распознавания
Среди различных подходов 3D-распознавания можно выделить три основных: анализ формы 3D-поверхности лица, статистические подходы и использование параметрической модели лица.
Методы, основанные на анализе формы трехмерного изображения лица, используют геометрию поверхности, которая описывает лицо. Эти подходы можно классифицировать на три группы, использующие локальные либо глобальные свойства поверхности (например, кривизну), профили линий, метрики расстояний между двумя поверхностями.
Можно использовать кривизну поверхности для сегментации поверхности лица по признакам, которые могут быть использованы для сравнения поверхностей. Другой подход основан на 3D-дескрипторах поверхности лица в терминах средней и гауссовой кривизны либо в терминах расстояний и отношении углов между характерными точками поверхностей. Еще одним локально-ориентированным методом является подход, использующий точки-сигнатуры. Идея метода заключается в формировании представления-описания выбранной точки по соседним точкам вокруг заданной точки поверхности. Эти сигнатуры точек используются для сравнения поверхностей.
Для улучшения эффективности работы алгоритмов распознавания применяется метод, когда из рассмотрения удаляются те части поверхности, которые подвержены изменениям в результате изменения мимики на лице. Только жесткие части лица являются базовой информацией для распознавания. Также дополнительно с 3D-информацией используется текстурная информация на участках лица.
Существуют еще и гибридные методы, основанные на объединении локальной информации о поверхности в виде локальных моментов, с глобальной трехмерной сеткой, описывающей поверхность всего лица.
В одном из таких методов значение функции Z(x,y), описывающей «карту глубины лица» в выровненной системе координат, разлагается на Фурье-компоненты. Разложение функции на моменты (базисные функции) позволяет сгладить мелкий высокочастотный «шум на лице» и случайные выбросы.
Кроме Фурье-разложения используются и другие базисные функции: степенные ряды, полиномы Лежандра и моменты Цернике.
Глобальные методы задействуют всю информацию о трехмерном изображении всего лица как входную для системы распознавания. Например, модель лица выравнивается на основе его зеркальной симметрии, после чего выделяются и сравниваются профили лица вдоль плоскости выравнивания. Также используется метод сравнения моделей лиц на основе максимального и минимального значений и направления кривизны профилей.
Еще один подход основан на методе сравнения расстояний между поверхностями для распознавания. Одни методы основаны на вычислении метрик наименьших расстояний между поверхностями моделей, другие – на измерениях расстояния не только между поверхностями, но и текстурой на поверхности. Однако существенным ограничением данных методов является то, что лицо не может деформироваться и его поверхность является жесткой.
Третий подход берет за основу извлечение и анализ трехмерных профилей и контуров, выделенных на лице.
Статистические методы, в частности метод главных компонент (Principal Component Analysis, PCA), ранее широко использовались в 2D-распознавании. Метод PCA реализован также для 3D-распознавания и был расширен одновременно на комбинацию карт глубины и цвета. Альтернативным для PCA является метод линейного дискриминантного анализа, в котором, в отличие от PCA, один объект (заданный человек) задается не одним лицом, а набором моделей (3D-лиц).
До сих пор все описанные в литературе статистические методы не учитывали эффект изменения формы поверхности лица, связанной с мимикой. Для минимизации этого эффекта были разработаны подходы, основанные на инвариантных изоморфных преобразованиях. Такие преобразования не изменяют расстояния между двумя заданными точками на лице под действием мимических изменений формы лица. Например, используется преобразование формы лица к каноническому виду.
Указанные методы использовали алгоритм PCA на заключительной стадии распознавания, который применялся к канонической форме лица.
Существуют также способы распознавания, основанные на параметрических моделях лица. Ключевая идея распознавания по моделям основана на так называемых параметрических 3D-моделях, когда форма лица контролируется набором параметров (коэффициентов) модели. Эти коэффициенты описывают 3D-форму лица и также могут задавать цвет (текстуру) на ее поверхности. Созданная таким образом модель затем проецируется на двухмерные изображения, из которых определяются параметры модели для данного изображения.
Недостатком метода является высокая вычислительная сложность и чувствительность к начальной инициализации параметров модели. Для преодоления этих сложностей были разработаны модели, состоящие из независимых участков. Один из методов использует трехмерную поверхность среднего лица, которая с использованием анатомических антропометрических точек на лице деформируется до заданной трехмерной поверхности. Параметры деформации вычисляются в процессе 3D-реконструкции с помощью эластичной модели, которые и задаются в качестве отличительных признаков данного лица. В качестве исходных данных используется облако неупорядоченных точек, полученных в результате 3D-реконструкции области лица. При этом к облаку точек подгоняется полигональная 3D-гибкая модель лица (рисунок 2).


Рисунок 2. Облако точек и гибкая модель лица

Подгонка полигональной 3D-гибкой модели лица основана на физической аналогии: подобно упругой гибкой маске, натягиваемой на лицо, обобщенная модель под действием внешних сил (притяжения к облаку 3D-точек) и внутренних сил (натяжения, упругости) принимает форму лица конкретного человека. При этом выполняются следующие операции:
Первичное выравнивание. С помощью алгоритма ICP (Iterative Closest Point, ICP) гибкая модель приводится к облаку точек без деформации. Начальное приближение грубо задается по центрам глаз, кончику носа и центру рта.
Деформация модели с целью притяжения к облаку точек. При численном решении задачи каждая грань гибкой модели рассматривается как криволинейный конечный элемент.
Для повышения точности приближения модели используется метод поверхностей разбиения (subdivision surfaces), при котором каждый конечный элемент приближается суммой треугольников.
Приближенно решается система линейных уравнений, основанная на уравнениях движения Лагранжа физической модели:

где M – матрица массы гибкой модели, D – матрица демпфирования, K – матрица упругости, fp – внешние силы, P – обобщенные координаты эластичной модели.
При деформации эластичной модели положение антропометрических точек лица сохраняется – например, при корректной подгонке конкретная вершина модели будет всегда соответствовать кончику носа и т. д. Это обеспечивается за счет того, что изначальные размеры гибкой модели основаны на статистических данных по сотням лиц, а также действием внутренних сил упругости, основанных на расстояниях между антропометрическими точками. В частности, статистическое ограничение не позволяет носу становиться неправдоподобно широким, так как упругая сила склоняет его ближе к ширине, усредненной по популяции.
Таким образом, среди современных методов 3D-биометрической идентификации человека используются глобальные методы (вероятность распознавания – 90–96%), статистические методы (93–100%) и параметрические методы характеризуются вероятностью порядка 88–96%.

Качество изображения
Основной залог успеха системы 3D-распознавания, как, впрочем, и систем двухмерного распознавания, – это качество получаемого изображения. Необходимо использовать датчики изображения высокого разрешения – телекамеры с матрицей от 1 до 5 мегапикселов, частотой кадров до 200 кадров/с, динамическим диапазоном до 70 дБ и соотношением «сигнал-шум» порядка 60 дБ.
Для эффективного распознавания необходимо, чтобы на сервер распознавания передавалось изображение с максимальным качеством. Сжатие передаваемого изображения на первом этапе недопустимо, так как оно ухудшает качество изображения, и как следствие ухудшается точность реконструкции.
Для решения данной задачи крайне важно использовать объективы с высоким оптическим разрешением (порядка 100 пар линий на мм) и малыми искажениями (геометрические аберрации, хроматические аберрации, дисторсия).
Синхронизация снимков
На сегодняшний день существуют три основных класса систем, позволяющих получать 3D-моделей объектов реального мира:
– лазерные сканеры;
– системы со структурированной подсветкой;
– системы на базе стереокамер.
Для реконструкции динамически меняющихся объектов подходят только последние два. Причем на стереокамеры налагается жесткое требование: погрешность синхронизации камер должна быть не менее чем в 100 раз меньше характерного времени изменения объекта.
Камеры соединяются специальным кабелем, по которому передаются синхроимпульсы. За счет этого камеры, смотрящие в одну зону контроля, снимают все кадры абсолютно синхронно. При этом одна камера является управляющей, а остальные – подчиненными. Здесь очень важна высокая степень синхронизации снимков и гарантия, что движущийся объект не сместится на расстояние, превышающее ширину одного пиксела. Только тогда на картинке изображения не появится дополнительный пиксел или «смаз», что очень важно для последующей обработки изображения.

Реконструкция 3D-моделей
Высокая частота кадров, используемых в системах камер, дает новую уникальную возможность: в условиях некооперативного поведения объектов можно производить их достоверное обнаружение, межкадровое сопровождение и получать непрерывную последовательность стереоснимков этих объектов. Из такой последовательности выделяются снимки с наилучшим качеством изображения, наиболее пригодные для реконструкции 3D-моделей объектов. Наличие нескольких стереоснимков объекта с различными ракурсами съемки позволяет повысить точность реконструкции.
В новой системе стало возможным реализовывать эффективные методы и алгоритмы компенсации неоднородности освещения по серии стереоизображений, на которых объект зафиксирован в разных ракурсах.
В результате полученные снимки хорошо подходят для трехмерной реконструкции объектов. На рисунке 3 в качестве эталонного примера приведен результат 3D-реконструкци идеальной сферы указанным алгоритмом. Разрешение стереоизображений составляет 2048 х 1536 пикселов, радиус сферы – 80 мм. Используется субпиксельное разрешение в ¼ пиксела на стереоизображениях. В результате среднеквадратичное отклонение 3D-координат реконструированных точек от идеальной сферы составило 0,12 мм.


(а)
(б)

Рисунок 3. Реконструкция идеальной сферы. (a) – стереопара изображения сферы. (б) 3D-реконструкция. Зеленым показаны реконструированные точки, расположенные на сфере со стороны расположения камер
На рисунке 4 показан результат 3D-реконструкции и построенной по ней маске лица человека, которая используется для распознавания.


Рисунок 4. Результат построения 3D-маски лица с текстурой
Для повышения производительности используется вычислительная платформа CUDA на графических картах компании NVIDIA, в результате чего скорость 3D-реконструкции для типичных значений параметров задачи 3D-распознавания лица человека составляет 5–10 кадров/сек.

Безопасность большого города
Таким образом, 3D-распознавание позволяет вести мониторинг людского потока, строить трехмерные модели их лиц «на лету» и сравнивать их с эталонными значениями, хранящимися в базе данных. Кроме того, можно отслеживать перемещение по городу отдельных личностей, не занесенных пока ни в какие базы данных, без их идентификации, но с целью анализа их поведения и выявления в этом поведении подозрительных признаков.
Перечисленные выше технологии уже используются в различных системах.


(а)
(б)

Рисунок 5. Результат построения эластичной модели для 3D- поверхности. (а) – результат совпадения с 3D-моделью, (б) – построенная эластичная модель, описываемая набором основных коэффициентов модели


Рисунок 6. Триангулированная маска лица, используемая в алгоритме 3D-распознавания


Рисунок 7. Анаглифное изображение маски лица, построенное в результате алгоритма 3D-реконструкции. Для просмотра в объеме необходимо надеть анаглифные очки: Red – справа, Cyan – слева



Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru