 Вокруг биометрии ведётся много научных,
околонаучных, псевдонаучных и явно рекламно-
маркетинговых обсуждений. Эта статья поможет
разобраться, какой информации можно доверять
и как реально обстоят дела с биометрической
идентификацией.
Источники информации делятся на три типа. Первый – научные статьи от
исследователей или разработчиков. Второй – первоисточник от представителей компаний-разработчиков. А третьим является тиражирование новостных сообщений и общественных страшилок. К третьему можно отнести
предупреждение об опасности говорить «да» в телефонных разговорах с
неизвестными. Основной аргумент таких сообщений заключается в том,
что мошенники могут записать ваше «согласие», а позже воспользоваться
этой записью для совершения мошеннических действий. В действительности беседовать с мошенниками опасно в любом случае. Современным
голосовым алгоритмам достаточно всего несколько минут
записи разговора, чтобы воспроизвести голосом жертвы
любой текст, в том числе и «подтверждение» согласия на
любые действия.
Просматривая новостную ленту СМИ, удивляешься, сколько
мифов, лжи и слухов публикуется вокруг биометрической
идентификации по голосу и лицу. Причём недостоверная
информация публикуется не только далёкими от биометрии «исследователями». В этой статье нет разоблачения
популярных страшилок о кражах биометрических данных, а
представлен обзор публикаций, подготовленных разработчиками биометрических решений или без их участия.
Точность и ошибки идентификации
биометрических систем
Новое ёмкое слово «биомерить» использован авторами в
название статьи газеты «Комерсантъ»: «Аршином общим
биомерить»1. А действительно, как правильно определятьточность различных алгоритмов биометрической идентификации и интерпретировать ошибки алгоритмов?
За недолгую историю развития биометрии уже насчитывается несколько
вариантов сравнения.
Во-первых, каждый разработчик сам тестирует разрабатываемые алгоритмы
на своих собственных, закрытых данных. В этом случае, как говорится,
«своя рука владыка». Как пример, такая информация опубликована на
сайте BIOSMART2. Доверять этим данным или не доверять – каждый решает
самостоятельно. Уверен, что отделы маркетинга немного приукрашивают
публикуемые разработчиками данные. Красивые цифры привлекают внимание, а проверить их самостоятельно нельзя.
Немного позже научные и исследовательские учреждения стали публиковать
открытые данные для оценки качества разрабатываемых алгоритмов3. На
первый взгляд, такой вариант оценки кажется объективным, так как сравниваются результаты, полученные на одних и тех же данных. Но в действительности разработчики оптимизировали алгоритмы таким образом, чтобы
демонстрировать отличные результаты именно на этих данных. В условиях
реальной эксплуатации показатели, полученные при таком тестировании,
оказывались недостижимыми. Забегая вперёд, отмечу, что эксплуатационные испытания практически всегда демонстрируют результаты значительно
хуже, чем на любых описанных в этой статье тестах.
Следующим шагом сравнительного тестирования стали различные открытые
конкурсы. В них проверка алгоритмов осуществлялась по закрытым базам
биометрических данных организаторов, но участники получали доступ к
некоторой части этих данных для подготовки своих решений к проведению
тестирования. В результате оптимизации алгоритмов на таких данных,
решение компании NtechLab в 2015 году стало победителем конкурса
MegaFace4, обойдя алгоритмы компании Google5. На аналогичных конкурсах оптимизировались алгоритмы компании VisionLabs6, которые были
интегрированы в продукты Facebook. Использование открытых и закрытых
биометрических баз данных никоим образом не уменьшает значимость
достижений разработчиков биометрических решений. На определённый
момент времени они сыграли важную роль в становлении многих компаний.
Однако полученные результаты точности идентификации нельзя считать
полностью объективными.
На текущий момент большинство заказчиков и разработчиков ориентируются на независимое тестирование в американском национальном институте стандартов и технологий
(NIST) 7. Преимуществом такого тестирования является то,
что биометрические базы постоянно обновляются и подстроить под них разрабатываемые алгоритмы практически невозможно. Ещё одним плюсом этого тестирования является то,
что в нём принимает участие большое количество компаний
и несколько версий алгоритмов крупных разработчиков, что
повышает объективность таких тестов. Существенным недостатком тестирования в NIST является то, что сотрудникам
американского института (следовательно, и финансирующим его силовым структурам) становятся известны слабые
стороны передаваемых на тестирование решений. Поэтому
разработчики биометрических алгоритмов для закрытых
структур не принимают участие в этих тестах или не передают
для тестирования свои закрытые разработки.
Мы говорим правду, только правду и ничего,
кроме правды, но… не всю правду!
Биометрические системы характеризуются двумя параметрами:
1. FAR (False Acceptance Rate) – вероятность ложного
распознавания, т.е. вероятность того, что система
спутает двух индивидуумов, признав «чужого» за
«своего»;
2. FRR (False Rejection Rate) – вероятность ложного
нераспознавания, т.е. того, что система не распознает
знакомого ей субъекта.
Эти два параметра тесно связаны между собой. Более жёсткая настройка системы для исключения идентификации
неизвестных людей приведёт к увеличению числа ошибок
отказа в идентификации зарегистрированных пользователей.
С 1 сентября 2020 года по 26 января 2022 года в московском
метро задержано 2788 преступников и найдено более 400
пропавших без вести граждан, в том числе 96 детей8. Но
никто не говорит о том, сколько при этом было проведено
ложных проверок и задержаний. Такой информацией не
принято делиться.
В нашей стране мало говорят о предвзятости биометрических систем. Предвзятость – это очень корректный
термин, который описывает то, что одна категория людей
по каким-то причинам идентифицируется точнее, чем
другая. Такая особенность связана с тем, что при разработке биометрических решений используются в основном
региональные биометрические данные. В результате чего
алгоритмы, настроенные на базах с лицами индийской
национальности, южноамериканских, африканских или азиатских народов, в случае идентификации европейских
граждан будут демонстрировать значительно худшие результаты. Также практически все современные алгоритмы
хуже справляются с идентификацией детей и женщин. Это
объясняют незначительным присутствием таких данных в
базах разработчиков. Крупные компании уже несколько лет
занимаются решением этой задачи, и они смогли достичь
некоторых положительных результатов.
На практике ситуация обстоит ещё хуже. Биометрические
данные, полученные в результате реальной эксплуатации,
более разнообразны и уступают по качеству лабораторным
данным, которые используются для настройки и тестирования биометрических систем. Помните, как говорилось в
известном анекдоте: «А то..., то просто была демоверсия».
Не случайно NIST проводит несколько различных специализированных тестов, в которых используются данные,
полученные в различных реальных условиях. Как показывает практика, пока ещё нет ни одного алгоритма, который
лидировал бы во всех проводимых тестах.
И вечный вопрос: «Что делать?»
Ситуация может показаться безвыходной. Кроме описанных выше недостатков, биометрическая идентификация по
лицу может быть легко скомпрометирована. Это не только
фотографии на страницах СМИ или видеорепортажи. Это
миллионы и миллионы фотографий в социальных сетях.
Причём эти фотографии могут быть размещены не вами, а
вашими друзьями. Тесты на возможность компрометации
биометрических данных ещё не проводятся. В отличие от пароля заменить
биометрию очень сложно. Именно поэтому важно предлагать к массовому
использованию биометрии сложные для компрометации биометрические
модальности. |