Автор: Александр ГОРШКОВ, CBO компании Iris Devices

Мы говорим правду, только правду и ничего, кроме правды


Вокруг биометрии ведётся много научных, околонаучных, псевдонаучных и явно рекламно- маркетинговых обсуждений. Эта статья поможет разобраться, какой информации можно доверять и как реально обстоят дела с биометрической идентификацией.

Источники информации делятся на три типа. Первый – научные статьи от исследователей или разработчиков. Второй – первоисточник от представителей компаний-разработчиков. А третьим является тиражирование новостных сообщений и общественных страшилок. К третьему можно отнести предупреждение об опасности говорить «да» в телефонных разговорах с неизвестными. Основной аргумент таких сообщений заключается в том, что мошенники могут записать ваше «согласие», а позже воспользоваться этой записью для совершения мошеннических действий. В действительности беседовать с мошенниками опасно в любом случае. Современным голосовым алгоритмам достаточно всего несколько минут записи разговора, чтобы воспроизвести голосом жертвы любой текст, в том числе и «подтверждение» согласия на любые действия.

Просматривая новостную ленту СМИ, удивляешься, сколько мифов, лжи и слухов публикуется вокруг биометрической идентификации по голосу и лицу. Причём недостоверная информация публикуется не только далёкими от биометрии «исследователями». В этой статье нет разоблачения популярных страшилок о кражах биометрических данных, а представлен обзор публикаций, подготовленных разработчиками биометрических решений или без их участия.

Точность и ошибки идентификации биометрических систем

Новое ёмкое слово «биомерить» использован авторами в название статьи газеты «Комерсантъ»: «Аршином общим биомерить»1. А действительно, как правильно определятьточность различных алгоритмов биометрической идентификации и интерпретировать ошибки алгоритмов?

За недолгую историю развития биометрии уже насчитывается несколько вариантов сравнения.

Во-первых, каждый разработчик сам тестирует разрабатываемые алгоритмы на своих собственных, закрытых данных. В этом случае, как говорится, «своя рука владыка». Как пример, такая информация опубликована на сайте BIOSMART2. Доверять этим данным или не доверять – каждый решает самостоятельно. Уверен, что отделы маркетинга немного приукрашивают публикуемые разработчиками данные. Красивые цифры привлекают внимание, а проверить их самостоятельно нельзя.

Немного позже научные и исследовательские учреждения стали публиковать открытые данные для оценки качества разрабатываемых алгоритмов3. На первый взгляд, такой вариант оценки кажется объективным, так как сравниваются результаты, полученные на одних и тех же данных. Но в действительности разработчики оптимизировали алгоритмы таким образом, чтобы демонстрировать отличные результаты именно на этих данных. В условиях реальной эксплуатации показатели, полученные при таком тестировании, оказывались недостижимыми. Забегая вперёд, отмечу, что эксплуатационные испытания практически всегда демонстрируют результаты значительно хуже, чем на любых описанных в этой статье тестах.

Следующим шагом сравнительного тестирования стали различные открытые конкурсы. В них проверка алгоритмов осуществлялась по закрытым базам биометрических данных организаторов, но участники получали доступ к некоторой части этих данных для подготовки своих решений к проведению тестирования. В результате оптимизации алгоритмов на таких данных, решение компании NtechLab в 2015 году стало победителем конкурса MegaFace4, обойдя алгоритмы компании Google5. На аналогичных конкурсах оптимизировались алгоритмы компании VisionLabs6, которые были интегрированы в продукты Facebook. Использование открытых и закрытых биометрических баз данных никоим образом не уменьшает значимость достижений разработчиков биометрических решений. На определённый момент времени они сыграли важную роль в становлении многих компаний. Однако полученные результаты точности идентификации нельзя считать полностью объективными.

На текущий момент большинство заказчиков и разработчиков ориентируются на независимое тестирование в американском национальном институте стандартов и технологий (NIST) 7. Преимуществом такого тестирования является то, что биометрические базы постоянно обновляются и подстроить под них разрабатываемые алгоритмы практически невозможно. Ещё одним плюсом этого тестирования является то, что в нём принимает участие большое количество компаний и несколько версий алгоритмов крупных разработчиков, что повышает объективность таких тестов. Существенным недостатком тестирования в NIST является то, что сотрудникам американского института (следовательно, и финансирующим его силовым структурам) становятся известны слабые стороны передаваемых на тестирование решений. Поэтому разработчики биометрических алгоритмов для закрытых структур не принимают участие в этих тестах или не передают для тестирования свои закрытые разработки.

Мы говорим правду, только правду и ничего, кроме правды, но… не всю правду!

Биометрические системы характеризуются двумя параметрами:

1. FAR (False Acceptance Rate) – вероятность ложного распознавания, т.е. вероятность того, что система спутает двух индивидуумов, признав «чужого» за «своего»;

2. FRR (False Rejection Rate) – вероятность ложного нераспознавания, т.е. того, что система не распознает знакомого ей субъекта.

Эти два параметра тесно связаны между собой. Более жёсткая настройка системы для исключения идентификации неизвестных людей приведёт к увеличению числа ошибок отказа в идентификации зарегистрированных пользователей.

С 1 сентября 2020 года по 26 января 2022 года в московском метро задержано 2788 преступников и найдено более 400 пропавших без вести граждан, в том числе 96 детей8. Но никто не говорит о том, сколько при этом было проведено ложных проверок и задержаний. Такой информацией не принято делиться.

В нашей стране мало говорят о предвзятости биометрических систем. Предвзятость – это очень корректный термин, который описывает то, что одна категория людей по каким-то причинам идентифицируется точнее, чем другая. Такая особенность связана с тем, что при разработке биометрических решений используются в основном региональные биометрические данные. В результате чего алгоритмы, настроенные на базах с лицами индийской национальности, южноамериканских, африканских или азиатских народов, в случае идентификации европейских граждан будут демонстрировать значительно худшие результаты. Также практически все современные алгоритмы хуже справляются с идентификацией детей и женщин. Это объясняют незначительным присутствием таких данных в базах разработчиков. Крупные компании уже несколько лет занимаются решением этой задачи, и они смогли достичь некоторых положительных результатов.

На практике ситуация обстоит ещё хуже. Биометрические данные, полученные в результате реальной эксплуатации, более разнообразны и уступают по качеству лабораторным данным, которые используются для настройки и тестирования биометрических систем. Помните, как говорилось в известном анекдоте: «А то..., то просто была демоверсия».

Не случайно NIST проводит несколько различных специализированных тестов, в которых используются данные, полученные в различных реальных условиях. Как показывает практика, пока ещё нет ни одного алгоритма, который лидировал бы во всех проводимых тестах.

И вечный вопрос: «Что делать?»

Ситуация может показаться безвыходной. Кроме описанных выше недостатков, биометрическая идентификация по лицу может быть легко скомпрометирована. Это не только фотографии на страницах СМИ или видеорепортажи. Это миллионы и миллионы фотографий в социальных сетях. Причём эти фотографии могут быть размещены не вами, а вашими друзьями. Тесты на возможность компрометации биометрических данных ещё не проводятся. В отличие от пароля заменить биометрию очень сложно. Именно поэтому важно предлагать к массовому использованию биометрии сложные для компрометации биометрические модальности.

Оптимальным решением удобства использования и сложности компрометации биометрических данных может стать многофакторная идентификация. Например, по биометрии и секретному коду (паролю), по биометрии и карте доступа, по двум разным типам биометрических модальностей. К последнему варианту хорошо подходит идентификация по лицу и радужной оболочке глаз или по отпечатку пальца и рисунку кровеносных сосудов пальца. Преимуществом такой идентификации будет то, что скомпрометировать рисунок кровеносных сосудов или радужной оболочки глаз значительно сложнее, чем геометрию лица или рисунок папиллярного узора пальца. За рубежом такие разработки уже ведутся. Надо и нам не отстать в реализации собственных решений.

И в заключение на вопрос верить или не верить в то, что пишут про биометрию, вспоминается ещё один анекдот:

«Беседуют два друга, один другому говорит:
— Колян, кончай смотреть телевизор! Там правду не скажут. Правду можно найти только в интернете.
— Тут ты, Сеня, прав. Только в интернете можно выбирать, в какую правду верить!»

Философы считают, что в абсолютном понимании нет ни правды, ни лжи, а существует лишь информация. Чтобы найти истину – читайте первоисточники и анализируйте их содержание.

1https://www.kommersant.ru/doc/5380273
2 https://bio-smart.ru/wtc2
3http://biometrics.idealtest.org
4 http://megaface.cs.washington.edu
5 https://vc.ru/tribuna/12299-google-ntechlab
6 https://www.computerra.ru/191602/visionlabs-v-sotrudnichestve-s-facebook-i-googlesozdala-otkr
7 https://www.nist.gov
8 https://guardinfo.online/2022/01/26/pochti-3-tysyachi-prestupnikov-zaderzhali-v-metromoskvy-s-pomoshhyu-sistemy-sfera



Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru