- Статьи, обзоры, аналитика

Раздел: СТОП-КАДР
Тема:
Автор: Владимир ИВАНОВ, д.т.н., профессор, эксперт, Станислав ЗВЕЖИНСКИЙ, д.т.н., профессор, АО «НПК «Дедал»

Проблемы фальсификации фото- и видеоматериалов на современном этапе развития цифровизации
В настоящее время специальное программное обеспечение (СПО) для редактирования (подделывания) фото- и видеоизображений объектов находит широкое распространение в повседневной жизни. Качество поддельных изображений достигло такого уровня, что не только обычному потребителю, но и эксперту различить поддельные изображения субъективными методами затруднительно. При этом с точки зрения криминалистики удаление или изменение фото- и видеоматериалов (фальсификация) является нарушением целостности первичной информации и, в принципе, уголовно наказуемо. Наиболее часто подделываются изображения с целями шантажа и ввода в заблуждение относительно произошедшего. Это реализуется путем:
-удаления или замены части видеозаписи при монтаже (линейном / нелинейном);
- кадрирования (обрезки) изображения;
-сокрытия, замены или внедрения виртуальных объектов (в т.ч. человекоподобного или полностью синтезированного) в сцену;
- анимации статических объектов и др. Основу соответствующих методов СПО составляют математические модели и алгоритмы обработки изображений, которые позволяют сглаживать (фильтровать, маскировать, адаптировать) результаты редактирования с минимизацией внешних признаков вмешательства. Известная технология синтеза изображений, получившая название Deepfake, основанная на методах искусственного интеллекта (ИИ), в том числе, искусственных нейронных сетей (ИНС) уже широко используется для соединения и наложения существующих фото и видео на исходники. При этом выявление и использование традиционных экспертных (субъективных) признаков вмешательства (в фото- или видеоисходники) становится крайне сложным.
Экспертные методы оценивания изображений способны выявить [1]:
- «перескоки» изображений, текущего времени и даты, резкие сдвиги отдельных элементов;
- различия в характере освещения объектов (направленное, рассеянное, равномерное, локальное);
- различия в распределении теней и световых бликов объектов сцены, обусловленных различным положением источников освещения в соответствии с расчетом точек размещения источников;
- различия в расположении точек съемки объектов и сцены в целом;
-различия в цветовых оттенках и зернистости на сходных или примыкающих элементах изображений;
- перепад оптических плотностей по границе зон фрагментов частей изображений и непосредственно примыкающих к ней областей фона при наблюдаемой неоднородности границы (извилистая, истонченная, увеличенная, разорванная и пр.);
- локальные усиления насыщенности цвета деталей и локальные изменения оптической плотности по всей сцене;
- повторяющиеся мелкие элементы изображений объектов, свидетельствующие о применении инструментов графических редакторов;
- несоответствие масштаба (диспропорция размеров), отсутствие композиционного единства элементов изображений;
- различия плотности почернения одинаковых по освещению элементов изображений;
- «необоснованные» отличия по степени резкости, плотности и контраста элементов изображений;
- признаки маскировочной ретуши по границам фрагментов изображений;
- наличие внедренных искусственных структурных заполнений фона на месте удаленных или около внедренных объектов и пр.
Перечисленные признаки являются «экзогенными» или внешними для исследуемого контента. Общими недостатками таких методов являются зависимость погрешности оценки от квалификации экспертов и большие трудности, связанные с распространением новых «тонких» методов обработки изображений, преимущественно посредством СПО на основе ИНС или машинного обучения, что существенно затрудняет установление целостности (аутентичности) контента. Причем можно утверждать, что в области фото экспертные оценки дают меньшую погрешность, чем в области видео.
Проблема создания современного программно-аппаратного инструментария по выявлению признаков фальсификации фото- и видеоконтента обусловливает необходимость разработки многокритериальной оценки многомерных данных, полученных в результате исследования прямых и косвенных признаков возможных нарушений целостности.
Это требует исследования существующих технологий внутрикадрового монтажа для синтеза поддельных изображений (фото и видео), анализа «схожих» СПО для известных видеосистем безопасности, а также исследования методов ИИ, применяемых за рубежом (в России число публикаций по исследуемой тематике на порядок меньше) на предмет выявления фальсификаций видео. В следующей работе будут описаны научно-обоснованные рекомендации по разработке перспективного отечественного СПО.

СПО для синтеза искусственных фото - и видеоизображений
Эталоном стандартов в области редактирования фотографий и видеоматериалов является компания Adobe [2] с продуктами Adobe Premiere, Adobe Photoshop и Adobe After Effects. В указанных или аналогичных программных продуктах ИНС используются для ускорения монтажа (линейного и нелинейного) и редактирования изображений.
Под последним понимается:
- внутрикадровый монтаж, связанный с внедрением, удалением, заменой одного или нескольких объектов;
- анимация статических или внедренных объектов;
- реставрация (в т.ч. раскрашивание) старых и частично утраченных фотографий и фильмов, а также обратный процесс – «состаривание»;
- перекодирование форматов, автокадрирование;
- выбор кадров с присутствием людей, трекинг;
- удаление дымки, вуали, размытий;
- коррекция цвета, резкости, замена фона;
- поворот лица объекта, преобразование лиц в улыбающиеся, открытие глаз;
- создание уникального лица методом объединения нескольких и др.
Замена лица персонажа в видеоматериалах осуществляется, как правило, с помощью генеративно-состязательных ИНС (GAN), где совместно работают две нейросети. Алгоритм замены лица в общем виде следующий:
- на «донорском» и целевом видео размечаются границы лиц (иногда в ручном режиме);
- из обоих видеофрагментов формируются кадры (фотографии) для 2-х массивов обучающих выборок;
- изображения сжимаются (кодируются) и восстанавливаются (декодируются), каждое своей нейросетью, до требуемого значения точности (способ кодирования-декодирования одинаков для обеих ИНС);
- для замены лиц декодировщики меняются местами;
- восстановленное изображение с заменой лица предъявляется для распознавания «родной» нейросети; если она не замечает подмены, то итерационный процесс обучения останавливается.
ИНС функционирует только после обучения на «большой» репрезентативной базе прецедентов – эталонных изображений. Известные СПО используют различные типы ИНС с разным числом слоев, персептронов в одном слое и связями между слоями. Сети сами позволяют выбирать вид решающей функции (например, линейная, логистическая, сигмоидная). В процессе обучения ИНС вычисляются коэффициенты связей между слоями и параметры разделяющей функции, которые являются коммерческой тайной разработчиков (не приводятся в публикациях).
В табл.1 кратко представлены известные СПО, работающие под различными операционными системами (ОС), предназначенные для создания и редактирования изображений с внедрением объектов и использующие технологии ИИ.
По мнению некоторых исследователей [15] неточности в работе современных ИНС в области синтеза (и фальсификации) изображений всегда остаются. Например, это заметно, когда полное лицо пытаются «натянуть» на худое и наоборот. В этих случаях может использоваться ручная дорисовка с последующим сглаживанием контуров. Существующие алгоритмы переносят только область лица от бровей до подбородка и от уха до уха, уши, волосы, лоб остаются без изменений, что может являться признаком распознавания подделки видеозаписи. Указывается, что ИНС «хорошо» меняет в видеоролике лицо анфас, однако при повороте головы «остаются» следы профиля от старого актера.
Аналогично обстоят дела с положением глаз, движением губ, мимикой и эмоциями. Каждому человеку свойственны индивидуальные особенности поведения, поэтому имея такой «эталон», возможно выявить подлог. Большая часть современных СПО работает с низким разрешением переносимой области лица 256х256 пикселей, для качественного решения необходимо 1024х1024. Улучшение разрешения может обеспечиваться и посредством ИНС.
Изучение СПО, представленных в табл.1, позволяет сделать следующие выводы:
- для внедрения объектов в изображение (фото, видео) чаще всего используются ИНС класса GAN, называемые «сиамские сети»;
- обработка видео осуществляется как на удаленных серверах разработчиков СПО, так и на рабочих станциях пользователей;
- для обучения ИНС требуется обучающая выборка значительного объема;
- время на создание фильма с внедренными объектами зависит от качества конечного продукта и варьируется от нескольких секунд до нескольких часов (для высокого качества требуется больше времени на обучение ИНС);
- распознавание поддельных видеоматериалов, созданных с использованием ИНС, осуществлять субъективными методами всё сложнее.

Системы безопасности , анализирующие фото и видео посредством ИНС
Современные ИНС используются в различных системах контроля и управления доступом (СКУД) на объекты и к ресурсам, а также в системах безопасности (общественного порядка) крупных объектов и городов. Автоматические системы распознавания лиц активно внедряются в средства паспортного контроля. Подделка биометрических данных (фото- и видеоизображений) может сделать определенные СКУД уязвимыми.
В табл. 2 приведены характеристики известных систем распознавания лиц, применяемых в СКУД. Значения показателя правильной идентификации лиц соответствуют, по заверениям разработчиков, уровню ≥ 0,99. Чаще всего в системах применяются ИНС класса GAN, реже CNN (сверточная нейронная сеть).

Научно-методический потенциал по выявлению нарушений целостности видеоконтента
Среди зарубежных публикаций в области анализа видеопотоков и выявления фейковых изображений следует отметить ряд книг и учебных пособий [29–34], а также издания представителей отдельных научных школ, представленные в табл. 3. В русскоязычном сегменте также можно отметить ряд полезных изданий [35–38]. Достоверность выявления подделок видео различными алгоритмами в среднем составляет величину 0,85–0,95.
Анализ зарубежных научных публикаций в области обнаружения подделок видео (табл. 3) позволяет сделать вывод о применяемом математическом аппарате и использовании следующих, преимущественно, «эндогенных» или внутренних характеристик и параметров изображений:
– вычисление линейного коэффициента предсказания;
– регрессионный и авторегрессионный анализ;
– фильтрация методами Маркова и Габора, медианная;
– дискретное косинусное преобразование;
– анализ главных компонент;
– сингулярное разложение;
– дискретное вейвлет-преобразование;
– корреляционный и автокорреляционный анализ амплитуд и фаз;
– кластерный анализ методом k-средних в метрике Евклида;
– спектральный анализ;
– анализ энтропии;
– интерполирование и экстраполирование.
При этом используются ИНС различных классов (CNN, ECNN, DNN), а также технологии машинного обучения (SVM-классификатор). В качестве типовых информативных признаков выбираются:
1. «Следы» RAW-данных («сырых») с аналого-цифрового преобразователя матрицы видеокамеры в конечном сжатом изображении, а также параметры межпиксельных связей.
2. Характеристики снимаемой сцены (расположение объекта относительно камеры, источника света, других объектов, расположение теней).
3. Исследование видеопотоков на повтор и обрезку кадров, многократный захват или сжатие, скорости перемещения объектов, а также пикселей (межпиксельные связи, синтезированные структуры, характер границ объектов).
4. Исследование во времени поведения синтезированного объекта на изображении – повторяемые движения (жесты руками, наклоны и повороты головы, моргание глазами) и временные интервалы повторений (как правило, период повторений равен константе, либо интервалы подчинены нормальному закону распределения).
В представленных в табл. 3 публикациях авторов разных научных школ, преимущественно из Индии и Китая, декларируются достаточно высокие оценки достоверности распознавания фактов внедрения объектов в видеоматериалы на уровне 0,87–0,99. При этом, как правило:
– не приводится информация о предподготовке изображений к извлечению признаков подделок и методах стандартизации (нормирования) вектора признаков;
– при использовании ИНС не указывается перечень признаков, с которыми работают кодировщики / декодировщики;
– не приводится количество экспериментальных тестов, объем обучающей и тестовой выборок видеоматериалов;
– не приводятся характеристики видеокамер, которые использовались для записи оригинального видео, а также камер, применявшихся для записи или создания внедряемого объекта;
– не приводятся данные о разрешении изображений (исходных и внедренных объектов), технологии создания внедряемого объекта (ИНС или оператор, квалификация автора поддельного видео) и др.
Определенная «закрытость» указанных публикаций и их относительная «свежесть» указывает не только на наличие высокого коммерческого потенциала («ноу-хау») рассмотренной области применения ИИ, но и на значимую актуальность исследований.

Литература
1. http://www.exp-zentr.ru/videomontag.htm.
2. https://www.adobe.com.
3. https://fakeapp.site.
4. https://github.com/chervonij/DFL-Colab.
5. https://github.com/nagadit/DeepFaceLab Linux.
6. https://github.com/iperov/DeepFaceLab.
7. https://faceapp.io.
8. https://faceswapweb.com.
9. https://github.com/deepfakes/faceswap.
10. h t t p s : / / a p k p u r e . c o m / r u / d e e p f a k e - s t u d i o / c o m.deepworkings.dfstudio.
11. https://www.zaoapp.net.
12. http://reface.app.
13. https://www.dowell.ai.
14. https://www.synthesia.io/about.
15. https://vc.ru/ml/94457-kak-delayut-deepfake-video-ipochemu-luchshe-govorit-face-swap.
16. https://www.faceplusplus.com.
17. https://visionlabs.ai/ru/products/luna-platform.
18. https://armosystems.ru/about/partners/morpho.
19. https://findface.pro/solution/biometrichesky-kompleks.
20. https://www.innovatrics.com/face-recognition-solutions.
21. https://www.vocord.ru/products/vocord-tahion.
22. https://skybiometry.com.
23. https://face.3divi.com/products/face_sdk.
24. https://www.yitutech.com.
25. https://www.gorilla-technology.com.
26. http://english.easen-electron.com.
27. https://www.itv.ru.
28. https://www.agrg.ru/videoanalytics.
29. H.T. Sencar, N. Memon. Digital image forensics. – 2013.
30. M. Kirchner. Notes on Digital Image Forensics and Counter-Forensics. – 2012.
31. G. Bradski, A. Kaehler. Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly Media, Inc., California. – 2008.
32. D.A. Forsyth, J. Ponce. Computer Vision: A Modern Approach, 2nd Edition. – 2004.
33. Компьютерное зрение [Электронный ресурс] / Л. Шапиро, Дж. Стокман. 2-е изд. (эл.). – М.: БИНОМ. Лаборатория знаний, 2013 – 752 с.
34. US6757027B1 Automatic video editing.
35. Визильтер Ю.В., Желтов С.Ю., Бондаренко А.В. и др. Обработка и анализ изображений в задачах машинного зрения. – М.: Физматкнига, 2010. – 672 с.
36. Лукьяница А.А., Шишкин А.Г. Цифровая обработка видеоизображений. – М.: «Ай-Эс-Эс Пресс», 2009. – 518 с.
37. Патент RU 2634225 Способы и системы поиска объекта в видеопотоке.
38. Патент RU 2584441 Способ определения признаков монтажа на копиях документов, выполненных электрофотографическим способом.

Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru

Рады сообщить нашим читателям, что теперь нашем сайте работает модуль обратной связи. Нам важна ваша оценка наших публикаций! Также вы можете задавать свои вопросы.Наши авторы обязательно ответят на них.
Ждем ваших оценок, вопросов и комментариев!
Добавить комментарий или задать вопрос

Правила комментирования статей

Версия для печати

Средняя оценка этой статьи: 0 (голосов: 0)
Ваша оценка:

Подписка на новости