Автор: Владимир ИВАНОВ, д.т.н., профессор, эксперт, Станислав ЗВЕЖИНСКИЙ, д.т.н., профессор, АО «НПК «Дедал»

Проблемы фальсификации фото- и видеоматериалов на современном этапе развития цифровизации

В настоящее время специальное программное обеспечение (СПО) для редактирования (подделывания) фото- и видеоизображений объектов находит широкое распространение в повседневной жизни. Качество поддельных изображений достигло такого уровня, что не только обычному потребителю, но и эксперту различить поддельные изображения субъективными методами затруднительно. При этом с точки зрения криминалистики удаление или изменение фото- и видеоматериалов (фальсификация) является нарушением целостности первичной информации и, в принципе, уголовно наказуемо. Наиболее часто подделываются изображения с целями шантажа и ввода в заблуждение относительно произошедшего. Это реализуется путем:

-удаления или замены части видеозаписи при монтаже (линейном / нелинейном);

- кадрирования (обрезки) изображения;

-сокрытия, замены или внедрения виртуальных объектов (в т.ч. человекоподобного или полностью синтезированного) в сцену;

- анимации статических объектов и др. Основу соответствующих методов СПО составляют математические модели и алгоритмы обработки изображений, которые позволяют сглаживать (фильтровать, маскировать, адаптировать) результаты редактирования с минимизацией внешних признаков вмешательства. Известная технология синтеза изображений, получившая название Deepfake, основанная на методах искусственного интеллекта (ИИ), в том числе, искусственных нейронных сетей (ИНС) уже широко используется для соединения и наложения существующих фото и видео на исходники. При этом выявление и использование традиционных экспертных (субъективных) признаков вмешательства (в фото- или видеоисходники) становится крайне сложным.

Экспертные методы оценивания изображений способны выявить [1]:
- «перескоки» изображений, текущего времени и даты, резкие сдвиги отдельных элементов;
- различия в характере освещения объектов (направленное, рассеянное, равномерное, локальное);
- различия в распределении теней и световых бликов объектов сцены, обусловленных различным положением источников освещения в соответствии с расчетом точек размещения источников;
- различия в расположении точек съемки объектов и сцены в целом;
-различия в цветовых оттенках и зернистости на сходных или примыкающих элементах изображений;
- перепад оптических плотностей по границе зон фрагментов частей изображений и непосредственно примыкающих к ней областей фона при наблюдаемой неоднородности границы (извилистая, истонченная, увеличенная, разорванная и пр.);
- локальные усиления насыщенности цвета деталей и локальные изменения оптической плотности по всей сцене;
- повторяющиеся мелкие элементы изображений объектов, свидетельствующие о применении инструментов графических редакторов;
- несоответствие масштаба (диспропорция размеров), отсутствие композиционного единства элементов изображений;
- различия плотности почернения одинаковых по освещению элементов изображений;
- «необоснованные» отличия по степени резкости, плотности и контраста элементов изображений;
- признаки маскировочной ретуши по границам фрагментов изображений;
- наличие внедренных искусственных структурных заполнений фона на месте удаленных или около внедренных объектов и пр.

Перечисленные признаки являются «экзогенными» или внешними для исследуемого контента. Общими недостатками таких методов являются зависимость погрешности оценки от квалификации экспертов и большие трудности, связанные с распространением новых «тонких» методов обработки изображений, преимущественно посредством СПО на основе ИНС или машинного обучения, что существенно затрудняет установление целостности (аутентичности) контента. Причем можно утверждать, что в области фото экспертные оценки дают меньшую погрешность, чем в области видео.

Проблема создания современного программно-аппаратного инструментария по выявлению признаков фальсификации фото- и видеоконтента обусловливает необходимость разработки многокритериальной оценки многомерных данных, полученных в результате исследования прямых и косвенных признаков возможных нарушений целостности.

Это требует исследования существующих технологий внутрикадрового монтажа для синтеза поддельных изображений (фото и видео), анализа «схожих» СПО для известных видеосистем безопасности, а также исследования методов ИИ, применяемых за рубежом (в России число публикаций по исследуемой тематике на порядок меньше) на предмет выявления фальсификаций видео. В следующей работе будут описаны научно-обоснованные рекомендации по разработке перспективного отечественного СПО.

СПО для синтеза искусственных фото - и видеоизображений

Эталоном стандартов в области редактирования фотографий и видеоматериалов является компания Adobe [2] с продуктами Adobe Premiere, Adobe Photoshop и Adobe After Effects. В указанных или аналогичных программных продуктах ИНС используются для ускорения монтажа (линейного и нелинейного) и редактирования изображений.

Под последним понимается:
- внутрикадровый монтаж, связанный с внедрением, удалением, заменой одного или нескольких объектов;
- анимация статических или внедренных объектов;
- реставрация (в т.ч. раскрашивание) старых и частично утраченных фотографий и фильмов, а также обратный процесс – «состаривание»;
- перекодирование форматов, автокадрирование;
- выбор кадров с присутствием людей, трекинг;
- удаление дымки, вуали, размытий;
- коррекция цвета, резкости, замена фона;
- поворот лица объекта, преобразование лиц в улыбающиеся, открытие глаз;
- создание уникального лица методом объединения нескольких и др.

Замена лица персонажа в видеоматериалах осуществляется, как правило, с помощью генеративно-состязательных ИНС (GAN), где совместно работают две нейросети. Алгоритм замены лица в общем виде следующий:
- на «донорском» и целевом видео размечаются границы лиц (иногда в ручном режиме);
- из обоих видеофрагментов формируются кадры (фотографии) для 2-х массивов обучающих выборок;
- изображения сжимаются (кодируются) и восстанавливаются (декодируются), каждое своей нейросетью, до требуемого значения точности (способ кодирования-декодирования одинаков для обеих ИНС);
- для замены лиц декодировщики меняются местами;
- восстановленное изображение с заменой лица предъявляется для распознавания «родной» нейросети; если она не замечает подмены, то итерационный процесс обучения останавливается.

ИНС функционирует только после обучения на «большой» репрезентативной базе прецедентов – эталонных изображений. Известные СПО используют различные типы ИНС с разным числом слоев, персептронов в одном слое и связями между слоями. Сети сами позволяют выбирать вид решающей функции (например, линейная, логистическая, сигмоидная). В процессе обучения ИНС вычисляются коэффициенты связей между слоями и параметры разделяющей функции, которые являются коммерческой тайной разработчиков (не приводятся в публикациях).

В табл.1 кратко представлены известные СПО, работающие под различными операционными системами (ОС), предназначенные для создания и редактирования изображений с внедрением объектов и использующие технологии ИИ.

По мнению некоторых исследователей [15] неточности в работе современных ИНС в области синтеза (и фальсификации) изображений всегда остаются. Например, это заметно, когда полное лицо пытаются «натянуть» на худое и наоборот. В этих случаях может использоваться ручная дорисовка с последующим сглаживанием контуров. Существующие алгоритмы переносят только область лица от бровей до подбородка и от уха до уха, уши, волосы, лоб остаются без изменений, что может являться признаком распознавания подделки видеозаписи. Указывается, что ИНС «хорошо» меняет в видеоролике лицо анфас, однако при повороте головы «остаются» следы профиля от старого актера.

Аналогично обстоят дела с положением глаз, движением губ, мимикой и эмоциями. Каждому человеку свойственны индивидуальные особенности поведения, поэтому имея такой «эталон», возможно выявить подлог. Большая часть современных СПО работает с низким разрешением переносимой области лица 256х256 пикселей, для качественного решения необходимо 1024х1024. Улучшение разрешения может обеспечиваться и посредством ИНС.

Изучение СПО, представленных в табл.1, позволяет сделать следующие выводы:
- для внедрения объектов в изображение (фото, видео) чаще всего используются ИНС класса GAN, называемые «сиамские сети»;
- обработка видео осуществляется как на удаленных серверах разработчиков СПО, так и на рабочих станциях пользователей;
- для обучения ИНС требуется обучающая выборка значительного объема;
- время на создание фильма с внедренными объектами зависит от качества конечного продукта и варьируется от нескольких секунд до нескольких часов (для высокого качества требуется больше времени на обучение ИНС);
- распознавание поддельных видеоматериалов, созданных с использованием ИНС, осуществлять субъективными методами всё сложнее.



Системы безопасности , анализирующие фото и видео посредством ИНС

Современные ИНС используются в различных системах контроля и управления доступом (СКУД) на объекты и к ресурсам, а также в системах безопасности (общественного порядка) крупных объектов и городов. Автоматические системы распознавания лиц активно внедряются в средства паспортного контроля. Подделка биометрических данных (фото- и видеоизображений) может сделать определенные СКУД уязвимыми.

В табл. 2 приведены характеристики известных систем распознавания лиц, применяемых в СКУД. Значения показателя правильной идентификации лиц соответствуют, по заверениям разработчиков, уровню ≥ 0,99. Чаще всего в системах применяются ИНС класса GAN, реже CNN (сверточная нейронная сеть).



Научно-методический потенциал по выявлению нарушений целостности видеоконтента

Среди зарубежных публикаций в области анализа видеопотоков и выявления фейковых изображений следует отметить ряд книг и учебных пособий [29–34], а также издания представителей отдельных научных школ, представленные в табл. 3. В русскоязычном сегменте также можно отметить ряд полезных изданий [35–38]. Достоверность выявления подделок видео различными алгоритмами в среднем составляет величину 0,85–0,95.

Анализ зарубежных научных публикаций в области обнаружения подделок видео (табл. 3) позволяет сделать вывод о применяемом математическом аппарате и использовании следующих, преимущественно, «эндогенных» или внутренних характеристик и параметров изображений:
– вычисление линейного коэффициента предсказания;
– регрессионный и авторегрессионный анализ;
– фильтрация методами Маркова и Габора, медианная;
– дискретное косинусное преобразование;
– анализ главных компонент;
– сингулярное разложение;
– дискретное вейвлет-преобразование;
– корреляционный и автокорреляционный анализ амплитуд и фаз;
– кластерный анализ методом k-средних в метрике Евклида;
– спектральный анализ;
– анализ энтропии;
– интерполирование и экстраполирование.

При этом используются ИНС различных классов (CNN, ECNN, DNN), а также технологии машинного обучения (SVM-классификатор). В качестве типовых информативных признаков выбираются:
1. «Следы» RAW-данных («сырых») с аналого-цифрового преобразователя матрицы видеокамеры в конечном сжатом изображении, а также параметры межпиксельных связей.
2. Характеристики снимаемой сцены (расположение объекта относительно камеры, источника света, других объектов, расположение теней).
3. Исследование видеопотоков на повтор и обрезку кадров, многократный захват или сжатие, скорости перемещения объектов, а также пикселей (межпиксельные связи, синтезированные структуры, характер границ объектов).
4. Исследование во времени поведения синтезированного объекта на изображении – повторяемые движения (жесты руками, наклоны и повороты головы, моргание глазами) и временные интервалы повторений (как правило, период повторений равен константе, либо интервалы подчинены нормальному закону распределения).

В представленных в табл. 3 публикациях авторов разных научных школ, преимущественно из Индии и Китая, декларируются достаточно высокие оценки достоверности распознавания фактов внедрения объектов в видеоматериалы на уровне 0,87–0,99. При этом, как правило:
– не приводится информация о предподготовке изображений к извлечению признаков подделок и методах стандартизации (нормирования) вектора признаков;
– при использовании ИНС не указывается перечень признаков, с которыми работают кодировщики / декодировщики;
– не приводится количество экспериментальных тестов, объем обучающей и тестовой выборок видеоматериалов;
– не приводятся характеристики видеокамер, которые использовались для записи оригинального видео, а также камер, применявшихся для записи или создания внедряемого объекта;
– не приводятся данные о разрешении изображений (исходных и внедренных объектов), технологии создания внедряемого объекта (ИНС или оператор, квалификация автора поддельного видео) и др.

Определенная «закрытость» указанных публикаций и их относительная «свежесть» указывает не только на наличие высокого коммерческого потенциала («ноу-хау») рассмотренной области применения ИИ, но и на значимую актуальность исследований.

Литература
1. http://www.exp-zentr.ru/videomontag.htm.
2. https://www.adobe.com.
3. https://fakeapp.site.
4. https://github.com/chervonij/DFL-Colab.
5. https://github.com/nagadit/DeepFaceLab Linux.
6. https://github.com/iperov/DeepFaceLab.
7. https://faceapp.io.
8. https://faceswapweb.com.
9. https://github.com/deepfakes/faceswap.
10. h t t p s : / / a p k p u r e . c o m / r u / d e e p f a k e - s t u d i o / c o m.deepworkings.dfstudio.
11. https://www.zaoapp.net.
12. http://reface.app.
13. https://www.dowell.ai.
14. https://www.synthesia.io/about.
15. https://vc.ru/ml/94457-kak-delayut-deepfake-video-ipochemu-luchshe-govorit-face-swap.
16. https://www.faceplusplus.com.
17. https://visionlabs.ai/ru/products/luna-platform.
18. https://armosystems.ru/about/partners/morpho.
19. https://findface.pro/solution/biometrichesky-kompleks.
20. https://www.innovatrics.com/face-recognition-solutions.
21. https://www.vocord.ru/products/vocord-tahion.
22. https://skybiometry.com.
23. https://face.3divi.com/products/face_sdk.
24. https://www.yitutech.com.
25. https://www.gorilla-technology.com.
26. http://english.easen-electron.com.
27. https://www.itv.ru.
28. https://www.agrg.ru/videoanalytics.
29. H.T. Sencar, N. Memon. Digital image forensics. – 2013.
30. M. Kirchner. Notes on Digital Image Forensics and Counter-Forensics. – 2012.
31. G. Bradski, A. Kaehler. Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly Media, Inc., California. – 2008.
32. D.A. Forsyth, J. Ponce. Computer Vision: A Modern Approach, 2nd Edition. – 2004.
33. Компьютерное зрение [Электронный ресурс] / Л. Шапиро, Дж. Стокман. 2-е изд. (эл.). – М.: БИНОМ. Лаборатория знаний, 2013 – 752 с.
34. US6757027B1 Automatic video editing.
35. Визильтер Ю.В., Желтов С.Ю., Бондаренко А.В. и др. Обработка и анализ изображений в задачах машинного зрения. – М.: Физматкнига, 2010. – 672 с.
36. Лукьяница А.А., Шишкин А.Г. Цифровая обработка видеоизображений. – М.: «Ай-Эс-Эс Пресс», 2009. – 518 с.
37. Патент RU 2634225 Способы и системы поиска объекта в видеопотоке.
38. Патент RU 2584441 Способ определения признаков монтажа на копиях документов, выполненных электрофотографическим способом.



Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru