В настоящее время специальное программное обеспечение (СПО) для редактирования (подделывания) фото- и видеоизображений объектов находит
широкое распространение в повседневной жизни. Качество поддельных
изображений достигло такого уровня, что не только обычному потребителю,
но и эксперту различить поддельные изображения субъективными методами
затруднительно. При этом с точки зрения криминалистики удаление или
изменение фото- и видеоматериалов (фальсификация) является нарушением
целостности первичной информации и, в принципе, уголовно наказуемо.
Наиболее часто подделываются изображения с целями шантажа и ввода в
заблуждение относительно произошедшего. Это реализуется путем:
-удаления или замены части видеозаписи при монтаже (линейном / нелинейном);
- кадрирования (обрезки) изображения;
-сокрытия, замены или внедрения виртуальных объектов (в т.ч. человекоподобного или полностью синтезированного) в сцену;
- анимации статических объектов и др.
Основу соответствующих методов СПО составляют математические модели и алгоритмы обработки изображений, которые позволяют сглаживать
(фильтровать, маскировать, адаптировать) результаты редактирования с
минимизацией внешних признаков вмешательства. Известная технология
синтеза изображений, получившая название Deepfake, основанная на методах искусственного интеллекта (ИИ), в том числе, искусственных нейронных
сетей (ИНС) уже широко используется для соединения и наложения существующих фото и видео на исходники. При этом выявление и использование
традиционных экспертных (субъективных) признаков вмешательства (в
фото- или видеоисходники) становится крайне сложным.
Экспертные методы оценивания изображений способны выявить [1]:
- «перескоки» изображений, текущего времени и даты, резкие сдвиги
отдельных элементов;
- различия в характере освещения объектов (направленное, рассеянное,
равномерное, локальное);
- различия в распределении теней и световых бликов
объектов сцены, обусловленных различным положением
источников освещения в соответствии с расчетом точек
размещения источников;
- различия в расположении точек съемки объектов и сцены
в целом;
-различия в цветовых оттенках и зернистости на сходных
или примыкающих элементах изображений;
- перепад оптических плотностей по границе зон
фрагментов частей изображений и непосредственно
примыкающих к ней областей фона при наблюдаемой
неоднородности границы (извилистая, истонченная,
увеличенная, разорванная и пр.);
- локальные усиления насыщенности цвета деталей и
локальные изменения оптической плотности по всей
сцене;
- повторяющиеся мелкие элементы изображений объектов, свидетельствующие о применении инструментов
графических редакторов;
- несоответствие масштаба (диспропорция размеров),
отсутствие композиционного единства элементов изображений;
- различия плотности почернения одинаковых по освещению элементов изображений;
- «необоснованные» отличия по степени резкости, плотности и контраста элементов изображений;
- признаки маскировочной ретуши по границам фрагментов изображений;
- наличие внедренных искусственных структурных заполнений фона на месте удаленных или около внедренных
объектов и пр.
Перечисленные признаки являются «экзогенными» или внешними для исследуемого контента. Общими недостатками таких методов являются зависимость погрешности
оценки от квалификации экспертов и большие трудности,
связанные с распространением новых «тонких» методов
обработки изображений, преимущественно посредством
СПО на основе ИНС или машинного обучения, что существенно затрудняет установление целостности (аутентичности) контента. Причем можно утверждать, что в области
фото экспертные оценки дают меньшую погрешность, чем
в области видео.
Проблема создания современного программно-аппаратного
инструментария по выявлению признаков фальсификации
фото- и видеоконтента обусловливает необходимость
разработки многокритериальной оценки многомерных
данных, полученных в результате исследования прямых и
косвенных признаков возможных нарушений целостности.
Это требует исследования существующих технологий внутрикадрового монтажа для синтеза поддельных изображений (фото и видео), анализа «схожих» СПО для известных
видеосистем безопасности, а также исследования методов
ИИ, применяемых за рубежом (в России число публикаций
по исследуемой тематике на порядок меньше) на предмет
выявления фальсификаций видео. В следующей работе
будут описаны научно-обоснованные рекомендации по
разработке перспективного отечественного СПО.
СПО для синтеза искусственных фото - и
видеоизображений
Эталоном стандартов в области редактирования фотографий и видеоматериалов является компания Adobe [2]
с продуктами Adobe Premiere, Adobe Photoshop и Adobe
After Effects. В указанных или аналогичных программных
продуктах ИНС используются для ускорения монтажа (линейного и нелинейного) и редактирования изображений.
Под последним понимается:
- внутрикадровый монтаж, связанный с внедрением,
удалением, заменой одного или нескольких объектов;
- анимация статических или внедренных объектов;
- реставрация (в т.ч. раскрашивание) старых и частично
утраченных фотографий и фильмов, а также обратный
процесс – «состаривание»;
- перекодирование форматов, автокадрирование;
- выбор кадров с присутствием людей, трекинг;
- удаление дымки, вуали, размытий;
- коррекция цвета, резкости, замена фона;
- поворот лица объекта, преобразование лиц в улыбающиеся, открытие
глаз;
- создание уникального лица методом объединения нескольких и др.
Замена лица персонажа в видеоматериалах осуществляется, как правило, с
помощью генеративно-состязательных ИНС (GAN), где совместно работают
две нейросети. Алгоритм замены лица в общем виде следующий:
- на «донорском» и целевом видео размечаются границы лиц (иногда в
ручном режиме);
- из обоих видеофрагментов формируются кадры (фотографии) для 2-х
массивов обучающих выборок;
- изображения сжимаются (кодируются) и восстанавливаются (декодируются), каждое своей нейросетью, до требуемого значения точности
(способ кодирования-декодирования одинаков для обеих ИНС);
- для замены лиц декодировщики меняются местами;
- восстановленное изображение с заменой лица предъявляется для
распознавания «родной» нейросети; если она не замечает подмены, то
итерационный процесс обучения останавливается.
ИНС функционирует только после обучения на «большой» репрезентативной
базе прецедентов – эталонных изображений. Известные СПО используют
различные типы ИНС с разным числом слоев, персептронов в одном слое и связями между слоями. Сети сами позволяют выбирать вид решающей
функции (например, линейная, логистическая, сигмоидная). В процессе
обучения ИНС вычисляются коэффициенты связей между слоями и параметры разделяющей функции, которые являются коммерческой тайной
разработчиков (не приводятся в публикациях).
В табл.1 кратко представлены известные СПО, работающие
под различными операционными системами (ОС), предназначенные для создания и редактирования изображений с
внедрением объектов и использующие технологии ИИ.
По мнению некоторых исследователей [15] неточности в
работе современных ИНС в области синтеза (и фальсификации) изображений всегда остаются. Например, это заметно,
когда полное лицо пытаются «натянуть» на худое и наоборот. В этих случаях может использоваться ручная дорисовка
с последующим сглаживанием контуров. Существующие
алгоритмы переносят только область лица от бровей до
подбородка и от уха до уха, уши, волосы, лоб остаются без
изменений, что может являться признаком распознавания
подделки видеозаписи. Указывается, что ИНС «хорошо»
меняет в видеоролике лицо анфас, однако при повороте
головы «остаются» следы профиля от старого актера.
Аналогично обстоят дела с положением глаз, движением
губ, мимикой и эмоциями. Каждому человеку свойственны
индивидуальные особенности поведения, поэтому имея
такой «эталон», возможно выявить подлог. Большая часть
современных СПО работает с низким разрешением переносимой области лица 256х256 пикселей, для качественного
решения необходимо 1024х1024. Улучшение разрешения
может обеспечиваться и посредством ИНС.
Изучение СПО, представленных в табл.1, позволяет сделать
следующие выводы:
- для внедрения объектов в изображение (фото, видео)
чаще всего используются ИНС класса GAN, называемые
«сиамские сети»;
- обработка видео осуществляется как на удаленных
серверах разработчиков СПО, так и на рабочих станциях
пользователей;
- для обучения ИНС требуется обучающая выборка значительного объема;
- время на создание фильма с внедренными объектами
зависит от качества конечного продукта и варьируется
от нескольких секунд до нескольких часов (для высокого
качества требуется больше времени на обучение ИНС);
- распознавание поддельных видеоматериалов, созданных с использованием ИНС, осуществлять субъективными методами всё сложнее.
|