- Статьи, обзоры, аналитика

Раздел: СТОП-КАДР
Тема:
Автор: Владимир ИВАНОВ, д.т.н., профессор, эксперт, Станислав ЗВЕЖИНСКИЙ, д.т.н., профессор, АО «НПК «Дедал»

О разработке отечественного специального программного обеспечения для выявления вмешательства в фото- и видеоизображения

Общие положения
Основные особенности процесса и методов обработки с различными целями (в том числе с криминальной) фото- и видеоконтента отражены в предыдущей работе авторов (ТЗ № 1-2021). В целом при исследовании фото- и видеоконтента на предмет выявления фактов подделки или внедрения объектов могут использоваться те же профессиональные средства монтажа фотографий и видеоматериалов, к которым относятся, прежде всего, Adobe Premiere и Adobe Photoshop, а также Pinnacle Studio, WinVCR, iFilmEdit, VirtualDub и др. Из отечественного специального программного обеспечения (СПО) в области анализа изображений следует указать «Vocord Видеоэксперт» (Vocord, Одинцово Московской обл.), «Эскиз-В» (ДиВиЛайн, Томск), «StreamEye Studio» (Elecard, Томск), «Fake Video Detection Service» (VIEN, Москва), «FindFace Security, FindFace SDK» (NtechLab, Москва).
Характеристики распространенных СПО, которые можно отнести к экспертно-криминалистическому классу, показаны в табл.1. Большинство из них использует искусственные нейронные сети (ИНС), реализованные на собственных алгоритмах или из состава общеизвестных библиотек.

Математические СПО для исследования фото- и видеоконтента
Для исследования изображений могут использоваться общеизвестные пакеты математического моделирования общего назначения: MathCAD, Matlab, LabVIEV, Wolfram Mathematica, Statistica и др., которые имеют соответствующие инструменты для работы с изображениями, в том числе в реальном времени. Например, в Matlab имеется инструмент Image Processing Toolbox, реализующий более 200 опций для работы с видео и цветовыми матрицами любых стандартов. MATLAB NeuroSolutions содержит 15 типовых моделей ИНС и 5 алгоритмов их обучения. Такое СПО, как Octave, относится к свободно распространяемым и кроссплатформенным, полностью совместимо с программным кодом Matlab. Язык программирования Python имеет в своем составе несколько бесплатных библиотек для работы с матрицами, нейросетями, видео и аудио (библиотеки Keras, Tensorflow, OpenCV).
Некоторые пакеты математического моделирования имеют опцию компиляции моделей в исполняемые файлы и создания тематически ориентированных библиотек и программ.
Большинство современных математических СПО общего назначения могут реализовать практически любую модель обработки фото- и видеоматериалов, в т.ч. в реальном или квази-реальном времени. При разработке отечественного СПО для исследования изображений на предмет внутрикадрового монтажа предпочтение следует отдавать инструментам математического моделирования общего назначения, свободно распространяемым, не зависимым от ежегодной оплаты лицензии и генерации ключей, а также от аппаратной привязки ключей и регистрации на сайтах производителей, по следующим причинам:
- наиболее мощные и популярные пакеты математического моделирования (Matlab, MatCAD, Wolfram Mathematica, Statistica, LabVIEV др., в т.ч. облачных сервисов для вычислений) находятся в юрисдикции США и могут быть заблокированы для пользователей РФ (в то время, как отечественного аналога нет);
- разработчики экспертно-криминалистического СПО не раскрывают особенностей извлечения признаков, построения, настроек и параметров математических моделей, используемых в исследовании изображений на предмет внедрения объектов, т.е. СПО работает по принципу «черного ящика»;
- разрабатываемые модели должны быть кроссплатформенными, желательно Linux-ориентированными, поскольку в РФ для использования в важных решениях сертифицировано несколько именно таких ОС – AstraLinux, Синтез-М, Циркон-36 и др.
Вышеназванные пакеты математического моделирования, а также экспертно-криминалистическое СПО реализует методы исследований изображений, которые сведены на рис.1.
На практике наиболее востребованными являются методы локализации (обнаружения или распознавания) объектов на цифровых изображениях, классификация которых представлена на рис.2.

Принципы анализа фото / видео и извлечения признаков подделки
Как показано выше, наиболее точными являются методы анализа структуры самого изображения, к которым относятся:

- RAW-данные с матрицы на выходе АЦП камеры;
- настройки сглаживающих фильтров камеры для оптимизации восприятия изображения человеком (уникальны для разных производителей камер);
- характеристики матрицы («темновые» токи, «горячие», «битые» и «залипшие» пикселы, распределение которых уникально для каждой матрицы) и АЦП (разрядность, время преобразования и др.);
- параметры межпиксельного сглаживания и переходов на границах объектов, баланса белого, средних значений отдельных цветов;
- метаданные изображений (EXIF), хранимые в первичных RAW- файлах и файлах изображений в других форматах после сжатия – JPG, TIF, BMP и др.
Относительно последнего следует заметить, что при конвертации или сжатии изображения метаданные могут частично утрачиваться или модифицироваться. Известны СПО для модификации EXIF-данных в RAW-файлах, и этот признак является ненадежным.
Таким образом, наиболее информативны и точны RAW-данные, но в таком формате на практике фотографии хранятся редко, а видеозаписи вообще не встречаются, поскольку занимают объем, многократно превышающий другие форматы, например, 10-20 раз больше объема сжатых файлов JPG.
RAW-данные подвергаются минимум двойному преобразованию (компрессии), в ходе которого их существенная часть теряется или преобразовывается: при переводе из RAW в JPG или другой формат; при сжатии кодеком смонтированного видеофильма и пр. При этом значительная часть данных, доступных в RAW-интерпретаторе, безвозвратно утрачивается. При повторном захвате видео и перемонтаже с внедрением (или исключением) объектов в кадр, при выводе фильма видеоматериалы вновь подвергается компрессии, зачастую уже с использованием другого кодека. Судя по публикациям, представленным в табл.1 предыдущей статьи авторов, иногда факт многократного перекодирования или сглаживания считается признаком вмешательства в исходный контент. Некоторые производители высококачественной продукции для проверки аутентичности контента включают в изображение специальные метки (цифровые водяные знаки), однако такое решение пока встречается редко (несколько % по рынку).
Тем не менее, можно выдвинуть рабочую гипотезу, что часть RAW-данных все же можно восстановить (или косвенно оценить) по имеющемуся сжатому изображению с частично утраченными EXIF-данными. Также возможна ситуация с идентификацией фото и видео на предмет вмешательства, когда ни один прямой признак не дает однозначного ответа о факте вмешательства в изображение, но по совокупности нескольких слабых косвенных признаков (которые в отдельности не являются доказательствами) можно будет формировать один обобщенный показатель качества изображения. При этом следует использовать математический аппарат big data (большие данные) и data mining (машинное обучение).
В общей классификации методов и программ для обработки фото- и видеоматериалов можно выделить методы, реализуемые на уровне RAW-данных а также программные средства, показанные на рис. 3. Файлы сопровождаются метаданными (EXIF), где хранится информация о типе и настройках камеры – ISO, разрядность АЦП, размер снимка, число цветовых компонент, тип кодирования, время создания / редактирования и геометки, диафрагма, выдержка, фокус, время оцифровки, тип баланса белого, яркость, поле зрения и др. Эти данные в совокупности являются уникальными для каждого снимка, поскольку условия съемки непрерывно меняются.
Производители фото- и видеооборудования применяют матрицы от разных производителей и из разных партий, которые, несмотря на постоянное повышение качества, различаются «темновыми» токами, что проявляется в виде уникального расположения «горячих» пикселов на матрице. Каждый производитель использует уникальные фильтры корректировки RAW-данных (с выхода АЦП) для наилучшего восприятия снимка пользователем. К таким фильтрам относится межпиксельное сглаживание (интерполяция), гамма-коррекция, подавление цифрового шума матрицы и др. Таким образом, в совокупности данные о настройке фильтров, характеристик матриц, АЦП, камеры, а также условия сцены делают уникальным каждый снимок.
С точки зрения анализа уникальности снимка и его целостности желательно работать с RAW-данными интерпретатора, но такие файлы имеют большой объем и доступны к использованию только в дорогостоящей технике. Большинство производителей оборудования бюджетного уровня используют сжатие кадра непосредственно в камере (традиционно используется формат JPG). Как показано на рис. 3, фото- и видеоматериалы в процессе окончательной обработки изображений редактируются. При этом вновь могут применяться различные программные фильтры, осуществляться корректировка (цвета, освещенности, баланса белого и т.д.), сглаживание и интерполяция пикселов.
Внедрение объектов из других фото- и видеоматериалов (различные артобъекты, добавление или удаление объектов, в т.ч. человекоподобных) осуществляется программно. Внедряемые объекты, как правило, берутся из других фотографий и видеозаписей, полученных в других условиях съемки, с другими настройками и с помощью камер разных производителей. Таким образом векторы параметров RAW-данных и метаданных внедряемых объектов значительно различается. При внедрении объектов непременно возникают краевые эффекты, которые пытаются сгладить различными фильтрами (например, размытие, сглаживание, гауссова фильтрация). При этом само внедряемое изображение будет характеризоваться аддитивной смесью распределений параметров RAW-данных и настроек фильтров окончательного сглаживания, цветокоррекции и других параметров.
Внедренный в видеофильм объект должен анимироваться в соответствии с сюжетом фильма. Обычно он описывается 3D-моделью, создаваемой на основе его разбиения на элементарные полигоны, – используется метод полигонометрии. Полигоны имеют свой цвет, и для придания реалистичности объекту границы элементарных полигонов сглаживаются каким-либо фильтром.
Таким образом, возможны отличия межпиксельного сглаживания внедренного изображения от характера сглаживания остальной части изображения (сцены).
По окончании монтажа фильма осуществляется его вывод с использованием какого-либо кодека. При этом вновь используется сжатие с частичной потерей качества изображения.
Анализ работы видеокодеков показывает, что при сжатии осуществляется разбиение фильма на относительно однородные сцены со статическими объектами, где первый и последний кадры сцены остаются неизменными. Промежуточные кадры, где передвигаются только элементы, также могут различаться для разных объектов. Таким образом, существует возможность из сжатого видеофильма получить оригинальные кадры, которые использовались на этапе монтажа, а также получить информацию о характеристиках промежуточных кадров и элементов.
Таким образом, обнаружение внедренных объектов в фото- и видеоконтент возможно путем:
- извлечения из конечного продукта (фото или видео) остатков RAW-данных для различных областей изображения и оценки их однородности;
- обнаружения краевого эффекта внедренного объекта;
- определения неравномерности характеристик межпиксельного сглаживания на изображении и границах, выделения объектов с аномалиями.
На основании вышеизложенного можно сделать вывод о том, что для выявления перечисленных признаков целесообразно использовать математические методы, основные из которых показаны в табл. 3.

Выводы
Несомненно, что ввиду высокой потребности (легальной, криминальной) методы искусственного интеллекта для подделки фото- и видеоконтента будут развиваться и далее, что обуславливает необходимость развития «противодействующих» им методов (также основанных на ИИ), математических подходов к выявлению и доказыванию фактов вмешательства в контент.
Это определяет безусловную актуальность разработки соответствующих защитных СПО, по крайней мере, на ближайшие двадцать лет. Литература

1. http://en.vocord.ru/technical-support/demo-version.
2. https://diviline.ru.
3. https://www.elecard.com/ru/products/video-analysis/streameye-studio.
4. https://pt.2035.university/project/project-10.
5. https://findface.pro/findface-sdk.
6. http://www.guidancesoftware.ru/o-kompanii.html.
7. https://hi-tech.news/internet/2519-microsoft-video-authenticator-novyj-instrumentobnaruzhenija-deepfake.html.
8. https://ru.wikipedia.org/wiki/Alphabet.
9. https://ru.wikipedia.org/wiki/Jigsaw_(компания).
10. https://hightech.fm/2019/06/22/deepfake.
11. https://accessdata.com.
12. https://forevid.com.

Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru

Рады сообщить нашим читателям, что теперь нашем сайте работает модуль обратной связи. Нам важна ваша оценка наших публикаций! Также вы можете задавать свои вопросы.Наши авторы обязательно ответят на них.
Ждем ваших оценок, вопросов и комментариев!
Добавить комментарий или задать вопрос

Правила комментирования статей

Версия для печати

Средняя оценка этой статьи: 0 (голосов: 0)
Ваша оценка:

Подписка на новости