Автор: Станислав ЗВЕЖИНСКИЙ, д.т.н., профессор МТУСИ Владимир ИВАНОВ, д.т.н., профессор, эксперт

Интеллектуальные методы поиска следов мошенничества в больших данных Окончание. Начало - № 4-2021



Обучение с подкреплением

Это группа методов МО, в ходе которого система (модель) обучается, взаимодействуя с некоторой средой. В обучении с подкреплением ищется компромисс между исследованием неизученных областей и применением имеющихся знаний. Его цель заключается в минимизации ошибки, а не в расчете всех ходов; каждый шаг не запоминается, а обобщаются ситуации, чтобы выходить из них с максимальной выгодой. Обучение с подкреплением в основном используется для самоуправления автомобилей, примитивных роботов, игр. Популярные алгоритмы: Q-Learning, Генетический алгоритм, SARSA, DQN, A3C.

Q-Learning – метод, применяемый в МО при т.н. агентном подходе [23]. На основе получаемого от среды «вознаграждения» агент формирует функцию полезности Q и впоследствии уже не случайно выбирает стратегию поведения, а учитывает опыт предыдущего взаимодействия со средой.

Алгоритм учится максимизировать получаемое «вознаграждение», с какой бы начальной точки ни начиналась работа. Одно из преимуществ метода – сравнение ожидаемой полезности доступных действий без формирования модели среды. Генетический алгоритм – эвристический алгоритм, используемый для оптимизации и моделирования, основан на случайном подборе, комбинировании и вариациях искомых параметров с использованием механизмов, аналогичных естественному отбору в природе [24,25]. Его отличительной особенностью является акцент на использование оператора «скрещивания», производящего рекомбинацию решений-кандидатов, роль которой аналогична функции скрещивания в живой природе.

Ансамбли методов машинного обучения

Ансамбль использует несколько обучающих алгоритмов с целью повышения эффективности прогнозирования в сравнении с каждым по отдельности, его можно рассматривать как способ улучшения какого-то алгоритма путем дополнительных вычислений (их требуется намного больше). Ансамбли применяются везде, где работают классические алгоритмы, но действуют точнее – для поисковых систем, компьютерного зрения, распознавания объектов. Популярные алгоритмы: Random Forest, Gradient Boosting.

Случайный лес (Random Forest, RF) – алгоритм МО, использующий фиксированное число решающих деревьев [26, 27]. Даже если решающие деревья сами по себе дают невысокое качество классификации, за счет их большого числа результат получается хорошим. В задаче регрессии их ответы усредняются, в задаче классификации решение принимается голосованием по большинству. Деревья строятся независимо по следующей схеме: 1) Выбирается подвыборка обучающей выборки, по ней строится свое дерево. 2) Для построения каждого расщепления в дереве выбираются несколько случайных признаков (для каждого нового расщепления свои случайные признаки). 3) По заранее заданному критерию выбираются наилучшие признак и расщепление по нему. Дерево строится до исчерпания выборки, пока в листьях не останутся представители только одного класса. Важнейшие параметры RF: 1) число деревьев, обычно, чем больше, тем лучше, однако время обучения и работы также пропорционально увеличиваются, так что нужно искать оптимум; 2) число признаков для расщепления – при их увеличении деревья становятся однообразными, а время построения увеличивается; 3) максимальная глубина деревьев – чем меньше, тем быстрее работа, но качество классификации хуже; 4) критерий расщепления, для задач классификации известны критерии Джини (gini) и энтропии (entropy).

Gradient Boosting (GBMachine) – это метод МО, который строит модель предсказания в форме ансамбля слабых предсказывающих моделей [28]. В нем новые модели однородных классификаторов обучаются по остаточной ошибке прошлых моделей, тем самым двигаясь к минимуму функции потерь. Метод нашел широкое применение в большинстве поисковых систем.

Искусственные нейронные сети

Искусственная нейронная сеть (ИНС) – это математическая модель, а также ее программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей нервных клеток живого организма. ИНС являются наиболее часто применяемыми инструментами прогнозирования, используются практически для всех вышеперечисленных случаев (алгоритмов), в т.ч. для выявления аномальных объектов на фото и видео; распознавания речи; обработки изображений. Популярные архитектуры ИНС: свёрточные сети (CNN), рекуррентные (RNN); прямого распространения; радиально-базисных функций; сеть Хопфилда; развёртывающие нейронные сети и др. [29-32].

Свёрточная нейронная сеть (CNN) – нейронная сеть, нацеленная в основном на эффективное распознавание образов изображений. Посредством применения специальной операции – свертки – осуществляется одновременное уменьшение количества хранимой в памяти информации и выделяются опорные признаки изображения, например, такие как ребра, контуры или грани объекта. На следующем этапе из признаков распознаются повторяемые фрагменты, которые дальше должны сложиться в фрагменты изображения. По сути, каждый слой ИНС использует собственное преобразование. Если на первых слоях сеть оперирует такими понятиями как «ребра» и «грани», то дальше используются понятия «текстура», «части» и пр. В результате такой проработки возможна правильная классификация картинки или выделение (на конечном шаге) искомого объекта на сцене.

Рекуррентная нейронная сеть (RNN) – ИНС, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки. В отличие от многослойных перцептронов, рекуррентные сети могут использовать внутреннюю память для обработки последовательностей произвольной длины. Поэтому сети RNN применимы в таких задачах, где целостный объект разбит на части, например, распознавание речи.

Тематика ИНС настолько разнообразна, что заслуживают отдельной публикации. Далее же рассмотрим примеры применения наиболее употребимых классических методов МО для обнаружения в БД признаков финансового мошенничества как одного из наиболее распространенных явлений.

Классические методы машинного обучения для обнаружения при знаков финансового мошенничества

Финансовое мошенничество, пожалуй, наиболее распространенный и «болезненный» вид цифрового мошенничества. Анализ вышеописанных методов МО позволяет выделить те из них, которые в большей степени соответствуют выявлению признаков финансового мошенничества
– это методы классического обучения, а именно – опорных векторов (SVM) и главных компонент (PCA). На рис. 4 показаны наиболее известные методы МО с классическим обучением.

В целом, рассматривая и обобщая применение методов МО в области финансового мошенничества, можно считать, что наиболее часто используются:
1) классификация – для обнаружения мошенничества с кредитными картами, автомобильного страхования, корпоративного мошенничества;
2) метод К-средних – форма кластеризации;
3) ИНС и логистическая модель – методы прогноза;
4) алгоритм изоляционный лес – обнаружение выбросов.

Анализ доступных источников позволил выявить ряд зарубежных исследований, использующих методы МО для обнаружения признаков финансового мошенничества – близкой (но не тождественной) исследуемой области нарушений АМЗ. Краткая информация об этом систематизирована в табл. 1. Из нее видно, что для обнаружения признаков финансового мошенничества применяются различные методы МО и ИАД. Единственно лучшего метода не существует, все зависит от конкретных условий.

Кодирование, нормализация данных и отбор признаков

Кодирование. Многие алгоритмы МО используют числовые категориальные входные данные, поэтому нужно знать способ их представления (кодирования). Таковых используется в основном два: 1) присвоение произвольного числового значения; 2) one-hot-encoding. Проблема первого заключается в том, что вводится порядок, который может отсутствовать в исходных данных.

После кодирования появляется ранжировка, но в большинстве своем категориальные данные не имеют порядка. Опасность такого кодирования заключается в том, что алгоритм может научиться отдавать предпочтение в зависимости от места из-за искусственных порядковых значений, введенных во время кодирования. По второму способу: вместо того, чтобы замени ть категориальное на числовое значение, создается столбец и используется 1 и 0 для обозначения каждого значения; эти новые столбцы называют фиктивными переменными. Его недостатком является расширение набора данных.

Нормализация. Необходимость нормализации обусловлена тем, что для некоторых алгоритмов важно иметь на входе данные, приведенные к определенному диапазону. Будучи разными по физическому смыслу, они зачастую сильно различаются между собой по абсолютным величинам. Нормализация позволяет всем признакам вносить одинаковый вклад или добавлять признаки в зависимости от их важности, а не масштаба. Алгоритмы, не требующие нормализации данных, следующие: деревья принятия решений (и все производные); наивный Байес. Алгоритмы, требующие нормализацию: ИНС; k-ближайших соседей.

Для нормализации данных должны быть известны пределы изменения значений соответствующих переменных, им и будут соответствовать границы интервала нормализации. Если точно установить их невозможно, они задаются с учетом минимальных и максимальных значений в имеющейся выборке данных. Способы нормализации: Standart Scaling (линейный); MinMax Scaling (линейный).

Standart Scaling удаляет среднее значение и масштабирует данные до единичной дисперсии. Однако выбросы оказывают влияние при вычислении эмпирического среднего и стандартного отклонения, которые сужают диапазон значений признаков. Поэтому StandardScaling не может гарантировать сбалансированные масштабы при наличии выбросов. MinMax Scaling изменяет размер набора данных так, что все значения признаков находятся в диапазоне [0, 1]. MinMaxScaling также чувствителен к наличию выбросов.

Отбор признаков (Feature selection) – это процесс отбора зависимых и независимых переменных для использования в построении модели (алгоритма). Данные, как правило, содержат некоторые признаки, которые либо излишни, либо не значимы, а потому могут быть удалены без существенной потери информации о предмете. Излишние и незначимые – различные понятия, поскольку один значимый признак может быть излишним при присутствии другого существенного признака, с которым он сильно коррелирует. Техники отбора позволяют: 1) упростить модель для ее более простой интерпретации; 2) обеспечить меньшее время обучения; 3) обойти «проклятие размерности»; 4) улучшить обобщение (уменьшить дисперсию) сокращением переобучения. Существует несколько подходов в выборе признаков.

Статистические подходы. Наиболее очевидный признак на исключение – признак, у которого значение неизменно, т.е. не содержит вообще никакой информации, или признак является мало вариативным, то есть с малой дисперсией. Так можно отсекать признаки, дисперсия которых ниже определенного уровня.

Отбор с использованием моделей. Суть подхода – использовать модель для оценки признаков, причем модель должна явно показывать важность использованных признаков. Обычно используются два типа моделей, способных обнулять веса слабых признаков: Random Forest или линейная модель с Lasso-регуляризацией. Если признаки явно бесполезны в простой модели, то не надо использовать их в более сложной модели.

Перебор признаков. Самый надежный, но вычислительно самый сложный способ основан на банальном переборе: модель обучается на подмножестве признаков, запоминается результат, повторяется для разных подмножеств, сравнивается качество моделей. Такой подход называется Exhaustive Feature Selection. Перебирать все комбинации слишком долго, для ускорения обычно используется алгоритм Sequential Feature Selection, уменьшающий пространство перебора. Фиксируется небольшое число признаков N, перебираются все комбинации по N признакам, выбирается лучшая комбинация.

Следом исследуется комбинации из N+1 признаков так, что предыдущая лучшая комбинация признаков фиксируется, а перебирается только новый признак. Таким образом, перебор осуществляется до тех пор, пока качество модели (или максимально допустимое число признаков) не перестанет значимо расти.

Выводы

Проведенный аналитический обзор интеллектуальных методов анализа больших данных применительно к поиску следов аномалий (мошенничества) показывает, на наш взгляд, широкую палитру применяемых средств (алгоритмов). Это подтверждает тезис о том, что не существует оптимального метода (алгоритма), все определяется конкретикой области деятельности и условиями поиска.

Практически все методы машинного обучения требуют приведения (парсинга) данных к единой цифровой форме, и зачастую эффективность парсинга оказывает определяющее влияние на эффективность поиска аномалий. Все методы ИИ базируются на фундаменте математической статистики. При существенной доле неопределенности преимущества имеют такие методы машинного обучения, как классификация и кластеризация.

Литература
1. Иванов В., Звежинский С. Проблемы фальсификации фото- и видеоматериалов на современном этапе развития цифровизации // Технологии безопасности. 2021.- №1.
2. Фатьянов А.А. Большие данные в цифровой экономике: ценность и правовые вызовы // Экономика. Право. Общество. – 2018. - №4(16). – С.37-40.
3. https://ru.wikipedia.org/wiki/Большие_данные; / Машинное_обучение; / Data_mining.
4. http://www.machinelearning.ru/wiki/index.php?title=MachineLearning.
5. НОУ ИНТУИТ: Лекция: Введение в машинное обучение (https://www.intuit.ru/studies/ courses/10621/1105/lecture/17981).
6. Zhang H. The optimality of naive Bayes. AA. 2004. Т.1. №2. p.3-8.
7. Rish I. et al. An empirical study of the naive Bayes classifier. IJCAI 2001 workshop on empirical methods in artificial intelligence. 2001. Т.3. №22. p.41-46.
8. Swain P.H., Hauska H. The decision tree classifier: Design and potential. IEEE Transactions on Geoscience Electronics. 1977. Т.15. №3. p.142-147.
9. https://ru.wikipedia.org/wiki/Метод_опорных_векторов.
10. http://www.machinelearning.ru/wiki/index. php?title=Логистическая_регрессия.
11. http://www.machinelearning.ru/wiki/index. php?title=Кластеризация.
12. Likas A., Vlassis N., Verbeek J. The global k-means clustering algorithm. Pattern recognition. 2003. Т.36. №2. p.451-461.
13. https://ru.wikipedia.org/wiki/DBSCAN.
14. https://basegroup.ru/community/articles/apriori.
15. Borgelt C. An Implementation of the FP-growth algorithm. Proc. 1-st Int. workshop on open source DM: Frequent pattern mining implementations. 2005. p.1-5.
16. https://basegroup.ru/community/articles/fpg.
17. http://www.machinelearning.ru/wiki/index.php?title=Метод_ главных_компон.
18. http://data4.ru/pca.
19. Landauer T.K. et al. (ed.). Handbook of latent semantic analysis. Psychology Press. 2013.
20. Liu F.T., Ting K.M., Zhou Z.H. Isolation forest. 8-th IEEE Int. conf. on Data Mining, 2008. IEEE. 2008. p.413-422.
21. Sun L. et al. Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study. arXiv preprint:1609.06676. 2016.
22. Иванов С.М. Методы детектирования аномалий: Курсовая работа. – М.: МГУ, 2017.
23. https://ru.wikipedia.org/wiki/Q-обучение.
24. De Jong K. Genetic-algorithm-based learning. Machine learning. Morgan Kaufmann. 1990. p.611-638.
25. https://ru.wikipedia.org/wiki/Генетический_алгоритм.
26. Liaw A. et al. Classification and regression by RandomForest. R-news. 2002. Т.2. №3. p.18-22.
27. https://dyakonov.org/2016/11/14/случайный-лес-randomforest.
28. https://habr.com/ru/company/ods/blog/327250.
29. https://ru.wikipedia.org/wiki/Нейронная_сеть.
30. Lawrence S. et al. Face recognition: A convolutional neural-network approach. IEEE trans. on neural networks. 997. Т.8. №1. p.98-113.
31. Mikolov T. et al. Recurrent neural network based language model. 11-th annual conf. of the international speech communication association. 2010.
32. Cerullo M.J., Cerullo V. Using neural networks to predict financial reporting fraud. Computer Fraud & Security. May/June 1999. p.14-17.
33. Bai B., Yen J., Yang X. False financial statements: characteristics of China’s listed companies and CART detecting approach. Int. Journal of Information Technology & Decision Making. 2008. p.339-359.
34. Chan P.K., Fan W., Prodromidir A.L., Stalfo S.L. Distributed data mining in credit card fraud detection. IEEE Intelligent Systems. Nov/Dec 1999. p.67-74.
35. Dorronsoro J.R. et al. Neural fraud detection in credit card operations. IEEE Transactions on Neural Networks. 1997. p.827-834.
36. Gao Z., Ye M. A framework for data mining-based anti-money laundering research. Journal of Money Laundering Control. 2007. p.170-179.
37. Kirkos E., Spathis C., Manolopoulos Y. Data mining techniques for the detection of fraudulent financial statements. Expert Systems with Applications. 2007. №32. p.995-1003.
38. Quah J.T.S., Sriganesh M. Real-time credit card fraud detection using computational intelligence. Expert Systems with Applications. 2008. p.1721-1732.
39. Yeh I., Lien C. The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications. 2008. p.2473-2480.
40. Zaslavsky V., Strizhak A. Credit card fraud detection using selforganizing maps. Information & Security. 2006. p.48-63.
41. Hastie T., Tibshirani R., Friedman J. The elements of Statistical Learning: Data mining, Inference, Prediction. 2-d Ed. Springer. 2008. 745p.



Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru