POTENTIAL AND PROSPECTS FOR INTEGRATION OF EXPLORATORY DATA ANALYSIS IN DETECTION AND INVESTIGATION OF CRIMES
Abstract and keywords
Abstract (English):
The article explores the potential and prospects of introducing exploratory data analysis in the process of detection, investigation and prevention of crime, which, in the author's opinion, are due to the active development of modern technologies and tools, especially such as big data technologies and the Python programming language, which greatly simplify the conduct of in-depth and versatile data analysis by criminalists. The author explores ex-ploratory data analysis in terms of the following aspects: the concept and brief history of its emergence; factors influencing its development; compari-son of its goals and objectives with those of forensics; experience in its ap-plication; and the use of the Python programming language.

Keywords:
criminalistics, crime investigation, analytics, big data, exploratory data analysis, programming language Python
Text
Publication text (PDF): Read Download

Введение

Применение современных технологий в криминалистическом обеспечении раскрытия, расследования и предупреждении преступлений в наше время играет значительную роль. Ю. Л. Дяблова приводит в пример криминалистическое изучение личности, когда под воздействием цифровизации меняются свойства личности, в частности мышление, речь, свойства памяти, меняются способы фиксации информации о личности, запечатления внешности, характер действий как при совершении преступления, так и при его расследовании. Соответственно, меняются криминалистические рекомендации, основанные на криминалистически значимой личностной информации [1, с. 91].

Источники и средства сбора критически важной криминалистической информации, оказывающей влияние на криминалистику в целом, трансформируются по мере прогресса науки и техники. В то же время поступающая информация оказывается подвергнута кодированию с целью повышения удобства ее последующего хранения и обработки. Явной становится необходимость преобразования как системы научного обеспечения, так и средств материально-технического обеспечения криминалистики.

В данном контексте важно подчеркнуть роль современных технологий в криминалистике. Именно они позволяют эффективно обрабатывать, хранить и кодировать огромные объемы информации. Некоторые из наиболее распространенных и универсальных инструментов для работы с данными предлагают обширные возможности для их анализа, что делает их незаменимыми в современной криминалистике. Таким образом, использование технологий анализа данных открывает новые перспективы в этой области знаний.

Основная часть

Данная статья посвящена потенциалу и перспективам внедрения разведочного анализа данных (далее – EDA, от англ. exploratory data analysis) в раскрытии и расследовании преступлений, поэтому необходимо учитывать вызовы и возможности эпохи, в которой мы живем, ибо она характеризуется не только глобальной цифровизацией, но и существованием и развитием технологий больших данных (далее – Big Data), широкое распространение которых обусловлено не только количественным увеличением хранящихся и собираемых данных, но и качественными изменениями в способах их обработки и анализа.

Во-первых, это экспоненциальный рост объемов данных. Сегодня мы генерируем данные в невероятном количестве – от постов в социальных сетях до транзакций с кредитными картами, от метеорологических данных до медицинских записей, и уже сейчас хранение этих данных осуществляется преимущественно в цифровом формате.

Во-вторых, это разнообразие источников и форматов данных, когда они могут приходить как из структурированной базы данных органов внутренних дел Российской Федерации в удобном для последующей обработки формате, например .csv, так и из частного YouTube-канала современного блоггера в виде видеоролика, который также несет в себе множество данных (в том числе технического характера), потенциально подлежащих последующей обработке специалистом, умеющим «добывать» необходимую информацию из специфических источников.

В-третьих, это скорость обработки данных. В эпоху Big Data данные очень часто поступают в реальном времени и требуют непрерывного процесса их обработки.

В. С. Овчинский, руководствуясь данными Организации Объединенных Наций (далее – ООН), выделяет следующие виды Big Data [2, с. 129–133]:

1. Данные спутниковых изображений, которые были собраны с помощью спутниковых снимков и могут включать в себя информацию о погодных условиях, географических особенностях, изменениях в окружающей среде и даже активности людей.

2. Данные сетей мобильной телефонной связи, которые собираются операторами мобильной связи и содержат информацию о местоположении абонента, времени и продолжительности звонков, текстовых сообщениях и использовании данных.

3. Данные социальных сетей, которые пользователи генерируют и распространяют через социальные сети, содержащие тексты сообщений, фотографии, видео, информацию о лайках и даже метаданные, такие как время публикации и местоположение.

4. Данные сканирующих устройств, таких как сканеры штрих-кодов и биометрические сканеры, аккумулирующие информацию о ценах и различных продуктах, а также людях.

С целью исследования приведенных выше видов Big Data помимо изначально созданной Глобальной рабочей группы по использованию больших данных для целей официальной статистики ООН были созданы и другие специальные профильные рабочие группы.

Столь пристальное внимание к изучению подобных данных не может не свидетельствовать о большой значимости их изучения, в том числе для анализа и прогноза преступности. В существующей полицейской практике Big Data используются преимущественно по трем основным направлениям [2, с. 72]:

1. Сбор и хранение информации о ДНК.

2. Сбор и хранение биометрической информации, связанной с отпечатками пальцев, радужной оболочкой глаза, а также татуировками.

3. Массовое видеонаблюдение в местах большого скопления людей.

Очевидно, что данных направлений недостаточно, чтобы максимизировать эффект от борьбы с преступностью. Согласно результатам исследования, проведенного в 2019 г. среди руководителей ИТ-департаментов, представителей бизнес-подразделений и специалистов по работе с данными крупнейших российских организаций со штатом сотрудников не менее 500 человек компаниями IDC и Hitachi Vantara, работа с Big Data является актуальной практикой, приносящей конкретные «плоды». В то же время проведенное исследование подтвердило, что потребность в обработке увеличивающегося объема данных растет. Различные компании создают новые рабочие места для аналитиков, работающих с Big Data. Также важно отметить, что прослеживается потребность в анализе неструктурированной информации[1]. Таким образом, все это приводит нас к концепции разведочного анализа данных.

Понятие EDA не ново – оно было введено американским математиком Джоном Тьюки еще в прошлом веке. В своей книге «Анализ результатов наблюдений», написанной в 1977 г. Джон Тьюки выделяет EDA из статистического анализа данных путем деления последнего на два этапа
[3, с. 5]:

1. EDA, который включает преобразование данных наблюдений и
способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных.

2. Подтверждающий анализ, в котором применяются традиционные статистические методы оценки параметров и проверки гипотез.

В те годы, как утверждается в книге Джона Тьюки [3, с. 14], для первичной обработки результатов наблюдений было достаточно карандаша, бумаги и логарифмической линейки, чего было бы вполне достаточно и в наше время, если бы прогресс стоял на месте, а EDA не получил своего широкого распространения и развития в машинном обучении. Языки программирования и соответствующие присущие им наборы библиотек не просто отлично заменяют, но и на данный момент значительно превосходят своим функционалом и возможностями карандаш, бумагу и логарифмическую линейку. В то же время основные принципы EDA остаются неизменными – это поиск скрытых закономерностей и выявление определенных сведений.

Согласно С. В. Дубровину, одним из наиболее используемых определений криминалистики является определение Р. С. Белкина, исходя из которого, одной из важнейших задач криминалистики является изучение объективных закономерностей действительности, составляющих основу предмета криминалистики [4, с. 219]. Данное утверждение находит свое отражение в работах таких современных ученых, как О. Я. Баев [5],
В. Б. Вехов [6], О. П. Грибунов [7], которые также указывают на значительную роль исследования тех или иных закономерностей с целью расследования преступлений, ссылаясь на работы Р. С. Белкина. Все это свидетельствует о том, что
EDA сущностно соответствует как минимум данной задачи криминалистики, особенно при должном раскрытии своего потенциала и возможностей применения.

Несмотря на кажущуюся новизну термина EDA, в отечественной криминалистике имеются практические примеры его неявного применения.
В настоящее время алгоритм, предложенный А. А. Бессоновым, представляющий собой систему поддержки принятия следователем решения при выдвижении следственных версий и планировании расследования, содержащий в себе
EDA и написанный на языке программирования R, проходит апробацию в Главном управлении криминалистики (Криминалистическом центре) Следственного комитета Российской Федерации. А. А. Бессонов утверждает, что эта система позволит в практической работе реализовывать два алгоритма расследования: 1) «от вероятностного портрета преступника – к еще не обнаруженным следам преступления»; 2) «от вероятностного портрета преступника – к конкретному подозреваемому» [8, с. 52].

Другим неочевидным примером применения EDA могут послужить экспертные системы, которые, согласно В. Б. Вехову, представляют собой систему искусственного интеллекта, направленную на расследование и раскрытие преступлений. Данная система представляет базу знаний с набором правил и механизмов вывода и позволяет на основании правил и предоставляемых пользователем фактов определить и идентифицировать ситуацию, сформулировать решение или дать рекомендацию для выбора оптимального действия [6, с. 31].

М. Д. Лебедев в качестве примера приводит экспертную систему, разработанную еще в 1962 г. ВНИИСЭ, – «Автоэкс», которая решает ряд вопросов, затрагивающих определение числовых параметров различных элементов дорожно-транспортного происшествия, а также ряд расчетно-логических вопросов [9, c. 42].

Подчеркнув значимость и факт наличия опыта применения EDA, хоть и отчасти неосознанного, в отечественной криминалистике, можно перейти к более практическим аспектам его применения. В настоящее время для проведения EDA часто
используется язык программирования Python и его библиотеки, такие как Pandas, Matplotlib, Seaborn, Plotly. У. Маккинни считает основными такие библиотеки, как
NumPy, Pandas, Matplotlib, IPython и SciPy [10, с. 16–18]. В то же время А. Мюллер и С. Гвидо приводят иной список основных библиотек: Scikit-learn, NumPy, Matplotlib, Pandas и Mglearn
[11, с. 18–25].

Процесс проведения EDA в Python обычно включает следующие этапы:

1. Импорт данных. На данном этапе данные загружаются в Python из различных источников. Данный процесс выполняется с помощью различных библиотек, таких как Pandas, которая имеет встроенные функции для чтения файлов с данными
различных форматов, например
.
csv, .xlsx и .sql.

2. Очистка данных. После загрузки данных часто требуется очистка от пропущенных значений, дубликатов, ошибок, а также выбросов. Библиотека Pandas обладает большим функционалом для подобной обработки данных.

3. Анализ данных. На этом этапе данные анализируются с помощью статистических методов и последующей визуализации. В Pandas имеются различные функции для расчета статистических показателей, таких как среднее значение, медиана, стандартное отклонение и корреляция. Для визуализации данных можно использовать библиотеки Matplotlib и Seaborn, которые предоставляют функции для создания графиков, таких как гистограммы, ящики с усами и тепловые карты.

4. Интерпретация результатов. После проведения анализа результаты интерпретируются и используются для выявления закономерностей, обнаружения аномалий и проверки гипотез.

Важно отметить, что EDA – это итеративный процесс. После интерпретации результатов может потребоваться вернуться к этапу очистки данных или даже к этапу импорта данных, чтобы внести необходимые изменения или провести дополнительный анализ.

Существуют также и другие инструменты и методы для проведения EDA в Python, включая библиотеки: Plotly – для продвинутой визуализации и Statsmodels – для статистического анализа. Выбор конкретных инструментов и методов зависит от конкретной задачи и непосредственно доступных данных.

Все эти этапы EDA необходимы для проведения полноценного статистического анализа или же подготовки данных к построению моделей машинного обучения.

В настоящее время для решения в том числе и аналитических задач в Министерстве внутренних дел Российской Федерации существует информационная система обеспечения деятельности органов внутренних дел (далее – ИСОД), основными целями создания которой являлись [12, с. 75]:

1. Повышение уровня информационно-аналитического обеспечения деятельности подразделений МВД России на основе использования информационно-телекоммуникационных технологий.

2. Повышение экономической эффективности использования информационно-телекоммуникационных технологий при осуществлении функций, задач и полномочий, возложенных на МВД России.

Следует согласиться с точкой зрения Р. Р. Карданова и А. А. Курина, что  несмотря на то, что в  функционал ИСОД входит в том числе и информационно-аналитическое обеспечение, которое являет собой распределенный сбор разноформатных данных, проведение над ними модельных аналитических расчетов с целью получения новых знаний и предоставление результатов в наглядной форме (график, диаграмма), функционал ИСОД не раскрыт в полной мере – на ИСОД не возлагается решение текущих задач информационной работы [13, с. 176].

В перспективе применение EDA с использованием языка программирования Python несет в себе следующие преимущества перед аналитикой, осуществляемой с помощью ИСОД:

1. Гибкость и масштабируемость. Python является универсальным языком программирования, который может быть использован для различных задач, включая обработку и анализ больших объемов данных. Он поддерживает различные библиотеки для анализа данных, такие как Pandas, NumPy, Matplotlib и Seaborn, которые облегчают работу с данными.

2. Открытый код. Python – это открытый исходный код, что означает, что он бесплатен для использования и модификации. Это позволяет специалистам по данным легко делиться своими наработками и изучать код других людей для улучшения своих навыков и знаний.

3. Возможности визуализации. Python предлагает широкий спектр инструментов для визуализации данных, что помогает в интерпретации и представлении результатов анализа данных. Это может быть особенно полезно для криминалистов, которым нужно представить свои результаты в наглядной форме.

4. Машинное обучение. Python поддерживает различные библиотеки машинного обучения, такие как Scikit-learn, TensorFlow и Keras. Это позволяет специалистам по анализу данных использовать сложные алгоритмы и модели в своей работе с целью прогнозирования преступности путем создания нейронных сетей. Согласно Д. В. Бахтееву, «искусственные нейронные сети можно рассматривать как программные или аппаратные комплексы простых обработчиков данных, способных обмениваться друг с другом сигналами и при достаточно развитой структуре и настроенной логике взаимодействия решать сложные задачи» [14, с. 44].

5. Сообщество. Python имеет огромное сообщество разработчиков, которые постоянно работают над улучшением языка и созданием новых библиотек. Это означает, что при возникновении проблем или вопросов всегда можно обратиться за помощью к сообществу, даже несмотря на конфиденциальность той или иной информации, проще найти ответы на возникающие в процессе работы специалиста вопросы.

Выводы и заключение

Таким образом, в эпоху цифровизации и растущего объема данных применение EDA в криминалистике имеет большой потенциал и практико-ориентированные перспективы. Криминалистика открыта к внедрению новых современных технологий с целью совершенствования и повышения эффективности борьбы с преступностью. Необходимо развивать и совершенствовать систему подготовки кадров, не ограничиваться прежними педагогическими технологиями [15; 16]. Хоть EDA и не является новацией настоящей эпохи, он только начинает раскрывать свои возможности благодаря активному развитию инструментов проведения аналитики, в частности языку программирования Python. Вооружившись современным инструментарием EDA, криминалисты-практики смогут гораздо оперативнее и эффективнее выявлять скрытые закономерности, тренды и аномалии в криминалистически значимых данных и на основе проделанной работы принимать важные решения, что может быть ключевым фактором раскрытия преступлений и повышения общей эффективности работы правоохранительных органов. EDA – это незаменимый инструмент в руках современных криминалистов, который может позволить им более глубоко и всесторонне исследовать информацию, получаемую в ходе проведения расследований.

 

[1] Аналитика Больших данных как инструмент бизнес-инноваций. Исследование IDC. При поддержке Hitachi Vantara. // СNews : сайт. URL: https://filearchive.cnews.ru/img/files/2019/05/27/20190424idchitachiwpbdafin.pdf (дата обращения: 10.11.2023).

References

1. Dyablova, Yu. L. Cifrovaya kriminalistika - budushhee nauki ili trend sovremen-nosti? [Digital forensics - the future of science or the trend of our time?]. Izvestiya Tul`skogo gosudarstvennogo universiteta. E`konomicheskie i yuridicheskie nauki. 2021. № 1. pp. 85-93. (in Russian).

2. Ovchinskij, V. S. Iskusstvenny`j intellekt. Bol`shie danny`e. Prestup-nost` [Artifi-cial intelligence. Big Data. Criminality]. M. : Knizhny`j mir, 2018. 390 p. (in Russian).

3. T`yuki, D. U. Analiz rezul`tatov nablyudenij: Razvedochny`j analiz [Exploratory data analysis]. M. : Mir, 1981. 693 p. (in Russian).

4. Dubrovin, S. V. Kriminalistika, ee ponyatie, zadachi i sistema [Forensic science, its concept, tasks and system]. Zakon i pravo. № 11. 2021. pp. 218-224. (in Russian).

5. Baev, O. Ya. Izbranny`e raboty` po problemam kriminalistiki i ugolov-nogo processa. Sbornik [Selected works on the problems of criminalistics and criminal pro-cedure. Collection]. M. : E`KSMO, 2011. 609 p. (in Russian).

6. Vexov, V. B. Cifrovaya kriminalistika : uchebnik dlya vuzov / pod red. V. B. Vex-ova, S. V. Zueva. M. : Yurajt, 2023. 417 p. (in Russian).

7. Gribunov, O. P. K 100-letnemu yubileyu Rafaila Samuilovicha Belkina koncep-tual`ny`e osnovy` kriminalistiki v nauchnom trude R. S. Belkina «Kriminalistika: prob-lemy` segodnyashnego dnya. Zlobodnevny`e voprosy` Rossijskoj kriminalistiki» [To the 100th anniversary of Raphael Samuilovich Belkin conceptual foundations of criminalis-tics in R. S. Belkin "Criminalistics: problem’s today"]. Vestnik Vostochno-Sibirskogo in-stituta MVD Rossii. 2022. № 2(101). pp. 173-180. (in Russian).

8. Bessonov, A. A. Ispol`zovanie algoritmov iskusstvennogo intellekta v kriminal-isticheskom izuchenii prestupnoj deyatel`nosti (na primere se-rijny`x prestuplenij) [The use of artificial intelligence algorithms in the criminalistic study of criminal activity (on the example of serial crimes)]. Vestnik Universiteta imeni O.E. Kutafina (MGYuA). 2021. № 2(78). pp. 45-53. (in Russian).

9. Lebedev, M. D. K voprosu ob optimizacii sudebno-e`kspertnoj deyatel`-nosti v e`poxu cifrovizacii [On the optimization of forensic activity in the era of digitalization]. Skif. Voprosy` studencheskoj nauki. 2021. № 3(55). pp. 41-45. (in Russian).

10. Makkinni, U. Python i analiz danny`x [Python for Data Analysis]. M. : DMK Press, 2020. 540 p. (in Russian).

11. Myuller, A., Gvido S. Vvedenie v mashinnoe obuchenie s pomoshh`yu Python. Rukovodstvo dlya specialistov po rabote s danny`mi [Introduction To Machine Learn-ing With Python A Guide For Data Scientists]. M. : Dialektika, 2017. 472 p. (in Russian).

12. Veremeenko, Ya. S. Sovremennoe sostoyanie i perspektivy` razvitiya ISOD MVD Rossii [The current state and prospects of development of the ISOD of the Minis-try of Internal Affairs of Russia]. Akademicheskaya my`sl`. № 3(16). 2021. pp. 75-78. (in Russian).

13. Kardanov, R. R. Analiticheskaya obrabotka kriminalisticheski znachimoj in-formacii [Analytical processing of forensically relevant information]. Vestnik Vos-tochno-Sibirskogo instituta MVD Rossii. 2019. № 2(89). pp. 173-181. (in Russian).

14. Baxteev, D. V. Iskusstvenny`j intellekt v kriminalistike: sostoyanie i perspek-tivy` ispol`zovaniya [Artifiial intelligence in forensic science: current state and applica-tion potential]. Rossijskoe pravo: obrazovanie, praktika, nauka. 2018. № 2 (104). pp. 43-49. (in Russian).

15. Scenarii provedeniya kriminalisticheskih viktorin [Scenarios for conducting forensic quizzes.] Aminev F.G., Bojko YU.L., Gribunov O.P. M.: COKR MVD Rossii 2009. 72 p. (in Russian).

16. Gribunov, O.P., Antonov, V.A. Prioritetnye napravleniya professional'noj pod-gotovki ekspertnyh kadrov MVD Rossii [Priority areas of professional training of ex-pert personnel of the Ministry of Internal Affairs of Russia]. Podgotovka kadrov dlya silovyh struktur: sovremennye napravleniya i obrazovatel'nye tekhnologii. Materialy dvadcatoj vserossijskoj nauchno-metodicheskoj konferencii. Irkutsk. VSI MVD Rossii. - Training of personnel for law enforcement agencies: modern directions and education-al technologies. Materials of the twentieth All-Russian scientific and methodological conference. Irkutsk VSI of the Ministry of Internal Affairs of Russia. 2015. Pp. 27-29 (in Russian).

Login or Create
* Forgot password?