ПОТЕНЦИАЛ И ПЕРСПЕКТИВЫ ВНЕДРЕНИЯ РАЗВЕДОЧНОГО АНАЛИЗА ДАННЫХ В РАСКРЫТИИ И РАССЛЕДОВАНИИ ПРЕСТУПЛЕНИЙ
Аннотация и ключевые слова
Аннотация (русский):
В статье исследуются потенциал и перспективы внедрения разведочного анализа данных в процесс раскрытия, расследования и предупреждения преступлений, которые, по мнению автора, обусловлены активным развитием современных технологий и инструментов, особенно таких как технологии больших данных и язык программирования Python, которые значительно упрощают проведение криминалистами глубокого и разностороннего анализа данных. Автором исследуется разведочной анализ данных в разрезе следующих его аспектов: понятие и краткая история возникновения; факторы, влияющие на развитие; сравнение целей и задач с целями и задачами, стоящими перед криминалистикой; опыт применения, а также использование языка программирования Python.

Ключевые слова:
криминалистика, расследование преступлений, аналитика, большие данные, разведочный анализ данных, язык программирования Python
Текст
Текст произведения (PDF): Читать Скачать

Введение

Применение современных технологий в криминалистическом обеспечении раскрытия, расследования и предупреждении преступлений в наше время играет значительную роль. Ю. Л. Дяблова приводит в пример криминалистическое изучение личности, когда под воздействием цифровизации меняются свойства личности, в частности мышление, речь, свойства памяти, меняются способы фиксации информации о личности, запечатления внешности, характер действий как при совершении преступления, так и при его расследовании. Соответственно, меняются криминалистические рекомендации, основанные на криминалистически значимой личностной информации [1, с. 91].

Источники и средства сбора критически важной криминалистической информации, оказывающей влияние на криминалистику в целом, трансформируются по мере прогресса науки и техники. В то же время поступающая информация оказывается подвергнута кодированию с целью повышения удобства ее последующего хранения и обработки. Явной становится необходимость преобразования как системы научного обеспечения, так и средств материально-технического обеспечения криминалистики.

В данном контексте важно подчеркнуть роль современных технологий в криминалистике. Именно они позволяют эффективно обрабатывать, хранить и кодировать огромные объемы информации. Некоторые из наиболее распространенных и универсальных инструментов для работы с данными предлагают обширные возможности для их анализа, что делает их незаменимыми в современной криминалистике. Таким образом, использование технологий анализа данных открывает новые перспективы в этой области знаний.

Основная часть

Данная статья посвящена потенциалу и перспективам внедрения разведочного анализа данных (далее – EDA, от англ. exploratory data analysis) в раскрытии и расследовании преступлений, поэтому необходимо учитывать вызовы и возможности эпохи, в которой мы живем, ибо она характеризуется не только глобальной цифровизацией, но и существованием и развитием технологий больших данных (далее – Big Data), широкое распространение которых обусловлено не только количественным увеличением хранящихся и собираемых данных, но и качественными изменениями в способах их обработки и анализа.

Во-первых, это экспоненциальный рост объемов данных. Сегодня мы генерируем данные в невероятном количестве – от постов в социальных сетях до транзакций с кредитными картами, от метеорологических данных до медицинских записей, и уже сейчас хранение этих данных осуществляется преимущественно в цифровом формате.

Во-вторых, это разнообразие источников и форматов данных, когда они могут приходить как из структурированной базы данных органов внутренних дел Российской Федерации в удобном для последующей обработки формате, например .csv, так и из частного YouTube-канала современного блоггера в виде видеоролика, который также несет в себе множество данных (в том числе технического характера), потенциально подлежащих последующей обработке специалистом, умеющим «добывать» необходимую информацию из специфических источников.

В-третьих, это скорость обработки данных. В эпоху Big Data данные очень часто поступают в реальном времени и требуют непрерывного процесса их обработки.

В. С. Овчинский, руководствуясь данными Организации Объединенных Наций (далее – ООН), выделяет следующие виды Big Data [2, с. 129–133]:

1. Данные спутниковых изображений, которые были собраны с помощью спутниковых снимков и могут включать в себя информацию о погодных условиях, географических особенностях, изменениях в окружающей среде и даже активности людей.

2. Данные сетей мобильной телефонной связи, которые собираются операторами мобильной связи и содержат информацию о местоположении абонента, времени и продолжительности звонков, текстовых сообщениях и использовании данных.

3. Данные социальных сетей, которые пользователи генерируют и распространяют через социальные сети, содержащие тексты сообщений, фотографии, видео, информацию о лайках и даже метаданные, такие как время публикации и местоположение.

4. Данные сканирующих устройств, таких как сканеры штрих-кодов и биометрические сканеры, аккумулирующие информацию о ценах и различных продуктах, а также людях.

С целью исследования приведенных выше видов Big Data помимо изначально созданной Глобальной рабочей группы по использованию больших данных для целей официальной статистики ООН были созданы и другие специальные профильные рабочие группы.

Столь пристальное внимание к изучению подобных данных не может не свидетельствовать о большой значимости их изучения, в том числе для анализа и прогноза преступности. В существующей полицейской практике Big Data используются преимущественно по трем основным направлениям [2, с. 72]:

1. Сбор и хранение информации о ДНК.

2. Сбор и хранение биометрической информации, связанной с отпечатками пальцев, радужной оболочкой глаза, а также татуировками.

3. Массовое видеонаблюдение в местах большого скопления людей.

Очевидно, что данных направлений недостаточно, чтобы максимизировать эффект от борьбы с преступностью. Согласно результатам исследования, проведенного в 2019 г. среди руководителей ИТ-департаментов, представителей бизнес-подразделений и специалистов по работе с данными крупнейших российских организаций со штатом сотрудников не менее 500 человек компаниями IDC и Hitachi Vantara, работа с Big Data является актуальной практикой, приносящей конкретные «плоды». В то же время проведенное исследование подтвердило, что потребность в обработке увеличивающегося объема данных растет. Различные компании создают новые рабочие места для аналитиков, работающих с Big Data. Также важно отметить, что прослеживается потребность в анализе неструктурированной информации[1]. Таким образом, все это приводит нас к концепции разведочного анализа данных.

Понятие EDA не ново – оно было введено американским математиком Джоном Тьюки еще в прошлом веке. В своей книге «Анализ результатов наблюдений», написанной в 1977 г. Джон Тьюки выделяет EDA из статистического анализа данных путем деления последнего на два этапа
[3, с. 5]:

1. EDA, который включает преобразование данных наблюдений и
способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных.

2. Подтверждающий анализ, в котором применяются традиционные статистические методы оценки параметров и проверки гипотез.

В те годы, как утверждается в книге Джона Тьюки [3, с. 14], для первичной обработки результатов наблюдений было достаточно карандаша, бумаги и логарифмической линейки, чего было бы вполне достаточно и в наше время, если бы прогресс стоял на месте, а EDA не получил своего широкого распространения и развития в машинном обучении. Языки программирования и соответствующие присущие им наборы библиотек не просто отлично заменяют, но и на данный момент значительно превосходят своим функционалом и возможностями карандаш, бумагу и логарифмическую линейку. В то же время основные принципы EDA остаются неизменными – это поиск скрытых закономерностей и выявление определенных сведений.

Согласно С. В. Дубровину, одним из наиболее используемых определений криминалистики является определение Р. С. Белкина, исходя из которого, одной из важнейших задач криминалистики является изучение объективных закономерностей действительности, составляющих основу предмета криминалистики [4, с. 219]. Данное утверждение находит свое отражение в работах таких современных ученых, как О. Я. Баев [5],
В. Б. Вехов [6], О. П. Грибунов [7], которые также указывают на значительную роль исследования тех или иных закономерностей с целью расследования преступлений, ссылаясь на работы Р. С. Белкина. Все это свидетельствует о том, что
EDA сущностно соответствует как минимум данной задачи криминалистики, особенно при должном раскрытии своего потенциала и возможностей применения.

Несмотря на кажущуюся новизну термина EDA, в отечественной криминалистике имеются практические примеры его неявного применения.
В настоящее время алгоритм, предложенный А. А. Бессоновым, представляющий собой систему поддержки принятия следователем решения при выдвижении следственных версий и планировании расследования, содержащий в себе
EDA и написанный на языке программирования R, проходит апробацию в Главном управлении криминалистики (Криминалистическом центре) Следственного комитета Российской Федерации. А. А. Бессонов утверждает, что эта система позволит в практической работе реализовывать два алгоритма расследования: 1) «от вероятностного портрета преступника – к еще не обнаруженным следам преступления»; 2) «от вероятностного портрета преступника – к конкретному подозреваемому» [8, с. 52].

Другим неочевидным примером применения EDA могут послужить экспертные системы, которые, согласно В. Б. Вехову, представляют собой систему искусственного интеллекта, направленную на расследование и раскрытие преступлений. Данная система представляет базу знаний с набором правил и механизмов вывода и позволяет на основании правил и предоставляемых пользователем фактов определить и идентифицировать ситуацию, сформулировать решение или дать рекомендацию для выбора оптимального действия [6, с. 31].

М. Д. Лебедев в качестве примера приводит экспертную систему, разработанную еще в 1962 г. ВНИИСЭ, – «Автоэкс», которая решает ряд вопросов, затрагивающих определение числовых параметров различных элементов дорожно-транспортного происшествия, а также ряд расчетно-логических вопросов [9, c. 42].

Подчеркнув значимость и факт наличия опыта применения EDA, хоть и отчасти неосознанного, в отечественной криминалистике, можно перейти к более практическим аспектам его применения. В настоящее время для проведения EDA часто
используется язык программирования Python и его библиотеки, такие как Pandas, Matplotlib, Seaborn, Plotly. У. Маккинни считает основными такие библиотеки, как
NumPy, Pandas, Matplotlib, IPython и SciPy [10, с. 16–18]. В то же время А. Мюллер и С. Гвидо приводят иной список основных библиотек: Scikit-learn, NumPy, Matplotlib, Pandas и Mglearn
[11, с. 18–25].

Процесс проведения EDA в Python обычно включает следующие этапы:

1. Импорт данных. На данном этапе данные загружаются в Python из различных источников. Данный процесс выполняется с помощью различных библиотек, таких как Pandas, которая имеет встроенные функции для чтения файлов с данными
различных форматов, например
.
csv, .xlsx и .sql.

2. Очистка данных. После загрузки данных часто требуется очистка от пропущенных значений, дубликатов, ошибок, а также выбросов. Библиотека Pandas обладает большим функционалом для подобной обработки данных.

3. Анализ данных. На этом этапе данные анализируются с помощью статистических методов и последующей визуализации. В Pandas имеются различные функции для расчета статистических показателей, таких как среднее значение, медиана, стандартное отклонение и корреляция. Для визуализации данных можно использовать библиотеки Matplotlib и Seaborn, которые предоставляют функции для создания графиков, таких как гистограммы, ящики с усами и тепловые карты.

4. Интерпретация результатов. После проведения анализа результаты интерпретируются и используются для выявления закономерностей, обнаружения аномалий и проверки гипотез.

Важно отметить, что EDA – это итеративный процесс. После интерпретации результатов может потребоваться вернуться к этапу очистки данных или даже к этапу импорта данных, чтобы внести необходимые изменения или провести дополнительный анализ.

Существуют также и другие инструменты и методы для проведения EDA в Python, включая библиотеки: Plotly – для продвинутой визуализации и Statsmodels – для статистического анализа. Выбор конкретных инструментов и методов зависит от конкретной задачи и непосредственно доступных данных.

Все эти этапы EDA необходимы для проведения полноценного статистического анализа или же подготовки данных к построению моделей машинного обучения.

В настоящее время для решения в том числе и аналитических задач в Министерстве внутренних дел Российской Федерации существует информационная система обеспечения деятельности органов внутренних дел (далее – ИСОД), основными целями создания которой являлись [12, с. 75]:

1. Повышение уровня информационно-аналитического обеспечения деятельности подразделений МВД России на основе использования информационно-телекоммуникационных технологий.

2. Повышение экономической эффективности использования информационно-телекоммуникационных технологий при осуществлении функций, задач и полномочий, возложенных на МВД России.

Следует согласиться с точкой зрения Р. Р. Карданова и А. А. Курина, что  несмотря на то, что в  функционал ИСОД входит в том числе и информационно-аналитическое обеспечение, которое являет собой распределенный сбор разноформатных данных, проведение над ними модельных аналитических расчетов с целью получения новых знаний и предоставление результатов в наглядной форме (график, диаграмма), функционал ИСОД не раскрыт в полной мере – на ИСОД не возлагается решение текущих задач информационной работы [13, с. 176].

В перспективе применение EDA с использованием языка программирования Python несет в себе следующие преимущества перед аналитикой, осуществляемой с помощью ИСОД:

1. Гибкость и масштабируемость. Python является универсальным языком программирования, который может быть использован для различных задач, включая обработку и анализ больших объемов данных. Он поддерживает различные библиотеки для анализа данных, такие как Pandas, NumPy, Matplotlib и Seaborn, которые облегчают работу с данными.

2. Открытый код. Python – это открытый исходный код, что означает, что он бесплатен для использования и модификации. Это позволяет специалистам по данным легко делиться своими наработками и изучать код других людей для улучшения своих навыков и знаний.

3. Возможности визуализации. Python предлагает широкий спектр инструментов для визуализации данных, что помогает в интерпретации и представлении результатов анализа данных. Это может быть особенно полезно для криминалистов, которым нужно представить свои результаты в наглядной форме.

4. Машинное обучение. Python поддерживает различные библиотеки машинного обучения, такие как Scikit-learn, TensorFlow и Keras. Это позволяет специалистам по анализу данных использовать сложные алгоритмы и модели в своей работе с целью прогнозирования преступности путем создания нейронных сетей. Согласно Д. В. Бахтееву, «искусственные нейронные сети можно рассматривать как программные или аппаратные комплексы простых обработчиков данных, способных обмениваться друг с другом сигналами и при достаточно развитой структуре и настроенной логике взаимодействия решать сложные задачи» [14, с. 44].

5. Сообщество. Python имеет огромное сообщество разработчиков, которые постоянно работают над улучшением языка и созданием новых библиотек. Это означает, что при возникновении проблем или вопросов всегда можно обратиться за помощью к сообществу, даже несмотря на конфиденциальность той или иной информации, проще найти ответы на возникающие в процессе работы специалиста вопросы.

Выводы и заключение

Таким образом, в эпоху цифровизации и растущего объема данных применение EDA в криминалистике имеет большой потенциал и практико-ориентированные перспективы. Криминалистика открыта к внедрению новых современных технологий с целью совершенствования и повышения эффективности борьбы с преступностью. Необходимо развивать и совершенствовать систему подготовки кадров, не ограничиваться прежними педагогическими технологиями [15; 16]. Хоть EDA и не является новацией настоящей эпохи, он только начинает раскрывать свои возможности благодаря активному развитию инструментов проведения аналитики, в частности языку программирования Python. Вооружившись современным инструментарием EDA, криминалисты-практики смогут гораздо оперативнее и эффективнее выявлять скрытые закономерности, тренды и аномалии в криминалистически значимых данных и на основе проделанной работы принимать важные решения, что может быть ключевым фактором раскрытия преступлений и повышения общей эффективности работы правоохранительных органов. EDA – это незаменимый инструмент в руках современных криминалистов, который может позволить им более глубоко и всесторонне исследовать информацию, получаемую в ходе проведения расследований.

 

[1] Аналитика Больших данных как инструмент бизнес-инноваций. Исследование IDC. При поддержке Hitachi Vantara. // СNews : сайт. URL: https://filearchive.cnews.ru/img/files/2019/05/27/20190424idchitachiwpbdafin.pdf (дата обращения: 10.11.2023).

Список литературы

1. Дяблова, Ю. Л. Цифровая криминалистика - будущее науки или тренд современности? // Известия Тульского государственного университета. Экономические и юридические науки : науч. журн. 2021. № 1. С. 85-93.

2. Ларина, Е. С., Овчинский, В. С. Искусственный интеллект. Большие данные. Преступность. М. : Книжный мир, 2018. 416 с.

3. Тьюки, Д. У. Анализ результатов наблюдений: Разведочный анализ. М. : Мир, 1981. 693 с.

4. Дубровин, С. В. Криминалистика, ее понятие, задачи и система // Закон и право : науч. журн. 2021. № 11. С. 218-224.

5. Баев, О. Я. Избранные работы по проблемам криминалистики и уголовного процесса : сборник. М. : ЭКСМО, 2011. 1285 с.

6. Вехов, В. Б. Цифровая криминалистика : учебник для вузов / под ред. В. Б. Вехова, С. В. Зуева. М. : Юрайт, 2023. 417 с.

7. Грибунов, О. П. К 100-летнему юбилею Рафаила Самуиловича Белкина. Концептуальные основы криминалистики в научном труде Р. С. Белкина «Криминалистика: проблемы сегодняшнего дня. Злободневные вопросы российской криминалистики» // Вестник Восточно-Сибирского института МВД России : науч.-практ. журн. 2022. № 2 (101). С. 173-180.

8. Бессонов, А. А. Использование алгоритмов искусственного интеллекта в криминалистическом изучении преступной деятельности (на примере серийных преступлений) // Вестник Университета имени О. Е. Кутафина (МГЮА) : науч. журн. 2021. № 2 (78). С. 45-53.

9. Лебедев, М. Д., Саввоев, С. А. К вопросу об оптимизации судебно-экспертной деятельности в эпоху цифровизации // Скиф. Вопросы студенческой науки : науч. журн. 2021. № 3 (55). С. 41-45.

10. Маккинни, У. Python и анализ данных. М. : ДМК Пресс, 2020. 540 с.

11. Мюллер, А, Гвидо, С. Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными. М. : Диалектика, 2017. 472 с.

12. Веремеенко, Я. С. Современное состояние и перспективы развития ИСОД МВД России // Академическая мысль : электрон. сетевое издание. 2021. № 3 (16). С. 75-78. URL: https://media.mvd.ru/files/application/2244505 (дата обращения: 15.11.2023).

13. Карданов, Р. Р., Курин, А. А. Аналитическая обработка криминалистически значимой информации // Вестник Восточно-Сибирского института МВД России : науч.-практ. журн. 2019. № 2 (89). С. 173-181.

14. Бахтеев, Д. В. Искусственный интеллект в криминалистике: состояние и перспективы использования // Российское право: образование, практика, наука : науч. журн. 2018. № 2 (104). С. 43-49.

15. Сценарии проведения криминалистических викторин /Ф. Г. Аминев, Ю. Л. Бойко, О. П. Грибунов и др. М. : ЦОКР МВД России 2009. 72 с.

16. Грибунов, О. П., Антонов, В. А. Приоритетные направления профессиональной подготовки экспертных кадров МВД России // Подготовка кадров для силовых структур: современные направления и образовательные технологии : мат-лы двадцатой всерос. науч.-метод. конф. Иркутск. ВСИ МВД России. 2015. С. 27-29.

Войти или Создать
* Забыли пароль?