Введение: статья посвящена обоснованию выбора модели для криминологического прогнозирования на основе тренда временного ряда. Отмечается, что при отсутствии научно обоснованной математической формы для прогнозирования преступности в каждом конкретном случае криминологического прогнозирования приходится выбирать одну из возможных аналитических зависимостей. В статье исследованы вопросы оценки качества моделей и пригодности их для прогнозирования. Материалы и методы: исследование основывается на математических методах анализа временных рядов. Результаты исследования: предложена технология анализа математических моделей, позволяющая выбрать лучшую по точности прогноза модель для криминологического прогнозирования на основе тренда. Анализ модели включает три этапа: оценка качества модели, оценка пригодности полученной модели для прогнозирования и оценка ошибки прогноза. Предложенный подход реализован для решения задачи краткосрочного прогнозирования количества зарегистрированных преступлений в Иркутской области. Выводы и заключения: обоснованность применения в криминологическом прогнозировании математических моделей должна подтверждаться математическими методами. Критериями выбора модели могут служить качество описания исходных данных и прогностические свойства модели.
криминологическое прогнозирование, временной ряд, математическая модель
Предназначение любой науки – объяснить наблюдаемое и предсказать будущее. Не является исключением криминология – социально-правовая наука, занимающаяся изучением такого объективно сложившегося и системного социального явления, как преступность, а также закономерностей и тенденций ее возникновения и развития, личности преступника, причин и условий, способствующих совершению преступлений, эффективных методов, средств и мер предупредительного и профилактического характера и осуществления прогнозирования в целях борьбы с преступностью [1, с. 8].
Прогнозирование – это основанное на научных методах предсказание будущего. Преступность как предмет прогнозирования характеризуется двойственностью.
С одной стороны, преступность – объективное социальное явление, зависящее от других явлений и процессов в обществе, причем научно обоснованная математическая форма этой зависимости отсутствует.
С другой стороны, преступность – совокупность фактов преступлений, каждое из которых содержит элемент случайного. При анализе большой совокупности преступлений соотношение случайного и неслучайного меняется в пользу последнего: случайности взаимно компенсируются, а закономерности проявляются более отчетливо.
Отсутствие научно обоснованной математическая формы означает, что в каждом конкретном случае криминологического прогнозирования приходится выбирать одну из возможных аналитических зависимостей.
В данной статье рассмотрим выбор модели для криминологического прогнозирования на основе тренда временного ряда. Трендом называется характеристика процесса изменения явления за длительное время, освобожденная от случайных колебаний [2, с. 17].
Криминологическое прогнозирование с использованием тренда – это один их статистических методов прогнозирования. Он представляет собой экстраполяцию (продолжение) наблюдаемой тенденции развития на временные интервалы за пределами периода наблюдения.
Положительные свойства прогноза по тренду [2, с. 187–188]:
– трендовая модель охватывает все факторы, влияющие на прогнозируемое явление;
– прогноз динамики процесса основан на модели динамики, т.е. логическая основа соответствует задаче;
– для прогноза не требуется большого объема исходных данных.
Недостатки трендового прогнозирования:
– невозможно задать точность прогноза (можно лишь сделать вероятностную оценку ошибки прогнозирования);
– не учитывается влияние отдельных факторов, что не позволяет проигрывать разные сценарии развития событий.
Этот относительно несложный метод нашел применение при краткосрочном прогнозировании.
Экстраполяция дает возможность получить значение прогноза в виде числового значения (например, количество зарегистрированных преступлений в N-ской области в следующем году составит 15 125). Ввиду того, что массовые общественные явления, в том числе и преступность, характеризуются не функциональными, а корреляционными зависимостями, абсолютно точное совпадение прогноза с фактическим значением крайне маловероятно. Данное обстоятельство снижает доверие к прогнозу и его ценность. Гораздо более приемлемым представляется научно обоснованное суждение в виде доверительного интервала (интервала, который c заданной вероятностью содержит прогнозируемое значение).
Поэтому из достаточно большого числа однофакторных прогнозирующих функций предлагается выделить лишь те, которые пригодны для интервальных оценок прогноза:
y = ax+ b – линейная;
y = ax2+ bx+ c – квадратичная;
y = ax3+ bx2+ cx + d – кубическая;
y = abx – показательная (экспоненциальная);
y = c - abx – модифицированная показательная.
Для выбора модели следует оценить её способность описывать наблюдаемые события и предсказывать вероятное будущее.
Выбор математической модели предлагается проводить в три этапа:
1. Оценка качества модели.
2. Оценка пригодности полученной модели для прогнозирования.
3. Оценка ошибки прогноза.
Чтобы разобраться в значимости влияния выбора модели на результат криминологического прогнозирования, рассмотрим задачу краткосрочного прогнозирования количества зарегистрированных преступлений в Иркутской области (далее – количество преступлений). Исходные данные о фактическом количестве преступлений в 2010–2022 гг. получены из размещенных на официальном сайте МВД России справочных данных о состоянии преступности[1].
Значения входящих в модели коэффициентов a, b, c и d находятся численными методами так, чтобы что аналитическая зависимость наилучшим образом соответствовала фактическим данным. В качестве критерия достижения наилучшего результата обычно выступает минимум суммы квадратов разностей расчетных и фактических значений.
В программе Microsoft Excel метод может быть реализован с помощью надстройки Поиск решения, а также посредством добавления к графику временного ряда линии тренда. Однако более информативен регрессионный анализ – средство Регрессия из надстройки Пакет анализа. Регрессия анализирует влияние на наблюдаемый процесс одной или нескольких переменных, представленных в виде суммы (для первых трёх моделей независимыми переменными являются х, x2 и x3).
Коэффициенты показательной и модифицированной показательной функции также можно получить посредством регрессионного анализа, проведя логарифмирование:
ln(y) = ln(abx) = ln(a) + x ln(b),
ln(c – y) = ln(abx) = ln(a) + x ln(b).
Для описания исходных данных получены трендовые модели:
y = -2,159 x + 65,236,
y = 0,0571 x2 - 2,9583 x + 67,235,
y = - 0,00693 x3+ 0,2026 x2 - 3,804 x + 68,4,
ln(y) = 4,2033 - 0,04318x соответственно y = 66,906×0,9577x,
ln(65,984 – y) = 0,4362 + 0,2729x, y = 65,984 – 1,547×1,3138x,
где y – количество преступлений (в тысячах), x – номер года (x = 1 для 2010 года, x = 2 для 2011 г. и т. д.).
Исходные данные и квадратичный тренд наглядно представлены на рис. 1.
Рис.1. Квадратичный тренд
Фактические данные и результаты расчета по моделям приведены в таблице 1.
В таблице 1 также указан коэффициент детерминации R2 (объясняемая моделью доля дисперсии фактических данных). Коэффициент детерминации – это мера близости к фактическим данным, равен единице при полном совпадении. Принято считать, что хорошо описывают данные модели с коэффициентом детерминации выше 0,8.
Таблица 1
Фактические данные и результаты расчета
по моделям для криминологического прогнозирования
|
Количество преступлений (тысяч) |
|||||
факт |
расчет по модели |
|||||
линейная |
квадра-тичная |
кубическая |
показатель-ная |
модифицированная показательная |
||
2010 |
65,884 |
63,078 |
64,334 |
64,792 |
64,078 |
59,765 |
2011 |
58,488 |
60,919 |
61,547 |
61,547 |
61,370 |
58,891 |
2012 |
60,109 |
58,760 |
58,875 |
58,625 |
58,776 |
57,876 |
2013 |
57,098 |
56,602 |
56,316 |
55,983 |
56,292 |
56,697 |
2014 |
53,162 |
54,443 |
53,872 |
53,581 |
53,913 |
55,329 |
2015 |
53,552 |
52,284 |
51,542 |
51,375 |
51,634 |
53,739 |
2016 |
47,009 |
50,126 |
49,326 |
49,326 |
49,452 |
51,894 |
2017 |
46,026 |
47,967 |
47,224 |
47,391 |
47,362 |
49,751 |
2018 |
44,971 |
45,808 |
45,237 |
45,528 |
45,360 |
47,263 |
2019 |
45,929 |
43,649 |
43,364 |
43,697 |
43,443 |
44,374 |
2020 |
42,174 |
41,491 |
41,605 |
41,854 |
41,607 |
41,019 |
2021 |
39,363 |
39,332 |
39,960 |
39,960 |
39,848 |
37,124 |
2022 |
37,867 |
37,173 |
38,430 |
37,973 |
38,164 |
32,601 |
R2 |
1,000 |
0,956 |
0,963 |
0,964 |
0,965 |
0,513 |
Модифицированная показательная модель объясняет всего 51,3 % вариации фактических данных, остальные модели существенно точнее (около 95 %).
В связи с недостаточной точностью описания наблюдаемых событий модифицированная показательная модель исключается из дальнейшего рассмотрения.
Можно заметить, что в рассматриваемом примере увеличение сложности модели слабо влияет на повышение точности описания исходных данных: разница коэффициентов детерминации линейной и квадратичной модели меньше 1%, точность описания исходных данных кубической моделью почти не отличается от точности квадратичной модели, а график квадратичного тренда похож на прямую линию. В подобных ситуациях принято оценивать статистическую значимость найденных с помощью регрессии коэффициентов моделей. Если статистическая значимость коэффициентов не подтверждается, то включение в модель соответствующих переменных (одной или нескольких) не обоснованно, а модель нельзя применять для прогнозирования.
При регрессионном анализе для каждого коэффициента приводится значение t-критерия Стьюдента (в Microsoft Excel обозначен как t-статистика). Если абсолютная величина t-критерия Стьюдента окажется больше критического значения (функция СТЬЮДРАСПОБР в Microsoft Excel), то коэффициент статистически значимо отличается от нуля. В противном случае включение в модель данного коэффициента не оправданно. Результаты расчетов, проведенных с доверительной вероятностью 95%, не подтверждают статистическую значимость коэффициентов квадратичной и кубической модели (табл. 2). Данные модели непригодны для прогнозирования. На второй этап переходят две из пяти моделей.
Таблица 2
Оценка значимости коэффициента регрессии
Коэффициент |
Значение |
t-критерий |
t-критическое |
Статистическая значимость |
линейная модель |
||||
a |
-2,159 |
–15,4 |
2,18 |
да |
b |
65,236 |
58,5 |
2,18 |
да |
квадратичная модель |
||||
a |
0,0571 |
1,41 |
2,20 |
нет |
b |
-2,9583 |
–5,1 |
2,20 |
да |
c |
67,235 |
37,9 |
2,20 |
да |
кубическая модель |
||||
a |
-0,00693 |
–0,53 |
2,23 |
нет |
b |
0,2026 |
0,727 |
2,23 |
нет |
c |
-3,804 |
–2,22 |
2,23 |
нет |
d |
68,4 |
23,8 |
2,23 |
да |
показательная модель |
||||
ln(a) |
4,2033 |
213,9 |
2,18 |
да |
ln(b) |
-0,04318 |
–17,4 |
2,18 |
да |
Трендовое прогнозирование базируется на предположении о случайности ошибок аппроксимации Dy (разностей фактических и расчетных данных). Необходимые условия для выполнения этого требования:
– случайность колебаний ошибок аппроксимации;
– распределение ошибок аппроксимации соответствует нормальному закону распределения;
– математическое ожидание ошибок аппроксимации равно нулю.
Если хотя бы одно из условий не выполняется, то интервальное прогнозирование неправомерно.
Для проверки свойства случайности воспользуемся критерием «поворотных точек» [3, с. 145]. Точка считается поворотной, если она одновременно больше или меньше двух рядом стоящих точек.
Ряд ошибок аппроксимации можно считать случайным (следовательно, построенная модель не содержит систематической ошибки), если выполняется неравенство:
k > ent[2(n-2)/3 - 1,96((16n-29)/90)0,5],
k > ent[2(13-2)/3 - 1,96((16×13-29)/90)0,5],
k > 4,
где k – фактическое количество поворотных точек в ряде, n – число наблюдений, ent[ ] – целая часть заключенного в скобки выражения.
Наиболее просто определить поворотные точки, если простроить график ошибок аппроксимации. На рисунке представлен график для линейной модели, хорошо видно семь поворотных точек (точки с координатами по горизонтальной оси 2, 3, 5, 6, 7, 10 и 12). Полученное значение больше четырёх, что подтверждает случайность колебаний ошибок аппроксимации линейной модели. Для показательной модели это требование тоже выполнено.
Рис.2. Ошибки аппроксимации линейного тренда
Одним из наиболее простых и конструктивных тестов для проверки гипотезы о нормальности выборочных данных является алгоритм на основе критерия Харке – Бера (Jarque – Bera). Гипотеза о нормальном распределении не отвергается при справедливости неравенств [4, с. 35]:
|As| ≤ 3 (6n(n-1)/((n-2)(n+1)(n+3)))0,5,
|Ex| ≤ 5 (24n(n-1)2/((n-3)(n-2)(n+3)(n+5)))0,5,
где As и Ex – коэффициенты асимметрии и эксцесса ошибок аппроксимации (в Microsoft Excel вычисляются функциями СКОС и ЭКСЦЕСС).
Для распределения ошибок аппроксимации линейной модели получено:
|As| = |-0,148| ≤ 0,616,
|Ex| = |-1,023| ≤ 1,191.
Поскольку неравенства выполняются, то нет достаточных доказательств того, что набор данных не имеет нормального распределения. Другими словами, мы можем считать, что ошибки аппроксимации линейной модели распределены нормально.
Для показательной модели неравенства также выполняются.
Для проверки гипотезы о равенстве математического ожидания некоторому известному значению w (для рассматриваемого случая w = 0) применяется t-критерий Стьюдента:
t = (Dyср - w)n0,5/s,
где Dyср – средняя ошибка аппроксимации, s – среднеквадратическое отклонение ошибок аппроксимации (в Microsoft Excel рассчитывается функцией СТАНДОТКЛОН.Г).
Если абсолютная величина t-критерия Стьюдента окажется больше критического значения, гипотеза о равенстве математического ожидания значению w отвергается.
Рассчитаем t-критерий Стьюдента для показательной модели:
t = (0,0525 - 0)130,5/1,592 = 0,119.
Абсолютная величина t-критерия Стьюдента меньше критического значения, которое при уровне значимости 0,05 равно 2,18. Следовательно, с вероятностью 95 % условие равенства нулю математического ожидания ошибок аппроксимации для показательной модели выполнено. Для линейной модели равенство нулю математического ожидания ошибок также подтверждено.
Таким образом, линейная и показательная модели успешно прошли второй этап.
Осталось оценить ошибку прогноза.
Чтобы рассчитать прогнозное значение, в уравнение модели вместо x подставляем номер нужного года. Длина интервала прогнозирования не должна превышать трети длины периода наблюдения, поэтому сделаем прогноз на три года вперёд (табл. 3).:
Таблица 3
Результаты расчета прогнозных значений
Год |
Прогноз количества преступлений (тысяч) |
|
линейная модель |
показательная модель |
|
2023 |
35,015 |
36,551 |
2024 |
32,856 |
35,006 |
2025 |
30,697 |
33,527 |
На ошибку прогноза влияет не только точность описания исходных данных, но и точность подбора параметров модели. Случайные вариации фактических данных могут привести к неверной оценке параметров модели (в рассматриваемом примере это коэффициенты a и b). Небольшая ошибка в описании исходных данных при прогнозировании может существенно увеличиться (также, как увеличивается влияние ошибки прицеливания с ростом расстояния до мишени).
Средняя ошибка прогноза для линейного тренда зависит от среднеквадратического отклонения ошибок аппроксимации s и номера года tk, отсчитываемого от середины периода наблюдения [2, с. 195]:
m =s (1+1/n+tk2/S)0,5,
где S – сумма квадратов номеров годов периода наблюдения, отсчитываемых от его середины.
Оценим ошибку прогноза на 2023 год. В рассматриваемом примере период наблюдения охватывает с 2010 по 2022 год, его середина приходится на 2016 год. Соответственно, для 2023 года tk =7,
S = (-6)2+(-5)2+(-4)2+(-3)2+(-2)2+(-1)2+02+12+22+32+42+52+62=182.
Для линейной модели средняя ошибка прогноза на 2023 год составила 2,178. Чтобы получить доверительный интервал прогноза с нужной вероятностью, среднюю ошибку нужно умножить на величину t-критерия Стьюдента для этой вероятности и степени свободы, равном разнице между количеством интервалов наблюдения и количеством параметров модели (13-2=11). Для линейной модели с вероятностью 90 % количество преступлений в 2023 году окажется в доверительном интервале:
35,015 ± 2,02×1,796 = 31,386…38,643.
Ширина доверительного интервала 38,643-31,386 = 7,257.
Для логарифмированного вида показательной модели ln(y) = 4,2016 - 0,04283 x найден доверительный интервал:
3,599 ± 0,036×1,796 = 3,535 …3,663.
Тогда доверительный интервал показательной модели:
exp(3,535) … exp(3,663) = 34,285…38,967.
Ширина доверительного интервала 39,967-34,285 = 4,682. Это на 35% меньше ширины доверительного интервала линейной модели, следовательно, прогноз по показательной модели точнее.
Для прогноза выбираем показательную модель. Результаты прогнозирования сведены с таблицу 4 (доверительный интервал прогноза рассчитан для вероятности 90 %).
Таблица 4
Результаты расчета доверительного интервала прогноза
Год |
Прогноз количества преступлений (тысяч) |
|
прогноз |
доверительный интервал |
|
2023 |
36,551 |
34,285…38,967 |
2024 |
35,006 |
32,773…37,393 |
2025 |
33,527 |
31,321…35,888 |
Предложенный подход позволил выбрать лучшую по точности прогноза модель для криминологического прогнозирования на основе тренда. Модифицированная показательная модель недостаточно точно описывает рассматриваемые исходные данные. Квадратичная и кубическая модели отклонены на этапе оценки качества модели. Линейная модель оказалась хотя и пригодной для прогнозирования, но менее точной, чем показательная модель.
Таким образом, обоснованность применения в криминологическом прогнозировании математических моделей должна подтверждаться математическими методами. Критериями выбора модели могут служить качество описания исходных данных и прогностические свойства модели.
[1] Состояние преступности в России за январь-декабрь 2022 г. // Министерств внутренних дел Российской Федерации : офиц. сайт. URL: https://media.mvd.ru/files/application/4683439 (дата обращения 01.02.2023).
1. Криминология : учебник для студентов вузов, обучающихся по направлению «Юриспруденция» / Г. А. Аванесов, С. М. Иншаков, Е. А. Антонян [и др.] ; под редакцией Г. А. Аванесова. 7-е изд. М.: ЮНИТИ-ДАНА, 2020. 448 c. ISBN 978-5-238-03277-1 // Цифровой образовательный ресурс IPR SMART : сайт. URL: https://www.iprbookshop.ru/109197.html (дата обращения: 29.12.2022). Режим доступа: для авторизир. пользователей.
2. Афанасьев, В. Н. Анализ временных рядов и прогнозирование : учебник / В. Н. Афанасьев. Саратов : Ай Пи Ар Медиа, 2020. 310 c. ISBN 978-5-4497-0269-2 // Цифровой образовательный ресурс IPR SMART: сайт. URL: https://www.iprbookshop.ru/90196.html (дата обращения: 29.12.2022). Режим доступа: для авторизир. пользователей.
3. Воскобойников, Ю. Е. Эконометрика в Excel: парные и множественные регрессионные модели : учебное пособие / Ю. Е. Воскобойников. 2-е изд., стер. Санкт-Петербург : Лань, 2022. ISBN 978-5-8114-2318-7 // Лань : электронно-библиотечная система. URL: https://e.lanbook.com/book/213062 (дата обращения: 10.01.2023). Режим доступа: для авториз. пользователей.
4. Макшанов, А. В. Стохастическое моделирование : учебник для вузов / А. В. Макшанов, А. А. Мусаев. Санкт-Петербург : Лань, 2022. ISBN 978-5-8114-8462-1 // Лань : электронно-библиотечная система. URL: https://e.lanbook.com/book/193308 (дата обращения: 07.01.2023). Режим доступа: для авториз. пользователей.