Оценивая лишь несколько переменных в контролируемой среде, даже неподготовленные люди могут соответствовать прогнозирующим навыкам сложных инструментов оценки риска, говорит новое исследование ученых из Стэнфордского университета и Калифорнийского университета в Беркли.
Но реальные условия уголовного правосудия часто намного сложнее, и, когда для прогнозирования рецидивизма полезно использовать большее количество факторов, инструменты на основе алгоритмов работают намного лучше, чем люди. В некоторых тестах инструменты приблизились к 90% точности в прогнозировании, какие обвиняемые могут быть снова арестованы, по сравнению с 60% для человеческого прогноза.
«Оценка рисков долгое время была частью процесса принятия решений в системе уголовного правосудия» , - сказала Дженнифер Ским, психолог, специализирующийся в области уголовного правосудия в Калифорнийском университете в Беркли. «Хотя недавние дебаты подняли важные вопросы об инструментах, основанных на алгоритмах, наше исследование показывает, что в ситуациях, напоминающих реальные условия уголовного правосудия, оценки риска часто более точны, чем человеческое суждение при прогнозировании рецидивизма. Это согласуется с длинной линией исследований, сравнивающих людей с статистические инструменты. "
«Утвержденные инструменты оценки риска могут помочь профессионалам в области правосудия принимать более обоснованные решения», - сказал Шарад Гоэль, специалист по вычислительной технике из Стэнфордского университета. «Например, эти инструменты могут помочь судьям выявлять и потенциально освобождать людей, которые представляют небольшой риск для общественной безопасности. Но, как и любые инструменты, инструменты оценки риска должны сочетаться с разумной политикой и человеческим надзором для поддержки справедливой и эффективной реформы уголовного правосудия».
Статья «Пределы человеческих предсказаний рецидивизма» была намечена к публикации 14 февраля 2020 года в журнале «Science Advances» . Ским представил исследование 13 февраля на брифинге на ежегодной встрече Американской ассоциации содействия развитию науки (AAAS) в Сиэтле, штат Вашингтон. К ней присоединились два соавтора: к.т.н. выпускник Jongbin Jung и Ph.D. кандидат Чжиюань "Джерри" Лин, который изучал компьютерные социальные науки в Стэнфорде.
Результаты исследования важны, поскольку Соединенные Штаты обсуждают вопрос о том, как сбалансировать потребности сообществ в безопасности при одновременном снижении числа заключенных, которые являются самыми высокими среди всех наций в мире, и непропорционально влияют на афроамериканцев и цветные сообщества.
Если использование продвинутых инструментов оценки риска продолжится и улучшится, это могло бы уточнить критически важные решения, которые ежедневно принимают профессионалы в области правосудия: каких людей можно реабилитировать в обществе, а не в тюрьме? Какие из них могут попасть в тюрьмы с низким уровнем безопасности, а какие в места с высоким уровнем безопасности? И каких заключенных можно смело освобождать перед обществом условно-досрочно?
Инструменты оценки, основанные на алгоритмах, широко используются в Соединенных Штатах, в таких разных областях, как медицинское обслуживание, банковское дело и поступление в университеты. Они давно используются в уголовном правосудии, помогая судьям и другим лицам взвешивать данные при принятии своих решений.
Но в 2018 году исследователи из Дартмутского университета подняли вопрос о точности таких инструментов в рамках системы уголовного правосудия. В ходе исследования они собрали 1000 коротких виньеток обвиняемых по уголовным делам с информацией, полученной из широко используемой оценки рисков, называемой «Профилирование управления правонарушителями в исправительных учреждениях для альтернативных санкций» (COMPAS).
Каждая виньетка включала пять факторов риска рецидивизма: пол, возраст, текущее уголовное обвинение и количество предыдущих преступлений, совершенных взрослыми и несовершеннолетними. Затем исследователи использовали платформу Amazon Mechanical Turk, чтобы набрать 400 добровольцев для чтения виньеток и оценки того, совершит ли каждый обвиняемый еще одно преступление в течение двух лет. После просмотра каждой виньетки добровольцам сказали, точно ли их оценка предсказала рецидив субъекта.
И люди, и алгоритм были точными чуть менее двух третей времени.
Эти результаты, заключили авторы из Дартмута, ставят под сомнение ценность инструментов оценки риска и алгоритмического прогнозирования.
Исследование получило широкое освещение в новостях и вызвало волну сомнений в сообществе реформирования системы уголовного правосудия США. Некоторые считают, что если сложные инструменты не лучше, чем люди, предсказывают, какие обвиняемые будут совершать повторные правонарушения, то нет смысла использовать алгоритмы, которые могли бы лишь усилить расовую предвзятость при вынесении приговора. Некоторые утверждали, что такие глубокие решения должны приниматься людьми, а не компьютерами.
Борьба с "шумом" в сложных решениях
Но когда авторы нового калифорнийского исследования оценили дополнительные наборы данных и больше факторов, они пришли к выводу, что инструменты оценки риска могут быть гораздо более точными, чем люди, в оценке потенциала рецидивизма.
Исследование воспроизвело выводы Дартмута, основанные на ограниченном числе факторов. Тем не менее, информация, доступная в условиях правосудия, является гораздо более богатой и часто более неоднозначной.
«Отчеты о расследовании до вынесения приговора, заявления о влиянии адвоката и жертвы, а также поведение человека добавляют сложную, непоследовательную, не относящуюся к риску и потенциально искажающую информацию», - объясняется в новом исследовании.
Гипотеза авторов: если исследования проводятся в реальных условиях, где информация о риске является сложной и «шумной», то передовые инструменты оценки риска будут более эффективными, чем люди, для прогнозирования того, какие преступники совершат повторное преступление.
Чтобы проверить гипотезу, они расширили свое исследование за пределы COMPAS, чтобы включить другие наборы данных. В дополнение к пяти факторам риска, использованным в исследовании Дартмута, они добавили еще 10, включая статус занятости, употребление психоактивных веществ и психическое здоровье. Они также расширили методологию: в отличие от исследования Дартмута, в некоторых случаях добровольцам после каждой оценки не сообщалось, были ли их прогнозы точными. Такая обратная связь недоступна для судей и других лиц в судебной системе.
Результат: люди работали «неизменно хуже», чем инструмент оценки риска, в сложных случаях, когда у них не было немедленной обратной связи для принятия будущих решений.
Например, КОМПАС правильно прогнозировал рецидивизм в 89% случаев, по сравнению с 60% для людей, которым не предоставлялась индивидуальная обратная связь по их решениям. Когда несколько факторов риска были предоставлены и прогнозировали, другой инструмент оценки риска точно прогнозировал рецидив в более чем 80% случаев, по сравнению с менее чем 60% для людей.
Полученные данные подтверждают дальнейшее использование и дальнейшее совершенствование алгоритмов оценки рисков. Но, как отметил Ским, эти инструменты обычно играют вспомогательную роль. Окончательная власть принадлежит судьям, сотрудникам службы пробации, клиницистам, уполномоченным по условно-досрочному освобождению и другим лицам, которые принимают решения в системе уголовного правосудия .