Aнализ к десятилетию Института проблем правопримененияДмитрий Скугаревский, 5 июня 2019 г.

5 июня 2019 г. Институт проблем правоприменения при Европейском университете в Санкт-Петербурге отмечает десятилетие. За это время мы опубликовали десять книг, более сотни научных статей в ведущих российских и международных рецензируемых журналах, выпустили свыше пятидесяти аналитических записок и более 900 публикаций в СМИ. Наши основные результаты и направления работы отражены в буклете, который мы подготовили к празднику.

Главным способом донести наши результаты до общества стал цикл колонок Extra Jus о праве и правоприменении в газете Ведомости. Первая колонка по этой теме была написана директором ИПП Эллой Панеях в декабре 2009 г. («Трагедии, подобные пермской, предотвратить уже невозможно»). 1 апреля 2010 г. колонка научного руководителя ИПП Вадима Волкова («Все по закону, но права граждан не защищены») дала старт циклу Extra Jus.

К лету 2019 г. 35 авторов написали почти 350 колонок в цикле. Благодаря работе 4 редакторов (Максим Трудолюбов, Борис Грозовский, Павел Аптекарь, Мария Железнова), читатели газеты узнавали о праве и правоприменении в новом для России жанре «opposite the editorial page» (или opinion-editorial).

«It is a newspaper’s duty to print the news and raise hell» — сказал редактор The Chicago Times в 1861 г. С колонками Extra Jus спорил директор ФСКН Виктор Иванов, тексты приводили к реальным изменениям, а употребление термина «обвинительный уклон» в СМИ выросло в 4 раза. В 2014 г., к пятилетию ИПП, в издательстве Альпина Паблишер вышел сборник колонок «По ту сторону права».

Сегодня, пять лет спустя, наступил подходящий момент, чтобы проследить интеллектуальную историю наших текстов. Конечно, впечатление можно составить, перечитав все тексты. Но за эти же пять лет технологии обработки естественных языков продвинулись настолько вперед, что идеи Франко Моретти об «удаленном чтении» — использовании машины для извлечения из литературных текстов смыслов и идей — все ближе к реальности. Я собрал тексты всех 346 колонок Extra Jus, вышедших в период 10.12.2009–25.04.2019, организовал их в корпус, пригодный для автоматического анализа и применил к ним репертуар таких методов.

Упоминания словосочетания «обвинительный уклон» в российских СМИ в 2009-2018 гг.

Первое упражение, которое стоит проделать с любым корпусом — понять его семантическую структуру. Для этого я воспользовался дистрибутивной гипотезой (Firth, 1957: «You shall know a word by the company it keeps!») и усреднил семантические вектора слов в каждой колонке, а потом расположил их в двумерном пространстве (картинка интерактивная):

Колонки Extra Jus в двумерном семантическом пространстве

На картинке изображены первые две главные компоненты tf-idf-взвешенно усредненных на уровне абзацев векторов слов текстов колонок Extra Jus* в 2009-2019 гг. Использованы вектора слов из word2vec модели all.norm_sz500_w10_cb0_it3_min5, оцененной Арефьев и др. (2015) на 149 ГБ русской литературы.*

Оказывается, что колонки Extra Jus были о всевозможно разном. От нетленного текста Екатерины Ходжаевой «Как полицейские гусей искали» в левом нижнем углу до первого magnum opus института 2013 г. «Реформа МВД: Как уйти от сверхцентрализации» в правом верхнем углу — визуализация семантического пространства показывает все 346 написанных текстов, ориентируя их относительно друг друга.

Любой автоматический анализ имеет сильные и слабые стороны. Мы видим, как удачно семантически близко расположились колонки «Что держит Россию внизу рейтинга верховенства права» и «Они понимают только числительные», которые содержат похожие мысли. Однако непонятно, почему близко оказались, например, колонка Алексей Кудрина, Марии Шклярук и Ирины Четвериковой «Полиция, откройте данные» и колонка «Местная полиция на местном уровне» Екатерины Ходжаевой. Семантическая визуализация служит приглашением авторам и редакторам вспомнить знаковые тексты и посмотреть, как они соотносятся с иными в цикле.


Хорошую газету отличает две вещи: заголовки и работа бильд-редактора. Если изобразить облако слов в заголовках наших колонок, оно достаточно точно покажет нашу экспертизу и интересы: суды, полиция, реформы, криминология.

Облако слов заголовков колонок Extra Jus

На картинке изображены слова в заголовках колонок Extra Jus в 2009-2019 гг. Размер слова пропорционален частоте его употребления. Исключены стоп-слова и слова менее, чем из трех символов.


Колонки Extra Jus — командный труд ИПП. Хотя лишь 80 колонок из 346 были написаны в соавторстве, авторы сформировали между собой устойчивые сети совместного творчества. Их можно увидеть, если изобразить граф, где вершина — автор, а связаны они, если написали колонки в соавторстве (картина интерактивная, работает приближение):

Граф соавторства колонок Extra Jus

Связующим звеном команды является Кирилл Титаев, который написал больше всех колонок (92), а по краям графа находятся сотрудники, не писавшие колонки в соавторстве с основной командой (Денис Примаков, Анна Хованская, Ксения Рунова, Катерина Губа, Маргарита Завадская). Интересно, что сети соавторства трех лидеров по количеству колонок — Кирилла Титаева, Эллы Панеях и Вадима Волкова — заметно отличаются.


Любую идею следует выражать ясно и просто. Насколько успешны авторы колонок в этом предприятии? Чтобы это понять, научный сотрудник ИПП Денис Савельев вычислил стандартные лингвистические метрики сложности текстов наших колонок, а я усреднил две ключевые (вариативность языка и расстояние между зависимыми словами) для частых авторов (от 5 колонок). Но как быть в случаях соавторства, когда текст написан несколькими людьми? Чтобы учесть этот фактор, я считал две средних: для всех текстов автора (красный круг) или только для текстов, где автор заявлен как первый (бирюзовый треугольник). Разница между этими средними для одного человека показывает, насколько по-другому человек пишет в одиночку.

Средняя сложность текстов колонок частых авторов Extra Jus в 2009-2019 гг.

С позиции двух метрик колонки Тимура Бочарова обладают наибольшей вариативностью языка и наименьшим расстоянием между зависимыми словами в предложении (правый нижний угол). Выделяется три группы авторов: те, кто пишут сложнее в соавторстве, те, кто пишет проще и те, чье письмо не меняется. Можно предположить, что группы отражают авторскую и редакторскую силу, которая по-разному применяется к разным авторам. Так, поскольку сложность всех колонок научного руководителя Вадима Волкова мало отличается от сложности колонок, где он первый соавтор, разумно полагать, что его редактура определяет общий вид текста.


Что рассказал этот анализ? 350 колонок ИПП ожидаемо о разном, написаны разным языком, на них по-разному распространилась редакторская власть. Интерактивные визуализации позволяют авторам и редакторам изучить эту гетерогенность, заставив данные говорить — именно это modus operandi ИПП.