Дочь данными хороша: писать законы предлагают с помощью big data

По мнению экспертов, анализировать массивы информации для корректировки законодательных норм лучше, чем полагаться на людей.

Эксперты «Сколково» предложили писать законы с помощью big data. Звучит очень инновационно, но с тех пор, как лет пять назад все стали говорить о больших данных, появилось немало аргументов против их использования. Или, по крайней мере, против того, чтобы считать их панацеей от всех бед. Подробности — в материале «Известий».

Идею анализировать большие массивы информации для корректировки действующих законодательных норм прокомментировал для РБК глава департамента по развитию фонда «Сколково» Сергей Израйлит. Он подчеркнул, что «обозначенные темы в настоящее время еще не прошли экспертное обсуждение».

Сергей Израйлит, глава департамента по развитию фонда «Сколково»:

«Основная идея регулирования заключается в том, чтобы своевременно вносить изменения в регулирование, чтобы оно не вредило экономическому состоянию тех или иных субъектов. Например, если у граждан есть спрос на проезд и остановку транспорта в каком-то определенном месте, то в результате запрета остановки может сократиться поток клиентов в магазины и рестораны. В итоге снизится инвестиционная привлекательность всего района. За счет накопленных на цифровых платформах данных, например сервиса «Яндекс.Карты», можно связать регуляторные решения с реальным спросом и создать более эффективную модель регулирования.»

По мнению Израйлита, такая модель будет эффективнее сегодняшней практики, когда нормы создаются только на основе человеческого анализа и пожеланий заказчика.

Звучит это очень здраво, особенно в таком герметичном случае, который описал глава департамента фонда. Одна остановка, один перекресток и анализ потока людей в этом месте. Но вряд ли нацпрограмма «Цифровая экономика», частью которой может стать высказанная в «Сколково» идея, разрабатывалась для решения только таких сугубо локальных проблем.

Не надо строить корреляции между огурцами и грушами

Никто толком не знает, что такое большие данные. Вернее, никто не может определить, где кончаются маленькие и начинается большие. Все более-менее сошлись на том, что это массивы информации, анализ которых может дать какие-то закономерности.

Например, есть информация о темпах экономического роста, изменении численности населения, его социальной активности и о том, как за этот промежуток времени менялись курсы валют. Значит, можно попробовать найти закономерности и предсказать, как будет меняться курс валют в будущем? Или предсказать следующий кризис? Нет.

Можно, конечно, попробовать, но это, скорее всего, будет бессмысленно. Потому что, во-первых, колебания курсов валют зависят не только от упомянутых факторов, а от каких еще — есть разные теории. Во-вторых, не всегда информация о том, что было в прошлом, дает понимание того, что будет в будущем. Так, весь предыдущий опыт животных, выращиваемых на мясокомбинате, говорит им, что их всегда будут сытно кормить.

Метафора с мясокомбинатом принадлежат экономисту Нассиму Николасу Талебу. Он использовал ее в книге, посвященной тому, почему невозможно спрогнозировать случайности. Высказывался Талеб и конкретно про большие данные. В интервью Wired экономист жалел компании, которые под влиянием модного (уже сколько лет) термина собирают огромные массивы данных и ищут в них корреляции. При этом не понимают, что большие объемы информации могут стать источником возникновения ложных связей.

Нассим Николас Талеб, экономист, писатель:

«Если взять набор из случайно выбранных 200 переменных, которые никак не связаны между собой, и присвоить им 1000 информационных параметров, то будет практически невозможно не найти при дальнейшем анализе какое-то количество статистически обоснованных корреляций. Но на самом деле эти корреляции будут ложными, поскольку никакой связи между переменными никогда не было.»

Умножать огурцы на груши и делить на яблоки тоже не стоит

Но вопрос не только в том, чтобы выбрать правильные переменные для анализа. Нужно еще и правильно эти переменные анализировать.

Математические модели анализа больших данных создаются так же, как и законодательные нормы, по выражению Сергея Израйлита. На основе человеческого анализа и пожеланий заказчика.

Кэти О’Нейл, американский математик и борец за права человека (очень уж сложно феминитивы к этим словам подобрать), рассказывала на форуме Personal Democracy Forum, как пыталась понять методику оценки эффективности преподавателей в США. Она основана на big data.

Ее подруга, преподаватель из спецшколы с углубленным изучением естественных наук и математики, решила изучить этот алгоритм. Сначала в министерстве образования Нью-Йорка просто отказали. По словам О’Нейл, учительнице сказали: «Вы ничего не поймете, это же математика!»

Женщина настаивала и получила брошюру, в которой описывалась методика. Но «документ оказался слишком абстрактным для того, чтобы прояснить ситуацию». И О’Нейл написала официальный запрос, ссылаясь на закон США о свободном доступе к информации. Но получила отказ.

Кэти О’Нейл, математик и борец за права человека:

«Позднее я узнала, что научно-исследовательский центр в Мэдисоне, штат Висконсин, который разрабатывает эту аналитическую модель, заключил контракт, согласно условиям которого ни у кого нет права заглянуть внутрь алгоритма. Никто в министерстве образования Нью-Йорка не понимает, как работает эта модель. Учителя не знают, на каком основании им ставят те или иные оценки, и что нужно сделать, чтобы их повысить, — им никто ничего не может и не хочет объяснить.»

Сейчас у действующих в России законов по крайней мере есть авторы. А так будут алгоритмы, которые, во-первых, могут быть составлены неправильно. Во-вторых, они вряд ли будут опубликованы на портале «Открытого правительства». И не зная их, невозможно оспорить справедливость скорректированных таким образом законов.

А ведь есть еще помидоры, арбузы и виноград

Существует вероятность, что те, кто будут (если идея станет частью программы «Цифровая экономика»), так вот те, кто будут корректировать действующие законодательные нормы с помощью больших данных, всё сделают правильно: и переменные нужные подберут, и алгоритм хороший напишут.

Но на нынешнем этапе развития технологии проблемы на этом не кончатся. Во-первых, при внесении данных в программу для анализа человек может ошибиться и вписать что-то не то. Во-вторых, кажущиеся правильными алгоритмы могут не справляться с новыми данными, хотя с теми, на которых их учили и испытывали, всё было в порядке. Это называется «переобучение», когда программа сама, без помощи человека, обнаруживает ложные корреляции в старых данных. И, не имея возможности сделать этого с новыми данными, выдает бессмысленные выводы. И в-третьих, машины, на которых будут работать программы, могут оказаться банально слабыми.

Есть и еще одна большая проблема с обсуждаемым нововведением. То, из каких данных будет состоять анализируемая big data. В сколковской концепции говорится, что на законодательном уровне необходимо определить понятие «цифрового следа» как совокупности данных о «действиях пользователя в цифровом пространстве».

Вопрос конфиденциальности обсуждается столько же, сколько сами большие данные. Потому что от того, насколько данные в массивах уникальны, а значит и приватны, зависит, насколько уникальные выводы может сделать алгоритм.

«Сколково» выступает за то, чтобы делить активный и пассивный цифровой следы. И регламентировать использование только активного. Это информация, которую пользователь оставляет в социальных сетях и личных кабинетах на сайтах, включая портал госуслуг и банковские ресурсы. К ней относятся Ф.И.О., дата рождения, контакты, место работы, личные фото и видео.

Пассивный цифровой след в «Сколково» предлагают вынести за скобки закона. Это данные, которые оставляются ненамеренно или вследствие работы соответствующего ПО — то как и какими сервисами пользуется человек.

И даже в локальном случае использования big data, описанном Сергеем Израйлитом, речь идет о пассивном цифровом следе. О данных о перемещениях водителей, которые используют карты «Яндекс.Карты». Водители, не глядя, соглашаются делиться этим пассивным следом с компанией. А она, вероятно, будет отдавать их машинам-законотворцам.

Игнат Шестаков

Тематики: Интеграция, Регулирование, Инновации

Ключевые слова: регулирование, Big Data