Начата разработка системы «Окулус» для фильтрации запрещенного контента

17.08.2022 |

Елизавета Клейн.

ФГУП ГРЧЦ, Российский государственный радиочастотный центр, являющийся структурой Роскомнадзора, выбрал подрядчика для разработки новой системы, с помощью которой можно будет отфильтровать запрещенный контент в соцсетях и мессенджерах, связанный с экстремизмом, распространением наркотиков и пропагандой нетрадиционных отношений. На разработку выделяются относительно малые сроки и средства: за 57,7 млн руб. разработчик должен предоставить результаты уже к середине декабря. Эксперты выражают сомнения в том, что возможно уложиться в данные сроки и суммы.

Роскомнадзор выделяет средства на разработку системы «Окулус», призванной обнаруживать запрещенный контент в сети. На реализацию данного проекта заложено 57,7 млн руб., в качестве разработчика выступит компания ООО «Эксикьюшн Эр Ди Си», о чем было сообщено на сайте госзакупок 15 августа. Сроки выполнения заказа, размещенного ФГУП ГРЧЦ, структурой Роскомнадзора, установлены до 12 декабря.

Согласно документации, приложенной к госзакупкам, система «Окулус» должна в режиме онлайн проводить анализ рисунков и фотографий, видео, общения в чатах, а также ленты каналов в мессенджерах, URL-адреса и прочие данные с целью выявления запрещенной информации.

Поиск нежелательной информации должен осуществляться, помимо текстового вида, также и в «сценах, сочетаниях предметов, композициях образов, лицах, статике и динамике движений».

От исполнителя требуется, исходя из условий тендера, разработать систему, а кроме того, предоставить ГРЧЦ дата-сеты, с помощью которых будут выявляться запрещенные данные.

Разработчик, выигравший тендер, ООО «Эксикьюшн Эр Ди СИ» (Execution RDS), согласно сведениям «СПАРК-Интерфакс» существует с 2014 года, уставной капитал составлял на момент регистрации 10 тыс. руб. В 2021 году выручка компании составила 229 млн руб., при этом чистая прибыль из них – 23 млн руб. Исходя их сведений «СПАРК-Интерфакс», до этого организация не выбиралась исполнителем по государственным контрактам, реализуя проекты по интеграции в отечественных компаниях решений на базе немецкого софта SAP, исходя из сведений, размещенных на её сайте.

Согласно требованиям, исполнитель обязан осуществить поставку в ГРЧЦ размеченных наборов данных для осуществления обучения модели распознавания лиц «в объеме не менее 100», в целях реализации внутри системы каталогов для определения символики, сцен, действий и персоналий. Для системы обозначена мощность обработки 200 тыс. изображений в 24 часа, то есть около 2 кадров в секунду.

При этом для работы такой системы потребуется минимум 48 серверов с графическими ускорителями, а также наличие нейронных сетей, задействующих глубокое машинное обучение, благодаря которому и будет отфильтровываться нежелательный контент.

В перечень контента, запрещенного к использованию, войдут материалы, содержащие признаки терроризма и экстремизма, призывы к массовым незаконным мероприятия, выражение явного неуважения к обществу, государству и официальным символам РФ, информация о способах совершения суицида, методики изготовления наркотических препаратов, а также пропаганда нетрадиционных сексуальных отношений и демонстрация употребления табачной продукции.

Эксперты уточняют, что создание такой системы потребует значительно большего объема финансирования, а кроме того, осуществление подобного проекта практически невозможно с учетом заявленных сроков. Сочетание же этих двух факторов ставят реализацию проекта под сомнение и наводят на мысли о судьбе проекта. Более того, в принципе реализация подобного проекта, даже при наличии достаточного финансирования и приемлемых сроков требует колоссальных объемов обучения – по словам экспертов, при сегодняшнем уровне развития ИТ аналогичные задачи смогут выполняться с большим количеством ошибок: качество будет составлять порядка 90%, а значит, на ошибки придется около 10%. Более того, даже сбор данных для репрезентативной выборки в целях создания обучающих дата-сетов предполагает большее количество времени, чем заложено на всю разработку системы. Аналогичные модели искусственного интеллекта, способные классифицировать человеческое поведение, опираясь на данные видеоряда, требуют около 1 млн видеороликов для предварительного обучения.