Эксперт ITFB Group: Голосовым сообщениям больше нельзя доверять

22.01.2024 |

Мошенники освоили технологии искусственного интеллекта и общаются с россиянами «клонированными» голосами друзей и родственников. Самые продвинутые вымогатели научились делать то же самое при звонках в реальном времени.

Мошенники начали вымогать деньги с помощью сгенерированных нейросетью голосовых сообщений.

Все догадывались, что это вот-вот произойдет, — нейросети умеют генерировать правдоподобные голоса уже несколько лет — и вот свершилось. Как пишут СМИ, под ударом оказались российские пользователи Telegram — злоумышленники уводят чей-то аккаунт, «клонируют» голос владельца и отправляют «мамам» и «любимым» голосовые сообщения с просьбами о финансовой помощи.

Найти бесплатный сервис клонирования голоса, работающий с русскоязычной речью, можно буквально за пару минут. Создание копии голоса по аудиофайлу одного из предыдущих сюжетов и заданному тексту заняло еще секунд 30.

В некоторых случаях злоумышленники просто нарезают старые аудио из аккаунта пользователя и отправляют полностью аутентичную речь, а просьбы выслать денег отправляют текстом. В любом случае до недавних пор аудиосообщение считалось чем-то вроде электронной подписи.

А теперь ситуация изменилась, — продолжает генеральный директор IT-компании ITFB Group Роман Волков: «Голосовое сообщение — действительно формат, к которому больше всего доверия, так как жертва мошенничества слышит голос человека, и если в речи нет настораживающих моментов, например нетипичных слов, обращений, то и повода для недоверия нет. Дополнительным фактором служит то, что голосовое сообщение приходит с аккаунта знакомого человека, человек по умолчанию верит отправителю и не обращает внимания на технические погрешности или необычные фразы в сообщении. Используются разные дополнительные уловки, например применяются бытовые шумы на заднем фоне, это позволяет мошенникам решить сразу две задачи: скрыть огрехи, которые есть в аудио, и повысить уровень доверия. Серия коротких голосовых сообщений также позволяет скрыть недочеты, но если человек не использует такой способ общения в обычной жизни, то это насторожит скорее жертву. Сгенерировать голос позволяют нейросети, доступные всем желающим в интернете за относительно небольшую плату, не нужно много файлов, нейросеть может подхватить голос с одной записи длительностью 10-15 секунд».