ИИ для преобразования текста в речь и чем это может обернуться?

Только вчера мы обсуждали как при помощи ИИ Брюс Уиллис появился в рекламе Мегафона, а уже сегодня в новостях можно увидеть скандал TikTok с актрисой озвучивания Беверли Стэндинг. Она подала в суд на компанию и утверждает, что в приложении незаконно используется ее голос, который был синтезирован с помощью ИИ.

Что случилось? Несколько лет назад актриса озвучивала аудиофрагменты для Китайского государственного института акустики. В конце 2020-го она обнаружила свой голос в функции TikTok text-to-speech, с помощью которой озвучивается написанный в видео текст. Стэндинг заявила, что не давала согласия на синтез и использование своего голоса.

В иске утверждается, что TikTok не только не заплатил, но и не уведомил актрису об использовании ее голоса для функции преобразования текста в речь. Также в некоторых видеороликах, которые Стэндинг якобы «озвучивает», звучат «нецензурные и оскорбительные выражения», что наносит «непоправимый вред» ее репутации.

Более того, рекламы брендов в TikTok тоже пользовались голосовым преобразованием текста в речь. Это значит, что голосом актрисы могли пользоваться и в коммерческих целях.

Беверли Стэнлинг поддержали коллеги — актеры озвучивания пожертвовали около 7000 долларов на ее судебные расходы и под хэштегом #StandingWithBev опубликовали видео в TikTok, рассказывая пользователям об этом инциденте.

Почему это важно? Это серьезный прецедент — такое клонирование голоса может оставить актеров озвучивания без работы. Компании могут купить у актера 30 минут записи его голоса, а потом просто «забрать» его себе.

На сегодняшний день законы, защищающие людей от несанкционированного клонирования их голосов, находятся в зачаточном состоянии. В своем иске Стэндинг ссылается на право на гласность — оно дает людям возможность контролировать коммерческое использование своего образа и голоса.

Голосовые фейки могут привести и к серьёзному мошенничеству. В 2019 году в Великобритании злоумышленники использовали ПО на основе ИИ, чтобы сымитировать голос исполнительного директора британской энергетической компании и дать сотруднику этого предприятия поручение о переводе третьим лицам €220 тысяч. В таком случае применимо уголовное право, но основная проблема обычно заключается в том, что найти таких мошенников очень трудно.

На сегодняшний день технологии дипфейков развиваются быстрее, чем технологии их обнаружения и законодательство для регулирования их создания. Именно голосовые дипфейки представляют собой самую большую проблему, потому что на голос человека не распространяется право собственности ни в одной стране мира — если только имя человека не зарегистрировано как коммерческий бренд.

Образование+4

наталья куликова

7 сент 2021

Живой переводчик всегда лучше машины. Иногда слово имеет несколько значений и машина выбирает первое попавшееся. В... Читать дальше

Konstantin Kozlov

8 сент 2021

@наталья куликова, если она "иногда выбирает первое попавшееся", значит она плохо обучена. Нормальный машинный переводчик всегда учитывает контекст и выбирает нужное значение исходя из него. Хороший машинный переводчик учитывает контекст не только текущего предложения, а всего текста в целом.