VALL-E от Microsoft может воспроизвести любой голос за три секунды

Технологии искусственного интеллекта развиваются с невероятной скоростью. После моделей ИИ, которые могут создавать изображения из ваших слов и разговаривать с вами, теперь Microsoft разработала VALL-E, ИИ, который может имитировать любой услышанный звук всего за три секунды. В отличие от многих инструментов ИИ, VALL-E может воспроизвести эмоции и тон говорящего, даже при создании записи слов, которые первоначальный говорящий никогда не произносил. Вот подробности...

Источник: gizmochina.com
10 января 2023 в 13:27
image

Компания Microsoft недавно выпустила инструмент искусственного интеллекта под названием VALL-E, который может воспроизводить голоса людей. Инструмент использует всего лишь 3-секундную запись определенного голоса в качестве подсказки для создания контента, и он был обучен на 60 000 часах данных английской речи. ИИ-модель способна воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые оригинальный диктор никогда не произносил.

Это значительное достижение в области искусственного интеллекта, поскольку предыдущие модели были способны воспроизвести только голос, но не эмоции или тон говорящего. В работе Корнельского университета VALL-E использовался для синтеза нескольких голосов, а некоторые примеры работы доступны на GitHub. Хотя образцы голосов, которыми поделилась компания Microsoft, отличаются по качеству, некоторые из них звучат естественно, в то время как другие явно сгенерированы машиной и звучат роботизированно. Однако по мере совершенствования технологии ИИ сгенерированные записи, вероятно, станут более убедительными.

Однако существуют опасения по поводу этических последствий этой технологии. По мере развития искусственного интеллекта голоса, генерируемые VALL-E и подобными технологиями, будут становиться все более убедительными, что может открыть дверь для реалистичных спам-звонков, воспроизводящих голоса реальных людей, знакомых потенциальной жертве. За политиков и других общественных деятелей также могут выдавать себя мошенники, что может привести к распространению ложной информации в социальных сетях.

Кроме того, существуют проблемы с безопасностью. Некоторые банки используют технологию распознавания голоса для проверки личности звонящего, но если голоса, генерируемые ИИ, станут более убедительными, то обнаружить, что звонящий использует голос VALL-E, может стать сложнее. Кроме того, эта технология может повлиять и на актеров озвучивания, поскольку их услуги могут оказаться ненужными, если голоса, генерируемые ИИ, станут более реалистичными.

VALL-E - это впечатляющий инструмент ИИ, который способен произвести революцию в области синтеза голоса. Однако он также поднимает ряд этических проблем и проблем безопасности. Для таких компаний, как Microsoft, будет важно разработать меры по регулированию использования VALL-E, чтобы убедиться, что он используется во благо, а не в злонамеренных целях.