d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b577276c2

Создание голосовых моделей для искусственного интеллекта становится все более актуальной и захватывающей областью разработки. Голосовые ассистенты, речевые технологии и синтез речи играют важную роль в нашей повседневной жизни. В этой статье мы погрузимся в мир создания собственных голосовых моделей для ИИ, исследуя техники и инструменты, необходимые для этого захватывающего процесса.

Приступим к реализации:
Первым шагом нам необходимо выгрузить несколько аудиодорожек, из которых будем вырезать голос и использовать для тренировки ИИ. Для этого можно использовать данный сайт, если Вы желаете брать материал с Youtube:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57790b8b

Вставляем ссылку и выбираем формат MP3, загружаем. В общем нужно около пятнадцати минут чистого голоса:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b577d7c33

Если Вы использовали музыку, то нужно отделить голос. Для этого переходим на Github и загружаем приложение :

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57825949

Запускаем его и переходим в настройки:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b578858fa

Повторяем все действия, указанные на скриншоте ниже. Нажимаем на большую кнопку для загрузки:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57906dd6

Во вкладке «Select input» выбираем все наши аудиодорожки в MP3 формате; «Select Output» — указываем путь, по которому будут сохранятся итоговые результаты; «Choose Porcess Method» выбираем «VR Architecture». Формат готового файла должен быть FLAC, указываем его. В «Choose VR Model» выбираем модель, указанную на скриншоте ниже. Отмечаем пункт «Vocals Only», пункт «GPU Conevrsion» активируем в зависимости от своей видеокарты. Запускаем процесс:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b579634e7

Склеиваем все свои аудиодорожки в единую, используя любое приложение, к примеру FL Studio. Далее загружаем Audacity и устанавливаем:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b579da418

Нажимаем «Выделить» в левом нижнем углу, выбираем сверху «Эффекты» и переходим к обрезке тишины:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57a59d46

Повторяем все настройки со скриншоте ниже и обрабатываем дорожку:

Создаем свою голосовую модель для ИИ

Переходим к тренировке искусственного интеллекта, первым делом загружаем .bat с Github. Создаем папку, помещаем туда файл и запускаем его. После установки находим папку под названием «datasets» и вставляем обработанный файл из Audacity. После этого запускаем «go_web.bat», переходим во вкладку «Train»:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57b4858f

В самом левом поле указываем название модели, запомните его, ведь если процесс обучения прервется — по названию можно будет продолжить. «Target sample rate» выбираем 40k и указываем вторую версию, остальное не трогаем:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57b90526

В первой графе указываем путь к «datasets», если автоматически не определилось. Нажимаем на «Process data» и ожидаем «end preprocess» в правой части экрана:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57bd9c77

Выбираем на какой видеокарте будет происходить тренировка и указываем алгоритм «rmvpe». Кликаем на большую кнопку и ждем «all-feature-done» в окне с информацией:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57c2b4cf

Выбираем, как часто будет сохраняться результат тренировок, 10 — оптимальный вариант. Общее количество желательно указывать в диапазоне от 250 до 300. В «Batch size per GPU» указываем количество видеопамяти, нажимаем кнопку «Train feature index»:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57c8851e

Все готово, начинаем процесс тренировки, используя «Start Training». В командной строке будет выводится вся информация, не закрываем ее, иначе работа остановится:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57ce5f9e

После окончания процесса необходимо зайти в корневую папку и найти «weights», где нас интересует файл с названием нашей модели и числом эпох в середине. Создаем папку в любом удобном месте и перемещаем его туда:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57d626cc

Возвращаемся в корневую папку и переходим в «logs», открываем папку с названием своей модели. Находим файл с расширением .index, копируем его и вставляем рядом с предыдущим:

d181d0bed0b7d0b4d0b0d0b5d0bc d181d0b2d0bed18e d0b3d0bed0bbd0bed181d0bed0b2d183d18e d0bcd0bed0b4d0b5d0bbd18c d0b4d0bbd18f d0b8d0b8 6610b57db4f71

На этом все, модель можно использовать для изменения голоса или генерации каверов!