Вы здесь

Как работает синтез речи в онлайн-сервисах?

Нейро

Ответ создан на основе результатов поиска

Синтез речи в онлайн-сервисах работает по принципу преобразования входных сигналов 1. В нейросеть поступает вводный текст или аудиосообщение от собеседника 1. Умные технологии анализируют структуру текста, грамматику и лексику 1. После обработки система создаёт ответ и преобразует его в звуковые волны, которые имитируют речь 1.

Задача синтеза речи решается в несколько этапов 2:

Подготовка текста 2. Алгоритм подготавливает текст, чтобы роботу было удобно его читать: записывает все числа словами, разворачивает сокращения 2.
Деление на фразы 2. Компьютер ориентируется на знаки препинания и устойчивые конструкции 2.
Составление фонетической транскрипции 2. Чтобы понять, как читать слово и где поставить в нём ударение, робот обращается к встроенным в систему словарям 2. Если нужного слова в словаре нет, компьютер строит транскрипцию самостоятельно — опираясь на правила, заимствованные из академических справочников 2.
Произношение и интонирование 2. Когда транскрипция готова, компьютер рассчитывает, как долго будет звучать каждая фонема, то есть сколько в ней фреймов — так называют фрагменты длиной 25 миллисекунд 2. Затем каждый фрейм описывается по множеству параметров 2.
Использование генератора звуковых волн 2. В него загружается информация о частотных характеристиках фразы, полученная от акустической модели, а также данные о тембре, который придаёт голосу узнаваемую окраску 2.

Существует несколько основных методов синтеза речи, используемых в технологии TTS 3:

Компилятивный синтез 3. Использует заранее записанные фрагменты человеческой речи для создания новых звуков 3.
Параметрический метод 3. Моделирует физиологические процессы производства звуков речи с помощью вероятностных моделей 3.

На основе 10 источников:

Оценить ответ

10 источников

Получите больше информации