• Вы здесь

    Как работает синтез речи в онлайн-сервисах?

    Нейро

    Ответ создан на основе результатов поиска

    Синтез речи в онлайн-сервисах работает по принципу преобразования входных сигналов 1. В нейросеть поступает вводный текст или аудиосообщение от собеседника 1. Умные технологии анализируют структуру текста, грамматику и лексику 1. После обработки система создаёт ответ и преобразует его в звуковые волны, которые имитируют речь 1.
    Задача синтеза речи решается в несколько этапов 2:
    1. Подготовка текста 2. Алгоритм подготавливает текст, чтобы роботу было удобно его читать: записывает все числа словами, разворачивает сокращения 2.
    2. Деление на фразы 2. Компьютер ориентируется на знаки препинания и устойчивые конструкции 2.
    3. Составление фонетической транскрипции 2. Чтобы понять, как читать слово и где поставить в нём ударение, робот обращается к встроенным в систему словарям 2. Если нужного слова в словаре нет, компьютер строит транскрипцию самостоятельно — опираясь на правила, заимствованные из академических справочников 2.
    4. Произношение и интонирование 2. Когда транскрипция готова, компьютер рассчитывает, как долго будет звучать каждая фонема, то есть сколько в ней фреймов — так называют фрагменты длиной 25 миллисекунд 2. Затем каждый фрейм описывается по множеству параметров 2.
    5. Использование генератора звуковых волн 2. В него загружается информация о частотных характеристиках фразы, полученная от акустической модели, а также данные о тембре, который придаёт голосу узнаваемую окраску 2.
    Существует несколько основных методов синтеза речи, используемых в технологии TTS 3:
    • Компилятивный синтез 3. Использует заранее записанные фрагменты человеческой речи для создания новых звуков 3.
    • Параметрический метод 3. Моделирует физиологические процессы производства звуков речи с помощью вероятностных моделей 3.