ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.12.2023
Просмотров: 242
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
113
В данной модели выходной сигнал представляется в виде свертки возбуждающего сигнала, генерируемого связками, и модулирующего сиг- нала, являющегося характеристической функцией формы ротовой полости, или артикуляторной характеристикой [18]. Математически это можно опи- сать следующей формулой:
S( n ) v( n )
h( n )
=
⊗
, (5.40) где ( )
v n – возбуждающий сигнал, ( )
h n – модулирующий.
Рис. 5.20. Схема параметрической модели речеобразования
В терминах Z-преобразования
( )
( )
( )
S z
V z
H z
=
∗
. (5.41)
Возбуждающий сигнал характеризуется высотой и тембровой окра- ской. Такая информация может быть использована в задачах идентифика- ции говорящего по голосу. Модулирующий сигнал рассматривается как характеристика формирующего звуки голосового тракта человека и при- меняется в задачах распознавания речи.
В спектральной области операция свертки двух сигналов пред- ставляется в виде произведения их образов. Возбуждающий сигнал в рамках описанной модели является либо полигармоническим (в случае гласного звука), либо широкополосным шумовым (в случае согласного).
Модулирующая функция представляет собой огибающую результирую- щего сигнала. Таким образом, задача получения аутентичной информа- ции (при распознавании фонем) сводится к определению огибающей мгновенного спектра сигнала, или так называемому формантному ана-
лизу. Модулирующую функцию можно рассматривать как передаточную функцию линейного КИХ-фильтра. Таким образом, значения этой функции (коэффициенты фильтра) определяются с помощью метода ли- нейного предсказания. Данный алгоритм широко применяется в воко- дерном кодировании [29].
ШУМ
Последовательность импульсов
Фильтр голосо- вого аппарата
Речь
114
При формантном анализе текущую оценку отсчета сигнала опреде- ляют как сумму p предшествующих отсчетов:
p
( n )
S( n k )ak
k 1
θ
=
−
∑
=
, (5.42) где
{ }
ak – вектор коэффициентов предсказания. Порядок p при фор- мантном анализе выбирают равным 8 – 12.
Разность между истинным и предсказанным значением отсчета оп- ределяет ошибку предсказания, или остаточный сигнал:
1
p
r( n ) S( n )
( n ) S( n )
S( n k )ak
k
θ
=
−
=
−
−
∑
=
. (5.43)
В результате Z-преобразования разностного уравнения (5.43) имеем
( )
( )
( )
R z
S z
A z
=
∗
, (5.44) где функция
( ) 1 1
p
k
A z
a
z
k
k
−
= −
⋅
∑
=
(5.45) является передаточной характеристикой цифрового фильтра, частотная ха- рактеристика которого обратна по отношению к частотной характеристике голосового тракта:
1
( )
( )
A z
H z
=
. (5.46)
Значения коэффициентов ak в (5.45) подбираются так, чтобы мини- мизировать среднеквадратичное значение остаточного сигнала ( )
r n . Полу- ченные коэффициенты фильтра
{ }
ak можно рассматривать как вектор при- знаков фонемы. Для проверки степени стабильности и инвариантности по- лучаемого вектора признаков
{ }
ak необходимо исследовать предел его из- менений в условиях различного произношения опорной фразы, артикуля- торные характеристики которой предполагаются стабильными. Вариации произношения обеспечиваются различной высотой произношения (pitch).
Как показали исследования [18], артикуляторные параметры также зависят от конкретного человека и не являются абсолютно стабильными речевыми характеристиками. При плохой дикции и невыразительной речи понимать слова приходится из контекста. В компьютерной модели такая
115
обработка осуществляется на последующих этапах (фонемная категориза- ция, семантический анализ и т.д.). Однако для этапа выделения информа- ции о произнесенной единице речи описанный выше метод оказывается вполне применимым.
Важное достоинство формантного анализа – относительная простота оценки параметров фильтра ( )
A z , так как используются линейные проце- дуры обработки сигнала.
Контрольные вопросы
1.
Что такое анализ речи и для чего он применяется?
2.
Что такое акустический вектор?
3.
Каковы особенности применения окон при обработке речи?
4.
Как определяются и рассчитываются в MATLAB отсчеты окна
Чебышева?
5.
Как определяются и рассчитываются в MATLAB отсчеты окна
Кайзера?
6.
Как определяются и рассчитываются в MATLAB отсчеты прямо- угольного окна?
7.
Как определяются и рассчитываются в MATLAB отсчеты окна
Хэмминга?
8.
Как определяется ОДПФ?
9.
Что такое кепстральный анализ?
10.
Что такое Z-преобразование и каковы его свойства?
11.
Каковы отличительные особенности применения Z-преобразования и преобразования Фурье?
12.
Каковы особенности применения линейного предсказания для анализа речи?
13.
Как определяются параметры отражения линейного предсказания при анализе речи?
14.
Каковы особенности автокорреляционного и ковариационного методов?
15.
Как определяется спектр линейного предсказания?
16.
Как определяется мера расстояния Itakura?
17.
Как определяются параметры кепстра линейного предсказания?
18.
Что такое формантный анализ и для чего он применяется?
116
1 2 3 4 5 6 7 8 9 10 ... 13
Глава 6. МЕТОДЫ СИНТЕЗА РЕЧИ
Синтез речи (speech synthesis) – процесс преобразования текста в речь.
Синтез – одна из форм обработки речи, связанная с задачей чтения абонентской системой записанного в ее памяти электронного текста.
При синтезе для обеспечения высокого качества речи необходимы высокая скорость обработки данных и большая емкость памяти для хране- ния данных, поэтому приходится идти на компромисс, приводящий к оп- ределенному ухудшению качества синтезируемой речи.
Обычно синтез речи проводится с учетом особенностей языка и ис- пользованием автоматической расстановки ударений.
Задача синтеза речи заключается в том, чтобы текст, представленный в компьютере в виде символов, был озвучен и превратился в человеческую речь. При этом машина либо уже имеет исходный текст в виде файла, ли- бо составляет его, руководствуясь каким-либо алгоритмом. Например, в телефонии, как правило, синтезированная речь передается по телефонным линиям, имеющим ограниченный сверху и снизу частотный диапазон. Речь должна быть максимально разборчивой, членораздельной и учитывать из- менения интонации в соответствии с правилами языка.
Существуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим четыре вида ограничений, которые влияют на выбор метода синтеза [17].
1.
Задача
Возможности синтезированной речи зависят от того, в какой области она будет применяться. Когда нужно произнести ограниченное число фраз, речевой материал записывается в память и воспроизводится по необходи- мости. В других случаях используются более сложные подходы.
2.
Голосовой аппарат человека
Система синтеза речи должна производить на выходе требуемые ре- чевые волны. Для этого сигнал должен пройти путь от источника в рече- вом тракте с возбуждением артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала, выполняют функцию гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.
117 3.
Структура языка
Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут при- меняться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фоноло- гические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения.
4.
Технология
Возможности успешно моделировать и создавать устройства для синтеза речи в большой степени зависят от состояния технико- технологической стороны дела. Речевая наука сделала значительный шаг вперед благодаря появлению различных технологий, в том числе рентгено- графии, кинематографии, теории фильтров и спектров, а главным образом компьютеров. Развитие интегральных технологий с постоянно возрастаю- щими возможностями позволило конструировать построение мощные, компактные, недорогие устройства, действующие в реальном времени.
Вместе с прогрессом теории синтеза речи это стимулировало дальнейшее развитие систем синтеза речи и их широкое применение.
6.1. Метод цифрового кодирования речи
Данный метод состоит в простом запоминании оцифрованного фрагмента речи с последующим восстановлением и воспроизведением ре- чевого сигнала в аналоговой форме [38].
Структурная схема цифрового кодирования речи (режим «Запись ре- чи») приведена на рис. 6.1.
Структурная схема декодирования речи (режим «Воспроизведение речи») приведена на рис. 6.2.
Рассчитаем объем памяти, необходимый для хранения речи длитель- ностью в одну секунду. Оказывается, достаточную точность представле- ния речевого сигнала обеспечивает кодирование 8 бит на один отсчет. При частоте дискретизации 8 кГц, что достаточно для речевого сигнала, зани- мающего полосу частот 4 кГц, объем памяти составит 64 кбит.
Если оцифрованный сигнал передают по каналу связи, тогда ско- рость передачи информации должна быть 64 кбит/с.
118
Приведенные выше числовые значения параметров типичны для им- пульсно-кодовой модуляции (ИКМ). Применение эффективных методов кодирования позволяет снизить требования к памяти и скорости передачи информации. Например, применение адаптивной дельта-модуляции по- зволяет снизить эту величину почти на порядок.
Рис. 6.1. Структурная схема цифрового кодирования речи
Рис. 6.2. Структурная схема декодирования речи
6.2. Метод фонемного синтеза
Идея метода чрезвычайно проста: речь представляется последова- тельностью букв-звуков и пауз между словами и предложениями [38]. На- пример, фраза «кафедра акустики» будет иметь вид: к-а-ф-е-д-р-а _ а-к-у-с-т-и-к-и.
Здесь фонемы отделены черточками, а пауза между словами обозна- чена символом подчеркивания. Проанализировав речь, можно выделить конечное множество «кирпичиков»
– фонем, образующих своеобразную
«библиотеку фонем».
Ее можно хранить либо в памяти ПК, либо в памяти специальной микросхемы. Первый способ предполагает программную реализацию син- теза речи, второй – программно-аппаратную.
Речевой сигнал
Согласование по уровню
АЦП
Логическая управляющая схема
Данные
Память
Генератор адресов
Речевой сигнал
Фильтр НЧ
ЦАП
Память
Данные
Адреса
Генератор ад- ресов
Логическая управляющая схема
119
При программно-аппаратном подходе используют специальную микросхему, в памяти которой хранятся фонемы и алгоритмы их соедине- ния, необходимые для сглаживания «шероховатости» на стыках.
6.3. Метод формантного синтеза
Цифровая модель образования речи (по Шаферу) показана на рис. 6.3
[38].
Рис. 6.3. Цифровая модель образования речи
Для отражения свойств голосового тракта коэффициенты фильтра должны изменяться примерно каждые 10 мс. Фильтр применяется как сис- тема, моделирующая резонансные свойства полостей рта и носа человека.
Алгоритм цифровой фильтрации можно реализовать по-разному. Напри- мер, можно для каждого отрезка времени заново рассчитывать коэффици- енты рекурсивного фильтра, количество и местоположение полюсов кото- рого определяется количеством и местоположением формант в синтези- руемом звуке. Именно такой подход показан на рис. 6.3.
Иной подход – использовать «гребенку» узкополосных фильтров с перекрывающимися ЧХ таким образом, что АЧХ результирующей систе- мы практически равномерна в полосе частот речевого сигнала.
Очевидно, что варьируя коэффициентом ослабления сигнала в каж- дом из отдельных фильтров «гребенки», можно синтезировать суммарную
ЧХ практически любой формы. Нетрудно увидеть, что такой подход дол- жен обеспечивать при правильной организации вычислений результаты синтеза, практически идентичные результатам для первого подхода. Меж- ду тем второй подход значительно эффективнее в плане вычислительных затрат. «Гребенку» фильтров при этом можно организовать либо с помо- щью классических методов расчета цифровых фильтров, либо с помощью алгоритмов ДПФ и БПФ.
Период ОТ
Генератор импульсов
Генератор случайных чисел
Коэффициенты цифрового фильтра (па- раметры речевого тракта)
Цифровой фильтр с переменными параметрами
Отсчеты речевого сигнала
Регулировка громкости
120
6.4. Вокодеры
Задача формантного синтеза речи хорошо «сопрягается» с задачей низкоскоростной передачb информации на расстояние. Не будем останав- ливаться на важности сжатия объема передаваемых данных, приводящего к возможности снижения скорости передачи – это очевидно. Зададим иной вопрос – за счет чего возможно такое сжатие [38].
Чтобы найти простой ответ на этот непростой вопрос, представим се- бе, что на передающей станции установлен спектроанализатор, который вы- числяет кратковременное преобразование Фурье. В результате для каждого временного сегмента получаем / 2
N
комплексных коэффициентов, или N вещественных чисел. Если передавать на расстояние все эти числа, а затем на приемной станции из них восстанавливать сегмент сигнала, тогда сигнал восстановится без потерь. Однако легко увидеть, что объем передаваемых данных при этом нисколько не уменьшился: раньше передавались N отсче- тов временного сегмента, а теперь N спектральных отсчетов (более того, возникла необходимость в ненужных, казалось бы, вычислениях).
Но можно поступить по-другому: передавать на расстояние не все спектральные коэффициенты, а лишь «большие». Разумеется, при этом нужно еще указать центральные частоты соответствующих полосовых фильтров (или, что то же, номера коэффициентов).
В специальной литературе утверждается, что основная информация о гласных звуках содержится всего в трех формантах. Это означает, что одну гласную можно представить набором из девяти чисел, тогда как при обыч- ном способе передачи для этого требуется примерно 100 чисел (интервал
10 мс при частоте дискретизации 10 кГц). Как видим, выигрыш сущест- венный. К сожалению, для согласных звуков эта разница значительно меньше, поэтому общий выигрыш снижается. Дальнейшего сжатия можно добиться, например, уменьшив разрядность передаваемых чисел. В конеч- ном счете на практике удается понизить скорость передачи данных с 64 до
9,6 кбит/с без существенной потери качества синтезированной речи, и да- же до 2,4 кбит/с, но уже с заметной потерей качества.
Таким образом, для передачи речевых сигналов целесообразно при- менение вокодеров, при этом данную задачу естественно представить в виде двух подзадач: 1) анализ речи при передаче; 2) синтез речи при вос- произведении.
На этапе анализа проводится оценка параметров модели, а на этапе синтеза – образование искусственного речевого сигнала.
По принципу определения параметров фильтровой функции речи раз- личают вокодеры: полосные (канальные, channel), формантные, ортогональ- ные, с линейным предсказанием речи (липредеры) и гомоморфные [14].