ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.12.2023
Просмотров: 240
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
100
Как видно, уровень первого бокового лепестка составляет –40 дБ.
5.2. Кратковременный анализ Фурье
5.2.1. Кратковременное преобразование Фурье
При обработке речи записывают N отсчетов сигнала, начинающихся с 0
N , применяют оконную функцию [11, 38]:
0 0
0 для других
n N
n
w x
,...
n N ,
xn
,
n,
+
≤ <
⎧⎪
′ = ⎨
⎪⎩
. (5.5) затем выполняют ДПФ (2.9).
Результат определяется уравнениями:
( )
2 1
( )
( )
0
i
kn
N
i
N
X k
X e
x n e
n
π
ω
−
−
=
= ∑
=
,
2
, 0
k
k N
N
π
ω
=
≤ ≤ , (5.6) где ( )
X k – массив из N комплексных чисел, эквивалентный массивам из
N реальных и N мнимых чисел.
Обратное кратковременное дискретное преобразование Фурье
(ОДПФ) может быть также определено по формуле
1 2
1 0
N
nk
i
x
X e
n
k
N
N n
π
−
=
∑
=
, 0 k N
≤ ≤ . (5.7)
Рис. 5.7. Окно Хэмминга
Рис. 5.8. Амплитудный спектр окна Хэмминга
101
5.2.2. Практическое применение кратковременного
преобразования Фурье
Возьмем 512 отсчетов речевого сигнала, например слово «sig», гра- фик которого приведен на рис. 5.9.
Рис. 5.9. Фрагмент гласного звука в прямоугольном окне
В среде MATLAB выполним FFT и выведем график модуля спектра
(рис. 5.10).
>> abs(fft(sig))
Рис. 5.10. Амплитудный спектр
На рис. 5.9 видна резкая неоднородность (разрыв) на границах. При- менение окна Хэмминга сокращает ее (рис. 5.11) [11].
102
>> hamming(512) .* sig
Рис. 5.11. Фрагмент гласного звука в окне Хэмминга
В результате гармоническая структура сигнала становится более за- метной (рис. 5.12).
>> abs(fft(hamming(512) .* sig))
Рис. 5.12. Амплитудный спектр в окне Хэмминга
Тот же спектр в логарифмическом масштабе представлен на рис. 5.13.
>> log10(abs(fft(hamming(512) .* sig)));
103
Рис. 5.13. Амплитудный спектр в логарифмическом масштабе
Чтобы продемонстрировать эффект размера окна, вышеупомянутый анализ повторяется для окна Хэмминга длиной 64 (рис. 5.14 и 5.15).
Рис. 5.14. Фрагмент гласного звука в окне Хэмминга длиной 64
104
Рис. 5.15. Амплитудный спектр в окне Хэмминга длиной 64
5.3. Кепстральный анализ
Схема кепстрального анализа показана на рис. 5.16. Сегмент речево- го сигнала после обработки оконной функцией подвергается преобразова- нию Фурье.
Рис. 5.16. Схема кепстрального анализа
Для большинства приложений обработки речи необходим только спектр амплитуды log( (
) )
i
S e
θ
. (5.8)
Медленно меняющиеся компоненты log( (
) )
i
S e
θ
характеризуют низкие частоты. Следовательно, применение кепстрального анализа с ис- пользованием преобразования Фурье – это естественный способ их выде- ления. Результат применения кепстрального анализа для образца речи, представленного на рис. 5.11, 5.12, 5.13, показан на рис. 5.17.
>> ifft (log(abs(fft(hamming(512) .* sig))))
Речь
Окно
ДПФ
Log
ОДПФ
Кепстральный анализ
105
Рис. 5.17. Полный реальный кепстр
Заметим, что большинство значимых свойств наблюдается в начале и в пиках спектрограммы. Более подробно первые 25 кепстральных коэффи- циентов представлены на рис. 5.18.
0 5
10 15 20 25
-0.2
-0.1 0
0.1 0.2 0.3 0.4 0.5
Рис. 5.18. Первые кепстральные коэффициенты
106
5.4. Z-преобразование
Удобный способ анализа дискретных последовательностей –
Z-преобразование (Z-transform). Последовательности чисел
{ }
( )
x n ставится в соответствие функция комплексной переменной z , определяемая сле- дующим образом:
n
X ( z )
x( n )z
n
∞
−
=
∑
= −∞
. (5.9)
( )
X z является взвешенной суммой, которая определена только для тех значений z , при которых ряд (5.9) сходится [11, 43] .
Свойства Z-преобразования
Рассмотрим некоторые наиболее важные свойства Z-преобразования, полезные при его применении.
1. Z-преобразование – линейное преобразование, для него справедлив принцип суперпозиции.
Если ( )
Y z , ( )
1
X z и ( )
2
X
z – Z-преобразования последовательностей
( )
y n , ( )
1
x n , ( )
2
x n соответственно, то для любых действительных
α
и
β
справедливы соотношения:
( )
( )
( )
( )
( )
( )
1 2
1 2
y n
x n
x n
Y z
X z
X
z
α
β
α
β
=
+
⇒
=
+
. (5.10)
2. Сдвиг последовательности (задержка).
Если ( )
Y z , ( )
X z – Z-преобразования последовательностей ( )
y n , ( )
x n , то для ( )
(
)
0
y n
x n n
=
−
, где 0
n – целое число, справедливо соотношение
0
( )
( )
n
Y z
z
X z
−
=
. (5.11)
Так, при задержке сигнала на один такт ( )
( 1)
y n x n
=
− ,
1
( )
( )
Y z
X z
z−
=
, т.е. Z-преобразование исходной последовательности умножается на
1
z− .
Таким образом, множитель
0
n
z
−
является оператором задержки дискрет- ной последовательности на 0
n тактов.
3. Свертка последовательностей.
Свертка двух бесконечных дискретных последовательностей
{ }
( )
x k и
{
}
(
)
h n k
−
определяется следующим образом:
( )
( ) (
)
y n
x k h n k
k
∞
=
−
∑
= −∞
. (5.12)
Если Z-преобразования последовательностей ( )
y n , ( )
x n , ( )
h n равны
( )
Y z , ( )
X z и ( )
H n соответственно, то справедливо соотношение
( )
( ) ( )
Y z
X z H z
=
, которое означает, что Z-преобразование свертки равно произведению Z-преобразований свертываемых последовательностей.
107
Обратное Z-преобразование
Обратный переход от ( )
X z к последовательности ( )
x n определяется соотношением [27]
1 1
( )
( )
2
C
n
x n
X z
dz
z
i
π
−
=
∫
, (5.13) где C – замкнутый контур, который включает
0
z
= .
Обратное Z-преобразование представляет собой интеграл по любому замкнутому контуру с направлением обхода против часовой стрелки. Кон- тур расположен в области сходимости и окружает начало координат.
5.5. Анализ с использованием линейного предсказания
Анализ речи с использованием линейного предсказания (ЛП) – исто- рически один из самых важных методов анализа речи [11].
ˆ
1
p
S
a S
n
i n i
i
= ∑
−
=
, (5.14)
Sn– речевой сигнал с nотсчетами, ai – коэффициенты предсказания.
Этот линейный фильтр имеет передаточную функцию
1
( )
1 1
H z
p
i
a z
i
i
=
−
− ∑ =
(5.15)
При правильном выборе параметров модель ЛП может приблизиться к спектру огибающей для всех звуков речи.
Оценка параметров ЛП.
Допустим, имеется N отсчетов речи. Вы- числим оценку ai из условия минимальной среднеквадратической ошиб- ки. Эти оценки могут рассматриваться как самые вероятные параметры, если предполагается, что распределение ошибок является гауссовским и нет ограничений на значения ai.
Ошибка
ˆ
1
p
e
S
S S
a S
n
n
n
i n i
i
=
− =
− ∑
−
=
. (5.16)
Следовательно, суммированная среднеквадратическая ошибка E по конечному окну длиной N
2 1
1 2
0 0
1
p
N
N
E
e
S
a S
n
n
k n k
n
n
k
−
− ⎛
⎞
=
=
−
⎜
⎟
∑
∑
∑
−
⎜
⎟
=
=
=
⎝
⎠
(5.17)
Минимум
E
получается, когда частные производные равны нулю для всех параметров
ak .
108
Уравнение (5.17) квадратичное относительно ak , поэтому решение существует, причем единственное.
Дифференцируя уравнение (5.17) по a j и принимая их равными ну- лю, получаем систему p уравнений:
(5.18)
Реконфигурация уравнения (5.18) дает
1 1
0 1
0
p
N
N
S S
a
S
S
n n
j
k
n k n
j
n
k
n
−
−
=
∑
∑
∑
−
−
−
=
=
=
. (5.19)
Определим матрицу ковариации
φ
с элементами ,ik
φ
:
1
,
0
N
S
S
i k
n i n k
n
φ
−
= ∑
−
−
=
(5.20)
Запишем уравнение (5.20) как
,0
,
1
p
a
i
i k k
k
φ
φ
= ∑
=
, (5.21) или
1,1 1,2 1,3 1,
1,0 1
2,1 2,2 2,3 2,
2,0 2
3 3,0 3,1 3,2 3,3 3,
,0
,1
,2
,3
,
p
a
a
p
a
p
a p
p
p
p
p
p p
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
⎛
⎞
⎛
⎞
⎛
⎞
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
= ⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎝
⎠
⎝
⎠ ⎝
⎠
. (5.22)
В матричной форме
0
A
a
Φ = Φ
. (5.23)
Решение находим с использованием обратной матрицы
1 0
A
−
= Φ Φ . (5.24)
Заметим, что матрица
Φ симметрична, т.е. ,
,
i k
k i
φ
φ
=
, и эта симмет- рия может использоваться в инвертировании
Φ
1 0
2 0
1 1
1 2
2 0
0 1
p
N
E
S
a S
S
n
k n k
n
j
a j
n
k
p
N
N
S S
a S
S
.
n n
j
k n k n
j
n
n
k
⎛
⎞
−
⎛
⎞
∂
⎜
⎟
= = −
−
⎜
⎟
∑
∑
−
−
⎜
⎟
⎜
⎟
∂
=
=
⎝
⎠
⎝
⎠
−
−
= −
+
∑
∑
∑
−
−
−
=
=
=
109
Автокорреляционный метод.
Имея дело с обработкой речи, реали- зуемой посредством оконной функции, необходимо принять во внимание граничные эффекты для избежания больших ошибок предсказания на кра- ях. Используем тот факт, что отсчеты являются нулевыми вне окна, чтобы переписать
,i j
φ
как [11]
1 (
)
,
(
)
0
N
i
j
S S
i j
n n
i
j
n
φ
− − −
=
∑
+ −
=
. (5.25)
Теперь
,i j
φ
зависит только от разницы (
i
j
−
) и может быть записа- но в терминах автокорреляционной функции
,
,
1 0
r
i j
i
j
N
k
r
S S
k
n n k
n
φ
= −
− −
=
∑
+
=
(5.26)
Тогда (5.22) преобразуется к виду
0 1
2 1
1 1
1 0
1 2
2 2
3 3
2 1
0 3
1 2
3 0
r
r
r
r p
a
r
r
r
r
r
a
p
r
a
r
r
r
r
r p
a p
r p
r
r
r
r
p
p
p
⎛
⎞
⎛
⎞
− ⎛
⎞
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
−
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
=
−
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟ ⎜
⎟⎝
⎠
−
−
−
⎝
⎠ ⎝
⎠
. (5.27)
Существуют эффективные методы для инвертирования таких мат- риц, один из которых – алгоритм Дарбина (Durbin algorithm).
1 ( 1)
(
1)
/
1
i
i
i
k
a
a
r
E
i
i
i
j
j
j
⎛
⎞
−
−
−
⎜
⎟
=
− ∑
−
⎜
⎟
=
⎝
⎠
, (5.28)
( i )
a
ki
i
=
, (5.29)
( )
(
1)
(
1)
i
i
i
a
a
k a
i
j
j
i
j
−
−
=
−
−
при 1 j i
≤ ≤ , (5.30)
2
( )
(
1)
(1
)
i
i
k
E
E
i
−
= −
. (5.31)
Параметры ki известны как параметры отражения. Полученный фильтр устойчив. Значение квадрата остаточного предсказания
( )
i
E
всегда будет уменьшаться (или оставаться постоянным) на каждой последующей итерации.
110
Спектр линейного предсказания.
Передаточная функция
1
( )
H z – это КИХ-обеляющий фильтр для речи. Его частотная характе- ристика может быть вычислена как преобразование Фурье от коэффи- циентов фильтра, затем инвертирована, чтобы выдать частотную харак- теристику( )
H z [11].
Рис. 5.19 показывает пример спектра ЛП для сегмента речи. Заметим, что форманты максимально выражены.
>> [sig] = wavread('filename');
>> a = lpc(hamming(512).*sig, 16);
>> h = (1./fft([a zeros(1, 512 - 17)])).';
>> figure;
>> plot(abs(h));
>> xlim([0 256])
Рис. 5.19. Спектр ЛП сегмента речи
Мера расстояния Itakura.
Рассмотрим случай, когда речевой сиг- нал
Sn
проходит через линейный предсказатель, соответствующий образ- цу a . Остаточная среднеквадратичная ошибка E [11]
2 1
1 2
0 0
1
p
N
N
E
S
a S
en
n
i n i
n
n
i
−
− ⎛
⎞
=
=
−
=
⎜
⎟
∑
∑
∑
−
⎜
⎟
=
=
=
⎝
⎠
111 1
2 2 0
1 1
1
p
p
p
N
S
a S S
a a S
S
n
i n n i
i j n i n
j
n
i
i
j
⎛
⎞
−
⎜
⎟
=
−
+
=
∑
∑
∑ ∑
−
−
−
⎜
⎟
=
=
=
=
⎝
⎠
1 1
2 2 0
1 0
1 1
1 0
p
N
N
S
a
S S
n
i
n n i
n
i
n
p
p
N
p
a a
S
S
i j
n i n
j
i
j
n
−
−
=
−
+
∑
∑
∑
−
=
=
=
−
+
=
∑ ∑
∑
−
−
=
=
=
2 00 0
0 1
1 1
p
p
p
p
a
a a ij
i i
i j
n
i
i
j
φ
φ
φ
=
−
=
∑
∑
∑ ∑
=
=
=
=
00 01 02 0
1 10 11 12 1
1 1,
,
2 1,
2,
20 21 22 2
0 1
2
p
a
p
a
a
a
a p
p
a p
p
p
p
pp
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
⎡
⎤ −
⎡
⎤
⎢
⎥ ⎢ ⎥
⎢
⎥ ⎢ ⎥
⎢
⎥
⎡
⎤
⎢
⎥
= −
⎢
⎥
⎣
⎦
⎢
⎥
⎢
⎥ ⎢ ⎥
⎢
⎥ ⎢ ⎥
⎢
⎥ ⎣ ⎦
⎣
⎦
…
…
…
…
…
…
. (5.32)
Определим
00 01 02 0
10 11 12 1
20 21 22 2
0 1
2
p
p
R
p
p
p
p
pp
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
φ
⎡
⎤
⎢
⎥
⎢
⎥
⎢
⎥
= ⎢
⎥
⎢
⎥
⎢
⎥
⎢
⎥
⎣
⎦
…
…
…
…
,
(5.33) или в случае автокорреляции
0 1
2 0
1 0
1 1
2 1
0 2
1 2
0
r
r
r
r
r
r
r
r
r
r
r
r
R
r
r
r
r
p
p
p
⎡
⎤
⎢
⎥
⎢
⎥
⎢
⎥
=
⎢
⎥
⎢
⎥
⎢
⎥
−
−
⎣
⎦
…
…
…
…
. (5.34)
Пусть
y – расширенный вектор коэффициентов
ЛП
1,
,
,
,
1 2
a a
a p
⎡
⎤
−
⎢
⎥
⎣
⎦
…
, x – расширенный вектор входных данных,
1,
,
,
,
1 2
a a
a p
⎡
⎤
′ ′
′
−
⎢
⎥
⎣
⎦
…
– неизвестные коэффициенты ЛП,
T
xRx
– энергия на
112
выходе обратного фильтра с входной речью на входе,
T
yRy
– минимально возможная энергия на выходе фильтра ЛП с входной речью на входе. То- гда расстояние может быть вычислено по формуле
( , ) log(
) log(
)
T
E
xR
x
x
d x y
T
E
yR
y
y
=
=
. (5.35)
Кепстр линейного предсказания.
Параметры кепстра могут быть вычислены непосредственно от параметров ЛП при помощи следующей рекурсии [11]:
1 1
, при 1 1
k
i
k
p
c
a
c a
k
k
i k i
k i
−
=
+
≤ ≤
∑
−
=
. (5.36)
Корни многочленного предсказателя.
Знаменатель передаточной функции может быть разложен в виде
1 1
( ) 1
(1
)
1
p
k
p
k
A z
a z
c
z
k
k
k
=
−
−
= −
=
−
∏
=
∑
, (5.37) где ck – множество комплексных чисел, определяющих корни с угловой частотой
{ }
{ }
Im zi
1
t g
i
Re zi
θ
⎛
⎞
−
=
⎜
⎟
⎜
⎟
⎝
⎠
(5.38) и амплитудой
{ }
{ }
2 2
Im
Re
r
z
z
i
i
i
=
+
. (5.39)
Если корень близок к единичному кругу, тогда он представляется формантой [11].
Все корнии лежат в единичном круге. Они могут быть разделены на корни, которые соответствуют голосовому тракту с закрытой голосовой щелью, и те, которые соответствуют голосовому тракту с открытой голо- совой щелью. Применение корней очень полезно при кодировании речи.
5.6. Применение формантного анализа
Существует несколько способов моделирования (синтеза) речевого сигнала. Наиболее адекватна реальному голосовому аппарату линейная модель, относящаяся к группе параметрических моделей синтеза речевого сигнала и основывающаяся на устройстве голосового аппарата. Минуя за- дачи моделирования колебания связок и формирования резонансных по- лостей и рассматривая только изменения волнового сигнала, получаем схему, изображенную на рис. 5.20 [1].