ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.12.2023
Просмотров: 235
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
138
(
)
(
)
(
1) (
1)
1 2
2
(
1)
(
1)
1 1
N
m
m
e
b
n
n
n
rm
N
N
m
m
e
b
n
n
n
n
−
−
∑
=
= −
−
−
∑
∑
=
=
, (7.9) где N – количество отсчетов в сегменте.
Полученная формула для расчета коэффициентов отражения имеет также другой физический смысл – расчет коэффициентов корреляции ме- жду последовательностью отсчетов сигнала ошибки прямого и обратного линейных предсказаний.
Приведем также рекуррентные разностные уравнения решетчатого фильтра сигнала ошибки:
(
1),
( )
(
1)
1 1,
,
(
1)
( )
(
1),
1
m
m
m
e
e
r b
n
n
m n
m
M
m
m
m
b
b
r e
n
m n
n
−
−
⎧
⎫
=
+
⎪
⎪
−
=
⎨
⎬
−
−
⎪
⎪
=
+
−
⎩
⎭
где
( )
( )
;
M
M
e
e
b
b
n
n
n
n
=
=
– выход фильтра, а начальные условия для ре- куррентной процедуры – (0)
(0)
;
e
x
b
x
n
n
n
n
=
=
7.6.2. Реализация ДИКМ
Зная метод определения коэффициентов предсказания, рассмотрим блок-схему практической системы ДИКМ, показанную на рис. 7.7 [39, 40].
В этой схеме предсказатель стоит в цепи обратной связи, охватываю- щей квантователь (К). Вход предсказателя обозначен xn. Он представляет собой сигнальный отсчет
xn
, искаженный в результате квантования сигна- ла ошибки. Выход предсказателя (П)
ˆ
1
M
x
a x
n
k n k
k
= ∑
−
=
(7.10)
Рис. 7.7. Блок-схема практической системы ДИКМ
( )
x t
{ }
n
x
{ }
n
e
{ }
n
e
к модему
+ _
{ }
ˆ
n
x
{ }
n
x
АЦП
К
П
139
Разность
ˆ
e
x
x
n
n
n
=
−
– вход квантователя, а en – его выход. Величи- на квантованной ошибки предсказания
en
кодируется последовательно- стью двоичных символов и передается через канал в пункт приема.
Квантованную ошибку en также суммируют с предсказанной величи- ной ˆxn, чтобы получить xn.
В месте приема используют такой же предсказатель, как и на передаче.
Выход речевого сигнала ˆxn суммируют с en, чтобы получить xn (рис. 7.8).
Рис. 7.8. Схема предсказателя на приеме и передаче
Сигналы
xn
являются входными для предсказателя. По ним с помо- щью ЦАП восстанавливается сигнал
( )
x t . Ошибка в xn становится ошиб- кой квантования
q
e
e
n
n
n
=
−
. Использование обратной связи вокруг кван- тователя позволяет избежать накопления предыдущих ошибок квантова- ния при декодировании
ˆ
(
)
q
e
e
e
x
x
x
x
n
n
n
n
n
n
n
n
=
−
=
−
−
=
−
Следовательно,
x
x
q
n
n
n
=
+
, что означает, что квантованный отсчет
xn отличается от входа xn ошибкой квантования qn независимо от исполь- зования предсказателя. Значит, ошибки квантования не накапливаются.
В рассмотренной выше системе ДИКМ оценка, или предсказанная ве- личина ˆxn отсчета сигнала, получается посредством линейной комбинации предыдущих значений
xn k
−
, k = 1, 2, …, M. Улучшенное качество оценки можно получить включением в неё линейно отфильтрованных последних значений квантованной ошибки.
Оценку ˆxn можно выразить так:
?
1 1
m
l
x
a x
b e
n
k n k
k n k
k
k
=
+
∑
∑
−
−
=
=
,
{ }
n
e
{ }
n
x
к ЦАП
{ }
ˆ
n
x
{ }
k
a
П
140
где
{ }
bk – коэффициенты фильтра для квантованной последовательности ошибок en. Блок-схемы кодера на передаче и декодера на приеме приведе- ны ниже (рис. 7.9, 7.10).
Рис. 7.9. Блок-схема кодера на передаче
Рис. 7.10. Блок-схема декодера на приеме
Здесь два ряда коэффициентов
{ }
ak и
{ }
bk выбираются так, чтобы минимизировать некоторую функцию ошибки
ˆ
e
x
x
n
n
n
=
−
, например среднеквадратическую ошибку.
7.7. Способы кодирования речи на основе анализа
временных параметров
При цифровом кодировании стремятся по возможности к наиболее точному представлению речевого сигнала для того, чтобы по этому циф- ровому представлению восстановить исходный акустический сигнал. Дру- гая задача – представление речевого сигнала совокупностью свойств или
( )
x t
{ }
n
x
{ }
n
e
{ }
n
e
к модему
+ _
{ }
ˆ
n
x
{ }
n
e
{ }
n
x
АЦП
К
Лин. фильтр
{ }
k
b
Лин. фильтр
{ }
k
a
{ }
n
e
{ }
n
x
к ЦАП
{ }
ˆ
n
x
{ }
k
b
{ }
k
a
Лин. фильтр
Лин. фильтр
141
параметров модели. Ряд сравнительно простых и полезных характеристик можно определить путем непосредственных измерений параметров самого сигнала, а именно по его ИКМ-представлению.
Ключ ко всем параметрическим представлениям – процедура кратко- временного анализа [46].
7.7.1. Измерение энергии
Одна из характеристик сигнала – его энергия. Энергия вещественно- го дискретного во времени сигнала
( )
x n
( )
2
E
x n
n
∞
= ∑
= −∞
. (7.11)
Для нестационарных сигналов, например, речевого, более удобно вычислять изменяющуюся во времени энергию в виде:
( )
( ) (
)
N 1
m 0
2
E n
w m x n m
−
=
⎡
⎤
=
−
∑ ⎣
⎦ , (7.12) где ( )
w m – весовая последовательность, или окно, которое выделяет уча- сток ( )
x n , a N – количество отсчетов в окне. Таким образом, один из спо- собов измерения энергии (7.12) основывается на сглаживании последова- тельности ( )
x n фильтром с импульсной реакцией ( )
W n .
Как и следовало ожидать, функция ( )
E n отображает изменяющиеся во времени амплитудные свойства речевого сигнала. Однако формула
(7.12) нуждается в тщательной интерпретации. Во-первых, это касается выбора окна, задача которого состоит в приписывании меньших весов бо- лее старым отсчетам речи, поэтому с увеличением m ( )
w m , как правило, монотонно стремится к нулю. Если на всем интервале отсчеты должны иметь одинаковый вес, используют прямоугольное окно.
Во-вторых, трудность заключается в выборе интервала измерения
N . При слишком малом N , когда его величина меньше периода основного тона, величина энергии Е(n), определяемой выражением (7.12), подверже- на быстрым флуктуациям, зависящим от тонкой структуры сигнала. Если
N слишком велико и равно нескольким периодам основного тона, величи- на ( )
E n изменяется незначительно и поэтому не может отразить изменяю- щиеся свойства речевого сигнала. Практически наиболее подходящее зна- чение N при частоте дискретизации 10 кГц составляет величину порядка
100 – 200 отсчетов (10 – 20 мс речи).
142
Основное значение характеристики ( )
E n состоит в том, что она мо- жет служить хорошим критерием разделения вокализованных и невокали- зованных участков речи. На невокализованных участках величина ( )
E n намного меньше, чем на вокализованных. Кроме того, чем меньше N , тем меньше ошибка определения точного положения границ, где невокализи- рованная речь переходит в вокализированную и обратно. Более того, при- менительно к высококачественной речи энергию можно использовать для отделения невокализированных участков речи от паузы.
Процедура измерения энергии осложняется тем обстоятельством, что величина уровня возводится в квадрат, тем самым в ( )
E n появляются большие перепады. Один из сравнительно простых способов преодоления этой трудности – использование для оценки энергии функции, в которой вместо суммы квадратов вычисляется сумма абсолютных величин
( ) (
)
1 0
ˆ
N
m
E
w n x n m
−
=
=
−
∑
(7.13)
7.7.2. Измерение числа переходов через нуль
Еще один весьма простой способ анализа временных параметров сигнала основан на измерении числа переходов через нуль. Имея в виду цифровое представление сигнала, можно утверждать, что между момента- ми взятия n -го и (
1
n
− )-го отсчетов произошло пересечение нулевого уровня, если
[
]
[
]
sign ( )
sign (
1)
x n
x n
≠
− . (7.14)
Это измерение несложно в реализации и часто используется для гру- бой оценки частотного содержания речевого сигнала. Возможность его применения объясняется тем, что для синусоидального сигнала с частотой
0
f среднее число пересечений нулевого уровня за 1 с
2 0
m
f
=
. (7.15)
Однако соотношение (7.15) нельзя без оговорок распространить на речевой сигнал, поскольку большая часть звуков речи имеет широкий спектр частот. Тем не менее иногда достаточно даже такой грубой оценки.
Например, хорошо известно, что энергия вокализованной речи обычно концентрируется в диапазоне ниже 3 кГц, тогда как энергия фри- кативных звуков в основном сосредоточена выше 3 кГц. На этом основа- нии результаты измерений числа переходов через нуль (наряду с информа- цией об энергии) часто используются для принятия решения о том, вокали- зованный или не вокализованный характер имеет данный участок речи.
Если частота пересечений высока, то это свидетельствует о не вокализо-
143
ванном характере речи, если же она мала, то весьма вероятно, что анализи- руется вокализованный участок. Число переходов через нуль в сочетании с измерением основного тона речи используется при оценке параметров воз- буждения, а также при распознавании речи [43].
При цифровой реализации измерений числа переходов через нуль следует учитывать ряд важных обстоятельств. Хотя в соответствии с ос- новным алгоритмом требуется произвести лишь сравнение знаков двух следующих друг за другом отсчетов, необходимо также весьма тщательно выполнять и саму процедуру дискретизации. Большие искажения в резуль- таты измерений числа переходов через нуль вносят наличие шума, смеще- ние уровня постоянного тока и напряжение фона с частотой питающей се- ти 50 Гц, поэтому для ослабления мешающего влияния указанных факто- ров перед устройством дискретизации вместо фильтра нижних частот ста- вится полосовой фильтр. Кроме того, поскольку временное разрешение при измерении числа переходов через нуль определяется периодом дис- кретизации Т, его повышение сопряжено с увеличением частоты дискрети- зации. Для измерения числа переходов через нуль можно применять двух- уровневое квантование.
7.7.3. Кратковременный автокорреляционный анализ
Функция автокорреляции дискретного во времени сигнала ( )
x n оп- ределяется как
( )
( ) (
)
N
N
n
N
1
m
lim
x n x n m
2N 1
ϕ
→∞
=−
=
+
∑
+
. (7.16)
Автокорреляционная функция весьма полезна для выявления струк- туры любого сигнала, и в этом смысле речь не составляет исключения [46].
Если, например, некоторый сигнал имеет структуру с периодом T :
(
)
( )
x n T
x n
+
=
для всех n , то
( )
(
)
m
m T
ϕ
ϕ
=
+
. (7.17)
Таким образом, периодичность автокорреляционной функции указы- вает на периодичность исходного сигнала. Если автокорреляционная функция в окрестности точки
0
m
= имеет острый пик и с возрастанием m быстро падает к нулю, то это указывает на отсутствие в сигнале предска- зуемой структуры.
Как уже отмечалось, речь является нестационарным сигналом. Одна- ко на коротких интервалах времени свойства речевого сигнала сохраняют- ся неизменными. Как мы уже видели, это свойство служит основой крат- ковременного анализа.
144
Рассмотрим для примера отрезок сигнала из N отсчетов:
( )
(
),
0 1
x n
x n l
n N
l
=
+
≤ ≤ − , (7.18) где l – начало этого отрезка. В этом случае кратковременная автокорреля- ционная функция может быть определена как
( )
( ) (
)
1 1
, 0 1
0 0
p
m
x n x n m
m M
l
l
l
N n
ϕ
−
=
+
≤ ≤
−
∑
=
, (7.19) где 0
M – максимально требуемая задержка. Так, например, для выявления периодичности сигнала необходимо выполнить условие M T
> . Значение целого числа p оговорено ниже.
Выражение (7.19) можно трактовать как автокорреляцию отрезка ре- чевого сигнала протяженностью N отсчетов, начиная с отсчета l . Если
p N
= , то для вычисления используются отсчеты, находящиеся вне отрезка
1
l n N l
< < + − ; если p N m
= − , то – отсчеты только внутри интервала. В последнем случае исследуемый отрезок часто взвешивается с помощью функции окна, которая плавно сводит к нулю величины отсчетов на концах отрезка.
Обычно предполагается, что для хранения существенных признаков речевого сигнала при его кодировании с помощью ИКМ может потребо- ваться частота дискретизации от 6 до 20 кГц, однако кодирование медлен- но изменяющихся параметров модели возможно со значительно меньшей частотой (от 50 до 100 Гц). Предположим для примера, что частота дис- кретизации речевого сигнала равна 10 кГц, а кратковременная автокорре- ляция должна вычисляться 100 раз в секунду. Оценка величины автокор- реляции обычно производится на отрезках речевого сигнала длительно- стью 20 – 40 мс (для оценки периодичности сигнала длительность окна должна быть достаточной для перекрытия как минимум двух периодов ре- чевого сигнала). Таким образом, при частоте дискретизации 10 кГц коли- чество отсчетов находится в интервале 200 400
N
< <
, а требуемые оценки величины автокорреляции должны вычисляться для приращения, равного
100 отсчетам [46].
При использовании кратковременной автокорреляционной функции для оценки периода основного тона желательно, чтобы эта функция имела острые пики с интервалом, кратным периоду T . Корреляционная функция речи не имеет острых пиков, поскольку структуру каждого периода рече- вого сигнала в значительной степени можно предсказать заранее.
145
7.8. Кодирование речи на основе адаптивного
mel-кепстрального анализа
Mel-кепстральные коэффициенты – популярные характеристики при исследовании речи и распознавании спикера.
Достаточно часто системы кодирования речи используют авторег- рессионное (AR – autoregressive) спектральное представление для кратко- временного предсказания. Однако в некоторых случаях кепстральные ко- эффициенты позволяют достичь лучших результатов [4].
Кепстр – спектр, полученный преобразованием Фурье логарифма сигнала. Спектр, представленный mel-кепстральными коэффициентами, должен иметь разрешающую способность, по частоте подобную человече- скому слуху, который имеет более высокую разрешающую способность на низких частотах. Поэтому ожидается, что использование mel-кепстра мо- жет быть эффективным для спектрального моделирования в кодерах речи вместо AR-моделирования.
Чтобы продемонстрировать эффективность mel-кепстрального пред- ставления в кодировании речи, рассмотрим кодер АДИКМ, который ис- пользует кратковременный адаптивный предсказатель, основанный на mel- кепстральном представлении спектра речи. При этом mel-кепстральные коэффициенты будут обработаны алгоритмом для адаптивного mel- кепстрального анализа. Так как передаточная функция шумового форми- рования и постфильтрования также определена через mel-кепстральные коэффициенты, эффекты шумового формирования и постфильтрования должны соответствовать особенностям человеческого слухового ощуще- ния.
Качество речи кодера оценивается объективными и субъективными исследованиями. Показано, что высококачественная речь, соответствую- щая CCITT G.721 ADPCM-кодеру на скорости 32 кбит/с, может быть вос- произведена кодером на основе mel-кепстра на скорости 16 кбит/с без ал- горитмической задержки.
7.8.1. Адаптивный mel-кепстральный анализ
Модель спектра речи
(
)
j
D e
ω
, использующая М-й порядок mel-кепстральных коэффициентов ( )
C m , имеет вид
( )
( )
M
m
D z
exp
C m z
m 0
−
=
∑
=
, (7.20) где
1 1
1
,
1 1
z
z
z
α α
α
−
−
−
−
=
<
−
. (7.21)
146
Например, когда частота дискретизации равна 8 кГц, фазовая харак- теристика
ω
и передаточная функция при
0,31
α
=
будут приближенными к масштабу me1-частоты, основанному на субъективных оценках основно- го тона [4].
В mel-кепстральном анализе коэффициент усиления ( )
D z предпола- гается равным единице. При этом условии коэффициенты( )
C m однознач- но минимизированы:
2
( )
E e n
ε
⎡
⎤
= ⎣
⎦ ,
где ( )
e n – выход обратного фильтра
( )
1 D z , как показано на рис. 7.11.
Адаптивный mel- кепстральный анализ решает проблему минимизации ошиб- ки с использованием оценки для градиента
ε
. Исследования показывают, что адаптивный алгоритм имеет достаточно быструю сходимость при ана- лизе речи.
Сигнал ( )
e n может рассматриваться как ошибка линейного предска- зания, поэтому адаптивный mel-кепстральный анализ может использо- ваться для кратковременного адаптивного предсказания вместо метода ли- нейного предсказания.
7.8.2. Структура кодера
Базовая структура кодера, основанного на адаптивном mel-кепстральном анализе, приведена на рис. 7.12.
Рис. 7.12. Базовая структура кодера
Z-преобразование декодированной речи ˆ( )
x n будет иметь вид:
ˆ ( )
( )
( )
X z
X z
Q z
=
+
, (7.22)
( )
x n
Кодировщик
Q
( )
1
D z
−
( )
ˆe n
Цифровой канал
Декодер
( )
D z
( )
ˆx n
( )
x n
( )
1 D z
( )
e n
Рис. 7.11. Схема адаптивного mel-кепстрального анализа
147
где ( )
X z и
( )
Q z – это Z-преобразования от
( )
x n и ( )
q n соответственно,
( )
q n – квантованный шум, создаваемый квантователем Q . Передаточная функция ( )
D z реализуется при использовании MLSA-фильтров.
MLSA (Mel Logarithmic Spectral Approximation) – mel-лога- рифмический спектральный фильтр приближения, коэффициенты которого определяются mel-кепстральными коэффициентами согласно информации о высоте тона [10].
Ограничение шума и постфильтрация
Передаточные функции ( )
D z и
( )
D z
реализуются при использова- нии MLSA-фильтров. Мы можем также реализовать
( )
D
z
γ
и
( z )
D
β
тем же способом, что и ( )
D z и ( )
D z : умножением ( )
C m на
γ
и
β
соответст- венно. Чтобы избежать изменения усиления на выходе постфильтра, до- бавляем регулятор выходного усиления, который поддерживает выходной сигнал постфильтра таким образом, чтобы он имел приблизительно ту же самую мощность (энергию), что и нефильтрованная речь [4].
Передаточная функция ( )
D z
аналогична ( )
D z за исключением того, что (1)
C
γ
должно быть равно нулю, чтобы уравновешивать глобальный спектральный наклон. Настраиваемые параметры
γ
и
β
регулируют вели- чину ограничения шума и постфильтрования соответственно.
Рис. 7.13 показывает структуру кодера, основанного на mel-кепстральном анализе с ограничением шума и постфильтрованием.
Рис. 7.13. Структура кодера, основанного на адаптивном mel-кепстральном анализе
Z-преобразование от декодированной речи ˆ( )
x n будет иметь вид:
{
}
ˆ ( )
( )
( )
( )
( )
X z
X z
D
z
Q z D
z
β
γ
=
+
+
. (7.23)
Передаточная функция
( )
D
z
γ
ограничивает спектр шумов и
( )
D
z
β
– постфильтрование.
( )
x n
Кодировщик
Q
( )
1
D
z
γ
−
( )
1
D z
−
( )
ˆe n
Цифровой канал
( )
D z
( )
D
z
β
( )
ˆx n
Декодер