Файл: Речевых сигналов.pdf

Скачать файл (1,72Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.12.2023

Просмотров: 232

Скачиваний: 7

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

148
Структура с предсказателем основного тона
Рис. 7.14 показывает структуру кодера с предсказателем основного тона.
Рис. 7.14. Структура кодера с предсказателем основного тона
Z-преобразование от декодированной речи
ˆ ( )
x n
будет иметь вид:
( )
ˆ ( )
( )
( )
( )
( )
( )
D z
X z
X z
Q z A z D
z
p
A z
n
γ
β
⎧
⎫
⎪
⎪
=
+
+
⎨
⎬
⎪
⎪
⎩
⎭
. (7.24)
Передаточную функцию фильтра предсказания основного тона нахо- дят по формуле
1
( ) 1
( )
1
p
k
A z
a k z
k
p
+
−
= +
∑
= −
. (7.25)
Период основного тона p и коэффициенты предсказателя основного тона ( )
a k вычисляют на основе корреляции
ˆ( )
e n
,
получающейся при ис- пользовании экспоненциального окна [4].
Передаточные функции
( z )
An
и
( z )
A p
определяют по формулам:
1
( ) 1
( )
1
p
k
z
a k
A
z
n
n
k
p
ε
+
−
= +
∑
= −
, (7.26)
( )
x n
Кодер
Q
( )
p
ˆ
e
z
Цифровой канал
e( n )
Декодер
( )
1 A z
( )
D z
( )
p
A z
( )
D
z
β
( )
ˆx n
( )
1
n
A z
−
( )
1
D
z
γ
−
( )
1
A z
−
D(z)–1
e( n )

149 1
1 1
( )
1
( )
1
( )
1 1
p
p
z
a k
a k
A
z
p
p
p
k
p
k
p
ε
ε
⎛
⎞
⎛
⎞
+
+
−
⎜
⎟
⎜
⎟
= −
−
∑
∑
⎜
⎟
⎜
⎟
= −
= −
⎝
⎠
⎝
⎠
. (7.27)
Настраиваемые параметры n
ε
и
p
ε
регулируют величину ограниче- ния шума и постфильтрования соответственно. В декодере p и ( )
a k всегда вычисляют по квантованным значениям ˆ( )
e n .
7.9. Кодирование речи в стандарте GSM
GSM – это цифровая система, следовательно, аналоговая речь долж- на быть оцифрована на входе и восстановлена на выходе.
Кодер речи – первый элемент собственно цифрового участка пере- дающего тракта АЦП. Основная задача кодера – предельно возможное сжатие сигнала речи, т.е. предельно возможное устранение избыточности речевого сигнала но при сохранении приемлемого качества. Компромисс между степенью сжатия и сохранением качества отыскивается экспери- ментально, а проблема получения высокой степени сжатия без чрезмерно- го снижения качества составляет основную трудность при разработке ко- дера. В приемном тракте перед ЦАП размещен декодер речи; задача деко- дера – восстановление цифрового сигнала речи по принятому кодирован- ному сигналу (с присущей ему естественной избыточностью). Сочетание кодера и декодера называют кодеком.
Кодирование сигнала источника первоначально основывалось на данных о механизмах речеобразования. Этот метод использовал модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодеров (кодер голоса, или кодер речи). Ранние вокодеры по- зволяли получать весьма низкую скорость передачи информации при ха- рактерном «синтетическом» качестве речи на выходе, поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов и не находили широкого практического применения.
Ситуация существенно изменилась с появлением метода линейного предсказания, предложенного в 1960-х гг. и получившего мощное развитие в 1980-х гг. на основе достижений микроэлектроники.
В настоящее время в системах подвижной связи получили распро- странение вокодерные методы на базе метода линейного предсказания.
Суть кодирования речи методом линейного предсказания (Linear
Predictive Coding – LРС) заключается в том, что по линии связи переда-

150
ются не параметры речевого сигнала, а параметры фильтра, в определен- ном смысле эквивалентного голосовому тракту, и параметры сигнала воз- буждения этого фильтра, в качестве которого используется фильтр ли- нейного предсказания. Задача кодирования на передающем конце линии связи состоит в оценке параметров фильтра и параметров сигнала возбу- ждения, а задача декодирования на приемном конце – в пропускании сиг- нала возбуждения через фильтр, на выходе которого получается восста- новленный сигнал речи.
Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет
20 мс), находят из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента.
Таким образом, процедура кодирования речи в методе линейного предсказания сводится к следующему:
−
оцифрованный сигнал речи нарезается на сегменты длительностью по 20 мс;
−
для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; в качестве сигнала воз- буждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр с параметрами, найденными из оценки для данного сегмента;
−
параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.
Процедура декодирования речи заключается в пропускании принято- го сигнала возбуждения через синтезирующий фильтр известной структу- ры, параметры которого переданы одновременно с сигналом возбуждения.
Линейное предсказание является кратковременным (STP – Short-
Term Prediction) и не обеспечивает достаточной степени устранения из- быточности речи, поэтому в дополнение к кратковременному предсказа- нию используется еще долговременное (LTP – Long-Term Prediction), в значительной мере устраняющее остаточную избыточность и прибли- жающее остаток предсказания по своим статистическим характеристи- кам к белому шуму.
В стандарте GSM применяется метод полноскоростного (13,6 кбит/с) кодирования речи RPE-LTP (Regular Pulse Excited Long-Term Predictor – линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем) – стандарт GSM 06.10. Уп- рощенная блок-схема кодека приведена на рис. 7.15, 7.16 [15].

151
Рис. 7.15. Блок-схема кодера кодека в стандарте GSM 06.10
Кодирование
1. Непрерывный речевой сигнал дискретизуется с частотой 8 кГц, и оцифровывается с равномерным законом квантования и разрядно- стью 13 бит/отсчет: число уровней квантования
13 4096 2
M
= ±
=
, уровень шумов квантования
2 10 lg1 12 2 90дБ
,дБ
R
Dq
−
= ⋅
⋅
≈ −
2.
Для повышения разборчивости речи осуществляют предыска- жение входного сигнала при помощи цифрового фильтра, подчеркивающе- го верхние частоты.
Рис. 7.16. Блок-схема декодера кодека в стандарте GSM 06.10 3.
Непрерывная последовательность отсчетов разбивается на сег- менты по 160 отсчетов (длительностью 160·1/8 кГц = 20 мс).
ДЕКОДЕР
От кодера
fn′
en′
Sn′
Формирование сигнала возбужде- ния
Фильтр-анализатор долговрем. пред- сказания
( )
R Z
Фильтр-синтезатор кратковрем. пред- сказания
( )
H z
Постфильтрация
КОДЕР
Sn
fn
en
На декодер
Предварит. обработка
Оценка параметров фильтра кратковрем. предсказания
Фильтр-анализатор кратковрем. пред- сказания
( )
A Z
Оценка параметров фильтра долговрем. предсказания
Фильтр-анализатор кратковрем. пред- сказания
( )
P z
Оценка параметров сигнала возбужде- ния

152 4.
Проводят «взвешивание» каждого сегмента окном Хэмминга –
«косинус на пьедестале», при этом амплитуда сигнала внутри сегмента плавно падает от центра окна к краям. Это делается для того, чтобы не бы- ло резких разрывов сигнала на краях сегментов.
5.
Для каждого 20-миллисекундного сегмента (160 «взвешенных» отсчетов сигнала) оценивают параметры фильтра кратковременного ли- нейного предсказания. Оптимальные коэффициенты фильтра кратковре- менного линейного предсказания ak находят путем решения системы ли- нейных уравнений Юла – Волкера:
(
)
( ),
1, 2, 3, ,
,
8
M
a R k l
R l
l
M
M
k
k l
…
− =
=
=
∑
=
, которая в матричной форме записывается следующим образом:
(0)
(1)
(2)
(
1)
(1)
1
(1)
(0)
(1)
(
2)
(2)
2
(2)
(1)
(0)
(
3)
(3)
3
(
1)
(
2)
(
3)
(
0)
( )
a
R
R
R
R M
R
a
R
R
R
R M
R
a
R
R
R
R M
R
R M
R M
R M
R M
R M
aM
−
−
⋅
=
−
−
−
−
−
…
…
…
…
…
…
…
…
…
…
Здесь (0)
( )
R
R M
…
– значения кратковременной автокорреляцион- ной функции речевого сигнала, вычисленные по его отсчетам на текущем сегменте
1
( )
( ) (
), 0 1, 0
,
160,
8 0
N
R k
x i x i k
i N
k M N
M
i
−
=
−
≤ ≤ −
≤ ≤
=
=
∑
=
6.
На основе полученных коэффициентов фильтра кратковременно- го предсказания проводят фильтрацию текущего речевого сегмента
(160 отсчетов) фильтром-анализатором кратковременного предсказания
(инверсным фильтром) с передаточной характеристикой
( ) 1 1
M
k
A z
a z
k
k
−
= − ∑
=
На выходе получается остаток (ошибка) кратковременного предска- зания en (160 отсчетов ошибки кратковременного предсказания). При этом из-за наличия в речевом сигнале долговременной повторяемости (перио- дичности), обусловленной гласными звуками, в ошибке кратковременного предсказания остаются периодические всплески достаточно большой ам- плитуды. Для их устранения (уменьшения) используется долговременное линейное предсказание.

153 7.
Вычисляют параметры фильтра долговременного линейного предсказания с передаточной характеристикой
( ) 1
D i
P z
G z
i
i
− −
= − ∑
Сегмент остатка кратковременного линейного предсказания
(160 отсчетов) разбивается на четыре подсегмента размером по 40 отсче- тов. Параметры долговременного предсказания – коэффициент предска- зания G и задержка D – оценивают для каждого подсегмента в отдель- ности. Укорочение интервала анализа долговременного предсказания обусловлено тем, что параметры сигнала возбуждения (с которыми связа- на его периодичность) изменяются гораздо быстрее, чем параметры голо- сового тракта (которые вошли в коэффициенты кратковременного линей- ного предсказания ak ).
В каждом подсегменте находят параметр задержки D (период ос- новного тона, определяемый как среднее расстояние между периодиче- скими всплесками автокорреляционной функции остатка кратковременно- го предсказания) и коэффициент предсказания G (определяемый как на- клон огибающей автокорреляционной функции остатка кратковременного предсказания). При этом параметр задержки D для текущего подсегмента вычисляют путем сглаживания (усреднения) текущего значения D и трех предшествующих ему значений (определенных на трех предыдущих под- сегментах).
8.
Сигнал остатка кратковременного линейного предсказания (под- сегмент длительностью в 40 отсчетов) en обрабатывается фильтром- анализатором долговременного линейного предсказания с параметрами G и D , найденными для этого подсегмента, и на его выходе получается оста- ток долговременного и кратковременного предсказания fn . Далее по это- му сигналу будут находиться параметры сигнала возбуждения (в отдельно- сти для каждого из подсегментов).
9.
Сигнал возбуждения одного подсегмента состоит из 13 импуль- сов, следующих через равные промежутки времени (втрое реже, чем ин- тервал дискретизации исходного сигнала) и имеющих различные амплиту- ды. Для формирования сигнала возбуждения 40 отсчетов подсегмент ос- татка
fn обрабатывают следующим образом.
Последний (40-й) отсчет отбрасывают, а первые 39 отсчетов проре- живают и разбивают на три подпоследовательности: в первую включаются
1, 4, ... 37-й отсчеты, во вторую – отсчеты с номерами 2, 5, ... 38, в тре- тью – отсчеты с номерами 3, 6, ... 39. В качестве сигнала возбуждения вы- бирают ту подпоследовательность, энергия которой больше. Амплитуды

154
импульсов нормируют по отношению к импульсу с наибольшей амплиту- дой. Нормированные амплитуды кодируют тремя битами каждую (с ли- нейным законом квантования). Абсолютное значение наибольшей ампли- туды кодируют шестью битами в логарифмическом масштабе. Положение первого импульса 13-элементной последовательности кодируют двумя би- тами, т.е. фактически кодируют номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.
Таким образом, выходная информация кодера для одного
20-миллисекундного сегмента речи включает:
−
параметры фильтра кратковременного линейного предсказания – во- семь коэффициентов на сегмент, кодируют 36 битами;
−
параметры фильтра долговременного линейного предсказания – ко- эффициент предсказания G и задержка D – для каждого из четырех под- сегментов, также кодируют 36 битами;
−
параметры сигнала возбуждения – номер подпоследовательности n , максимальная амплитуда v , нормированные амплитуды импульсов после- довательности
,
1 13
b i
i
=
…
– для каждого из четырех подсегментов. Все вместе кодируют 188 битами.
Итого на 20 -миллисекундный сегмент речи (160 отсчетов) получает- ся 260 бит. При этом коэффициент сжатия сегмента (по сравнению с ИКМ, использующей логарифмическую шкалу квантования 160 отсчетов по
8 бит/отсчет) составляет 1280/260 = 4,92
≈ 5.
Декодирование
Последовательность выполняемых при декодировании функций представлена на рис. 7.16. Блок формирования сигнала возбуждения, ис- пользуя полученные параметры сигнала возбуждения, восстанавливает 13- импульсную последовательность сигнала возбуждения для каждого из подсегментов, включая амплитуды импульсов и их расположение во вре- мени. Сформированный таким образом сигнал возбуждения обрабатывает- ся фильтром-синтезатором долговременного предсказания, на выходе ко- торого получается восстановленный остаток кратковременного предсказа- ния. Последний обрабатывается фильтром-синтезатором кратковременного предсказания. Выходной сигнал фильтра-синтезатора кратковременного предсказания (а это уже почти синтезированный речевой сигнал) фильтру- ется цифровым фильтром низких частот, компенсирующим предыскаже- ние, внесенное входным фильтром блока предварительной обработки ко- дера. Сигнал с выхода низкочастотного постфильтра является восстанов- ленным цифровым сигналом речи.
Все перечисленные процедуры несмотря на их сложность выполня- ются в реальном масштабе времени процессором обработки речи, реализо- ванным аппаратно-программно в мобильном телефоне стандарта GSM.

155
Контрольные вопросы
1.
Что дает кодирование речи?
2.
Изложите методы кодирования речевой информации.
3.
Каковы особенности ИКМ?
4.
Каковы особенности законов
μ
и
A
, применяемых в кодирова- нии речи?
5.
Каковы особенности ДИКМ на основе ЛП?
6.
Чем характеризуется алгоритм Левинсона – Дарбина?
7.
Что такое решетчатый фильтр. Какова его граф-структура?
8.
Каковы особенности практической системы ДИКМ?
9.
Что такое кратковременный анализ речевого сигнала?
10.
Как определяется энергия речевого сигнала?
11.
Как определяется число переходов через нуль при анализе рече- вого сигнала?
12.
Каковы особенности автокорреляционного анализа?
13.
Каковы особенности кодирования на основе линейного предсказания?
14.
Что такое постфильтрация и для чего она применяется?
15.
Какова структура предсказателя основного тона?
16.
Как происходят процессы кодирования и декодирования в стан- дарте GSM?

156

1 ... 5 6 7 8 9 10 11 12 13

Смотрите также файлы

Кластер с014 п графические задачи, кластеры Кинематика вращательного движения твердого тела. П ( 15 шт).docx

1. Теоретические аспекты стиля лидерства на управление персоналом.doc

История государства и права России (часть 11).docx

Ответ Онтология,гносеология,аксиология,этика,эстетика,философия истории, философия науки, социальная философия.docx

Контрольная работа 1 по дисциплине Общий и прикладной менеджмент учебное пособие Афонасова М. А. Менеджмент.docx

Файл: Речевых сигналов.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно