ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.12.2023
Просмотров: 239
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
121
В полосных вокодерах спектр речи делится на 7 – 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число ка- налов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде.
В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина.
В ортогональных вокодерах огибающая мгновенного спектра рас- кладывается в ряд по выбранной системе ортогональных базисных функ- ций. Вычисленные коэффициенты этого разложения передаются на прием- ную сторону. Распространение получили гармонические вокодеры, ис- пользующие разложение в ряд Фурье.
Вокодеры с линейным предсказанием (Linear Prediction Coding, LPC), или липредеры, основаны на оригинальном математическом аппарате.
Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.
Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна- ла. Полоса частот до 800 – 1000 Гц кодируется по методу адаптивной диф- ференциальной импульсно-кодовой модуляции (АДИКМ), адаптивной дельта-модуляции (АДМ) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде.
Есть разные типы полувокодеров-липредеров:
1)
вокодеры VELP (Voice Excited Linear Prediction);
2)
вокодеры RELP (Residual Excited Linear Prediction).
Сегодня вокодеры применяют для кодирования телефонных сигна- лов в коммерческих и военных цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1200 – 2400 бит/с. Формантные и полосные вокодеры используются также при цифровой передаче телефонных сигна- лов по КВ-каналам радиосвязи.
122
Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 800 – 2 400 бит/с и качество речи, пригодное для веде- ния служебных переговоров, при скорости передачи 1 200 бит/с.
В качестве примера рассмотрим более подробно характеристики во- кодера NPES (Natural Parameters EStimation).
NPES вокодер – это алгоритм анализа и синтеза речи, основанный на
«натуральной» модели речевого тракта. В этой модели локально- постоянные параметры речевого сигнала – частота основного тона, частота вокализованности, частоты и амплитуды формант. Такая параметризация позволяет использовать NPES вокодер в качестве единого алгоритма пред- варительной обработки цифрового сигнала для задач сжатия, идентифика- ции и распознавания речи [33].
NPES вокодер имеет следующие характеристики:
−
класс сигналов – речь одного диктора;
−
частота дискретизации – до 16 кГц;
−
полоса частот формант – 80 – 3800 Гц;
−
полоса частоты основного тона – 50 – Fs/2 Гц;
−
скорость передачи речи фиксирована в диапазоне 800 – 2400 бит/с;
−
задержка обработки – 25 мс;
−
встроенная адаптивная фильтрация шума;
−
преобразование параметров речи;
−
устойчивость к ошибкам в канале передачи;
−
возможность аппаратной реализации синтезатора.
NPES вокодер применяется в следующих областях:
−
сжатие речи для передачи и хранения;
−
преобразование речи;
−
синтез речи по тексту;
−
распознавание речи;
−
идентификация диктора;
−
определение частоты основного тона.
На рис. 6.4 представлена функциональная структура NPES вокодера.
Каждая из его четырёх частей осуществляет определенное преобразование речевого сигнала, представленного в цифровой форме. Процедура анализа преобразует сегмент речевого сигнала из представления в виде последова- тельности отсчётов (формат PCM) в представление в виде значений пара-
123
метров модели, а процедура синтеза осуществляет обратное преобразова- ние. Процедура кодирования позволяет сопоставить каждый набор значе- ний параметров с определённым 32-битным числом (формат NPES), а про- цедура декодирования производит обратное действие.
Рис. 6.4. Функциональная структура NPES вокодера
Контрольные вопросы
1.
Что такое синтез речи?
2.
Какие существуют ограничения, влияющие на выбор метода синтеза?
3.
Что такое кодирование и декодирование речи?
4.
Чем характеризуется метод фонемного синтеза речи?
5.
Чем характеризуется метод формантного синтеза речи?
6.
Что такое вокодер и каковы его особенности?
7.
Какие существуют виды вокодеров?
8.
Каковы характеристики NPES вокодера?
Сегмент речи
РСМ
Параметры речи
32- битный код
NPES
Анализ
Синтез
Кодер
Декодер
124
Глава 7. МЕТОДЫ КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
Современные достижения в области создания высокопроизводитель- ных процессоров для обработки сигналов позволяют практически неогра- ниченно совершенствовать методы и алгоритмы цифровой обработки ре- чевых сигналов, что обеспечивает возможность создания высококачест- венных цифровых систем связи. При этом с каждым годом усилиями уче- ных и инженеров снижается информационная емкость передаваемых по каналам связи речевых сигналов, что приводит к постоянному удешевле- нию услуг средств связи [19].
Кодирование речи обеспечивает компактное цифровое представле- ние аналогового голосового сигнала, что делает возможным высококачест- венную передачу голоса по цифровым телефонным сетям. Кроме того, по- требности в уменьшении скорости передачи (компрессии) речевых сигна- лов возникают в военной и других областях для обеспечения закрытой свя- зи. Можно указать и другие факторы, определяющие интерес к системам компрессии речи. Быстрый рост компьютерных сетей требует создания ориентированной на мультимедиа-трафик системы коммуникации. При улучшении качества вокодерной речи на скоростях передачи примерно
4 – 8 кбит/с условия для речевой коммуникации по компьютерным сетям становятся более благоприятными.
В настоящее время интерес к низкоскоростной компрессии речевых сигналов возрастает в таких областях, как цифровая телефония, беспро- водная связь, Интернет, речевая справочная (автоматическая) служба и другие.
7.1. Кодирование формы волны речевого сигнала
Исходный речевой сигнал представляет собой акустическую волну
(волна давления в воздухе), которую можно преобразовать в электромаг- нитную с помощью микрофона. Будем считать, что спектр речевого сигна- ла лежит в диапазоне от 100 до 4 000 Гц. Динамический диапазон измене- ния амплитуды, достаточный для описания речевых сигналов, составляет
12 двоичных разрядов [19, 33].
125
Для цифрового представления сигнала достаточно осуществить ана- логово-цифровое преобразование частотой 8 000 Гц. Информационная ем- кость речевого сигнала составит 12 8 000 96 000
⋅
=
бит/с.
Компрессия речевых сигналов обеспечивается с помощью специаль- ных средств кодирования (на входе), а затем декодирования (восстановле- ния на выходе).
Первый шаг, обеспечивающий компрессию сигнала, – попытка обес- печения равномерной относительной точности измерения значения ампли- туды сигнала. Для этого 12-разрядный динамический диапазон амплитуды разбивают на восемь логарифмических поддиапазонов, в каждом из кото- рых значение амплитуды кодируют пятью разрядами и таким образом дос- тигают сокращения информации до 64 000 бит/с (кодирование по μ- и
Α-законам в соответствии со стандартом ITU-G.711). Следующий шаг – адаптивная дифференциальная импульсно-кодовая модуляция (например в соответствии со стандартами G.721 или G.726 32 000 бит/с), с помощью которой осуществляют кодирование приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32 000 – 16 000 бит/с, причем приемлемое (коммерческое) качест- во речи (по критерию отношения сигнал-шум) обеспечивается на скорости
24 000 бит/с. При более низких скоростях кодирования сохраняется раз- борчивость речи, но характерны сильные нелинейные и частотные искаже- ния сигнала и ухудшение отношения сигнал-шум. Дальнейшее уменьше- ние информационной емкости сигнала с помощью данного подхода счита- ется неэффективным.
1 ... 5 6 7 8 9 10 11 12 13
7.2. Параметрическое кодирование
Низкоскоростное кодирование складывается из двух основных про- цессов [19]: параметрического представления речевого сигнала минималь- ным набором параметров, характеризующих источник возбуждения и аку- стический артикуляторный фильтр; дискретизации речевых параметров для их передачи по каналу связи при использовании его минимальной емкости.
Для параметрического описания речи обычно применяют подход, основанный на вычислении параметров, описывающих передаточную функцию речевого тракта человека и функцию возбуждения. Такими па- раметрами, например, являются коэффициенты линейного предсказания, параметр, характеризующий изменение амплитуды либо мощности сигна- ла, период основного тона речи, а также признак типа тон, шум, пауза, ха- рактеризующий способ возбуждения речевого сигнала.
В последнее время наибольшее распространение получил метод, по- зволяющий вычислять непосредственно полюса передаточной функции ре- чевого тракта в частотной области, упорядоченные по возрастанию частоты
(LSF – linea spectral frequancy). Обычно для кодирования речи используют
8 – 10 параметров, вычисляемых на интервалах порядка 5 – 40 мс.
126
В качестве функции возбуждения речевого сигнала используется дельта-функция.
Полученный набор параметров, оптимизированный по критерию точности и минимальной разрядности представления, передается в цифро- вом виде по каналу связи в реальном времени, а на приемном конце осу- ществляется синтез речевого сигнала по перечисленным параметрам. Та- ким путем удается снизить информационную емкость речевого сигнала до уровня 16 000 – 1 200 бит/с с сохранением разборчивости и индивидуаль- ных особенностей речи говорящего.
Применяют следующие способы дискретного описания речевых па- раметров:
1)
скалярное квантование (свыше 2,400 бит/с);
2)
векторное квантование (свыше 800 бит/с);
3)
векторное квантование с учетом динамики развития спектра во времени (около 400 бит/с);
4)
матричное квантование (до 300 бит/с).
Далее кодирование речевого сигнала проводится с точностью до единиц, имеющихся в кодовой книге. При декодировании временная структура речевого сигнала восстанавливается путем «черепичного» нало- жения сегментов и усреднения параметра в местах наложения
7.3. Кодирование фонемной информации
Как известно, минимальная слогоразличительная (и словоразличи- тельная) единица речи – это фонема. Создание метода распознавания фо- нем позволит снизить скорость кодирования речевой информации до
100 бит/с, что соответствует информационной скорости текста. Заметим, что на приемном конце речь будет восстановлена синтезатором речи по фонемному тексту. При этом информация об индивидуальности диктора будет утрачена [19].
7.4. Кодирование слов и фраз
На этом этапе компрессии речь идет о создании системы автомати- ческого распознавания слов и целых фраз. В этом случае по каналу связи может быть передан только код слова, а на приемном конце из некоторого ограниченного словаря с помощью синтезатора будет восстановлен рече- вой сигнал [19].
7.5. Импульсно-кодовая модуляция
Импульсно-кодовая модуляция (ИКМ, PCM – Pulse Code Modulation) позволяет представить непрерывный аналоговый сигнал в форме последо- вательности равноотстоящих друг от друга импульсов (дискретизация по
127
времени), амплитуда которых выражается двоичным кодом (квантование по уровню). Подобное преобразование позволяет существенно повысить надежность передачи и хранения сигнала [35].
Кодеки, построенные на базе прямого аналогово-цифрового преобра- зования, работают на скоростях не ниже 32 кбит/с. При этом полоса вход- ного аналогового сигнала ограничена диапазоном 0,3 – 3,4 кГц. Для по- вышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации
12 кГц. При дальнейшем расширении полосы качество представления речи не повышается [30].
Импульсно-кодовая модуляция – это алгоритм оцифровки голоса, который был принят в 60-х гг. XX в. Этот алгоритм (международный стандарт G.711) используется при передаче голоса в коммерческих теле- фонных сетях. Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнавания голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до
3 400 Гц. Известно, что для правильной передачи всех частотных состав- ляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стан- дарте G.711 также принимается, что оцифровка аналогового сигнала про- изводится с восьмиразрядным разрешением. При этом обычно используют один из двух способов установления соответствия между амплитудой зву- кового сигнала и цифровым значением: либо A-кодирование (оно принято в Европе и Азии), либо
μ-кодирование (принято в США, Канаде и некото- рых других странах). И то и другое – это таблицы соответствия измеряемо- го значения напряжения и числа, при помощи которого оно кодируется.
Для передачи одного голосового канала в цифровом виде требуется пропу- скная способность 64 кбит/с (8 кГц · 8 разрядов).
ИКМ. Законы
μ
и
A
Законы
μ и A – это алгоритмы, рекомендованные для преобразования
14-разрядных отсчетов со знаком в байт, имеющие три поля: знак, порядок и мантисса (рис. 7.1) [35].
Рис. 7.1. Структура байта отсчета для законов
μ
и A
128
Так как согласно стандартам IBM PC работает 16-битным способом дискретизации звука, а не 14-битным, то алгоритм закона
μ изменится для выделения из 16-битного отсчета всех трех полей байта.
Когда звуковая карта получает звуковые данные, она преобразует ка- ждое дискретное значение кода в соответствующее напряжение, которое за- тем усиливается и подается на динамик или наушники. При изменении зна- чения оцифрованного звука меняется напряжение, а динамик преобразовы- вает изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха человека.
Оно воспринимает звук нелинейно: разница между малыми цифро- выми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими значениями будет слишком мала, чтобы ухо ее различило.
Принимая во внимание указанную природу человеческого слуха, вводят логарифмическую шкалу. Соотношения
μ- и A-законов соответст- вуют этой шкале [30].
Первое применяется прежде всего в Северной Америке и Японии.
Для преобразования значений линейной дискретизации m в значения y
μ
используется следующее уравнение:
sign( m )
m
ln 1
y
ln( 1
)
m p
μ
μ
μ
⎛
⎞
⎜
⎟
=
+
⎜
⎟
+
⎝
⎠
, (7.1) где
mp
– максимальное входное значение оцифрованного звука,
μ
– константа, обычно равная 100 или 255.
A – закон используется в Европе. Его также применяют для преобра- зования значений линейной дискретизации в дискретные значения yA, где
A – это константа, равная 87,6:
1
, при
;
1 ln sign( )
1 1 ln
, при
1.
1 ln
A
A
m
m
A
A
m
m
p
p
y
m
m
m
A
A
A
m
m
p
p
⎧
⎛
⎞
⎪
⎜
⎟
≤
⎜
⎟
+
⎪
⎝
⎠
⎪
= ⎨
⎛
⎞
⎪
⎜
⎟
+
≤
≤
⎪
⎜
⎟
+
⎪
⎝
⎠
⎩
(7.2)
Соотношения
μ
- и
A
-законов позволяют с помощью восьмиразряд- ных измерений представлять значения того же диапазона, что и линейные
12-разрядные. Таким образом можно получить более чем 30 % сжатия.