Файл: Лавриненко О.Ю. - Алгоритми та програмні засоби фільтрації і стиснення сигналів в ТКС.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.04.2019
Просмотров: 2723
Скачиваний: 3
26
Для вокалізованих звуків добре підходить модель, що містить тільки полюси у
своїй предаточній функції (чисто додатна), але для носових і фрикативних звуків
потрібно враховувати і нулі. Однак якщо порядок р моделі досить великий, то
полюсна модель дозволяє отримати досить точний опис майже для всіх звуків мови.
Головна перевага цієї моделі полягає в тому, що як параметр G, так і коефіцієнти
можна оцінити безпосередньо з використанням ефективних з обчислювальної точки
зору алгоритмів. Відлік мовного сигналу s(n) пов'язаний з сигналом збудження u(n)
простим різнисним рівнянням:
p
k
k
n
Gu
k
n
s
n
s
1
)
(
)
(
)
(
(1.2)
Лінійний передвісник з коефіцієнтами
k
визначається як система, на виході
якої маємо:
p
k
k
k
n
s
n
s
1
)
(
)
(
~
(1.3)
Системна функція передвісника р-го порядку представляє собою поліном
виду:
p
k
k
k
z
z
P
1
)
(
(1.4)
Похибка передбачення визначається як:
p
k
k
k
n
s
n
s
n
s
n
s
n
e
1
)
(
)
(
)
(
~
)
(
)
(
(1.5)
Видно із (1.5), що похибка передбачення являє собою сигнал на виході
системи з передаточною функцією:
p
k
k
k
z
z
A
1
1
)
(
(1.6)
Порівняння рівнянь (1.2) і (1.3) показує, що якщо сигнал точно задовольняє
моделі (1.2) і
k
k
a
, то e (n) =Gu (n). Таким чином, фільтр похибки передбачення
A(z) є зворотним фільтром для системи H(z), відповідає рівнянню (1.1) тобто:
27
)
(
)
(
z
A
G
z
H
(1.7)
Основне завдання аналізу на основі лінійного передбачення полягає у
безпосередньому визначенні параметрів {a
k
} по мовному сигналу з метою
отримання хороших оцінок його спектральних властивостей використавши рівняння
(1.7). Внаслідок зміни властивостей мовного сигналу в часі коефіцієнти
передбачення повинні оцінюватися на коротких сегментах мови. Основним
підходом є визначення параметрів передбачення таким чином, щоб мінімізувати
дисперсію похибки на короткому сегменті сигналу. При цьому передбачається, що
отримані параметри є параметрами системної функції H(z) в моделі мово-
утворювача.
Такий підхід призводить до наступних результатів:
Нехай
k
k
a
, тоді e(n) = Gu(n). Для вокалізованих мови це означає, що е(n)
складатиметься з послідовності імпульсів, тобто е(n) буде вельми мало майже весь
час. Тому в даному випадку мінімізація похибки передбачення дозволить отримати
необхідні коефіцієнти.
1) Навіть якщо сигнал формується системою (1.2) з постійними в часі
параметрами, яка збуджується або одиничним імпульсом або білим шумом, то
можна показати, що коефіцієнти передбачення, знайдені за критерієм мінімізації
середньоквадратичного значення похибки (у кожний момент часу), збігаються з
коефіцієнтами в рівнянні (2.2).
2) Подібна мінімізація призводить до лінійної системи рівнянь, рішення яких
призводить до отримання параметрів передбачення.
Короткочасна енергія похибки передбачення:
2
1
2
2
)
(
ˆ
)
(
)]
(
~
)
(
[
)
(
m
p
k
n
k
n
m
m
n
n
n
n
k
m
s
m
s
m
s
m
s
m
e
E
(1.8)
де s
n
(m) - сегмент мовного сигналу, обраний в околиці відліку n, тобто:
)
(
)
(
n
m
s
m
s
n
(1.9)
28
Межі підсумовування в (1.8) передбачаються кінцевими, оскільки
використовується підхід короткочасного аналізу. Крім того, для отримання
середнього значення необхідно розділити отриманий результат на довжину мовного
сегмента.
Висновки до розділу 1
Розглянувши основні методи стиснення мовних сигналів зробимо наступні
висновки:
1) ІКМ є стандартом цифрової телефонії. Вона дозволяє передавати мову зі
швидкістю 64 кбіт/с. Решта різновидів методів стиснення мовного сигналу
використовують імпульсно-кодову модуляцію в якості вихідної (стандарт G703).
2) Адаптивна дельта модуляція дозволяє передавати мову зі швидкістю 32
кбіт/с.
3) Адаптивна диференціальна ІКМ дає швидкості передачі 40, 32, 24 і 16 кбіт/с
(стандарт G726).
Всі наведені методи кодування форми мовного сигналу вже досить добре
вивчені і не дають швидкості передачі менше 16 кбіт/с, але забезпечують досить
гарну якість прийнятого сигналу. Тому для отримання значно менших швидкостей
передачі потрібна розробка принципово нових методів і підходів до передачі мови.
Причому ці методи повинні враховувати структуру та особливості мовного сигналу.
Існують і інші підходи до обробки та передачі мови, такі як, наприклад, стиснення в
частотній області, прикладом якого може служити: полосное кодування, канальний
вокодер, формантний вокодер.
Швидкість передачі мовного сигналу в вокодера значно нижче ніж у
розглянутих раніше, але натуральність звучання менше. Представником кодування
параметрів сигналу - є метод лінійного передбачення. Він дозволяє отримати
швидкості передачі аж до 2.4 кбіт/с. Він стандартизований МККТТ (G 728 - 16
кбіт/с, G 729 - 8 кбіт/с), існує федеральний стандарт США на швидкість передачі 6.8
кбіт/с.
З наведених вище міркувань можна зробити висновок:
29
1) кодування форми сигналу забезпечує гарну якість, але високу надмірність
сигналу (високу швидкість передачі);
2) кодування в частотній області (полосное кодування, канальний вокодер,
формантний вокодер) забезпечує погана якість переданої мови, але низьку
швидкість передачі;
3) кодування параметрів сигналу дозволяє домогтися гарної якості при низькій
швидкості передачі даних. Отже, даний метод є найбільш прийнятним.
Перспективно також використання підходу, застосовуваного в лінійному
предикативному кодуванні, і в інших додатках, таких як:
1) комп'ютерна відповідь голосом (тому потрібні набагато менші обсяги пам'яті
для зберігання інформації);
2) системи ідентифікації та верифікації голосу диктора;
3) передача повідомлень по мережі Internet.
Таким чином, в якості методу, використовуваного для модуля стиснення мови,
метод кодування параметрів мовного сигналу з використанням лінійного
передбачення є обнрунтованою.
30
РОЗДІЛ 2
ПОРІВНЯЛЬНИЙ АНАЛІЗ ВЕЙВЛЕТ-ПЕРЕТВОРЕННЯ ТА
ПЕРЕТВОРЕННЯ ФУР’Є
2.1. Перетворення Фур'є
Найважливішим засобом спектрального аналізу неперіодичних сигналів є
інтегральне перетворення Фур'є, яке обчислюється як скалярний твір сигналу s(t) з
комплексними експонентами або синусоїдами
t
i
t
e
t
i
sin
cos
:
dt
e
t
s
S
t
i
)
(
)
(
,
(2.1)
де S(
) - перетворення Фур'є або спектральна функція сигналу s(t).
З (2.1) видно, що спектральний коефіцієнт обчислюється шляхом множення
часового сигналу s(t) на комплексну синусоїду з частотою
та інтегрування в
межах всього часу. Щоб перетворення було застосовано, сигнал s(t) повинен
відповідати таким вимогам: мають виконуватися умови Дирихле і сигнал повинен
бути абсолютно інтегрованим, тобто існує інтеграл
dt
t
s )
(
. Подібні умови
значно звужують клас допустимих сигналів.
З практичної точки зору безперервне перетворення Фур'є має ряд недоліків.
По-перше, для отримання перетворення потрібно вся часова інформація.
Оскільки частота сигналу обернено пропорційна його тривалості, то для отримання
високочастотної інформації з достатньою точністю важливо витягувати її з відносно
малих тимчасових інтервалів, а не з усього сигналу, і навпаки, низкочастотную
спектральну інформацію - витягувати з відносно широких часових інтервалів
сигналу.
По-друге, частотне наповнення сигналу відомо, але поява частотних складових
в часі не відомо. Таким чином, дане перетворення дозволяє побачити частотне
наповнення сигналів, але не дозволяє визначити, в який момент часу існує та чи
інша частота. Тому перетворення Фур'є непридатне для аналізу нестаціонарних