Файл: Лавриненко О.Ю. - Алгоритми та програмні засоби фільтрації і стиснення сигналів в ТКС.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.04.2019

Просмотров: 2723

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

26 

Для вокалізованих звуків добре підходить модель, що містить тільки полюси у 

своїй  предаточній  функції  (чисто  додатна),  але  для  носових  і  фрикативних  звуків 

потрібно  враховувати  і  нулі.  Однак  якщо  порядок  р  моделі  досить  великий,  то 

полюсна модель дозволяє отримати досить точний опис майже для всіх звуків мови. 

Головна  перевага  цієї  моделі  полягає  в  тому,  що  як  параметр  G,  так  і  коефіцієнти 

можна оцінити безпосередньо з використанням ефективних з обчислювальної точки 

зору алгоритмів. Відлік мовного сигналу s(n) пов'язаний з сигналом збудження u(n) 

простим різнисним рівнянням: 

p

k

k

n

Gu

k

n

s

n

s

1

)

(

)

(

)

(

                                             

(1.2)

 

Лінійний  передвісник з коефіцієнтами 

k

визначається як система, на виході 

якої маємо: 

p

k

k

k

n

s

n

s

1

)

(

)

(

~

                                                         

(1.3)

 

Системна  функція  передвісника  р-го  порядку  представляє  собою  поліном 

виду: 

p

k

k

k

z

z

P

1

)

(

                                                           

(1.4)

 

Похибка передбачення визначається як: 

p

k

k

k

n

s

n

s

n

s

n

s

n

e

1

)

(

)

(

)

(

~

)

(

)

(

                              

(1.5)

 

Видно  із  (1.5),  що  похибка  передбачення  являє  собою  сигнал  на  виході 

системи з передаточною функцією: 

p

k

k

k

z

z

A

1

1

)

(

                                                    

(1.6)

 

Порівняння  рівнянь  (1.2)  і  (1.3)  показує,  що  якщо  сигнал  точно  задовольняє 

моделі (1.2) і 

k

k

a

, то e (n) =Gu (n). Таким чином, фільтр похибки передбачення 

A(z) є зворотним фільтром для системи H(z), відповідає рівнянню (1.1) тобто: 


background image

 

27 

)

(

)

(

z

A

G

z

H

                                                                        

(1.7)

 

Основне  завдання  аналізу  на  основі  лінійного  передбачення  полягає  у 

безпосередньому  визначенні  параметрів  {a

k

}    по  мовному  сигналу  з  метою 

отримання хороших оцінок його спектральних властивостей використавши рівняння 

(1.7).  Внаслідок  зміни  властивостей  мовного  сигналу  в  часі  коефіцієнти 

передбачення  повинні  оцінюватися  на  коротких  сегментах  мови.  Основним 

підходом  є  визначення  параметрів  передбачення  таким  чином,  щоб  мінімізувати 

дисперсію похибки на короткому сегменті  сигналу. При цьому передбачається, що 

отримані  параметри  є  параметрами  системної  функції    H(z)  в  моделі  мово-

утворювача.  

Такий підхід призводить до наступних результатів:  

Нехай 

k

k

a

 , тоді e(n) = Gu(n). Для вокалізованих мови це означає, що е(n) 

складатиметься з послідовності  імпульсів, тобто е(n) буде вельми мало майже весь 

час. Тому в даному випадку мінімізація похибки передбачення дозволить отримати 

необхідні коефіцієнти. 

1)  Навіть  якщо  сигнал  формується  системою  (1.2)  з  постійними  в  часі 

параметрами,  яка  збуджується  або  одиничним  імпульсом  або  білим  шумом,  то 

можна  показати,  що  коефіцієнти  передбачення,  знайдені  за  критерієм  мінімізації 

середньоквадратичного  значення  похибки  (у  кожний  момент  часу),  збігаються  з 

коефіцієнтами в рівнянні (2.2).  

2) Подібна мінімізація призводить до лінійної системи рівнянь, рішення яких 

призводить до отримання параметрів передбачення.  

Короткочасна енергія похибки передбачення: 

2

1

2

2

)

(

ˆ

)

(

)]

(

~

)

(

[

)

(

m

p

k

n

k

n

m

m

n

n

n

n

k

m

s

m

s

m

s

m

s

m

e

E

         

(1.8)

 

де s

n

 (m) - сегмент мовного сигналу, обраний в околиці відліку n, тобто: 

)

(

)

(

n

m

s

m

s

n

                                                             

(1.9)

 


background image

 

28 

Межі  підсумовування  в  (1.8)  передбачаються  кінцевими,  оскільки 

використовується  підхід  короткочасного  аналізу.  Крім  того,  для  отримання 

середнього значення необхідно розділити отриманий результат на довжину мовного 

сегмента. 

 

Висновки до розділу 1 

Розглянувши  основні  методи  стиснення  мовних  сигналів  зробимо  наступні 

висновки: 

1)  ІКМ  є  стандартом  цифрової  телефонії.  Вона  дозволяє  передавати  мову  зі 

швидкістю  64  кбіт/с.  Решта  різновидів  методів  стиснення  мовного  сигналу 

використовують імпульсно-кодову модуляцію в якості вихідної (стандарт G703). 

2)  Адаптивна  дельта  модуляція  дозволяє  передавати  мову  зі  швидкістю  32 

кбіт/с. 

3) Адаптивна диференціальна ІКМ дає швидкості передачі 40, 32, 24 і 16 кбіт/с 

(стандарт G726).  

Всі  наведені  методи  кодування  форми  мовного  сигналу  вже  досить  добре 

вивчені  і  не  дають  швидкості  передачі  менше  16  кбіт/с,  але  забезпечують  досить 

гарну якість прийнятого сигналу.  Тому для отримання значно менших швидкостей 

передачі потрібна розробка принципово нових методів і підходів до передачі мови. 

Причому ці методи повинні враховувати структуру та особливості мовного сигналу. 

Існують і інші підходи до обробки та передачі мови, такі як, наприклад, стиснення в 

частотній області, прикладом якого може служити: полосное кодування, канальний 

вокодер, формантний вокодер.  

Швидкість  передачі  мовного  сигналу  в  вокодера  значно  нижче  ніж  у 

розглянутих  раніше,  але  натуральність  звучання  менше.  Представником  кодування 

параметрів  сигналу  -  є  метод  лінійного  передбачення.  Він  дозволяє  отримати 

швидкості  передачі  аж  до  2.4  кбіт/с.  Він  стандартизований  МККТТ  (G  728  -  16 

кбіт/с, G 729 - 8 кбіт/с), існує федеральний стандарт США на швидкість передачі 6.8 

кбіт/с. 

З наведених вище міркувань можна зробити висновок:  


background image

 

29 

1)  кодування  форми  сигналу  забезпечує  гарну  якість,  але  високу  надмірність 

сигналу (високу швидкість передачі); 

2)  кодування  в  частотній  області  (полосное  кодування,  канальний  вокодер, 

формантний  вокодер)  забезпечує  погана  якість  переданої  мови,  але  низьку 

швидкість передачі; 

3) кодування параметрів сигналу дозволяє домогтися гарної якості при низькій 

швидкості передачі даних. Отже, даний метод є найбільш прийнятним. 

Перспективно  також  використання  підходу,  застосовуваного  в  лінійному 

предикативному кодуванні, і в інших додатках, таких як: 

1) комп'ютерна відповідь голосом (тому потрібні набагато менші обсяги пам'яті 

для зберігання інформації); 

2) системи ідентифікації та верифікації голосу диктора; 

3) передача повідомлень по мережі Internet. 

Таким чином, в якості методу, використовуваного для модуля стиснення мови, 

метод  кодування  параметрів  мовного  сигналу  з  використанням  лінійного 

передбачення є обнрунтованою. 


background image

 

30 

РОЗДІЛ 2 

ПОРІВНЯЛЬНИЙ АНАЛІЗ ВЕЙВЛЕТ-ПЕРЕТВОРЕННЯ ТА 

ПЕРЕТВОРЕННЯ ФУР’Є 

 

2.1. Перетворення Фур'є 

Найважливішим  засобом  спектрального  аналізу  неперіодичних  сигналів  є 

інтегральне  перетворення  Фур'є,  яке  обчислюється  як  скалярний твір  сигналу  s(t)  з 

комплексними експонентами або синусоїдами 

t

i

t

e

t

i

sin

cos

:  



dt

e

t

s

S

t

i

)

(

)

(

,   

 

 

 

(2.1) 

де S(

) - перетворення Фур'є або спектральна функція сигналу s(t). 

З  (2.1)  видно,  що  спектральний  коефіцієнт  обчислюється  шляхом  множення 

часового  сигналу  s(t)  на  комплексну  синусоїду  з  частотою 

  та  інтегрування  в 

межах  всього  часу.  Щоб  перетворення  було  застосовано,  сигнал  s(t)  повинен 

відповідати  таким  вимогам:  мають  виконуватися  умови  Дирихле  і  сигнал  повинен 

бути  абсолютно  інтегрованим,  тобто  існує  інтеграл 

dt

t

)

(

.  Подібні  умови 

значно звужують клас допустимих сигналів.  

З практичної точки зору безперервне перетворення Фур'є має ряд недоліків. 

По-перше,  для  отримання  перетворення  потрібно  вся  часова  інформація. 

Оскільки частота сигналу обернено пропорційна його тривалості, то для отримання 

високочастотної інформації з достатньою точністю важливо витягувати її з відносно 

малих  тимчасових  інтервалів,  а  не  з  усього  сигналу,  і  навпаки,  низкочастотную 

спектральну  інформацію  -  витягувати  з  відносно  широких  часових  інтервалів 

сигналу. 

По-друге, частотне наповнення сигналу відомо, але поява частотних складових 

в  часі  не  відомо.  Таким  чином,  дане  перетворення  дозволяє  побачити  частотне 

наповнення  сигналів,  але  не  дозволяє  визначити,  в  який  момент  часу  існує  та  чи 

інша  частота.  Тому  перетворення  Фур'є  непридатне  для  аналізу  нестаціонарних