ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.11.2020
Просмотров: 2085
Скачиваний: 22
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
АДДИТИВНЫЕ
ШУМЫ И ПОМЕХИ
помехи,
вызванные каналом связи (телефонный
тракт, радиоканал);
шумы
и нелинейные искажения звукозаписывающей
аппаратуры и магнитного носителя;
шумы,
обусловленные дефектами и изношенностью
звукозаписывающей и воспроизводящей
аппаратуры;
шумы
и помехи, вызванные акустической средой
звукозаписи и звуковоспроизведения
(помещение для прослушивания).
Здесь
же необходимо отметить, что к мешающим
факторам можно также отнести и собственную
нестабильность речеобра- зующего
тракта, которая выражается в
интериндивидуальной вариативности
речевых параметров, а также намеренное
или функциональное изменение или
искажение присущих человеку голосовых
или речевых параметров. Указанные
факторы присутствуют практически
всегда в речевом сигнале, что требует
их учета и нормализации.
Что
такое помехи и как с ними можно бороться?
Помехой называется стороннее возмущение,
действующее на пути следования
сигнала от его источника до приемника
и препятствующее правильному приему
(восприятию) сигнала. Точное математическое
описание помех, как правило, невозможно.
Информативные параметры помех
определяются путем их анализа.
Источники помех могут быть внутренние
и внешние. Если зашумленный сигнал
можно представить в виде суммы полезного
сигнала и помехи, то такая помеха
называется аддитивной. Аддитивную
помеху часто называют шумом. Если на
речевой сигнал накладывается какой-либо
неотрицательный процесс, то помеху
называют мультипликативной.
На
практике мультипликативная помеха
возникает в тех случаях, когда
параметры системы претерпевают случайные
изменения во времени. В сущности,
это наблюдается во всех реальных
системах звукозаписи, но в большинстве
случаев такие изменения всех параметров,
хотя и существуют, но достаточно малые.
То есть при звукозаписи на речевой
сигнал воздействуют аддитивные и
мультипликативные помехи.
Так,
например, если звукозапись проводится
на открытой местности, то в качестве
помех выступают различного рода шумы.
В этом случае зашумленный речевой
сигнал, как указано выше, представляется
как сумма полезного сигнала и шума.
Если
звукозапись проводится в помещении
или сигнал передается по радио, а
также по телефонному тракту, то кроме
различного рода аддитивных помех
на сигнал накладываются мультипликативные
помехи, имеющие частотнозависимую
передаточную характеристику. То
есть аддитивная смесь претерпевает
дополнительные мультипликативные
искажения, смесь домножается на резонансы
передаточной характеристики тракта,
и в результате полезный сигнал еще
больше искажается. Задача устранения
таких аддитивных и мультипликативных
помех осложняется вариативностью
характеристик акустических помех
и трактов передачи.
Таким
образом, под шумом понимают помехи,
представляющие собой смесь случайных
и кратковременно детерминированных
(периодических) процессов. Часто под
«шумом» подразумевают так называемый
белый шум, характеризующийся тем, что
его амплитудный спектр распределен по
нормальному закону, а спектральная
плотность мощности (мощность, приходящаяся
на полосу 1 Гц) постоянна для всех частот.
Белый шум может быть узкополосным и
широкополосным. Для шума характерным
является то, что невозможно предсказать
точное мгновенное значение сигнала в
тот или иной момент времени. Можно лишь
путем длительного наблюдения оценить
вероятность появления мгновенного
значения функции внутри заданного
интервала. По этой причине шумы
описываются статистически.
Другая
основная разновидность шума — это
импульсный шум. В нем имеются лишь два
значения сигналов шума и случайность
процесса проявляется в том, что переход
от одного значения к другому может
происходить в любой момент времени.
Основные характеристики и параметры
шума (эффективное значение его напряжения,
спектральная плотность мощности,
корреляционная функция и иные), а также
шумы, вносимые электронной аппаратурой,
могут быть экспериментальным путем
зафиксированы и измерены. Часто к
импульсному шуму относят случайные
импульсные помехи. Детерминированные
сигналы с незначительной случайной
составляющей шумом как таковым не
являются. Например, наводки от сети
переменного тока (однотонное гудение
с частотами 50 или 100 Гц) или другой слегка
зашумленный гармонический процесс
следует относить к классу помех.
180
179
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
АДДИТИВНЫЕ
ШУМЫ И ПОМЕХИ
Аддитивные
фоновые сигналы можно также
классифицировать на шумоподобные
(например, уличный шум, шум от работающих
механизмов и т. д.) или речеподобные
(например, при одновременном разговоре
нескольких говорящих). В зависимости
от источника, помехи могут быть нескольких
типов: постоянные и непостоянные
(или стационарные и нестационарные).
По времени помехи различаются на
долговременные и ударные. Постоянные
(стационарные) шумы — это шумы медленно
изменяющиеся, например, шум постоянно
работающих приборов и устройств.
Непостоянные помехи, как и шумы, могут
быть импульсными, колеблющимися и
прерывистыми. Импульсные помехи состоят
из одного или нескольких коротких
звуковых импульсов. В нашем случае они
представлены шумами типа «песок»
(мелкие частые выбросы, которые
накладываются на полезный сигнал),
«треск» (короткие выбросы с частой
потерей полезной информации), «щелчки»
(относительно длинные участки с
поражениями сложной формы) и т. д.
Колеблющиеся шумы — это нерегулярная
помеха с изменяющимся уровнем сигнала.
Прерывистый шум — это помеха, уровень
которой периодически резко падает
до уровня фона тракта.
В
общем виде искажения, вносимые различными
элементами систем звукозаписи и
воспроизведения (магнитофоны, усилители,
акустические системы и т.д.), называют
нелинейными. Они представляют собой
изменения формы колебаний, проходящих
через электрическую цепь (усилитель,
трансформатор и т. п.) и вызванных
нарушениями пропорциональности между
мгновенными значениями напряжения
на выходе и входе этой цепи. То есть
имеет место нелинейная зависимость
характеристики выходного напряжения
от входного. Нелинейные искажения,
вносимые аппаратурой, оцениваются
величиной коэффициента нелинейных
искажений. Незначительные нелинейные
искажения (до 1,5—2%) изменяют тембр
речи и затрудняют раздельное ее
восприятие. С ростом нелинейных искажений
на фонограмме появляются неприятные
хрипы и дребезжание.
Шумовые
составляющие, вносимые в полезный
сигнал устройствами звукозаписи и
ее воспроизведения, характеризуются
отношением сигнал/помеха. Это отношение
выражается в децибелах и показывает,
насколько номинальный уровень выходного
полезного сигнала превышает уровень
помехи на выходе используемого
устройства.
Кроме
того, телефонная сеть может вносить
специфические дополнительные помехи
в виде слабого эхо с большой задержкой,
которое в комплексе с узкополосными
аддитивными помехами значительно
влияет на восприятие речи, хотя ее
разборчивость при этом может падать
незначительно. Их появление связано с
тем, что телефонная линия от абонента
до телефонной станции делается
двухпроводной (приходящий и уходящий
сигналы переносятся одной парой
проводов), которая преобразуется
при помощи оконечного устройства на
АТС в четырехпроводную, разделяя
сигналы, следующие в противоположных
направлениях. В идеале такое разделение
может быть организовано достаточно
точно, однако экономически не выгодно
подбирать для каждого абонента свое
оконечное устройство для получения
сбалансированной мостовой схемы. В
результате часто наблюдаемой
разбалансировки и наблюдаются
эхо-сигналы как результат возвращения
говорящему части сигнала путем
отражения. Они особенно заметны при
передаче сигнала на большие расстояния
(например, при междугородних разговорах).
Основными
причинами помех являются:
недостаточная
звукоизоляция помещений, где производится
звукозапись или где воспроизводится
звуковая информация;
пульсации
выпрямленного тока в источниках
питания, электрические и магнитные
«наводки» от цепей переменного тока;
хаотическое
движение (флуктуации) электронов или
других заряженных частиц в проводниках,
резисторах, электронных приборах
(транзисторах, лампах и т. д.);
посторонние
электрические и магнитные поля,
создаваемые трансформаторами,
электродвигателями, цепями переменного
тока, соседними цепями в многопарных
кабелях;
специфические
недостатки носителей записи,
обусловленные неоднородностью
магнитной ленты, а также копирэф- фект
и модуляционный шум;
посторонние
источники в каналах связи (атмосферные
электрические разряды, промышленная,
медицинская, бытовая электроаппаратура).
Необходимо
также обратить внимание на такие часто
встречающиеся искажения речевого
сигнала, как реверберационные.
183 179
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
ФОРМАТЫ
ЗВУКОВЫХ ФАЙЛОВ
Реверберационные
искажения - это те искажения, которые
претерпевает речевой сигнал от
источника сигнала (речеобразую- щего
тракта человека) до приемника звукового
давления (микрофон). Эти искажения
относятся к классу мультипликативных
помех и являются продуктом свертки
речевого сигнала с импульсной
характеристикой акустического тракта.
Импульсная характеристика зависит от
отражений и переотражений акустического
сигнала, попадающего в микрофон
(например, от стен, потолка помещения,
мебели, различных предметов и т. п.). Она
характеризуется временем реверберации,
RT60
или Т, (иногда говорят:
время стандартной реверберации) или
временем, когда звуковое давление на
микрофоне падает относительно начального
уровня на определенную величину (на 60
дБ или в 1000 раз). Это время тем больше,
чем меньше звуковой энергии при
отражениях поглощается стенами и
предметами, находящимися в помещении.
Акустические
свойства помещения существенно влияют
на спектр речевого сигнала и, в первую
очередь, на его высокочастотную
область (они сильнее поглощаются
элементами обстановки комнаты:
коврами, мягкой мебелью, материалами
ее обшивки, а также быстрее затухают
с увеличением расстояния). При этом
может меняться восприятие натуральности
звучания речи. Наименьшие реверберационные
искажения наблюдаются в открытой
местности или в специально подготовленных
без- эховых помещениях. При малых
значениях Т за счет реверберации
увеличивается полезный уровень звукового
давления в точке прослушивания. Так,
в лучших концертных залах задержка
между прямым звуком и первым отражением
составляет от 10 до 20 мс. По мере увеличения
времени реверберации речь начинает
искажаться: сначала взрывные звуки,
затем снижается разборчивость в целом,
появляются «гулкость» и «бубнение»,
что, в конце концов, делает речь абсолютно
неразборчивой. Примером могут служить
фонограммы, полученные в гулких пустых
залах с голыми стенами.
В
настоящее время в мире имеется
значительное число как аппаратных, так
и аппаратно-программных комплексов,
предназначенных для борьбы с
различными шумами и помехами, мешающими
восприятию звучащей речи, записанной
на фонограмме. Причем основная масса
таких устройств используется в
музыкальной звукозаписи и в радиовещании.
Развитие
компьютерных технологий позволило
реализовы- вать сложные и эффективные
алгоритмы цифровой обработки сигнала.
Все они в той или иной степени базируются
на информации о речевом сигнале и
фоновом шуме и могут быть разбиты,
согласно литературным данным1,
на несколько групп и основаны на
следующих подходах:
оценка
периодичности вокализированной речи;
оценивание
параметров цифровой модели речеобразова-
ния, или Марковская фильтрация;
подавление
помех методом адаптивной фильтрации
по критерию минимума среднеквадратичной
ошибки фильтрации;
непосредственное
оценивание кратковременного амплитудного
спектра речи (методы спектрального
вычитания).
Наиболее
широко в экспертной деятельности по
исследованию звучащей речи используются
устройства, реализующие метод
адаптивной фильтрации.
Звучащая
речь может быть записана как на
аналоговом, так и цифровом носителе.
Сегодня особую сложность в исследовании
представляют цифровые фонограммы.
Рассмотрим, в каких форматах может
эксперт получить на исследование
цифровую фонограмму и файл.
Понятие
формата используется в двух различных
смыслах. При использовании
специализированного носителя или
способа записи и специальных устройств
чтения/записи в понятие формата
входят физические характеристики
носителя звука - размеры кассеты с
магнитной лентой или диском, самой
ленты или диска, способ записи, параметры
сигнала, принципы кодирования и
защиты от ошибок и т. п. При использовании
универсального информационного
носителя широкого применения - например,
компьютерного гибкого или жесткого
диска - под форматом понимают только
способ кодирования цифрового сигнала,
особенности расположения битов и слов
и структуру служебной информации;
вся «низкоуровневая» часть, относящаяся
непосредственно к работе с носителем,
в этом случае остается в ведении
компьютера и его операционной системы.
1
Галяшина
Е.И.Прикладные основы судебной
фоноскопической экспертизы // Теория
и практика судебной экспертизы. - СПб:
ПИТЕР, 2003.
184
185
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
ФОРМАТЫ
ЗВУКОВЫХ ФАЙЛОВ
Многие
форматы отличаются друг от друга только
порядком битов в слове, отсчетов левого
и правого каналов в потоке и служебной
информацией — заголовками, контрольными
суммами, помехозащитными кодами и т.
п. Точный способ проверки неискажаемости
сигнала заключается в преобразовании
нескольких различных потоков (файлов)
формата F1 в
формат F2, а
затем обратно в F1. Если
информационная часть каждого потока
(файла) при этом будет идентична
исходной — данный вид преобразования
можно считать неискажающим.
Под
информационной частью потока (файла)
понимается собственно набор данных,
описывающих звуковой сигнал; остальная
часть считается служебной и на форму
сигнала в общем случае не влияет.
Например, если в служебной части файла
или потока предусмотрено поле для
времени его создания (передачи), то
даже в случае полного совпадения
информационных частей двух разных
файлов или потоков их служебные части
окажутся различными, и это будет
зафиксировано логическим анализатором
в случае потока или программой побайтного
сравнения — в случае файла. Кроме
этого, временной сдвиг одного сигнала
относительно другого, возникающий при
выравнивании цифрового потока по
границам слов или блоков и состоящий
в добавлении нулевых отсчетов в начало
и/или конец файла или потока, также
приводит к их кажущемуся цифровому
несовпадению. В таких ситуациях для
проверки идентичности цифровых
сигналов необходимо пользоваться
специальной аппаратурой или
программой.
Из
специализированных форматов и носителей
цифрового звука в настоящее время
наиболее известны следующие:
CD
(Compact Disk — компакт-диск)
— односторонний пластмассовый диск
с оптической лазерной записью и
считыванием, диаметром 120 или 90 мм,
вмещающий 80 или 90 минут стереозвучания
с частотой дискретизации 44,1 кГц и
16-разрядным линейным квантованием.
Система предложена фирмами Sony
и Philips и
носит название CD-DA (Compact
Disk — Digital
Audio). Различаются
штампованные (CD), однократно
записываемые (CD-R) и
многократно перезаписываемые (CD-RW)
компакт- диски.
S-DAT
(Stationary head Digital Audio Tape —
цифровая звуковая лента с неподвижной
головкой) — система наподобие обычного
кассетного магнитофона, запись и чтение
в которой ведутся
блоком
неподвижных тонкопленочных головок
на ленте шириной 3,81 мм в двухсторонней
кассете размером 86 x 55,5
x 9,5 мм.
Реализует 16-разрядную запись двух или
четырех каналов на частотах 32, 44,1 и
48 кГц.
R-DAT
(Rotary head Digital Audio Tape —
цифровая звуковая лента с вращающейся
головкой) — система наподобие
видеомагнитофона с поперечно-наклонной
записью вращающимися головками. Наиболее
популярный формат ленточной цифровой
записи системы R-DAT часто
обозначаются просто DAT.
В R-DAT
используется кассета
размером 73 x 54
x 10,5 мм, с
лентой шириной 3,81 мм, а сама система
кассеты и магнитофона очень похожа на
типовой видеомагнитофон. Базовая
скорость движения ленты — 8,15 мм/с,
скорость вращения блока головок —
2000 об/мин. R-DAT работает
с двухканальным (в ряде моделей —
четырехканальным) сигналом на частотах
дискретизации 44.1 и 48 кГц с 16-разрядным
линейным квантованием, и 32 кГц — с
12-разрядным нелинейным. Для защиты от
ошибок используется двойной код
Рида-Соломона и модуляция кодом 8-10.
Емкость кассеты — 80—240 минут в зависимости
от скорости и длины ленты. Бытовые
DAT-магнитофоны
обычно оснащены системой защиты от
незаконного копирования фонограмм,
не допускающей записи с аналогового
входа на частоте 44,1 кГц, а также прямого
цифрового копирования при наличии
запрещающих кодов SCMS
(Serial Code Managenent System). Студийные
магнитофоны таких ограничений не имеют.
DASH
(Digital Audio Stationary Head) —
система с записью на магнитную ленту
шириной 6,3 и 12,7 мм в продольном направлении
неподвижными головками. Скорость
движения ленты — 19,05, 38,1, 76,2 см/с. Реализует
16-разрядную запись с частотами
дискретизации 44,056, 44,1 и 48 кГц от 2 до 48
каналов.
DAT
(Alesis DAT) — собственная
система восьмиканальной записи звука
на видеокассету типа S-VHS,
разработанная фирмой
Alesis. Использует
16-разрядное линейное квантование на
частоте 48 кГц, емкость кассеты составляет
до 60 минут на каждый канал. Магнитофоны
ADAT допускают
каскадное соединение, в результате
чего может быть собрана система
128-канальной синхронной записи. Для
ADAT выпускается
множество различных интерфейсных
блоков для сопряжения с DAT,
CD, MIDI и т. п. Модель Meridian
(ADAT Type II) использует
20-разрядное квантование на частотах
44,1 и 48 кГц.
186
185
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
ПРИЛОЖЕНИЕ
1
DCC
(Digital Compact Cassette — цифровая
компакт-кассета) — бытовая система
записи в продольном направлении на
стандартную компакт-кассету, разработанная
Philips. Скорость
движения ленты — 4,76 см/с, максимальное
время звучания такое же, как при
аналоговой записи. Частоты дискретизации
— 32, 44,1, 48 кГц, разрешение — 16/18 разрядов
(метод сжатия PASC). На
DCC-магнитофонах
могут воспроизводиться (но не записываться)
обычные аналоговые компакт-кассеты. В
настоящее время система DCC
признана неперспективной.
MD
(MiniDisk) — бытовая и
концертная система записи на
магнитооптический диск, разработанная
Sony. Диск
диаметром 64 мм, помещенный в пластмассовый
футляр размером 70 x 67,5
x 5 мм,
вмещает 74 минуты (60 в ранних версиях)
стереофонического звучания. При
обмене с внешними устройствами
используется формат 16-разрядных
отсчетов на частоте 44,1 кГц, однако
на сам диск сигнал записывается после
сжатия методом ATRAC.
Из
универсальных компьютерных форматов
наиболее популярны следующие:
Microsoft
RIFF/WAVE (Resource Interchange File Format/Wave —
формат файлов передачи ресурсов/волновая
форма) — стандартный
формат звуковых файлов в компьютерах
IBM PC. Файл
этого формата содержит заголовок,
описывающий общие параметры файла, и
один или более фрагментов (chunks),
каждый из которых
представляет собой волновую форму или
вспомогательную информацию — режимы
и порядок воспроизведения, пометки,
названия и координаты участков волны
и т. п. Файлы этого формата имеют
расширение WAV.
Apple
AIFF (Audio Interchange File Format — формат
файла обмена звуком) —
стандартный тип звукового
файла в системах Apple
Macintosh. Похож на RIFF
и также позволяет размещать
вместе со звуковой волной дополнительную
информацию, в частности — самплы
WaveTable инструментов
вместе с параметрами синтезатора.
Формат
«чистой оцифровки» RAW,
не содержащий заголовка
и представляющий собой только
последовательность отсчетов звуковой
волны. Обычно оцифровка хранится в
16-разрядном знаковом (signed)
формате, когда первыми
в каждой паре идут отсчеты левого
канала, хотя могут быть и исключения.
Приложение
1
Глоссарий
по компьютерной обработке звука и
магнитной звукозаписи
Автоматизированное
рабочее место
(АРМ) — вычислительная система,
предназначенная для автоматизации
профессиональной деятельности.
Основу АРМ составляет ПЭВМ, снабженная
системой ввода/вывода информации и
специализированным программным
обеспечением.
Адаптивная
система —
система, автоматически настраивающаяся
на условия применения.
Адаптивность
— способность устройств или программ
изменять свои параметры в связи с
изменениями в них самих или в зависимости
от условий применения в целях повышения
эффективности.
Активная
акустическая система
— акустическая система, динамики
которой получают энергию от встроенного
усилителя.
Активное
окно — окно
компьютерной программы, с которым в
настоящий момент работает или может
работать пользователь.
Активный
фильтр —
устройство, в котором применяются
усилительные элементы (лампы,
транзисторы, микросхемы и т. п.),
использующие дополнительное питание
и обладающие частотно-избирательными
свойствами, то есть определенной АЧХ
и ФЧХ. Позволяют получать требуемые
характеристики проще, чем пассивные.
Акустическая
система (АС)
— акустическая аппаратура, предназначенная
для воспроизведения аналогового
звукового сигнала.
Алгоритм
— содержание и последовательность
операций, точно определяющих решение
задачи путем вычислительного процесса,
преобразующего исходные данные в
конечный результат.
Амплитуда
— наибольшее значение синусоидально
изменяющейся величины.
Амплитудная
модуляция
— способ модуляции сигналом амплитуды
высокочастотного колебания постоянной
частоты. Модуляция, при которой
незатухающие колебания изменяются по
амплитуде в соответствии с модулирующими
его колебаниями более низкой частоты.
При модуляции в центре спектра сигнала
располагается несущая частота, справа
и слева — боковые полосы частот.
188
189