Файл: Галяшина Е. И. - Основы судебного речеведения - 2003.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 13.10.2020
Просмотров: 2717
Скачиваний: 56
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
180
• помехи, вызванные каналом связи (телефонный тракт,
радиоканал);
• шумы и нелинейные искажения звукозаписывающей ап
паратуры и магнитного носителя;
• шумы, обусловленные дефектами и изношенностью зву
козаписывающей и воспроизводящей аппаратуры;
• шумы и помехи, вызванные акустической средой звукоза
писи и звуковоспроизведения (помещение для прослуши
вания).
Здесь же необходимо отметить, что к мешающим факторам
можно также отнести и собственную нестабильность речеобра
зующего тракта, которая выражается в интериндивидуальной
вариативности речевых параметров, а также намеренное или
функциональное изменение или искажение присущих человеку
голосовых или речевых параметров. Указанные факторы при
сутствуют практически всегда в речевом сигнале, что требует их
учета и нормализации.
Что такое помехи и как с ними можно бороться? Помехой
называется стороннее возмущение, действующее на пути следо
вания сигнала от его источника до приемника и препятствую
щее правильному приему (восприятию) сигнала. Точное мате
матическое описание помех, как правило, невозможно.
Информативные параметры помех определяются путем их ана
лиза. Источники помех могут быть внутренние и внешние. Ес
ли зашумленный сигнал можно представить в виде суммы по
лезного сигнала и помехи, то такая помеха называется
аддитивной. Аддитивную помеху часто называют шумом. Если
на речевой сигнал накладывается какойлибо неотрицательный
процесс, то помеху называют мультипликативной.
На практике мультипликативная помеха возникает в тех слу
чаях, когда параметры системы претерпевают случайные изме
нения во времени. В сущности, это наблюдается во всех реаль
ных системах звукозаписи, но в большинстве случаев такие
изменения всех параметров, хотя и существуют, но достаточно
малые. То есть при звукозаписи на речевой сигнал воздейству
ют аддитивные и мультипликативные помехи.
Так, например, если звукозапись проводится на открытой
местности, то в качестве помех выступают различного рода шу
мы. В этом случае зашумленный речевой сигнал, как указано
выше, представляется как сумма полезного сигнала и шума.
АДДИТИВНЫЕ ШУМЫ И ПОМЕХИ
181
Если звукозапись проводится в помещении или сигнал пере
дается по радио, а также по телефонному тракту, то кроме раз
личного рода аддитивных помех на сигнал накладываются
мультипликативные помехи, имеющие частотнозависимую пе
редаточную характеристику. То есть аддитивная смесь претер
певает дополнительные мультипликативные искажения, смесь
домножается на резонансы передаточной характеристики трак
та, и в результате полезный сигнал еще больше искажается. За
дача устранения таких аддитивных и мультипликативных помех
осложняется вариативностью характеристик акустических по
мех и трактов передачи.
Таким образом, под шумом понимают помехи, представляю
щие собой смесь случайных и кратковременно детерминиро
ванных (периодических) процессов. Часто под «шумом» подра
зумевают так называемый белый шум, характеризующийся тем,
что его амплитудный спектр распределен по нормальному зако
ну, а спектральная плотность мощности (мощность, приходя
щаяся на полосу 1 Гц) постоянна для всех частот. Белый шум
может быть узкополосным и широкополосным. Для шума ха
рактерным является то, что невозможно предсказать точное
мгновенное значение сигнала в тот или иной момент времени.
Можно лишь путем длительного наблюдения оценить вероят
ность появления мгновенного значения функции внутри задан
ного интервала. По этой причине шумы описываются статисти
чески.
Другая основная разновидность шума – это импульсный шум.
В нем имеются лишь два значения сигналов шума и случай
ность процесса проявляется в том, что переход от одного значе
ния к другому может происходить в любой момент времени. Ос
новные характеристики и параметры шума (эффективное
значение его напряжения, спектральная плотность мощности,
корреляционная функция и иные), а также шумы, вносимые
электронной аппаратурой, могут быть экспериментальным пу
тем зафиксированы и измерены. Часто к импульсному шуму от
носят случайные импульсные помехи. Детерминированные
сигналы с незначительной случайной составляющей шумом
как таковым не являются. Например, наводки от сети перемен
ного тока (однотонное гудение с частотами 50 или 100 Гц) или
другой слегка зашумленный гармонический процесс следует
относить к классу помех.
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
182
Аддитивные фоновые сигналы можно также классифициро
вать на шумоподобные (например, уличный шум, шум от рабо
тающих механизмов и т. д.) или речеподобные (например, при
одновременном разговоре нескольких говорящих). В зависимо
сти от источника, помехи могут быть нескольких типов: посто
янные и непостоянные (или стационарные и нестационарные).
По времени помехи различаются на долговременные и удар
ные. Постоянные (стационарные) шумы – это шумы медленно
изменяющиеся, например, шум постоянно работающих прибо
ров и устройств. Непостоянные помехи, как и шумы, могут быть
импульсными, колеблющимися и прерывистыми. Импульсные
помехи состоят из одного или нескольких коротких звуковых
импульсов. В нашем случае они представлены шумами типа
«песок» (мелкие частые выбросы, которые накладываются на
полезный сигнал), «треск» (короткие выбросы с частой потерей
полезной информации), «щелчки» (относительно длинные уча
стки с поражениями сложной формы) и т. д. Колеблющиеся
шумы – это нерегулярная помеха с изменяющимся уровнем
сигнала. Прерывистый шум – это помеха, уровень которой пе
риодически резко падает до уровня фона тракта.
В общем виде искажения, вносимые различными элемента
ми систем звукозаписи и воспроизведения (магнитофоны, усили
тели, акустические системы и т. д.), называют нелинейными.
Они представляют собой изменения формы колебаний, проходя
щих через электрическую цепь (усилитель, трансформатор и т. п.)
и вызванных нарушениями пропорциональности между мгно
венными значениями напряжения на выходе и входе этой цепи.
То есть имеет место нелинейная зависимость характеристики
выходного напряжения от входного. Нелинейные искажения,
вносимые аппаратурой, оцениваются величиной коэффициента
нелинейных искажений. Незначительные нелинейные искаже
ния (до 1,5–2%) изменяют тембр речи и затрудняют раздельное
ее восприятие. С ростом нелинейных искажений на фонограмме
появляются неприятные хрипы и дребезжание.
Шумовые составляющие, вносимые в полезный сигнал уст
ройствами звукозаписи и ее воспроизведения, характеризуются
отношением сигнал/помеха. Это отношение выражается в де
цибелах и показывает, насколько номинальный уровень выход
ного полезного сигнала превышает уровень помехи на выходе
используемого устройства.
АДДИТИВНЫЕ ШУМЫ И ПОМЕХИ
183
Кроме того, телефонная сеть может вносить специфические
дополнительные помехи в виде слабого эхо с большой задерж
кой, которое в комплексе с узкополосными аддитивными по
мехами значительно влияет на восприятие речи, хотя ее раз
борчивость при этом может падать незначительно. Их
появление связано с тем, что телефонная линия от абонента до
телефонной станции делается двухпроводной (приходящий и
уходящий сигналы переносятся одной парой проводов), кото
рая преобразуется при помощи оконечного устройства на АТС
в четырехпроводную, разделяя сигналы, следующие в проти
воположных направлениях. В идеале такое разделение может
быть организовано достаточно точно, однако экономически
не выгодно подбирать для каждого абонента свое оконечное
устройство для получения сбалансированной мостовой схемы.
В результате часто наблюдаемой разбалансировки и наблюда
ются эхосигналы как результат возвращения говорящему ча
сти сигнала путем отражения. Они особенно заметны при пе
редаче сигнала на большие расстояния (например, при
междугородних разговорах).
Основными причинами помех являются:
• недостаточная звукоизоляция помещений, где произво
дится звукозапись или где воспроизводится звуковая информа
ция;
• пульсации выпрямленного тока в источниках питания,
электрические и магнитные «наводки» от цепей переменного
тока;
• хаотическое движение (флуктуации) электронов или дру
гих заряженных частиц в проводниках, резисторах, электрон
ных приборах (транзисторах, лампах и т. д.);
• посторонние электрические и магнитные поля, создавае
мые трансформаторами, электродвигателями, цепями перемен
ного тока, соседними цепями в многопарных кабелях;
• специфические недостатки носителей записи, обуслов
ленные неоднородностью магнитной ленты, а также копирэф
фект и модуляционный шум;
• посторонние источники в каналах связи (атмосферные
электрические разряды, промышленная, медицинская, быто
вая электроаппаратура).
Необходимо также обратить внимание на такие часто встре
чающиеся искажения речевого сигнала, как реверберационные.
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
184
Реверберационные искажения – это те искажения, которые пре
терпевает речевой сигнал от источника сигнала (речеобразую
щего тракта человека) до приемника звукового давления (мик
рофон). Эти искажения относятся к классу мультипликативных
помех и являются продуктом свертки речевого сигнала с им
пульсной характеристикой акустического тракта. Импульсная
характеристика зависит от отражений и переотражений акусти
ческого сигнала, попадающего в микрофон (например, от стен,
потолка помещения, мебели, различных предметов и т. п.). Она
характеризуется временем реверберации, RT
60
или Т, (иногда
говорят: время стандартной реверберации) или временем, когда
звуковое давление на микрофоне падает относительно началь
ного уровня на определенную величину (на 60 дБ или в
1000 раз). Это время тем больше, чем меньше звуковой энергии
при отражениях поглощается стенами и предметами, находя
щимися в помещении.
Акустические свойства помещения существенно влияют на
спектр речевого сигнала и, в первую очередь, на его высокочас
тотную область (они сильнее поглощаются элементами обста
новки комнаты: коврами, мягкой мебелью, материалами ее об
шивки, а также быстрее затухают с увеличением расстояния).
При этом может меняться восприятие натуральности звучания
речи. Наименьшие реверберационные искажения наблюдаются
в открытой местности или в специально подготовленных без
эховых помещениях. При малых значениях Т за счет ревербера
ции увеличивается полезный уровень звукового давления в точ
ке прослушивания. Так, в лучших концертных залах задержка
между прямым звуком и первым отражением составляет от
10 до 20 мс. По мере увеличения времени реверберации речь на
чинает искажаться: сначала взрывные звуки, затем снижается
разборчивость в целом, появляются «гулкость» и «бубнение»,
что, в конце концов, делает речь абсолютно неразборчивой.
Примером могут служить фонограммы, полученные в гулких
пустых залах с голыми стенами.
В настоящее время в мире имеется значительное число как
аппаратных, так и аппаратнопрограммных комплексов, пред
назначенных для борьбы с различными шумами и помехами,
мешающими восприятию звучащей речи, записанной на фоно
грамме. Причем основная масса таких устройств используется
в музыкальной звукозаписи и в радиовещании.
ФОРМАТЫ ЗВУКОВЫХ ФАЙЛОВ
185
Развитие компьютерных технологий позволило реализовы
вать сложные и эффективные алгоритмы цифровой обработки
сигнала. Все они в той или иной степени базируются на инфор
мации о речевом сигнале и фоновом шуме и могут быть разби
ты, согласно литературным данным
1
, на несколько групп и ос
нованы на следующих подходах:
• оценка периодичности вокализированной речи;
• оценивание параметров цифровой модели речеобразова
ния, или Марковская фильтрация;
• подавление помех методом адаптивной фильтрации по кри
терию минимума среднеквадратичной ошибки фильтрации;
• непосредственное оценивание кратковременного амплитуд
ного спектра речи (методы спектрального вычитания).
Наиболее широко в экспертной деятельности по исследова
нию звучащей речи используются устройства, реализующие ме
тод адаптивной фильтрации.
13. Форматы звуковых файлов
Звучащая речь может быть записана как на аналоговом, так и
цифровом носителе. Сегодня особую сложность в исследова
нии представляют цифровые фонограммы. Рассмотрим, в ка
ких форматах может эксперт получить на исследование цифро
вую фонограмму и файл.
Понятие формата используется в двух различных смыслах.
При использовании специализированного носителя или способа
записи и специальных устройств чтения/записи в понятие фор
мата входят физические характеристики носителя звука – раз
меры кассеты с магнитной лентой или диском, самой ленты или
диска, способ записи, параметры сигнала, принципы кодирова
ния и защиты от ошибок и т. п. При использовании универсаль
ного информационного носителя широкого применения – на
пример, компьютерного гибкого или жесткого диска – под
форматом понимают только способ кодирования цифрового сиг
нала, особенности расположения битов и слов и структуру слу
жебной информации; вся «низкоуровневая» часть, относящая
ся непосредственно к работе с носителем, в этом случае
остается в ведении компьютера и его операционной системы.
1
Галяшина Е.И.
Прикладные основы судебной фоноскопической экспертизы // Теория
и практика судебной экспертизы. – СПб: ПИТЕР, 2003.
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
186
Многие форматы отличаются друг от друга только порядком
битов в слове, отсчетов левого и правого каналов в потоке и слу
жебной информацией – заголовками, контрольными суммами,
помехозащитными кодами и т. п. Точный способ проверки неис
кажаемости сигнала заключается в преобразовании нескольких
различных потоков (файлов) формата F1 в формат F2, а затем об
ратно в F1. Если информационная часть каждого потока (фай
ла) при этом будет идентична исходной – данный вид преобра
зования можно считать неискажающим.
Под информационной частью потока (файла) понимается
собственно набор данных, описывающих звуковой сигнал; ос
тальная часть считается служебной и на форму сигнала в общем
случае не влияет. Например, если в служебной части файла или
потока предусмотрено поле для времени его создания (переда
чи), то даже в случае полного совпадения информационных час
тей двух разных файлов или потоков их служебные части окажут
ся различными, и это будет зафиксировано логическим
анализатором в случае потока или программой побайтного срав
нения – в случае файла. Кроме этого, временной сдвиг одного
сигнала относительно другого, возникающий при выравнива
нии цифрового потока по границам слов или блоков и состоя
щий в добавлении нулевых отсчетов в начало и/или конец файла
или потока, также приводит к их кажущемуся цифровому несо
впадению. В таких ситуациях для проверки идентичности циф
ровых сигналов необходимо пользоваться специальной аппара
турой или программой.
Из специализированных форматов и носителей цифрового
звука в настоящее время наиболее известны следующие:
CD (Compact Disk – компактдиск) – односторонний пласт
массовый диск с оптической лазерной записью и считыванием,
диаметром 120 или 90 мм, вмещающий 80 или 90 минут стерео
звучания с частотой дискретизации 44,1 кГц и 16разрядным
линейным квантованием. Система предложена фирмами Sony и
Philips и носит название CDDA (Compact Disk – Digital Audio).
Различаются штампованные (CD), однократно записываемые
(CDR) и многократно перезаписываемые (CDRW) компакт
диски.
SDAT (Stationary head Digital Audio Tape – цифровая звуко
вая лента с неподвижной головкой) – система наподобие обыч
ного кассетного магнитофона, запись и чтение в которой ведутся
ФОРМАТЫ ЗВУКОВЫХ ФАЙЛОВ
187
блоком неподвижных тонкопленочных головок на ленте шири
ной 3,81 мм в двухсторонней кассете размером 86 x 55,5 x 9,5 мм.
Реализует 16разрядную запись двух или четырех каналов на ча
стотах 32, 44,1 и 48 кГц.
RDAT (Rotary head Digital Audio Tape – цифровая звуковая
лента с вращающейся головкой) – система наподобие видео
магнитофона с поперечнонаклонной записью вращающимися
головками. Наиболее популярный формат ленточной цифро
вой записи системы RDAT часто обозначаются просто DAT.
В RDAT используется кассета размером 73 x 54 x 10,5 мм, с лен
той шириной 3,81 мм, а сама система кассеты и магнитофона
очень похожа на типовой видеомагнитофон. Базовая скорость
движения ленты – 8,15 мм/с, скорость вращения блока голо
вок – 2000 об/мин. RDAT работает с двухканальным (в ряде
моделей – четырехканальным) сигналом на частотах дискрети
зации 44.1 и 48 кГц с 16разрядным линейным квантованием, и
32 кГц – с 12разрядным нелинейным. Для защиты от ошибок
используется двойной код РидаСоломона и модуляция кодом
810. Емкость кассеты – 80–240 минут в зависимости от скоро
сти и длины ленты. Бытовые DATмагнитофоны обычно осна
щены системой защиты от незаконного копирования фоно
грамм, не допускающей записи с аналогового входа на частоте
44,1 кГц, а также прямого цифрового копирования при наличии
запрещающих кодов SCMS (Serial Code Managenent System).
Студийные магнитофоны таких ограничений не имеют.
DASH (Digital Audio Stationary Head) – система с записью на
магнитную ленту шириной 6,3 и 12,7 мм в продольном направ
лении неподвижными головками. Скорость движения ленты –
19,05, 38,1, 76,2 см/с. Реализует 16разрядную запись с частота
ми дискретизации 44,056, 44,1 и 48 кГц от 2 до 48 каналов.
DAT (Alesis DAT) – собственная система восьмиканальной
записи звука на видеокассету типа SVHS, разработанная фир
мой Alesis. Использует 16разрядное линейное квантование на
частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый
канал. Магнитофоны ADAT допускают каскадное соединение,
в результате чего может быть собрана система 128канальной син
хронной записи. Для ADAT выпускается множество различных
интерфейсных блоков для сопряжения с DAT, CD, MIDI и т. п.
Модель Meridian (ADAT Type II) использует 20разрядное кван
тование на частотах 44,1 и 48 кГц.
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
188
DCC (Digital Compact Cassette – цифровая компакткассе
та) – бытовая система записи в продольном направлении на
стандартную компакткассету, разработанная Philips. Скорость
движения ленты – 4,76 см/с, максимальное время звучания та
кое же, как при аналоговой записи. Частоты дискретизации –
32, 44,1, 48 кГц, разрешение – 16/18 разрядов (метод сжатия
PASC). На DCCмагнитофонах могут воспроизводиться (но не
записываться) обычные аналоговые компакткассеты. В насто
ящее время система DCC признана неперспективной.
MD (MiniDisk) – бытовая и концертная система записи на
магнитооптический диск, разработанная Sony. Диск диаметром
64 мм, помещенный в пластмассовый футляр размером 70 x 67,5
x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофониче
ского звучания. При обмене с внешними устройствами исполь
зуется формат 16разрядных отсчетов на частоте 44,1 кГц, одна
ко на сам диск сигнал записывается после сжатия методом
ATRAC.
Из универсальных компьютерных форматов наиболее попу
лярны следующие:
Microsoft RIFF/WAVE (Resource Interchange File Format/Wave –
формат файлов передачи ресурсов/волновая форма) – стан
дартный формат звуковых файлов в компьютерах IBM PC.
Файл этого формата содержит заголовок, описывающий общие
параметры файла, и один или более фрагментов (chunks), каж
дый из которых представляет собой волновую форму или вспо
могательную информацию – режимы и порядок воспроизведе
ния, пометки, названия и координаты участков волны и т. п.
Файлы этого формата имеют расширение WAV.
Apple AIFF (Audio Interchange File Format – формат файла
обмена звуком) – стандартный тип звукового файла в системах
Apple Macintosh. Похож на RIFF и также позволяет размещать
вместе со звуковой волной дополнительную информацию, в ча
стности – самплы WaveTable инструментов вместе с параметра
ми синтезатора.
Формат «чистой оцифровки» RAW, не содержащий заголов
ка и представляющий собой только последовательность отсче
тов звуковой волны. Обычно оцифровка хранится в 16разряд
ном знаковом (signed) формате, когда первыми в каждой паре
идут отсчеты левого канала, хотя могут быть и исключения.
ПРИЛОЖЕНИЕ 1
189
Приложение 1
Глоссарий по компьютерной обработке звука
и магнитной звукозаписи
Автоматизированное рабочее место
(АРМ) – вычислительная
система, предназначенная для автоматизации профессиональ
ной деятельности. Основу АРМ составляет ПЭВМ, снабженная
системой ввода/вывода информации и специализированным
программным обеспечением.
Адаптивная система
– система, автоматически настраиваю
щаяся на условия применения.
Адаптивность
– способность устройств или программ изменять
свои параметры в связи с изменениями в них самих или в зависи
мости от условий применения в целях повышения эффективности.
Активная акустическая система
– акустическая система, дина
мики которой получают энергию от встроенного усилителя.
Активное окно
– окно компьютерной программы, с которым
в настоящий момент работает или может работать пользователь.
Активный фильтр
– устройство, в котором применяются уси
лительные элементы (лампы, транзисторы, микросхемы и т. п.),
использующие дополнительное питание и обладающие частот
ноизбирательными свойствами, то есть определенной АЧХ и
ФЧХ. Позволяют получать требуемые характеристики проще,
чем пассивные.
Акустическая система (АС)
– акустическая аппаратура, пред
назначенная для воспроизведения аналогового звукового сиг
нала.
Алгоритм
– содержание и последовательность операций, точ
но определяющих решение задачи путем вычислительного про
цесса, преобразующего исходные данные в конечный результат.
Амплитуда
– наибольшее значение синусоидально изменяю
щейся величины.
Амплитудная модуляция
– способ модуляции сигналом ампли
туды высокочастотного колебания постоянной частоты. Моду
ляция, при которой незатухающие колебания изменяются по
амплитуде в соответствии с модулирующими его колебаниями
более низкой частоты. При модуляции в центре спектра сигна
ла располагается несущая частота, справа и слева – боковые по
лосы частот.