Файл: Галяшина Е.И. Основы судебного речеведения.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.11.2020

Просмотров: 2085

Скачиваний: 22

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


АДДИТИВНЫЕ ШУМЫ И ПОМЕХИ


  • помехи, вызванные каналом связи (телефонный тракт, радиоканал);

  • шумы и нелинейные искажения звукозаписывающей ап­паратуры и магнитного носителя;

  • шумы, обусловленные дефектами и изношенностью зву­козаписывающей и воспроизводящей аппаратуры;

  • шумы и помехи, вызванные акустической средой звукоза­писи и звуковоспроизведения (помещение для прослуши­вания).

Здесь же необходимо отметить, что к мешающим факторам можно также отнести и собственную нестабильность речеобра- зующего тракта, которая выражается в интериндивидуальной вариативности речевых параметров, а также намеренное или функциональное изменение или искажение присущих человеку голосовых или речевых параметров. Указанные факторы при­сутствуют практически всегда в речевом сигнале, что требует их учета и нормализации.

Что такое помехи и как с ними можно бороться? Помехой называется стороннее возмущение, действующее на пути следо­вания сигнала от его источника до приемника и препятствую­щее правильному приему (восприятию) сигнала. Точное мате­матическое описание помех, как правило, невозможно. Информативные параметры помех определяются путем их ана­лиза. Источники помех могут быть внутренние и внешние. Ес­ли зашумленный сигнал можно представить в виде суммы по­лезного сигнала и помехи, то такая помеха называется аддитивной. Аддитивную помеху часто называют шумом. Если на речевой сигнал накладывается какой-либо неотрицательный процесс, то помеху называют мультипликативной.

На практике мультипликативная помеха возникает в тех слу­чаях, когда параметры системы претерпевают случайные изме­нения во времени. В сущности, это наблюдается во всех реаль­ных системах звукозаписи, но в большинстве случаев такие изменения всех параметров, хотя и существуют, но достаточно малые. То есть при звукозаписи на речевой сигнал воздейству­ют аддитивные и мультипликативные помехи.

Так, например, если звукозапись проводится на открытой местности, то в качестве помех выступают различного рода шу­мы. В этом случае зашумленный речевой сигнал, как указано выше, представляется как сумма полезного сигнала и шума.


Если звукозапись проводится в помещении или сигнал пере­дается по радио, а также по телефонному тракту, то кроме раз­личного рода аддитивных помех на сигнал накладываются мультипликативные помехи, имеющие частотнозависимую пе­редаточную характеристику. То есть аддитивная смесь претер­певает дополнительные мультипликативные искажения, смесь домножается на резонансы передаточной характеристики трак­та, и в результате полезный сигнал еще больше искажается. За­дача устранения таких аддитивных и мультипликативных помех осложняется вариативностью характеристик акустических по­мех и трактов передачи.

Таким образом, под шумом понимают помехи, представляю­щие собой смесь случайных и кратковременно детерминиро­ванных (периодических) процессов. Часто под «шумом» подра­зумевают так называемый белый шум, характеризующийся тем, что его амплитудный спектр распределен по нормальному зако­ну, а спектральная плотность мощности (мощность, приходя­щаяся на полосу 1 Гц) постоянна для всех частот. Белый шум может быть узкополосным и широкополосным. Для шума ха­рактерным является то, что невозможно предсказать точное мгновенное значение сигнала в тот или иной момент времени. Можно лишь путем длительного наблюдения оценить вероят­ность появления мгновенного значения функции внутри задан­ного интервала. По этой причине шумы описываются статисти­чески.

Другая основная разновидность шума — это импульсный шум. В нем имеются лишь два значения сигналов шума и случай­ность процесса проявляется в том, что переход от одного значе­ния к другому может происходить в любой момент времени. Ос­новные характеристики и параметры шума (эффективное значение его напряжения, спектральная плотность мощности, корреляционная функция и иные), а также шумы, вносимые электронной аппаратурой, могут быть экспериментальным пу­тем зафиксированы и измерены. Часто к импульсному шуму от­носят случайные импульсные помехи. Детерминированные сигналы с незначительной случайной составляющей шумом как таковым не являются. Например, наводки от сети перемен­ного тока (однотонное гудение с частотами 50 или 100 Гц) или другой слегка зашумленный гармонический процесс следует относить к классу помех.


180


179




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


АДДИТИВНЫЕ ШУМЫ И ПОМЕХИ


Аддитивные фоновые сигналы можно также классифициро­вать на шумоподобные (например, уличный шум, шум от рабо­тающих механизмов и т. д.) или речеподобные (например, при одновременном разговоре нескольких говорящих). В зависимо­сти от источника, помехи могут быть нескольких типов: посто­янные и непостоянные (или стационарные и нестационарные). По времени помехи различаются на долговременные и удар­ные. Постоянные (стационарные) шумы — это шумы медленно изменяющиеся, например, шум постоянно работающих прибо­ров и устройств. Непостоянные помехи, как и шумы, могут быть импульсными, колеблющимися и прерывистыми. Импульсные помехи состоят из одного или нескольких коротких звуковых импульсов. В нашем случае они представлены шумами типа «песок» (мелкие частые выбросы, которые накладываются на полезный сигнал), «треск» (короткие выбросы с частой потерей полезной информации), «щелчки» (относительно длинные уча­стки с поражениями сложной формы) и т. д. Колеблющиеся шумы — это нерегулярная помеха с изменяющимся уровнем сигнала. Прерывистый шум — это помеха, уровень которой пе­риодически резко падает до уровня фона тракта.

В общем виде искажения, вносимые различными элемента­ми систем звукозаписи и воспроизведения (магнитофоны, усили­тели, акустические системы и т.д.), называют нелинейными. Они представляют собой изменения формы колебаний, проходя­щих через электрическую цепь (усилитель, трансформатор и т. п.) и вызванных нарушениями пропорциональности между мгно­венными значениями напряжения на выходе и входе этой цепи. То есть имеет место нелинейная зависимость характеристики выходного напряжения от входного. Нелинейные искажения, вносимые аппаратурой, оцениваются величиной коэффициента нелинейных искажений. Незначительные нелинейные искаже­ния (до 1,5—2%) изменяют тембр речи и затрудняют раздельное ее восприятие. С ростом нелинейных искажений на фонограмме появляются неприятные хрипы и дребезжание.

Шумовые составляющие, вносимые в полезный сигнал уст­ройствами звукозаписи и ее воспроизведения, характеризуются отношением сигнал/помеха. Это отношение выражается в де­цибелах и показывает, насколько номинальный уровень выход­ного полезного сигнала превышает уровень помехи на выходе используемого устройства.


Кроме того, телефонная сеть может вносить специфические дополнительные помехи в виде слабого эхо с большой задерж­кой, которое в комплексе с узкополосными аддитивными по­мехами значительно влияет на восприятие речи, хотя ее раз­борчивость при этом может падать незначительно. Их появление связано с тем, что телефонная линия от абонента до телефонной станции делается двухпроводной (приходящий и уходящий сигналы переносятся одной парой проводов), кото­рая преобразуется при помощи оконечного устройства на АТС в четырехпроводную, разделяя сигналы, следующие в проти­воположных направлениях. В идеале такое разделение может быть организовано достаточно точно, однако экономически не выгодно подбирать для каждого абонента свое оконечное устройство для получения сбалансированной мостовой схемы. В результате часто наблюдаемой разбалансировки и наблюда­ются эхо-сигналы как результат возвращения говорящему ча­сти сигнала путем отражения. Они особенно заметны при пе­редаче сигнала на большие расстояния (например, при междугородних разговорах).

Основными причинами помех являются:

  • недостаточная звукоизоляция помещений, где произво­дится звукозапись или где воспроизводится звуковая информа­ция;

  • пульсации выпрямленного тока в источниках питания, электрические и магнитные «наводки» от цепей переменного тока;

  • хаотическое движение (флуктуации) электронов или дру­гих заряженных частиц в проводниках, резисторах, электрон­ных приборах (транзисторах, лампах и т. д.);

  • посторонние электрические и магнитные поля, создавае­мые трансформаторами, электродвигателями, цепями перемен­ного тока, соседними цепями в многопарных кабелях;

  • специфические недостатки носителей записи, обуслов­ленные неоднородностью магнитной ленты, а также копирэф- фект и модуляционный шум;

  • посторонние источники в каналах связи (атмосферные электрические разряды, промышленная, медицинская, быто­вая электроаппаратура).

Необходимо также обратить внимание на такие часто встре­чающиеся искажения речевого сигнала, как реверберационные.


183 179






ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


ФОРМАТЫ ЗВУКОВЫХ ФАЙЛОВ


Реверберационные искажения - это те искажения, которые пре­терпевает речевой сигнал от источника сигнала (речеобразую- щего тракта человека) до приемника звукового давления (мик­рофон). Эти искажения относятся к классу мультипликативных помех и являются продуктом свертки речевого сигнала с им­пульсной характеристикой акустического тракта. Импульсная характеристика зависит от отражений и переотражений акусти­ческого сигнала, попадающего в микрофон (например, от стен, потолка помещения, мебели, различных предметов и т. п.). Она характеризуется временем реверберации, RT60 или Т, (иногда говорят: время стандартной реверберации) или временем, когда звуковое давление на микрофоне падает относительно началь­ного уровня на определенную величину (на 60 дБ или в 1000 раз). Это время тем больше, чем меньше звуковой энергии при отражениях поглощается стенами и предметами, находя­щимися в помещении.

Акустические свойства помещения существенно влияют на спектр речевого сигнала и, в первую очередь, на его высокочас­тотную область (они сильнее поглощаются элементами обста­новки комнаты: коврами, мягкой мебелью, материалами ее об­шивки, а также быстрее затухают с увеличением расстояния). При этом может меняться восприятие натуральности звучания речи. Наименьшие реверберационные искажения наблюдаются в открытой местности или в специально подготовленных без- эховых помещениях. При малых значениях Т за счет ревербера­ции увеличивается полезный уровень звукового давления в точ­ке прослушивания. Так, в лучших концертных залах задержка между прямым звуком и первым отражением составляет от 10 до 20 мс. По мере увеличения времени реверберации речь на­чинает искажаться: сначала взрывные звуки, затем снижается разборчивость в целом, появляются «гулкость» и «бубнение», что, в конце концов, делает речь абсолютно неразборчивой. Примером могут служить фонограммы, полученные в гулких пустых залах с голыми стенами.

В настоящее время в мире имеется значительное число как аппаратных, так и аппаратно-программных комплексов, пред­назначенных для борьбы с различными шумами и помехами, мешающими восприятию звучащей речи, записанной на фоно­грамме. Причем основная масса таких устройств используется в музыкальной звукозаписи и в радиовещании.


Развитие компьютерных технологий позволило реализовы- вать сложные и эффективные алгоритмы цифровой обработки сигнала. Все они в той или иной степени базируются на инфор­мации о речевом сигнале и фоновом шуме и могут быть разби­ты, согласно литературным данным1, на несколько групп и ос­нованы на следующих подходах:

  • оценка периодичности вокализированной речи;

  • оценивание параметров цифровой модели речеобразова- ния, или Марковская фильтрация;

  • подавление помех методом адаптивной фильтрации по кри­терию минимума среднеквадратичной ошибки фильтрации;

  • непосредственное оценивание кратковременного амплитуд­ного спектра речи (методы спектрального вычитания).

Наиболее широко в экспертной деятельности по исследова­нию звучащей речи используются устройства, реализующие ме­тод адаптивной фильтрации.

13. Форматы звуковых файлов

Звучащая речь может быть записана как на аналоговом, так и цифровом носителе. Сегодня особую сложность в исследова­нии представляют цифровые фонограммы. Рассмотрим, в ка­ких форматах может эксперт получить на исследование цифро­вую фонограмму и файл.

Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие фор­мата входят физические характеристики носителя звука - раз­меры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирова­ния и защиты от ошибок и т. п. При использовании универсаль­ного информационного носителя широкого применения - на­пример, компьютерного гибкого или жесткого диска - под форматом понимают только способ кодирования цифрового сиг­нала, особенности расположения битов и слов и структуру слу­жебной информации; вся «низкоуровневая» часть, относящая­ся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.


1 Галяшина Е.И.Прикладные основы судебной фоноскопической экспертизы // Теория и практика судебной экспертизы. - СПб: ПИТЕР, 2003.


184


185




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


ФОРМАТЫ ЗВУКОВЫХ ФАЙЛОВ


Многие форматы отличаются друг от друга только порядком битов в слове, отсчетов левого и правого каналов в потоке и слу­жебной информацией — заголовками, контрольными суммами, помехозащитными кодами и т. п. Точный способ проверки неис­кажаемости сигнала заключается в преобразовании нескольких различных потоков (файлов) формата F1 в формат F2, а затем об­ратно в F1. Если информационная часть каждого потока (фай­ла) при этом будет идентична исходной — данный вид преобра­зования можно считать неискажающим.

Под информационной частью потока (файла) понимается собственно набор данных, описывающих звуковой сигнал; ос­тальная часть считается служебной и на форму сигнала в общем случае не влияет. Например, если в служебной части файла или потока предусмотрено поле для времени его создания (переда­чи), то даже в случае полного совпадения информационных час­тей двух разных файлов или потоков их служебные части окажут­ся различными, и это будет зафиксировано логическим анализатором в случае потока или программой побайтного срав­нения — в случае файла. Кроме этого, временной сдвиг одного сигнала относительно другого, возникающий при выравнива­нии цифрового потока по границам слов или блоков и состоя­щий в добавлении нулевых отсчетов в начало и/или конец файла или потока, также приводит к их кажущемуся цифровому несо­впадению. В таких ситуациях для проверки идентичности циф­ровых сигналов необходимо пользоваться специальной аппара­турой или программой.

Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие:

CD (Compact Disk — компакт-диск) — односторонний пласт­массовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий 80 или 90 минут стерео­звучания с частотой дискретизации 44,1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk Digital Audio). Различаются штампованные (CD), однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт- диски.

S-DAT (Stationary head Digital Audio Tape — цифровая звуко­вая лента с неподвижной головкой) — система наподобие обыч­ного кассетного магнитофона, запись и чтение в которой ведутся


блоком неподвижных тонкопленочных головок на ленте шири­ной 3,81 мм в двухсторонней кассете размером 86 x 55,5 x 9,5 мм. Реализует 16-разрядную запись двух или четырех каналов на ча­стотах 32, 44,1 и 48 кГц.

R-DAT (Rotary head Digital Audio Tape — цифровая звуковая лента с вращающейся головкой) — система наподобие видео­магнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифро­вой записи системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73 x 54 x 10,5 мм, с лен­той шириной 3,81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты — 8,15 мм/с, скорость вращения блока голо­вок — 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей — четырехканальным) сигналом на частотах дискрети­зации 44.1 и 48 кГц с 16-разрядным линейным квантованием, и 32 кГц — с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты — 80—240 минут в зависимости от скоро­сти и длины ленты. Бытовые DAT-магнитофоны обычно осна­щены системой защиты от незаконного копирования фоно­грамм, не допускающей записи с аналогового входа на частоте 44,1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.

DASH (Digital Audio Stationary Head) — система с записью на магнитную ленту шириной 6,3 и 12,7 мм в продольном направ­лении неподвижными головками. Скорость движения ленты — 19,05, 38,1, 76,2 см/с. Реализует 16-разрядную запись с частота­ми дискретизации 44,056, 44,1 и 48 кГц от 2 до 48 каналов.

DAT (Alesis DAT) — собственная система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фир­мой Alesis. Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной син­хронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т. п. Модель Meridian (ADAT Type II) использует 20-разрядное кван­тование на частотах 44,1 и 48 кГц.


186


185




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


ПРИЛОЖЕНИЕ 1


DCC (Digital Compact Cassette — цифровая компакт-кассе­та) — бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты — 4,76 см/с, максимальное время звучания та­кое же, как при аналоговой записи. Частоты дискретизации — 32, 44,1, 48 кГц, разрешение — 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В насто­ящее время система DCC признана неперспективной.

MD (MiniDisk) — бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70 x 67,5 x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофониче­ского звучания. При обмене с внешними устройствами исполь­зуется формат 16-разрядных отсчетов на частоте 44,1 кГц, одна­ко на сам диск сигнал записывается после сжатия методом ATRAC.

Из универсальных компьютерных форматов наиболее попу­лярны следующие:

Microsoft RIFF/WAVE (Resource Interchange File Format/Wave — формат файлов передачи ресурсов/волновая форма) стан­дартный формат звуковых файлов в компьютерах IBM PC. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каж­дый из которых представляет собой волновую форму или вспо­могательную информацию — режимы и порядок воспроизведе­ния, пометки, названия и координаты участков волны и т. п. Файлы этого формата имеют расширение WAV.

Apple AIFF (Audio Interchange File Format — формат файла обмена звуком) стандартный тип звукового файла в системах Apple Macintosh. Похож на RIFF и также позволяет размещать вместе со звуковой волной дополнительную информацию, в ча­стности — самплы WaveTable инструментов вместе с параметра­ми синтезатора.

Формат «чистой оцифровки» RAW, не содержащий заголов­ка и представляющий собой только последовательность отсче­тов звуковой волны. Обычно оцифровка хранится в 16-разряд­ном знаковом (signed) формате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.


Приложение 1

Глоссарий по компьютерной обработке звука и магнитной звукозаписи

Автоматизированное рабочее место (АРМ) — вычислительная система, предназначенная для автоматизации профессиональ­ной деятельности. Основу АРМ составляет ПЭВМ, снабженная системой ввода/вывода информации и специализированным программным обеспечением.

Адаптивная система — система, автоматически настраиваю­щаяся на условия применения.

Адаптивность — способность устройств или программ изменять свои параметры в связи с изменениями в них самих или в зависи­мости от условий применения в целях повышения эффективности.

Активная акустическая система — акустическая система, дина­мики которой получают энергию от встроенного усилителя.

Активное окно — окно компьютерной программы, с которым в настоящий момент работает или может работать пользователь.

Активный фильтр — устройство, в котором применяются уси­лительные элементы (лампы, транзисторы, микросхемы и т. п.), использующие дополнительное питание и обладающие частот­но-избирательными свойствами, то есть определенной АЧХ и ФЧХ. Позволяют получать требуемые характеристики проще, чем пассивные.

Акустическая система (АС) — акустическая аппаратура, пред­назначенная для воспроизведения аналогового звукового сиг­нала.

Алгоритм — содержание и последовательность операций, точ­но определяющих решение задачи путем вычислительного про­цесса, преобразующего исходные данные в конечный результат.

Амплитуда — наибольшее значение синусоидально изменяю­щейся величины.

Амплитудная модуляция — способ модуляции сигналом ампли­туды высокочастотного колебания постоянной частоты. Моду­ляция, при которой незатухающие колебания изменяются по амплитуде в соответствии с модулирующими его колебаниями более низкой частоты. При модуляции в центре спектра сигна­ла располагается несущая частота, справа и слева — боковые по­лосы частот.


188


189