Файл: Галяшина Е.И. Основы судебного речеведения.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.11.2020

Просмотров: 2093

Скачиваний: 22

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ...


знаний о процессах продуцирования и обработки человеком ре­чевой информации.

Знания и результаты исследований в области речевого пове­дения человека являются важным, но пока слабо используемым источником прогресса в области автоматического распознава­ния и синтеза речи. Важно учитывать, что перспективным на­правлением практического использования систем распознава­ния и синтеза является их взаимодействие с человеком.

Попытки использовать накопленные эмпирическим путем знания о структуре периферии слуховой системы для разработки построения системы первичного анализа при автоматическом распознавании речи не привели к принципиальному решению поставленной проблемы. Гипотеза о повышении надежности и помехозащищенности таких систем распознавания не нашла своего экспериментального подтверждения вследствие несоот­ветствия характеристик формализованных моделей с биологи­ческим прототипом.

Очевидно, что преимущества периферического слухового описания могут быть оценены только в общей модели восприя­тия речи, включающей центральные уровни обработки. При этом сам периферический слуховой анализатор неидеален с точки зрения системного анализа процесса продуцирования и восприятия речи.

В реальных условиях слуховое восприятие происходит в при­сутствии постоянных помех. Понятно, что одно из основных требований, предъявляемых к системе любого восприятия, — это помехоустойчивость. В процессе эволюции у слуховой сис­темы человека сформировался специальный механизм помехо­устойчивости, основанный на механизме обнаружения и лока­лизации звука.

Известно, что защита от интенсивных помех и от маскиров­ки собственным голосом при восприятии внешней речи во вре­мя фонации осуществляется с помощью стременной мышцы среднего уха, сокращение которой увеличивает жесткость цепи слуховых косточек, что уменьшает проводимую ими энергию (так называемый акустический рефлекс).

Большое значение в восприятии зашумленной речи имеет бинауральное взаимодействие правого и левого каналов слухо­вой системы, приводящее к снижению порогов обнаружения речи (до 15 дБ) и повышения ее разборчивости (до 6 дБ).


Для слуховой системы человека характерна также кратковре­менная адаптация, проявляющаяся в уменьшении реакции в те­чение первых 50—100 мс действия стимула, что способствует подчеркиванию его переднего фронта и подавлению реакции в перерывах между сигналами.

Особенное значение для обеспечения помехоустойчивости восприятия, как показано в работах В. И. Галунова (2001), имеет многоканальная организация слухового анализатора, в основе которой лежит деление на каналы по признаку частотных диа­пазонов. Пространственная упорядоченность нейронов, соот­ветствующая распределению резонансных частот на базиляр- ной мембране, характерна для всех уровней слуховой системы. Она является не только способом кодирования информации о частоте сигнала, но, прежде всего, служит основой для выделе­ния локальных по спектру особенностей сигнала, отражающихся в определенных частотных каналах. Это при наличии большого числа каналов, содержащих элементы с различными свойствами (порогами и типами реакции, постоянной времени, характери­стическими частотами, динамическим и частотным диапазона­ми реакции и др.) обеспечивает детальное представление сигна­ла в слуховой системе.

Существование же в каждом канале элементов с различными свойствами обеспечивает способность выделения различных признаков стимулов. Так, наличие быстро и медленно адапти­рующихся элементов дает возможность выделять, соответст­венно, стационарные и изменяющиеся во времени отрезки сиг­нала. Все это позволяет при маскировке одних признаков сигнала распознавать сигнал с помощью других его признаков (или способов обработки), устойчивых в данных условиях. Примером решения одной задачи несколькими способами мо­жет служить обнаружение изменений частоты основного тона гласного, которое может осуществляться посредством оценки изменений первой гармоники или более мощных и других гар­моник, а также по изменению средней спектральной огибаю­щей сигнала.

Анализ эмпирических и экспериментальных данных позво­ляет заключить, что левополушарная обработка речи осуществ­ляется преимущественно последовательно, т. е. распознаванию смысла сообщения предшествует процесс выделения времен­ных составляющих сигнала, соответствующих лингвистическим


130


125




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ...


единицам (фонемам, слогам), определение характеристик и идентификация этих составляющих. Правое полушарие ис­пользует преимущественно целостный способ обработки, при котором поступающие сигналы сопоставляются с хранящимися в памяти эталонами слуховых образов и акустической картины целых слов или более крупных элементов текста.

При восприятии речевых сигналов в помехах существенно возрастает роль правого полушария. Это вызвано задействованием механизма вероятностного прогнозирования, а также исполь­зованием просодических признаков речевого сигнала, на кото­рых базируется целостный способ обработки (мелодика, ритми­ка). Известно, что эти признаки наиболее помехоустойчивы.

Шум, затрудняя процесс слуховой обработки сигналов, при­водит к возрастанию нагрузки на элементы слухового анализа­тора и повышению степени их утомляемости. Естественно, ра­бота параллельного канала (левого полушария), выполняющего часть обработки, увеличивает помехоустойчивость всей систе­мы. При том, что правое полушарие не обладает способностью делить речевое сообщение на элементы, подобные фонемам.

В. И. Галунов обосновывает тезис о наличии отдельного ре­чевого канала в системе восприятия, что в значительной степе­ни объясняет cocktail-party эффект и наличие у младенцев врожденной способности отличать речь от неречи, а также раз­личать речевые признаки до овладения речью.

Проведенные эксперименты убеждают в раздельности рече­вой и неречевой составляющих слуховой системы и о функцио­нальной блокировке речеслуховой системой механизмов вос­приятия неречевых составляющих звука. При этом способность различать некоторые признаки, которые не используются в данном конкретном языке, исчезает по мере овладения речью.

Следует указать еще на одну особенность восприятия речи человеком, Речевой сигнал даже в очень узкой полосе частот, причем расположенной в любой части речевого диапазона, до­статочно хорошо распознается человеком. Существует мера разборчивости, обладающая свойством аддитивности при рас­ширении частотного диапазона: индекс артикуляции или фор- мантная разборчивость.

Любопытные данные были получены при исследовании вос­приятия певческих голосов. Так, например, было установлено, что в спектре певцов с хорошо поставленными голосами име­


ются, по крайней мере, две частотные области, две группы обертонов с повышенным уровнем. Эти области называют пев­ческими формантами. Их положение на оси частот и уровни оп­ределяют характер певческих голосов и их специфическое свой­ство, называемое музыкантами носкостью или полетностью. В зависимости от частот формант, различают виды мужских и женских голосов: бас, баритон, тенор, контральто, меццо-со­прано, сопрано. Для мужских голосов характерны нижняя фор­манта в области частот примерно 300—600 Гц и высокая в обла­сти частот примерно 2,5—3 кГц. Низкая форманта придает мужскому голосу своеобразную массивность, ощущение мощи, высокая — носкость, способность переноситься вдаль, пере­крывать звучание оркестра. Заметим, что данное свойство осо­бенно важно в опере, где оркестр, помещающийся перед сценой, в оркестровой яме, находится к слушателям ближе, чем певцы- солисты, и голоса солистов должны «переноситься» через ор­кестр. Ноский голос — не обязательно громкий. Бывает, что го­лос, вблизи воспринимаемый как сильный, «громоподобный», оказывается совсем неслышным в большом зале. Наоборот, ка­залось бы, слабый голос певца бывает хорошо слышен вдали.

Объяснение причин носкости дал выдающийся русский уче­ный С. Н. Ржевкин. Его объяснение развили отечественные ученые Е. А. Рудаков и Д. Д. Юрченко. Они показали, что это свойство присуще лишь тем голосам, в которых широко разви­та высокая форманта. Певцу, обладающему ею, легко вырабо­тать отличную дикцию, его хорошо слышно в большом зале. Физиологическая причина носкости та, что частоты развитой высокой форманты приходятся на область наибольшей чувст­вительности слуха.

В женских и детских голосах все форманты расположены не­сколько выше, чем в мужских. Этим объясняется, что хороших женских голосов заметно больше, чем мужских. Заметим, что в женских голосах высокая певческая форманта менее важна, чем в мужских, так как спектры сопрано или меццо-сопрано и без того богаты составляющими верхних частот и потому обладают хорошей носкостью.

Носкостью, полетностью обладают не только хорошие певчес­кие голоса, но и музыкальные инструменты, даже не обладающие большой акустической мощностью. Таковы, например, скрипки великих итальянских мастеров Амати, Гварнери, Страдивари.


132


125




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ...


Носкость в настоящее время оценивают численно, используя явление маскировки звука. В измерительную установку входят генератор белого шума, магнитофон с фонограммой исследуемо­го звука, смеситель, головные телефоны и измеритель уровня. Шум и сигнал подают через смеситель на головные телефоны и измеритель уровня. Белый шум представляет собой как бы звуко­вую завесу, которую должно преодолеть звучание голоса или ин­струмента. Уровень шума поддерживается постоянным, напри­мер 80 дБ, а уровень голоса уменьшают, пока голос не станет еле слышен на фоне шума. Этот уровень — порог слышимости голо­са в шуме. Его называют коэффициентом носкости (полетнос­ти). У хороших певцов этот коэффициент равен 25—30 дБ, у пев­цов-любителей 15—20 дБ. Коэффициент носкости известного тенора С. Я. Лемешева составлял 28 дБ. Если из хорошего, «звон­кого» голоса фильтром вырезать высокую певческую форманту, коэффициент носкости упадет с 25—30 до 12—15 дБ.

Заметим, что описанная особенность важна не только для восприятия вокальных партий или музыкальных произведений, но и речи. Замечено, что речь, порождаемая в условиях шумов или записываемая на материальный носитель с искажениями, легче воспринимается на слух, если в голосе говорящего при­сутствует сильно развитая высокая форманта.

В. И. Галунов в своем обзоре современного состояния рече­вых технологий в России и за рубежом отмечает, что многие ва­рианты использования речевых технологий (автоматическое распознавание и синтез речи) предполагают автоматическую идентификацию пользователя. Прежде всего это касается ис­пользования речевых технологий в телефонных сетях, где при­ходится решать все задачи обработки в их единстве: распознава­ние и синтез речи, распознавание личности говорящего и компрессия речи.

Задачи определения личности говорящего традиционно принято подразделять на верификацию и идентификацию. При этом под верификацией подразумевается, что диктор предъяв­ляет эталонный образец своего голоса, произнося парольную фразу (называет имя, фамилию, PIN-код, пароль или имя до­ступа — login). Система автоматического распознавания инди­видуальных характеристик голоса и речи (или эксперт) долж­на подтвердить или отвергнуть индивидуальность данного конкретного лица. Предъявить пароль (а следственно, и право


индивидуального доступа к системе или средству информации) может как истинный носитель данной индивидуальности, так и злоумышленник. Исходя из риска потерь в случае возможного несанкционированного доступа, можно для данной системы определить допустимую вероятность пропуска «чужого».

В целом система верификации может быть охарактеризована ошибками 1-го рода (захват ложной цели или, в нашей интер­претации, это принятие злоумышленника за зарегистрирован­ного пользователя) и ошибками 2-го рода (пропуск цели или от­каз признать зарегистрированного пользователя). Каждая данная система может перестраиваться таким образом, что ошибки одного рода могут быть уменьшены за счет увеличения ошибок другого рода (даже при сохранении всех других факто­ров, влияющих на вероятность ошибки: длительности и харак­тера речевого сообщения, помехи и т.п.). Изменение соотно­шения ошибок 1-го и 2-го рода достигается путем изменения порога принятия решения.

Классическая процедура идентификации диктора на закры­том множестве подразумевает, что имеется ограниченная и строго контролируемая группа пользователей системы. При по­ступлении речевого сигнала на вход системы определения ин­дивидуальных речевых характеристик эта система должна опре­делить, кто из пользователей в настоящий момент вступает в речевой контакт с системой ограниченного доступа. В опреде­ленном смысле так формулируемая задача идентификации го­ворящего проще задачи верификации, сформулированной вы­ше. В этом случае исключена ситуация допуска возможного злоумышленника. Разделение же допущенных пользователей (особенно при их небольшом количестве) может оказаться бо­лее простой задачей, чем задача верификации.

Пропускная биометрическая система может быть охаракте­ризована средней вероятностью правильной идентификации.

К сожалению, среди возможных применений ситуация идентификации на закрытом множестве возникает достаточно редко. Примерами могут быть анализ и протоколирование пе­реговоров экипажей самолетов или подводной лодки, выявле­ние каналов утечки информации при контроле телефонных разговоров и т. п.

В большинстве приложений (особенно криминалистиче­ских) возникает ситуация так называемой идентификации на


134


125




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ...


открытом множестве («open set identification»). В этом случае ситуация аналогична описанной выше верификации, но отли­чается тем, что пользователь не объявляет свою индивидуаль­ность (фамилию, PIN-код или другой индекс индивидуальнос­ти) и система должна сверить поступивший речевой сигнал со всеми речевыми эталонами зарегистрированных пользовате­лей. Таким образом, задача открытой идентификации совпадает с задачей многократной верификации.

В. И. Галунов отмечает еще один специфический вариант за­дачи верификации. Возможно возникновение такой ситуации, когда злоумышленник не пытается получить доступ к системе ограниченного пользования, а предоставляет сделать это санк­ционированному (зарегистрированному) пользователю систе­мы. После того как доступ к системе открыт, злоумышленник заменяет санкционированного пользователя и получает доступ к интересующей его информации или передает в систему связи какие-либо команды. Задачей системы идентификации в опи­санной ситуации является обнаружение смены индивидуально­сти говорящего. Очевидно, что смена диктора, скорее всего, происходит во время речевой паузы. Таким образом, после каж­дой речевой паузы может возникнуть необходимость подтверж­дения идентичности диктора.

В криминалистической практике эта ситуация аналогична последовательной смене абонентов телефонного разговора, пе­редающих трубку телефона другому участнику в речевой паузе.

В ряде случаев по речи требуется определить не индивиду­альность говорящего, а некоторый групповой признак: возраст, наличие того или иного акцента или регионального типа произ­несения, наличие патологии голоса и т. п. Этот тип задач возни­кает в основном при криминалистической экспертизе или кон­троле каналов связи. Чаще всего решение таких задач опирается на слуховую экспертную оценку анализируемого речевого сооб­щения и использует автоматические способы анализа только на предварительном этапе или как вспомогательные.

Все перечисленные выше виды задач верификации и иден­тификации могут быть разбиты на два больших класса в зависи­мости от используемого речевого материала: тексто-зависимые и тексто-независимые. Разница между этими двумя классами заключается в том, является ли исследуемый речевой отрезок лингвистически подобным сравнительному образцу или нет.


Очевидно, что совпадение лингвистической формы сопостав­ляемых речевых сообщений существенно упрощает процесс идентификации (верификации).

По способу решения задачи идентификации могут быть раз­делены на автоматические системы и субъективные (эксперт­ные). Экспертные методы исходно появились в связи с прису­щей человеку способностью различать индивидуальные голоса. При этом субъективная экспертиза может опираться как на слу­ховой анализ речевых сообщений, так и на анализ видеограмм, т. е. на то или иное визуально анализируемое изображение ре­чевого сигнала.

Преимуществом перцептивного анализа является то, что способность к определению индивидуальности на слух являет­ся имманентно присущей речеслуховой системе человека. К со­жалению, психо-акустических работ, связанных с анализом этой особенности человека, очень мало. Скорее всего, анализ знакомых и незнакомых голосов использует разные процедуры. Более того, соответствующие центры в мозгу находятся в раз­ных полушариях. Кроме того, дискриминационные возможно­сти слуховой системы (вопреки имеющемуся мнению) относи­тельно индивидуальных характеристик весьма ограничены.

Однако в настоящий момент следует учитывать следующие факторы, которые дают преимущества слуховым методам ана­лиза признаков индивидуальности говорящего. Слуховая сис­тема использует различительные признаки, отличающиеся от тех, которые используются большинством автоматических сис­тем. Голоса, очень похожие субъективно, хорошо различаются автоматическими системами, и наоборот. В практических зада­чах может быть использована двухступенчатая процедура иден­тификации говорящего. На первом этапе автоматическая систе­ма производит отсев кандидатов, не допуская при этом ошибок второго рода (пропуска цели). Тем самым сокращается объем ра­боты эксперта по слуховому анализу для окончательного реше­ния. При этом сохраняется возможность сравнивать по субъек­тивным различительным признакам голоса, плохо различимые системой автоматической идентификации говорящего. Кроме того, речеслуховая система для идентификации говорящего ис­пользует, как правило, яркие отличительные черты, характер­ные именно для данного индивидуума. Для систем автоматиче­ской идентификации характерен статистический подход,


136


125




ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ


КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ...


который не адекватен качественным различительным призна­кам: наличие какой-либо патологии голоса или речи, яркие акцентные или диалектные черты, заикание и т. п. При этом следует отметить, что речеслуховая система использует парал­лельно и индивидуальные признаки речевого сигнала, имею­щие вероятностный характер: высота голоса, тембр и др.

Таким образом, слуховая система использует не только дру­гие признаки, чем ныне существующие системы идентифика­ции говорящего, но и принципиально другой подход к реше­нию задачи идентификации.

Это объясняется тем, что в области высоких частот мы име­ем чисто спектральный слух не очень высокого разрешения, а для частот близких к речевому диапазону — более полный, ос­нованный не только на разделении спектра, а еще и на допол­нительном анализе информации самим мозгом, давая более полную стереокартину. Динамический диапазон (от самых ти­хих воспринимаемых звуков до самых громких) речи составляет около 96 дБ (или более чем 1 к 30 000 по линейной шкале). Ос­новное восприятие звука происходит в диапазоне 1—4 кГц, в этом же диапазоне находится речь. С возрастом слышимый че­ловеком частотный диапазон сужается. Корректная передача этого частотного отрезка — первое условие естественности зву­чания. Но, помимо высоты звука, мы способны достаточно точ­но определять положение звукового источника в пространстве. Это означает, что звуковые волны должны обладать свойством, на которое реагирует наш слуховой аппарат. Слуховые прием­ники (уши) разнесены на некоторое расстояние друг от друга, поэтому звук в каждое из них поступает не в одно и то же время, а в разное. По задержке попадания одной и той же звуковой волны на барабанные перепонки мы и определяем пространст­венное положение источника звука.

Таким образом, бинауральный слух, играющий большую роль в локализации источника звука, лучше всего развит на ча­стотах, меньших 1,5 кГц. Выше этой частоты источником ин­формации о местоположении служит лишь разница амплитуд сигнала для левого и правого уха.

Слуховая система нелинейна и не может быть точно описана с помощью только линейных элементов (таких, как фильтры и линии задержки). Как побочный результат нелинейности мо­жет проявляться, например, следующий эффект: при подаче


двух тонов с частотой 1000 и 1200 Гц может также быть слышен третий тон с частотой 800 Гц.

В области частот 1—4 кГц чувствительность уха по всем пара­метрам максимальна. Человек среднего возраста может чувст­вовать звуки от 10 Гц до 20 кГц, осмысленно слышать — от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составля­ют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор — давление на голову, боль, особо громкие звуки приносят резкий дискомфорт. Звуки ниже 30—40 Гц при достаточной амплитуде воспринимаются как вибрация. Человек акустически почти не определяет прост­ранственное положение настолько низких звуков, поэтому они ощущаются телом.

Рассмотрим пространственное разрешение человеческого слуха, то есть способность к локализации источника звука.

Согласно работам психоакустиков Б. Мура (Англия) и Б. Хартмана (США), при локализации единичного источника точность локализации в горизонтальной плоскости достаточно высока и составляет примерно 3 градуса, хотя имеются данные, что минимальное разрешение смещения источника может со­ставлять даже 1 градус. Существуют два механизма локализации источника в горизонтальной плоскости:

  • на низких частотах (до 1500 Гц) — это оценка разности по времени прихода звука к разным ушам. При угловом смещении в 1 градус разница по времени составляет ~10 мс, что показывает высокую точность оценки в слуховой системе;

  • на высоких частотах (выше 2 кГц) — это оценка разности по интенсивности, возникающая за счет дифракции звука во­круг головы.

В реальных условиях человек может в большинстве случаев достаточно уверенно локализовать источники звука. Это связа­но с тем, что обычно спектры звуков каждого источника суще­ственно различаются. Как правило, сигналы рассинхронизова- ны (включаются и звучат неодновременно), и поэтому слуховая система, выполняя спектральный анализ, справляется с задачей локализации.

Человеческая система восприятия звука имеет ограничен­ное, зависящее от частоты разрешения. Равномерное, с точки зрения восприятия человеком, измерение частоты может быть выражено в единицах ширины критических полос: менее 100 Гц


138


125