Файл: Галяшина Е. И. - Основы судебного речеведения - 2003.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 13.10.2020
Просмотров: 2759
Скачиваний: 56
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
130
знаний о процессах продуцирования и обработки человеком ре
чевой информации.
Знания и результаты исследований в области речевого пове
дения человека являются важным, но пока слабо используемым
источником прогресса в области автоматического распознава
ния и синтеза речи. Важно учитывать, что перспективным на
правлением практического использования систем распознава
ния и синтеза является их взаимодействие с человеком.
Попытки использовать накопленные эмпирическим путем
знания о структуре периферии слуховой системы для разработки
построения системы первичного анализа при автоматическом
распознавании речи не привели к принципиальному решению
поставленной проблемы. Гипотеза о повышении надежности и
помехозащищенности таких систем распознавания не нашла
своего экспериментального подтверждения вследствие несоот
ветствия характеристик формализованных моделей с биологи
ческим прототипом.
Очевидно, что преимущества периферического слухового
описания могут быть оценены только в общей модели восприя
тия речи, включающей центральные уровни обработки. При
этом сам периферический слуховой анализатор неидеален с
точки зрения системного анализа процесса продуцирования и
восприятия речи.
В реальных условиях слуховое восприятие происходит в при
сутствии постоянных помех. Понятно, что одно из основных
требований, предъявляемых к системе любого восприятия, –
это помехоустойчивость. В процессе эволюции у слуховой сис
темы человека сформировался специальный механизм помехо
устойчивости, основанный на механизме обнаружения и лока
лизации звука.
Известно, что защита от интенсивных помех и от маскиров
ки собственным голосом при восприятии внешней речи во вре
мя фонации осуществляется с помощью стременной мышцы
среднего уха, сокращение которой увеличивает жесткость цепи
слуховых косточек, что уменьшает проводимую ими энергию
(так называемый акустический рефлекс).
Большое значение в восприятии зашумленной речи имеет
бинауральное взаимодействие правого и левого каналов слухо
вой системы, приводящее к снижению порогов обнаружения
речи (до 15 дБ) и повышения ее разборчивости (до 6 дБ).
КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ…
131
Для слуховой системы человека характерна также кратковре
менная адаптация, проявляющаяся в уменьшении реакции в те
чение первых 50–100 мс действия стимула, что способствует
подчеркиванию его переднего фронта и подавлению реакции в
перерывах между сигналами.
Особенное значение для обеспечения помехоустойчивости
восприятия, как показано в работах В. И. Галунова (2001), имеет
многоканальная организация слухового анализатора, в основе
которой лежит деление на каналы по признаку частотных диа
пазонов. Пространственная упорядоченность нейронов, соот
ветствующая распределению резонансных частот на базиляр
ной мембране, характерна для всех уровней слуховой системы.
Она является не только способом кодирования информации о
частоте сигнала, но, прежде всего, служит основой для выделе
ния локальных по спектру особенностей сигнала, отражающихся
в определенных частотных каналах. Это при наличии большого
числа каналов, содержащих элементы с различными свойствами
(порогами и типами реакции, постоянной времени, характери
стическими частотами, динамическим и частотным диапазона
ми реакции и др.) обеспечивает детальное представление сигна
ла в слуховой системе.
Существование же в каждом канале элементов с различными
свойствами обеспечивает способность выделения различных
признаков стимулов. Так, наличие быстро и медленно адапти
рующихся элементов дает возможность выделять, соответст
венно, стационарные и изменяющиеся во времени отрезки сиг
нала. Все это позволяет при маскировке одних признаков
сигнала распознавать сигнал с помощью других его признаков
(или способов обработки), устойчивых в данных условиях.
Примером решения одной задачи несколькими способами мо
жет служить обнаружение изменений частоты основного тона
гласного, которое может осуществляться посредством оценки
изменений первой гармоники или более мощных и других гар
моник, а также по изменению средней спектральной огибаю
щей сигнала.
Анализ эмпирических и экспериментальных данных позво
ляет заключить, что левополушарная обработка речи осуществ
ляется преимущественно последовательно, т. е. распознаванию
смысла сообщения предшествует процесс выделения времен
ных составляющих сигнала, соответствующих лингвистическим
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
132
единицам (фонемам, слогам), определение характеристик и
идентификация этих составляющих. Правое полушарие ис
пользует преимущественно целостный способ обработки, при
котором поступающие сигналы сопоставляются с хранящимися
в памяти эталонами слуховых образов и акустической картины
целых слов или более крупных элементов текста.
При восприятии речевых сигналов в помехах существенно
возрастает роль правого полушария. Это вызвано задействованием
механизма вероятностного прогнозирования, а также исполь
зованием просодических признаков речевого сигнала, на кото
рых базируется целостный способ обработки (мелодика, ритми
ка). Известно, что эти признаки наиболее помехоустойчивы.
Шум, затрудняя процесс слуховой обработки сигналов, при
водит к возрастанию нагрузки на элементы слухового анализа
тора и повышению степени их утомляемости. Естественно, ра
бота параллельного канала (левого полушария), выполняющего
часть обработки, увеличивает помехоустойчивость всей систе
мы. При том, что правое полушарие не обладает способностью
делить речевое сообщение на элементы, подобные фонемам.
В. И. Галунов обосновывает тезис о наличии отдельного ре
чевого канала в системе восприятия, что в значительной степе
ни объясняет cocktailparty эффект и наличие у младенцев
врожденной способности отличать речь от неречи, а также раз
личать речевые признаки до овладения речью.
Проведенные эксперименты убеждают в раздельности рече
вой и неречевой составляющих слуховой системы и о функцио
нальной блокировке речеслуховой системой механизмов вос
приятия неречевых составляющих звука. При этом способность
различать некоторые признаки, которые не используются в
данном конкретном языке, исчезает по мере овладения речью.
Следует указать еще на одну особенность восприятия речи
человеком, Речевой сигнал даже в очень узкой полосе частот,
причем расположенной в любой части речевого диапазона, до
статочно хорошо распознается человеком. Существует мера
разборчивости, обладающая свойством аддитивности при рас
ширении частотного диапазона: индекс артикуляции или фор
мантная разборчивость.
Любопытные данные были получены при исследовании вос
приятия певческих голосов. Так, например, было установлено,
что в спектре певцов с хорошо поставленными голосами име
КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ…
133
ются, по крайней мере, две частотные области, две группы
обертонов с повышенным уровнем. Эти области называют
пев
ческими формантами.
Их положение на оси частот и уровни оп
ределяют характер певческих голосов и их специфическое свой
ство, называемое музыкантами носкостью или полетностью.
В зависимости от частот формант, различают виды мужских и
женских голосов: бас, баритон, тенор, контральто, меццосо
прано, сопрано. Для мужских голосов характерны нижняя фор
манта в области частот примерно 300–600 Гц и высокая в обла
сти частот примерно 2,5–3 кГц. Низкая форманта придает
мужскому голосу своеобразную массивность, ощущение мощи,
высокая – носкость, способность переноситься вдаль, пере
крывать звучание оркестра. Заметим, что данное свойство осо
бенно важно в опере, где оркестр, помещающийся перед сценой,
в оркестровой яме, находится к слушателям ближе, чем певцы
солисты, и голоса солистов должны «переноситься» через ор
кестр. Ноский голос – не обязательно громкий. Бывает, что го
лос, вблизи воспринимаемый как сильный, «громоподобный»,
оказывается совсем неслышным в большом зале. Наоборот, ка
залось бы, слабый голос певца бывает хорошо слышен вдали.
Объяснение причин носкости дал выдающийся русский уче
ный С. Н. Ржевкин. Его объяснение развили отечественные
ученые Е. А. Рудаков и Д. Д. Юрченко. Они показали, что это
свойство присуще лишь тем голосам, в которых широко разви
та высокая форманта. Певцу, обладающему ею, легко вырабо
тать отличную дикцию, его хорошо слышно в большом зале.
Физиологическая причина носкости та, что частоты развитой
высокой форманты приходятся на область наибольшей чувст
вительности слуха.
В женских и детских голосах все форманты расположены не
сколько выше, чем в мужских. Этим объясняется, что хороших
женских голосов заметно больше, чем мужских. Заметим, что в
женских голосах высокая певческая форманта менее важна, чем
в мужских, так как спектры сопрано или меццосопрано и без
того богаты составляющими верхних частот и потому обладают
хорошей носкостью.
Носкостью, полетностью обладают не только хорошие певчес
кие голоса, но и музыкальные инструменты, даже не обладающие
большой акустической мощностью. Таковы, например, скрипки
великих итальянских мастеров Амати, Гварнери, Страдивари.
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
134
Носкость в настоящее время оценивают численно, используя
явление маскировки звука. В измерительную установку входят
генератор белого шума, магнитофон с фонограммой исследуемо
го звука, смеситель, головные телефоны и измеритель уровня.
Шум и сигнал подают через смеситель на головные телефоны и
измеритель уровня. Белый шум представляет собой как бы звуко
вую завесу, которую должно преодолеть звучание голоса или ин
струмента. Уровень шума поддерживается постоянным, напри
мер 80 дБ, а уровень голоса уменьшают, пока голос не станет еле
слышен на фоне шума. Этот уровень – порог слышимости голо
са в шуме. Его называют коэффициентом носкости (полетнос
ти). У хороших певцов этот коэффициент равен 25–30 дБ, у пев
цовлюбителей 15–20 дБ. Коэффициент носкости известного
тенора С. Я. Лемешева составлял 28 дБ. Если из хорошего, «звон
кого» голоса фильтром вырезать высокую певческую форманту,
коэффициент носкости упадет с 25–30 до 12–15 дБ.
Заметим, что описанная особенность важна не только для
восприятия вокальных партий или музыкальных произведений,
но и речи. Замечено, что речь, порождаемая в условиях шумов
или записываемая на материальный носитель с искажениями,
легче воспринимается на слух, если в голосе говорящего при
сутствует сильно развитая высокая форманта.
В. И. Галунов в своем обзоре современного состояния рече
вых технологий в России и за рубежом отмечает, что многие ва
рианты использования речевых технологий (автоматическое
распознавание и синтез речи) предполагают автоматическую
идентификацию пользователя. Прежде всего это касается ис
пользования речевых технологий в телефонных сетях, где при
ходится решать все задачи обработки в их единстве: распознава
ние и синтез речи, распознавание личности говорящего и
компрессия речи.
Задачи определения личности говорящего традиционно
принято подразделять на верификацию и идентификацию. При
этом под верификацией подразумевается, что диктор предъяв
ляет эталонный образец своего голоса, произнося парольную
фразу (называет имя, фамилию, PINкод, пароль или имя до
ступа – login). Система автоматического распознавания инди
видуальных характеристик голоса и речи (или эксперт) долж
на подтвердить или отвергнуть индивидуальность данного
конкретного лица. Предъявить пароль (а следственно, и право
КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ…
135
индивидуального доступа к системе или средству информации)
может как истинный носитель данной индивидуальности, так и
злоумышленник. Исходя из риска потерь в случае возможного
несанкционированного доступа, можно для данной системы
определить допустимую вероятность пропуска «чужого».
В целом система верификации может быть охарактеризована
ошибками 1го рода (захват ложной цели или, в нашей интер
претации, это принятие злоумышленника за зарегистрирован
ного пользователя) и ошибками 2го рода (пропуск цели или от
каз признать зарегистрированного пользователя). Каждая
данная система может перестраиваться таким образом, что
ошибки одного рода могут быть уменьшены за счет увеличения
ошибок другого рода (даже при сохранении всех других факто
ров, влияющих на вероятность ошибки: длительности и харак
тера речевого сообщения, помехи и т. п.). Изменение соотно
шения ошибок 1го и 2го рода достигается путем изменения
порога принятия решения.
Классическая процедура идентификации диктора на закры
том множестве подразумевает, что имеется ограниченная и
строго контролируемая группа пользователей системы. При по
ступлении речевого сигнала на вход системы определения ин
дивидуальных речевых характеристик эта система должна опре
делить, кто из пользователей в настоящий момент вступает в
речевой контакт с системой ограниченного доступа. В опреде
ленном смысле так формулируемая задача идентификации го
ворящего проще задачи верификации, сформулированной вы
ше. В этом случае исключена ситуация допуска возможного
злоумышленника. Разделение же допущенных пользователей
(особенно при их небольшом количестве) может оказаться бо
лее простой задачей, чем задача верификации.
Пропускная биометрическая система может быть охаракте
ризована средней вероятностью правильной идентификации.
К сожалению, среди возможных применений ситуация
идентификации на закрытом множестве возникает достаточно
редко. Примерами могут быть анализ и протоколирование пе
реговоров экипажей самолетов или подводной лодки, выявле
ние каналов утечки информации при контроле телефонных
разговоров и т. п.
В большинстве приложений (особенно криминалистиче
ских) возникает ситуация так называемой идентификации на
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
136
открытом множестве («open set identification»). В этом случае
ситуация аналогична описанной выше верификации, но отли
чается тем, что пользователь не объявляет свою индивидуаль
ность (фамилию, PINкод или другой индекс индивидуальнос
ти) и система должна сверить поступивший речевой сигнал со
всеми речевыми эталонами зарегистрированных пользовате
лей. Таким образом, задача открытой идентификации совпадает
с задачей многократной верификации.
В. И. Галунов отмечает еще один специфический вариант за
дачи верификации. Возможно возникновение такой ситуации,
когда злоумышленник не пытается получить доступ к системе
ограниченного пользования, а предоставляет сделать это санк
ционированному (зарегистрированному) пользователю систе
мы. После того как доступ к системе открыт, злоумышленник
заменяет санкционированного пользователя и получает доступ
к интересующей его информации или передает в систему связи
какиелибо команды. Задачей системы идентификации в опи
санной ситуации является обнаружение смены индивидуально
сти говорящего. Очевидно, что смена диктора, скорее всего,
происходит во время речевой паузы. Таким образом, после каж
дой речевой паузы может возникнуть необходимость подтверж
дения идентичности диктора.
В криминалистической практике эта ситуация аналогична
последовательной смене абонентов телефонного разговора, пе
редающих трубку телефона другому участнику в речевой паузе.
В ряде случаев по речи требуется определить не индивиду
альность говорящего, а некоторый групповой признак: возраст,
наличие того или иного акцента или регионального типа произ
несения, наличие патологии голоса и т. п. Этот тип задач возни
кает в основном при криминалистической экспертизе или кон
троле каналов связи. Чаще всего решение таких задач опирается
на слуховую экспертную оценку анализируемого речевого сооб
щения и использует автоматические способы анализа только на
предварительном этапе или как вспомогательные.
Все перечисленные выше виды задач верификации и иден
тификации могут быть разбиты на два больших класса в зависи
мости от используемого речевого материала: текстозависимые
и текстонезависимые. Разница между этими двумя классами
заключается в том, является ли исследуемый речевой отрезок
лингвистически подобным сравнительному образцу или нет.
КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ…
137
Очевидно, что совпадение лингвистической формы сопостав
ляемых речевых сообщений существенно упрощает процесс
идентификации (верификации).
По способу решения задачи идентификации могут быть раз
делены на автоматические системы и субъективные (эксперт
ные). Экспертные методы исходно появились в связи с прису
щей человеку способностью различать индивидуальные голоса.
При этом субъективная экспертиза может опираться как на слу
ховой анализ речевых сообщений, так и на анализ видеограмм,
т. е. на то или иное визуально анализируемое изображение ре
чевого сигнала.
Преимуществом перцептивного анализа является то, что
способность к определению индивидуальности на слух являет
ся имманентно присущей речеслуховой системе человека. К со
жалению, психоакустических работ, связанных с анализом
этой особенности человека, очень мало. Скорее всего, анализ
знакомых и незнакомых голосов использует разные процедуры.
Более того, соответствующие центры в мозгу находятся в раз
ных полушариях. Кроме того, дискриминационные возможно
сти слуховой системы (вопреки имеющемуся мнению) относи
тельно индивидуальных характеристик весьма ограничены.
Однако в настоящий момент следует учитывать следующие
факторы, которые дают преимущества слуховым методам ана
лиза признаков индивидуальности говорящего. Слуховая сис
тема использует различительные признаки, отличающиеся от
тех, которые используются большинством автоматических сис
тем. Голоса, очень похожие субъективно, хорошо различаются
автоматическими системами, и наоборот. В практических зада
чах может быть использована двухступенчатая процедура иден
тификации говорящего. На первом этапе автоматическая систе
ма производит отсев кандидатов, не допуская при этом ошибок
второго рода (пропуска цели). Тем самым сокращается объем ра
боты эксперта по слуховому анализу для окончательного реше
ния. При этом сохраняется возможность сравнивать по субъек
тивным различительным признакам голоса, плохо различимые
системой автоматической идентификации говорящего. Кроме
того, речеслуховая система для идентификации говорящего ис
пользует, как правило, яркие отличительные черты, характер
ные именно для данного индивидуума. Для систем автоматиче
ской идентификации характерен статистический подход,
ОСНОВЫ СУДЕБНОГО РЕЧЕВЕДЕНИЯ
138
который не адекватен качественным различительным призна
кам: наличие какойлибо патологии голоса или речи, яркие
акцентные или диалектные черты, заикание и т. п. При этом
следует отметить, что речеслуховая система использует парал
лельно и индивидуальные признаки речевого сигнала, имею
щие вероятностный характер: высота голоса, тембр и др.
Таким образом, слуховая система использует не только дру
гие признаки, чем ныне существующие системы идентифика
ции говорящего, но и принципиально другой подход к реше
нию задачи идентификации.
Это объясняется тем, что в области высоких частот мы име
ем чисто спектральный слух не очень высокого разрешения, а
для частот близких к речевому диапазону – более полный, ос
нованный не только на разделении спектра, а еще и на допол
нительном анализе информации самим мозгом, давая более
полную стереокартину. Динамический диапазон (от самых ти
хих воспринимаемых звуков до самых громких) речи составляет
около 96 дБ (или более чем 1 к 30 000 по линейной шкале). Ос
новное восприятие звука происходит в диапазоне 1–4 кГц, в
этом же диапазоне находится речь. С возрастом слышимый че
ловеком частотный диапазон сужается. Корректная передача
этого частотного отрезка – первое условие естественности зву
чания. Но, помимо высоты звука, мы способны достаточно точ
но определять положение звукового источника в пространстве.
Это означает, что звуковые волны должны обладать свойством,
на которое реагирует наш слуховой аппарат. Слуховые прием
ники (уши) разнесены на некоторое расстояние друг от друга,
поэтому звук в каждое из них поступает не в одно и то же время,
а в разное. По задержке попадания одной и той же звуковой
волны на барабанные перепонки мы и определяем пространст
венное положение источника звука.
Таким образом, бинауральный слух, играющий большую
роль в локализации источника звука, лучше всего развит на ча
стотах, меньших 1,5 кГц. Выше этой частоты источником ин
формации о местоположении служит лишь разница амплитуд
сигнала для левого и правого уха.
Слуховая система нелинейна и не может быть точно описана
с помощью только линейных элементов (таких, как фильтры и
линии задержки). Как побочный результат нелинейности мо
жет проявляться, например, следующий эффект: при подаче
КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ…
139
двух тонов с частотой 1000 и 1200 Гц может также быть слышен
третий тон с частотой 800 Гц.
В области частот 1–4 кГц чувствительность уха по всем пара
метрам максимальна. Человек среднего возраста может чувст
вовать звуки от 10 Гц до 20 кГц, осмысленно слышать – от 30 Гц
до 16 кГц. Звуки выше и ниже воспринимаются, но не составля
ют акустических ощущений. Звуки выше 16 кГц ощущаются как
раздражающий неприятный фактор – давление на голову,
боль, особо громкие звуки приносят резкий дискомфорт. Звуки
ниже 30–40 Гц при достаточной амплитуде воспринимаются
как вибрация. Человек акустически почти не определяет прост
ранственное положение настолько низких звуков, поэтому они
ощущаются телом.
Рассмотрим пространственное разрешение человеческого
слуха, то есть способность к локализации источника звука.
Согласно работам психоакустиков Б. Мура (Англия) и
Б. Хартмана (США), при локализации единичного источника
точность локализации в горизонтальной плоскости достаточно
высока и составляет примерно 3 градуса, хотя имеются данные,
что минимальное разрешение смещения источника может со
ставлять даже 1 градус. Существуют два механизма локализации
источника в горизонтальной плоскости:
• на низких частотах (до 1500 Гц) – это оценка разности по
времени прихода звука к разным ушам. При угловом смещении
в 1 градус разница по времени составляет ~10 мс, что показывает
высокую точность оценки в слуховой системе;
• на высоких частотах (выше 2 кГц) – это оценка разности
по интенсивности, возникающая за счет дифракции звука во
круг головы.
В реальных условиях человек может в большинстве случаев
достаточно уверенно локализовать источники звука. Это связа
но с тем, что обычно спектры звуков каждого источника суще
ственно различаются. Как правило, сигналы рассинхронизова
ны (включаются и звучат неодновременно), и поэтому слуховая
система, выполняя спектральный анализ, справляется с задачей
локализации.
Человеческая система восприятия звука имеет ограничен
ное, зависящее от частоты разрешения. Равномерное, с точки
зрения восприятия человеком, измерение частоты может быть
выражено в единицах ширины критических полос: менее 100 Гц