ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.11.2020
Просмотров: 2093
Скачиваний: 22
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
КРИМИНАЛИСТИЧЕСКАЯ
ФОНОСКОПИЯ...
знаний
о процессах продуцирования и обработки
человеком речевой информации.
Знания
и результаты исследований в области
речевого поведения человека являются
важным, но пока слабо используемым
источником прогресса в области
автоматического распознавания и
синтеза речи. Важно учитывать, что
перспективным направлением
практического использования систем
распознавания и синтеза является
их взаимодействие с человеком.
Попытки
использовать накопленные эмпирическим
путем знания о структуре периферии
слуховой системы для разработки
построения системы первичного анализа
при автоматическом распознавании речи
не привели к принципиальному решению
поставленной проблемы. Гипотеза о
повышении надежности и помехозащищенности
таких систем распознавания не нашла
своего экспериментального подтверждения
вследствие несоответствия характеристик
формализованных моделей с биологическим
прототипом.
Очевидно,
что преимущества периферического
слухового описания могут быть оценены
только в общей модели восприятия
речи, включающей центральные уровни
обработки. При этом сам периферический
слуховой анализатор неидеален с точки
зрения системного анализа процесса
продуцирования и восприятия речи.
В
реальных условиях слуховое восприятие
происходит в присутствии постоянных
помех. Понятно, что одно из основных
требований, предъявляемых к системе
любого восприятия, — это помехоустойчивость.
В процессе эволюции у слуховой системы
человека сформировался специальный
механизм помехоустойчивости,
основанный на механизме обнаружения
и локализации звука.
Известно,
что защита от интенсивных помех и от
маскировки собственным голосом при
восприятии внешней речи во время
фонации осуществляется с помощью
стременной мышцы среднего уха, сокращение
которой увеличивает жесткость цепи
слуховых косточек, что уменьшает
проводимую ими энергию (так называемый
акустический рефлекс).
Большое
значение в восприятии зашумленной речи
имеет бинауральное взаимодействие
правого и левого каналов слуховой
системы, приводящее к снижению порогов
обнаружения речи (до 15 дБ) и повышения
ее разборчивости (до 6 дБ).
Для
слуховой системы человека характерна
также кратковременная адаптация,
проявляющаяся в уменьшении реакции в
течение первых 50—100 мс действия
стимула, что способствует подчеркиванию
его переднего фронта и подавлению
реакции в перерывах между сигналами.
Особенное
значение для обеспечения помехоустойчивости
восприятия, как показано в работах В.
И. Галунова (2001), имеет многоканальная
организация слухового анализатора, в
основе которой лежит деление на каналы
по признаку частотных диапазонов.
Пространственная упорядоченность
нейронов, соответствующая распределению
резонансных частот на базиляр- ной
мембране, характерна для всех уровней
слуховой системы. Она является не только
способом кодирования информации о
частоте сигнала, но, прежде всего, служит
основой для выделения локальных по
спектру особенностей сигнала, отражающихся
в определенных частотных каналах. Это
при наличии большого числа каналов,
содержащих элементы с различными
свойствами (порогами и типами реакции,
постоянной времени, характеристическими
частотами, динамическим и частотным
диапазонами реакции и др.) обеспечивает
детальное представление сигнала в
слуховой системе.
Существование
же в каждом канале элементов с различными
свойствами обеспечивает способность
выделения различных признаков стимулов.
Так, наличие быстро и медленно
адаптирующихся элементов дает
возможность выделять, соответственно,
стационарные и изменяющиеся во времени
отрезки сигнала. Все это позволяет
при маскировке одних признаков сигнала
распознавать сигнал с помощью других
его признаков (или способов обработки),
устойчивых в данных условиях. Примером
решения одной задачи несколькими
способами может служить обнаружение
изменений частоты основного тона
гласного, которое может осуществляться
посредством оценки изменений первой
гармоники или более мощных и других
гармоник, а также по изменению средней
спектральной огибающей сигнала.
Анализ
эмпирических и экспериментальных
данных позволяет заключить, что
левополушарная обработка речи
осуществляется преимущественно
последовательно, т. е. распознаванию
смысла сообщения предшествует процесс
выделения временных составляющих
сигнала, соответствующих лингвистическим
130
125
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
КРИМИНАЛИСТИЧЕСКАЯ
ФОНОСКОПИЯ...
единицам
(фонемам, слогам), определение характеристик
и идентификация этих составляющих.
Правое полушарие использует
преимущественно целостный способ
обработки, при котором поступающие
сигналы сопоставляются с хранящимися
в памяти эталонами слуховых образов и
акустической картины целых слов или
более крупных элементов текста.
При
восприятии речевых сигналов в помехах
существенно возрастает роль правого
полушария. Это вызвано задействованием
механизма вероятностного прогнозирования,
а также использованием просодических
признаков речевого сигнала, на которых
базируется целостный способ обработки
(мелодика, ритмика). Известно, что
эти признаки наиболее помехоустойчивы.
Шум,
затрудняя процесс слуховой обработки
сигналов, приводит к возрастанию
нагрузки на элементы слухового
анализатора и повышению степени их
утомляемости. Естественно, работа
параллельного канала (левого полушария),
выполняющего часть обработки, увеличивает
помехоустойчивость всей системы.
При том, что правое полушарие не обладает
способностью делить речевое сообщение
на элементы, подобные фонемам.
В.
И. Галунов обосновывает тезис о наличии
отдельного речевого канала в системе
восприятия, что в значительной степени
объясняет cocktail-party эффект
и наличие у младенцев врожденной
способности отличать речь от неречи,
а также различать речевые признаки
до овладения речью.
Проведенные
эксперименты убеждают в раздельности
речевой и неречевой составляющих
слуховой системы и о функциональной
блокировке речеслуховой системой
механизмов восприятия неречевых
составляющих звука. При этом способность
различать некоторые признаки, которые
не используются в данном конкретном
языке, исчезает по мере овладения речью.
Следует
указать еще на одну особенность
восприятия речи человеком, Речевой
сигнал даже в очень узкой полосе частот,
причем расположенной в любой части
речевого диапазона, достаточно
хорошо распознается человеком. Существует
мера разборчивости, обладающая свойством
аддитивности при расширении частотного
диапазона: индекс артикуляции или фор-
мантная разборчивость.
Любопытные
данные были получены при исследовании
восприятия певческих голосов. Так,
например, было установлено, что в спектре
певцов с хорошо поставленными голосами
име
ются,
по крайней мере, две частотные области,
две группы обертонов с повышенным
уровнем. Эти области называют
певческими формантами.
Их положение на оси частот и уровни
определяют характер певческих
голосов и их специфическое свойство,
называемое музыкантами носкостью или
полетностью. В зависимости от частот
формант, различают виды мужских и
женских голосов: бас, баритон, тенор,
контральто, меццо-сопрано, сопрано.
Для мужских голосов характерны нижняя
форманта в области частот примерно
300—600 Гц и высокая в области частот
примерно 2,5—3 кГц. Низкая форманта
придает мужскому голосу своеобразную
массивность, ощущение мощи, высокая —
носкость, способность переноситься
вдаль, перекрывать звучание оркестра.
Заметим, что данное свойство особенно
важно в опере, где оркестр, помещающийся
перед сценой, в оркестровой яме, находится
к слушателям ближе, чем певцы- солисты,
и голоса солистов должны «переноситься»
через оркестр. Ноский голос — не
обязательно громкий. Бывает, что голос,
вблизи воспринимаемый как сильный,
«громоподобный», оказывается совсем
неслышным в большом зале. Наоборот,
казалось бы, слабый голос певца
бывает хорошо слышен вдали.
Объяснение
причин носкости дал выдающийся русский
ученый С. Н. Ржевкин. Его объяснение
развили отечественные ученые Е. А.
Рудаков и Д. Д. Юрченко. Они показали,
что это свойство присуще лишь тем
голосам, в которых широко развита
высокая форманта. Певцу, обладающему
ею, легко выработать отличную дикцию,
его хорошо слышно в большом зале.
Физиологическая причина носкости та,
что частоты развитой высокой форманты
приходятся на область наибольшей
чувствительности слуха.
В
женских и детских голосах все форманты
расположены несколько выше, чем в
мужских. Этим объясняется, что хороших
женских голосов заметно больше, чем
мужских. Заметим, что в женских голосах
высокая певческая форманта менее важна,
чем в мужских, так как спектры сопрано
или меццо-сопрано и без того богаты
составляющими верхних частот и потому
обладают хорошей носкостью.
Носкостью,
полетностью обладают не только хорошие
певческие голоса, но и музыкальные
инструменты, даже не обладающие большой
акустической мощностью. Таковы, например,
скрипки великих итальянских мастеров
Амати, Гварнери, Страдивари.
132
125
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
КРИМИНАЛИСТИЧЕСКАЯ
ФОНОСКОПИЯ...
Носкость
в настоящее время оценивают численно,
используя явление маскировки звука. В
измерительную установку входят генератор
белого шума, магнитофон с фонограммой
исследуемого звука, смеситель,
головные телефоны и измеритель уровня.
Шум и сигнал подают через смеситель на
головные телефоны и измеритель уровня.
Белый шум представляет собой как бы
звуковую завесу, которую должно
преодолеть звучание голоса или
инструмента. Уровень шума поддерживается
постоянным, например 80 дБ, а уровень
голоса уменьшают, пока голос не станет
еле слышен на фоне шума. Этот уровень
— порог слышимости голоса в шуме.
Его называют коэффициентом носкости
(полетности). У хороших певцов этот
коэффициент равен 25—30 дБ, у певцов-любителей
15—20 дБ. Коэффициент носкости известного
тенора С. Я. Лемешева составлял 28 дБ.
Если из хорошего, «звонкого» голоса
фильтром вырезать высокую певческую
форманту, коэффициент носкости упадет
с 25—30 до 12—15 дБ.
Заметим,
что описанная особенность важна не
только для восприятия вокальных партий
или музыкальных произведений, но и
речи. Замечено, что речь, порождаемая
в условиях шумов или записываемая на
материальный носитель с искажениями,
легче воспринимается на слух, если в
голосе говорящего присутствует
сильно развитая высокая форманта.
В.
И. Галунов в своем обзоре современного
состояния речевых технологий в
России и за рубежом отмечает, что многие
варианты использования речевых
технологий (автоматическое распознавание
и синтез речи) предполагают автоматическую
идентификацию пользователя. Прежде
всего это касается использования
речевых технологий в телефонных сетях,
где приходится решать все задачи
обработки в их единстве: распознавание
и синтез речи, распознавание личности
говорящего и компрессия речи.
Задачи
определения личности говорящего
традиционно принято подразделять на
верификацию и идентификацию. При этом
под верификацией подразумевается, что
диктор предъявляет эталонный образец
своего голоса, произнося парольную
фразу (называет имя, фамилию, PIN-код,
пароль или имя доступа — login).
Система автоматического
распознавания индивидуальных
характеристик голоса и речи (или эксперт)
должна подтвердить или отвергнуть
индивидуальность данного конкретного
лица. Предъявить пароль (а следственно,
и право
индивидуального
доступа к системе или средству информации)
может как истинный носитель данной
индивидуальности, так и злоумышленник.
Исходя из риска потерь в случае возможного
несанкционированного доступа, можно
для данной системы определить допустимую
вероятность пропуска «чужого».
В
целом система верификации может быть
охарактеризована ошибками 1-го рода
(захват ложной цели или, в нашей
интерпретации, это принятие
злоумышленника за зарегистрированного
пользователя) и ошибками 2-го рода
(пропуск цели или отказ признать
зарегистрированного пользователя).
Каждая данная система может перестраиваться
таким образом, что ошибки одного рода
могут быть уменьшены за счет увеличения
ошибок другого рода (даже при сохранении
всех других факторов, влияющих на
вероятность ошибки: длительности и
характера речевого сообщения, помехи
и т.п.). Изменение соотношения ошибок
1-го и 2-го рода достигается путем
изменения порога принятия решения.
Классическая
процедура идентификации диктора на
закрытом множестве подразумевает,
что имеется ограниченная и строго
контролируемая группа пользователей
системы. При поступлении речевого
сигнала на вход системы определения
индивидуальных речевых характеристик
эта система должна определить, кто
из пользователей в настоящий момент
вступает в речевой контакт с системой
ограниченного доступа. В определенном
смысле так формулируемая задача
идентификации говорящего проще
задачи верификации, сформулированной
выше. В этом случае исключена ситуация
допуска возможного злоумышленника.
Разделение же допущенных пользователей
(особенно при их небольшом количестве)
может оказаться более простой
задачей, чем задача верификации.
Пропускная
биометрическая система может быть
охарактеризована средней вероятностью
правильной идентификации.
К
сожалению, среди возможных применений
ситуация идентификации на закрытом
множестве возникает достаточно редко.
Примерами могут быть анализ и
протоколирование переговоров
экипажей самолетов или подводной лодки,
выявление каналов утечки информации
при контроле телефонных разговоров и
т. п.
В
большинстве приложений (особенно
криминалистических) возникает
ситуация так называемой идентификации
на
134
125
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
КРИМИНАЛИСТИЧЕСКАЯ
ФОНОСКОПИЯ...
открытом
множестве («open set
identification»). В этом случае
ситуация аналогична описанной выше
верификации, но отличается тем, что
пользователь не объявляет свою
индивидуальность (фамилию, PIN-код
или другой индекс индивидуальности)
и система должна сверить поступивший
речевой сигнал со всеми речевыми
эталонами зарегистрированных
пользователей. Таким образом, задача
открытой идентификации совпадает с
задачей многократной верификации.
В.
И. Галунов отмечает еще один специфический
вариант задачи верификации. Возможно
возникновение такой ситуации, когда
злоумышленник не пытается получить
доступ к системе ограниченного
пользования, а предоставляет сделать
это санкционированному
(зарегистрированному) пользователю
системы. После того как доступ к
системе открыт, злоумышленник заменяет
санкционированного пользователя и
получает доступ к интересующей его
информации или передает в систему связи
какие-либо команды. Задачей системы
идентификации в описанной ситуации
является обнаружение смены индивидуальности
говорящего. Очевидно, что смена диктора,
скорее всего, происходит во время
речевой паузы. Таким образом, после
каждой речевой паузы может возникнуть
необходимость подтверждения
идентичности диктора.
В
криминалистической практике эта
ситуация аналогична последовательной
смене абонентов телефонного разговора,
передающих трубку телефона другому
участнику в речевой паузе.
В
ряде случаев по речи требуется определить
не индивидуальность говорящего, а
некоторый групповой признак: возраст,
наличие того или иного акцента или
регионального типа произнесения,
наличие патологии голоса и т. п. Этот
тип задач возникает в основном при
криминалистической экспертизе или
контроле каналов связи. Чаще всего
решение таких задач опирается на
слуховую экспертную оценку анализируемого
речевого сообщения и использует
автоматические способы анализа только
на предварительном этапе или как
вспомогательные.
Все
перечисленные выше виды задач верификации
и идентификации могут быть разбиты
на два больших класса в зависимости
от используемого речевого материала:
тексто-зависимые и тексто-независимые.
Разница между этими двумя классами
заключается в том, является ли исследуемый
речевой отрезок лингвистически подобным
сравнительному образцу или нет.
Очевидно,
что совпадение лингвистической формы
сопоставляемых речевых сообщений
существенно упрощает процесс идентификации
(верификации).
По
способу решения задачи идентификации
могут быть разделены на автоматические
системы и субъективные (экспертные).
Экспертные методы исходно появились
в связи с присущей человеку способностью
различать индивидуальные голоса. При
этом субъективная экспертиза может
опираться как на слуховой анализ
речевых сообщений, так и на анализ
видеограмм, т. е. на то или иное визуально
анализируемое изображение речевого
сигнала.
Преимуществом
перцептивного анализа является то, что
способность к определению индивидуальности
на слух является имманентно присущей
речеслуховой системе человека. К
сожалению, психо-акустических работ,
связанных с анализом этой особенности
человека, очень мало. Скорее всего,
анализ знакомых и незнакомых голосов
использует разные процедуры. Более
того, соответствующие центры в мозгу
находятся в разных полушариях. Кроме
того, дискриминационные возможности
слуховой системы (вопреки имеющемуся
мнению) относительно индивидуальных
характеристик весьма ограничены.
Однако
в настоящий момент следует учитывать
следующие факторы, которые дают
преимущества слуховым методам анализа
признаков индивидуальности говорящего.
Слуховая система использует
различительные признаки, отличающиеся
от тех, которые используются большинством
автоматических систем. Голоса, очень
похожие субъективно, хорошо различаются
автоматическими системами, и наоборот.
В практических задачах может быть
использована двухступенчатая процедура
идентификации говорящего. На первом
этапе автоматическая система
производит отсев кандидатов, не допуская
при этом ошибок второго рода (пропуска
цели). Тем самым сокращается объем
работы эксперта по слуховому анализу
для окончательного решения. При этом
сохраняется возможность сравнивать
по субъективным различительным
признакам голоса, плохо различимые
системой автоматической идентификации
говорящего. Кроме того, речеслуховая
система для идентификации говорящего
использует, как правило, яркие
отличительные черты, характерные
именно для данного индивидуума. Для
систем автоматической идентификации
характерен статистический подход,
136
125
ОСНОВЫ
СУДЕБНОГО РЕЧЕВЕДЕНИЯ
КРИМИНАЛИСТИЧЕСКАЯ
ФОНОСКОПИЯ...
который
не адекватен качественным различительным
признакам: наличие какой-либо
патологии голоса или речи, яркие
акцентные или диалектные черты, заикание
и т. п. При этом следует отметить, что
речеслуховая система использует
параллельно и индивидуальные признаки
речевого сигнала, имеющие вероятностный
характер: высота голоса, тембр и др.
Таким
образом, слуховая система использует
не только другие признаки, чем ныне
существующие системы идентификации
говорящего, но и принципиально другой
подход к решению задачи идентификации.
Это
объясняется тем, что в области высоких
частот мы имеем чисто спектральный
слух не очень высокого разрешения, а
для частот близких к речевому диапазону
— более полный, основанный не только
на разделении спектра, а еще и на
дополнительном анализе информации
самим мозгом, давая более полную
стереокартину. Динамический диапазон
(от самых тихих воспринимаемых звуков
до самых громких) речи составляет около
96 дБ (или более чем 1 к 30 000 по линейной
шкале). Основное восприятие звука
происходит в диапазоне 1—4 кГц, в этом
же диапазоне находится речь. С возрастом
слышимый человеком частотный диапазон
сужается. Корректная передача этого
частотного отрезка — первое условие
естественности звучания. Но, помимо
высоты звука, мы способны достаточно
точно определять положение звукового
источника в пространстве. Это означает,
что звуковые волны должны обладать
свойством, на которое реагирует наш
слуховой аппарат. Слуховые приемники
(уши) разнесены на некоторое расстояние
друг от друга, поэтому звук в каждое из
них поступает не в одно и то же время,
а в разное. По задержке попадания одной
и той же звуковой волны на барабанные
перепонки мы и определяем пространственное
положение источника звука.
Таким
образом, бинауральный слух, играющий
большую роль в локализации источника
звука, лучше всего развит на частотах,
меньших 1,5 кГц. Выше этой частоты
источником информации о местоположении
служит лишь разница амплитуд сигнала
для левого и правого уха.
Слуховая
система нелинейна и не может быть точно
описана с помощью только линейных
элементов (таких, как фильтры и линии
задержки). Как побочный результат
нелинейности может проявляться,
например, следующий эффект: при подаче
двух
тонов с частотой 1000 и 1200 Гц может также
быть слышен третий тон с частотой 800
Гц.
В
области частот 1—4 кГц чувствительность
уха по всем параметрам максимальна.
Человек среднего возраста может
чувствовать звуки от 10 Гц до 20 кГц,
осмысленно слышать — от 30 Гц до 16 кГц.
Звуки выше и ниже воспринимаются, но
не составляют акустических ощущений.
Звуки выше 16 кГц ощущаются как раздражающий
неприятный фактор — давление на голову,
боль, особо громкие звуки приносят
резкий дискомфорт. Звуки ниже 30—40 Гц
при достаточной амплитуде воспринимаются
как вибрация. Человек акустически почти
не определяет пространственное
положение настолько низких звуков,
поэтому они ощущаются телом.
Рассмотрим
пространственное разрешение человеческого
слуха, то есть способность к локализации
источника звука.
Согласно
работам психоакустиков Б. Мура (Англия)
и Б. Хартмана (США), при локализации
единичного источника точность локализации
в горизонтальной плоскости достаточно
высока и составляет примерно 3 градуса,
хотя имеются данные, что минимальное
разрешение смещения источника может
составлять даже 1 градус. Существуют
два механизма локализации источника
в горизонтальной плоскости:
на
низких частотах (до 1500 Гц) — это оценка
разности по времени прихода звука к
разным ушам. При угловом смещении в 1
градус разница по времени составляет
~10 мс, что показывает высокую точность
оценки в слуховой системе;
на
высоких частотах (выше 2 кГц) — это
оценка разности по интенсивности,
возникающая за счет дифракции звука
вокруг головы.
В
реальных условиях человек может в
большинстве случаев достаточно уверенно
локализовать источники звука. Это
связано с тем, что обычно спектры
звуков каждого источника существенно
различаются. Как правило, сигналы
рассинхронизова- ны (включаются и звучат
неодновременно), и поэтому слуховая
система, выполняя спектральный анализ,
справляется с задачей локализации.
Человеческая
система восприятия звука имеет
ограниченное, зависящее от частоты
разрешения. Равномерное, с точки зрения
восприятия человеком, измерение частоты
может быть выражено в единицах ширины
критических полос: менее 100 Гц
138
125