Файл: Анализ многоуровневой обработки речевых сигналов при наличии шумов.docx

Преобразование речевого аудио в формат данных, используемый системой ML, является начальным этапом процесса распознавания говорящего. Начните с записи речи с помощью микрофона и преобразования аудиосигнала в цифровые данные с помощью аналого-цифрового преобразователя. Дальнейшая обработка сигнала обычно включает в себя такие процессы, как обнаружение голосовой активности (VAD), подавление шума и выделение признаков. Мы рассмотрим каждый из этих процессов позже. Во-первых, давайте рассмотрим некоторые ключевые методы предварительной обработки речевого сигнала: масштабирование функций и преобразование стерео в моно. Поскольку диапазон значений сигнала сильно варьируется, некоторые алгоритмы машинного обучения не могут должным образом распознавать звук без нормализации. Масштабирование объектов - это метод, используемый для нормализации диапазона независимых переменных или признаков данных. Масштабирование данных устраняет разреженность, приводя все ваши значения к одному масштабу, следуя той же концепции, что и нормализация и стандартизация. Например, вы можете стандартизировать свои аудиоданные с помощью sk. Количество каналов в аудиофайле также может влиять на производительность вашей системы распознавания громкоговорителей. Аудиофайлы могут быть записаны в моно- или стереоформате: моно-аудио имеет только один канал, в то время как стереозвук имеет два или более каналов. Преобразование стереозаписей в моно помогает повысить точность и производительность системы распознавания громкоговорителей. Python предоставляет модуль pydub, который позволяет воспроизводить, разделять, объединять и редактировать аудиофайлы WAV. Вот как вы можете использовать его для преобразования стереофонического WAV-файла в монофонический файл.

Анализ и обработка речи

К технологиям анализа и обработки речи относят быстрый поиск ключевых слов в аудиозаписях, автоматический анализ и оценку телефонных переговоров, интеллектуальный анализ речевой информации. Даннная технология отличается простотой использования и точностью поиска в фонограммах, которая определяется поисковым словарем. Так, для словаря из пяти слов надежность поиска составляет не менее 95%, для словаря из 100 слов — 81%. Интеллектуальный анализ речевой информации позволяет автоматически определять тематику телефонных переговоров. В основе анализа лежат технологии распознавания слитной речи. В результате автоматического распознавания речь дикторов преобразуется в текстовый индексированный файл, пригодный для автоматического лексико-семантического анализа. Решение о принадлежности аудиозаписи к абстрактному тематическому кластеру проводится с учетом

частотности и связности слов и словосочетаний, употребляемых дикторами в ходе телефонной беседы (рис. 1).

Рис. 1. Пример семантического облака темы «Восстановление пароля»

Информацию, содержащуюся в речевом сигнале, можно разделить на основную, заключающуюся в передаче смыслового содержания речи, а также дополнительную, которая включает в себя информацию о характеристиках передающей среды. Характеристики передающей среды обычно включают уровень и тип окружающего шума (офисные шумы, уличные шумы, фоновая музыка, голоса других людей и т.д.), шум и искажения в канал передачи (микрофоны, усилители, АЦП, кодеки и т.д. Характеристик передающей среды помогает решать задачи очистки от шума и улучшения качества речевых сигналов, а также оценивать их пригодность для последующего использования в системах автоматического распознавания речи и голоса. Так, например, точность большинства систем автоматического распознавания речи и голоса резко ухудшается при снижении отношения сигнал-шум менее 15 дБ, увеличении уровня реверберации более 0,4 с. Речевые сигналы с «пригодными» параметрами характерны, в основном, для каналов телефонной связи. Речевые сигналы в акустике помещений имеют значительно худшие параметры, что приводит к низкой точности распознавания речи и голоса на таких данных. Кроме того, выполняется оценка качества речевого сигнала для оценки его пригодности для распознавания речи и голоса.

Глава 2. Разработка оптимального алгоритма очистки речевого сигнала, методы, основанные на вычитании амплитудных спектров

2.1 Методы, основанные на оценке спектральных характеристик шума

2.2 Динамическое шумоподавление

2.3 Определения эффективности очистки речевых сигналов разработанным алгоритмом

2.4 Разработка схемы работы программы

2.1 Методы, основанные на оценке спектральных характеристик шума

Звуковой сигнал, записываемый в реальных акустических условиях, часто содержит нежелательные шумы, которые могут порождаться окружающей средой или звукозаписывающей аппаратурой. Один из классов шумов - аддитивные стационарные шумы. Аддитивность означает, что шум суммируется с "чистым" сигналом и не зависит от него, сигнал , в этом случае определяется выражением. Стационарность означает, что свойства шума (мощность, спектральный состав) не меняются во времени. Примерами таких шумов могут являться постоянное шипение микрофона или усилительной аппаратуры, гул электросети. Работа различных приборов, не меняющих звучания по времени (вентиляторы, компьютеры) также может создавать шумы, близкие к стационарным. Не являются стационарными шумами различные щелчки, удары, шелест ветра, шум автомобилей. Для подавления аддитивных стационарных шумов существует алгоритм спектрального вычитания. Он состоит из следующих стадий:

1. Разложение сигнала с помощью быстрого преобразования Фурье или другого преобразования, компактно локализующего энергию сигнала.

2. Оценка спектра шума.

3. "Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.

4. Обратное преобразование - синтез результирующего сигнала.

2.2 Динамическое шумоподавление

Применение данного метода обусловлено тем, что одновременно с подавлением шумов происходит выделение так называемых образцов шума, которые используют на следующем этапе для спектрального вычитания. На втором этапе используются методы, основание на различных модификациях алгоритма вычитания амплитудного спектра. Такой подход оптимален в случае широкополосных непрерывных и импульсно-непрерывных помех, пересекающихся с областью спектра речи. Шумы данного типа не могут быть удалены другими методами (например, адаптивной фильтрацией), поскольку такие помехи являются рассредоточенными по спектру и пересекаются с областью спектра речи. Пусть - спектр зашумленного сигнала на р-м фрейме, - спектр шума, - спектр восстановленного сигнала на р-м фрейме. На практике шум вычисляется на шумовых фреймах сигнала . Это связано с тем, что обычно известен только зашумленный сигнал. Следует отметить, что обрабатывается весь спектр сигнала, а не только речевой диапазон. Выявленные участки относительной тишины сохраняются и используются в дальнейшем шумопонижении. Входной сигнал должен иметь нормированный уровень, для чего в микрофонном усилителе используется автоматическая регулировка усиления, что также позволяет наиболее эффективно использовать АЦП, задействовав всю его разрядность.

2.3 Определения эффективности очистки речевых сигналов разработанным алгоритмом

Для определения эффективности очистки речевых сигналов от шумов помех и искажений, необходимо провести ряд исследований нацеленных на получение качественных результатов, по итогам которых выносится оценка качества и эффективности исследуемого программного или программно-аппаратного средства.Исследования проводились в соответствии с ГОСТ Р 50840-95 «Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости» [10], а также ГОСТ Р 51061-97 «Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений» [11]. Стандарты регламентируют получение комплексной оценки качества передачи речи, основанной на методах измерения показателей разборчивости, качества и узнаваемости речи. Разборчивость речи можно определить через относительное количество (в процентах) правильно принятых элементов (слогов, слов, фраз) артикуляционных таблиц. Узнаваемость голоса диктора представляет собой величину, характеризующую степень сохранения субъективно воспринимаемых индивидуальных признаков голоса диктора. В рамках исследований измерения разборчивости речи и узнаваемости голоса диктора проводились методами: