Файл: Направление подготовки 09. 03. 04 Программная инженерия.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.10.2023

Просмотров: 230

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение



В наше время наблюдается очевидная тенденция на автоматизацию и делегирование боль- шого круга задач компьютеру. Данное направление развития затронуло даже, казалось бы, сугубо человеческие задачи, такие как анализ аудио- и видеоинформации. Это связано как с большим прогрессом в данной области, так и с повышением требований к комфортному су- ществованию человека.

Тема анализа изображений и звуковых сигналов хорошо изучена, данные технологии при- меняются в различных сферах деятельности человека. В то же время взаимосвязи данных ис- точников информации уделено гораздо меньше внимания. Различные визуальные события в нашей повседневной жизни обычно сопровождаются звуками. Поскольку визуальные собы- тия и звуки коррелируют, человек может инстинктивно делать выводы о звуках, наблюдая за визуальными сигналами.

В данной работе рассматривается задача генерации аудиоинформации на основе видеоза- писи, не содержащей звук, что полезно для многих реальных приложений, таких как авто- матизация видеомонтажа, технологии виртуальной реальности (автоматически генерировать звук для виртуальных сцен), создание звука для немого кино и помощь людям с нарушениями зрения.

Важным аспектом является необходимость генерации аудиоинформации, соответствую- щей видеосигналам как с точки зрения периодичности (звук при ударе молотом возникает именно в момент прикосновения), так и с точки зрения не избыточности (во время удара мо- лотом необходимо генерировать только звук удара, но не человеческую речь на фоне).

Исходя из описанного, цель работы: Разработка метода и программных модулей генерации аудиоинформации на основе видеозаписи.

  1. Анализ существующих решений, моделей и методов генерации аудиоинформации на основе видеоинформации



    1. Применение технологий нейронных сетей для задач обработки аудио- визуальной информации


Так как в наше время еще нет разработанного алгоритмического подхода генерации зву- ка, соответствующего визуальному или текстовому описанию, в данном направлении приме- няются технологии нейронных сетей и машинного обучения, чья эффективность в решении подобных задач доказана на практике [1—4].

Нейронные сети широко применяются для обработки видео [5—8] и аудио [9; 10] инфор- мации по отдельности. Тем не менее, синхронизированная визуальная и звуковая информа- ция, содержащаяся в большинстве видеороликов, может быть применима для создания более эффективных решений по одному из направлений [11; 12]. Используя визуальную информа- цию для оценки в работе [13] представлена сеть для изучения ассоциаций между естествен- ными сценами и звуковым сопровождением. В работах [14] и [1] изучается взаимосвязь ви- зуальной информации и звукового сопровождения на базе обучения без учителя на неразме- ченных видео. В работах [15—17] реализуется разделение звуковых сигналов с использовани- ем визуально-звуковой информации. В работе [18] представлена система слежения за движу- щимся транспортным средством, основанную на зрительно-звуковых связях. Некоторые дру- гие визуально-звуковые исследования включают аудиовизуальную совместную сегментацию

[19] и аудиовизуальную навигацию [20].



Наиболее популярными и эффективными инструментами, используемыми при проекти- ровании нейронных сетей для задач генерации звука по видео, являются сверточные [21; 22], рекуррентные [21—23] и генеративно-состязательные [2] нейронные сети.
    1. 1   2   3   4   5   6   7   8   9   ...   15

Сверточные нейронные сети


В наше время среди всех технологий глубокого обучения к задачам анализа изображений и образов чаще всего применяются сверточные нейронные сети [24]. Данная архитектура по- лучила свою популярность благодаря высокой эффективности. Сверточные нейронные сети объединяют три архитектурных идеи, для обеспечения инвариантности к изменению масшта- ба, повороту, сдвигу и пространственным искажениям:

  1. Локальные рецепторные поля.

  2. Общие синаптические коэффициенты (обеспечивают детектирование некоторых черт в любом месте изображения и уменьшают общее число весовых коэффициентов).

  3. Иерархическая организация с пространственными подвыборками

Классическая сверточная нейронная сеть (СНС) состоит из трех типов нейронов:

  1. Cверточные (convolutional) нейроны.

  2. Cубдискретизирующие (subsampling, подвыборка) нейроны.

  3. Нейроны ”обычной” нейронной сети персептроны.

Сверточные нейроны образуют сверточный слой и выполняют операцию свертки. Сверт- ка чаще всего применяется к трехмерным тензорам, называемым картами признаков с двумя пространственными осями (высота и ширина), а также с осью глубины (или осью каналов). Например, для изображений в формате RGB размерность оси глубины равна трем, потому что имеется три канала цвета: красный (red), зеленый (green) и синий (blue), для черно-белых изоб- ражений ось глубины имеет размерность один.

Операция свертывания извлекает шаблоны из своей входной карты признаков и применя- ет одинаковые преобразования ко всем шаблонам, производя выходную карту признаков. Эта выходная карта признаков также является трехмерным тензором: она имеет ширину и высоту. Ее глубина может иметь любую размерность, потому что
выходная глубина является парамет- ром слоя, и разные каналы на этой оси глубины больше не соответствуют конкретным цветам, скорее они представляют собой конкретные аспекты входных данных [24]. Ширину и высоту тензоров выходной карты можно описать формулой (при условии отсутствия дополнений и с шагом свертки равным одному):
(w,h) = (mW kW+ 1,mH kH+ 1) (1.1)

где (w,h) - вычисляемый размер сверточной карты, mW- ширина предыдущей карты, mH

- высота предыдущей карты , kH- высота ядра, kW- ширина ядра.

Данная формула становится очевидной, если рассмотреть метод работы свертки: выполня- ется операция скользящего окна (называемого ядром) размер которого обычно варьируется от 3×3 до 7×7, оно двигается по трехмерной входной карте признаков, останавливается в каждой возможной позиции и извлекает трехмерный шаблон окружающих признаков. Каждый такой трехмерный шаблон затем преобразуется в вектор путем умножения тензора на матрицу весов, получаемую в процессе обучения. Все эти векторы затем преобразуются в трехмерную выход- ную карту. Изобразим операцию свертки применимо к тензору с глубиной равной единице

(рис 1.1).



Рис. 1.1 Операция свертки


Формульное описание:
xl= f( xl1 × kl+ bl) (1.2)

jijj

i

где xl- карта признаков j(выход слоя l), f() - функция активации, bl- коэффициент сдвига

jj


j
признаков слоя lдля карты признаков j, kl- ядро свертки jкарты слоя l, × - операция свертки

входы xс ядром k.

Благодаря данной операции реализуются одни из главных преимуществ СНС: инвариант- ность изучаемых шаблонов в отношении переноса, так как ядро не изменяется при скольжении по изображению (реакция на одинаковый элемент в правом верхнем и левом нижнем углах бу- дет одинаковой), и способность ”изучать” пространственные иерархии шаблонов (первый слой просматривает небольшие локальные шаблоны, следующий уже более крупные).

Субдискретизирующие нейроны используются для агрессивного уменьшения разрешения карты признаков. Уменьшение разрешения используется для уменьшения количества коэф- фициентов в карте признаков для обработки, а также внедрения иерархий пространственных фильтров (аспектов входных данных) путем создания последовательных слоев свертки, увели- чивая долю исходных данных, покрываемых ядром.

Классический субдискретизирующие нейрон выполняет операцию Max Pooling (выбор мак-

симума) из области размером 2 × 2 (с шагом 2) (рис. 1.2).Применением подобной операции мы уменьшаем размерность карты признаков (ширина и высота) в два раза. Формально слой мо- жет быть описан формулой:
xl= f(alsubsample(xl1) + bl) (1.3) где xl- выход слоя l, f() - функция активации, al, bl- коэффициент сдвига признаков слоя

l, subsample() - операция выбора локальных максимальных значений.