Файл: Мультимедиа технологии.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.11.2023

Просмотров: 563

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

146 их записи на обычные CD-ROM гораздо меньшей, чем DVD, емкости.
Модификация MPEG 4 с таким предназначением носит название DivX и обеспечивает вполне приемлемое качество видеоматериалов.
Стандарт MPEG 7 является еще одним представителем семейства
MPEG и предназначен для детального описания разнородного мультимедийного материала. На его основе, например, можно создавать цифровые мультимедийные библиотеки, осуществлять поиск мультимедийного материала и мультимедийное редактирование. MPEG 7 позволит вести мультимедийный поиск во «всемирной паутине» так же, как и текстовый, на основе предложенных в качестве образцов мультимедийных фрагментов. Кроме того, можно проводить фильтрацию поступающей информации, вырезая из нее, скажем, рекламу.
Таким образом, лишь стандарт MPEG 1 можно считать устаревшим, так как его основной целью являлось обеспечение возможности работы на слабых компьютерах. Остальные же стандарты не конкурируют друг с другом, поскольку имеют различные области применения.
Таблица 7.1 Характеристики стандартов MPEG
MPEG-1
MPEG-2
MPEG-4
MPEG-7
MPEG-21
Стандарт
ISO/IEC
11172
ISO/IEC
13818
ISO/IEC 14496
ISO/IEC
15938
ISO/IEC
21000
Назначение
Кодирова ние аудио и видео
Кодирование аудио и видео
Низкоскоростно е кодирование аудио и видео
Интерфейс описания мультимед ийного контента
Открытая структура доступа к средствам мультимедиа
Скорость
1,5
Мбит/с.
От 4 до 80
Мбит/с.
От 16 до 4000 кМбит/с.


Год разработки
1992 994 998 2001 2001
7.2 Стандарт сжатия MPEG-1
Части MPEG-1
1. Синхронизация и мультиплексирование аудио и видео (MPEG-1
Program Stream).

147 2. Кодек для видео с прогрессивной разверткой (MPEG-1 Video).
3. Кодек для звука. Стандарт MPEG-1 определяет три уровня сжатия звука:
MP1 или MPEG-1 часть 3 уровень 1 (MPEG-1 Audio Layer 1);
MP2 или MPEG-1 часть 3 уровень 2 (MPEG-1 Audio Layer 2);
MP3 или MPEG-1 часть 3 уровень 3 (MPEG-1 Audio Layer 3).
4. Процедуры тестирования производительности.
5. Эталонное ПО (Reference software).
Отличия от более ранних стандартов:
1. Для вычисления среднего цвета точек фрагментов каждого кадра используются более сложные функции, чем у предыдущих форматов. Они позволяют получить более точное значение цвета.
2. Предыдущие форматы кодирования видео просто записывали друг за другом массивы данных, кодирующие отдельные кадры. Каждый такой массив содержал полное описание кадра.
Принцип работы MPEG
Каждый кадр (frame) в MPEG может быть следующего вида:
1. I (Intra) – исходный (ключевой) кадр, который кодируется как обыкновенная картинка. I-кадры играют роль опорных при восстановлении остальных изображений;
2. P (Predicted) – предсказанные кадры, описывающие различия между текущим и предыдущим кадрами (типа I или P);
3. B (Bidirectional) – интерполированные в двух направлениях (вперед и назад) кадры, содержащие лишь указатели на предыдущие или последующие кадры типа I или P.
Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P- кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и


148
DVD,
IPB группа
15/3 имеет следующий вид:
«IBBPBBPBBPBBIBBPBBPB...».
Здесь каждый B кадр восстанавливается по окружающим его P-кадрам
(в начале и конце группы – по I и Р), а в свою очередь каждый Р-кадр – по предыдущему Р- (или I-) кадру. В то же время I-кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P- и тем более B-кадров группы. Соответственно, у I и P наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B – 1/8 часть.
В результате, MPEG последовательность IPPP (GOP 4/1) обеспечивает
2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I-кадров, а использование GOP
15/3 позволяет достичь 4-кратного сжатия.
Нужно заметить, что прежде чем декодировать B-кадр, требуется декодировать два I- или P-кадра. Существуют разные стандарты на частоту, с которой должны следовать I-кадры (приблизительно 1–2 в секунду), соответствующие стандарты есть и для P-кадров (каждый третий кадр должен быть P-кадром).
Для большего сжатия в B- и P-кадрах используется алгоритм предсказания движения, на выходе которого получается:
 вектор смещения (вектор движения) блока, который нужно предсказать относительно базового блока;
 разница между блоками (которая затем и кодируется). Так как не любой блок можно предсказать основании информации о предыдущих, в P- и
B-кадрах могут находиться I-блоки (блоки без предсказания движения).
Метод кодировки блоков (либо разницы, получаемой при методе предсказания движения) основывается на дискретном косинусном преобразовании (ДКП). ДКП предусматривает разбиение кадра на блоки по
64 (8>8) отсчета, называемые сигнальными матрицами. Суть здесь в том, что в результате исходная сигнальная матрица преобразуется в матрицу частотных коэффициентов такого же размера. Она уже не имеет прямой

149 геометрической связи с положением отсчетов сигнала в растре, а просто является удобной формой математической записи, в которой частотные коэффициенты дискретного косинусного преобразования можно рассматривать как двумерный спектр изображения в горизонтальном и вертикальном направлениях. ДПК-спектр очень удобен для сжатия данных.
Одной из его особенностей является то, что основной «вес» его составляющих концентрируется в небольшой области вблизи нулевых частот, а амплитуды высокочастотных составляющих или очень малы, или равны нулю. При этом передаются только те коэффициенты, которые превышают пороговую величину, а остальные считаются нулевыми.
Введение порога, естественно, приводит к потерям информации и, соответственно, к снижению качества восстановленного изображения, однако при оптимальном выборе величины порога такое ухудшение окажется практически незаметным. Что касается звука, то форматы его кодирования, существующие в MPEG, делятся на три части: Layer I, Layer II, Layer III
(который сейчас еще называют как mp3 или mpeg3, что, в общем-то, неверно). Layer III обеспечивает самое большое сжатие и требует больших ресурсов для кодирования. Принципы кодирования звука основаны на том факте, что человеческое ухо несовершенно, и на самом деле в несжатом звуке с качеством аудио компакт-диска (16 бит, 44,1 кГц) передается много избыточной информации. Принцип сжатия использует эффект маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха в периоды в 100 мс после и 5 мс до возникновения сильного звука).
Психоаккустическая модель, используемая в MPEG, разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки, не воспринимаемые человеком. Аудиопараметры
MPEG-1 включают поддержку частот дискретизации: 48, 44,1, 32 кГц; сигналы могут быть следующих типов – singlechannel (моно), dual channel
(два моноканала), stereo (стерео), intensity stereo (интенсивное стерео), joint


150 stereo (разновидность стерео). Последним ключевым моментом сжатия видео- и аудиоданных является синхронизация. Видеопоток содержит заголовок, затем несколько групп картинок (заголовок и несколько картинок необходимы для того, чтобы обеспечить произвольный доступ к картинкам в группе вне зависимости от их порядка). Звуковой поток состоит из пакетов, каждый из которых состоит из заголовка и нескольких звуковых кадров. Для синхронизации в третий, системный поток, встраивается таймер, работающий с частотой 90 кГц – метка, по которой происходит увеличение временного счетчика в декодере, и метка начала воспроизведения
(Presentation Data Stamp). «Метка начала» вставляется в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. К несчастью, MPEG-1 обеспечивал качество видеоизображения более низкое, чем даже аналоговое видео, передаваемое по телевизионному стандарту.
Поэтому вскоре на смену ему пришел более совершенный MPEG-2.
Характеристики формата MPEG-1:
MPEG-1 Video:
 кодирование с потерями;
 размер кадра – до 4095х4095 пикселов (стандартными являются соотношения 352x240x30 и 352x288x25);
 битрейт – до 100 Мбит/с (стандартным является битрейт порядка 1.5
Мбит/с);
 поддержка как постоянного, так и переменного битрейта.
Достоинства MPEG-1 Video:
 отличное качество видео и очень высокая степень сжатия (на момент создания);
 сравнительно прост в аппаратной реализации;
 содержит преобразования, поддерживаемые на аппаратном уровне большим количеством видеокарт;
 низкие аппаратные требования (в настоящее время).
Недостатки MPEG-1 Video:

151
 высокие аппаратные требования (на момент создания);
 плохая поддержка видео с размерами кадра, большими, чем 352х240 пикселов;
 поддержка только прогрессивной развертки;
 невысокая степень сжатия (в настоящее время).
7.3 Стандарт сжатия MPEG2
После завершения работы в 1993 г. над MPEG-1 была начата работа над MPEG-2, в задачу которого входило описание потока данных со скоростью от 3 до 10 Мбит/с. Практически в то же время была начата работа над MPEG-3, который был предназначен для описания потоков 20-40 Мбит/с.
Однако вскоре выяснилось, что алгоритмические решения для MPEG-2 и
MPEG-3 принципиально близки и можно безболезненно расширить рамки
MPEG-2 до потоков в 40 Мбит/с. В результате работа над MPEG-3 была прекращена.
Первая редакция (First Edition) MPEG-2 появилась в 1995 г. Доработки продолжались до 2000 г., в котором вышла Вторая редакция (Second Edition).
Последние изменения в стандарт были внесены в 2011 г.
Компрессия по стандарту MPEG-2 кардинально изменила положение вещей. Суть его работы основана на том, что более 97% цифровых данных, представляющих видеосигнал, дублируются, то есть являются избыточными и могут быть сжаты без ущерба для качества изображения. Алгоритм MPEG-
2 анализирует видеоизображение в поисках повторений, называемых избыточностью. В результате процесса удаления избыточности формат
MPEG-2 обеспечивает превосходное видеоизображение при более низкой скорости передачи данных. По этой причине современные средства поставки видеопрограмм, такие, как цифровые спутниковые системы и DVD, используют именно стандартMPEG-2. По сравнению с MPEG-1 изменения произошли как в звуковой, так и в видеочасти.
Основные изменения в видео:


152
 поддержка стандартов цветности 4:4:4 и 4:2:2;
 разрешение кадра до 16383>16383;
 возможность кодирования видео с чересстрочной разверткой;
 наличие режимов масштабирования.
Изменения в звуке:
 поддержка частот дискретизации 16, 22,05 и 24 кГц;
 поддержка многоканального звука (возможность иметь 6 полноценных каналов: левый, правый, центральный, два задних и низко- частотный);
 введен механизм AAC (Advanced Audio Coding) – стандарт обеспечивает очень высокое качество звука на скорости 64 кбит/сна канал
(допускается от 8 до 96 кбит/с), возможно использование 48 основных каналов, 16 низкочастотных каналов для звуковых эффектов, 16 многоязыковых каналов и 16 каналов данных. Сегодня цифровое телевидение немыслимо без стандарта MPEG-2. Можно сказать, что оно вообще смогло выйти за порог студий лишь благодаря методам компрессии, основанным на
«схожести» последовательных изображений и несовершенстве нашего зрения. Для цифрового телевещания алгоритмы сжатияMPEG-2 позволяют без заметной потери качества снизить первоначальную скорость передачи приблизительно в 20 раз. Если жене предъявлять высоких требований к качеству, то скорость можно снизить в 50 и даже 100 раз. Что касается DVD, видеосигнал, хранящийся на DVD-диске, получается сжатием студийного видеосигнала CCIR-601 так же по алгоритму
MPEG-2. Если изображение сложное или быстро изменяется, возможны заметные на глаз дефекты сжатия вроде дробления или размытости изображения. При скорости 3,5 Мбит/с дефекты сжатия иногда бывают заметны. При скорости 6 Мбит/с сжатый сигнал почти не отличается от оригинала.

153
1   ...   8   9   10   11   12   13   14   15   ...   37

Методы кодирования MPEG-1, MPEG-2
внутрикадровое
(intraframe) кодирование.
Уменьшает психофизиологическую избыточность в отдельных кадрах;
межкадровое(interframe) кодирование. Уменьшает избыточность, oбусловленную межкадровой корреляцией.
Межкадровое кодирование дает большую степень сжатия движущегося изображения, чем при сжатии отдельных кадров по JPEG.
Процесс кодирования видео в MPEG-2
Поток видеоданных, определяемый спецификацией
13818-2, представляет собой иерархическую структуру, элементы которой строятся и объединяются друг с другом в соответствии с определенными синтаксическими и семантическими правилами. Существует 6 типов элементов этой иерархической структуры:
1. Видеопоследовательность.
2. Группа изображений.
3. Изображение.
4. Срез.
5. Макроблок.
6. Блок.
Видеопоследовательность – элемент потока видеоданных высшего уровня. Она представляет собой серию последовательных кадров телевизионного изображения. MPEG-2 допускает как построчные, так и чересстрочные последовательности.
Чересстрочная последовательность – это серия телевизионных полей. В процессе компрессии поля могут кодироваться раздельно. Это дает изображения типа «поле». Два поля, кодируемые как телевизионный кадр, образуют изображение типа
«кадр».
В одной чересстрочной последовательности могут использоваться и изображения-поля, и изображения-кадры. В последовательностях с построчным разложением каждое изображение представляет собой кадр. В соответствии с используемыми методами дифференциального кодирования различают три

154 типа изображений: I, P и B. Изображение типа I кодируется с использованием только той информации, которая содержится в нем самом (I - Intra-coded picture). В нем устраняется только пространственная избыточность. При кодировании P и B изображений используется межкадровое кодирование.
При кодировании изображения типа P формируется разность между исходным изображением и предсказанием, полученным на основе предшествующего или последующего изображения типа I (P - Predictive- coded picture). Изображение типа B – это изображение, при кодировании которого используется предсказание, сформированное на основе предшествующего и последующего изображений типа I или P (B –
Bidirectionally-predicted-coded picture). В изображениях типа P и B устраняется и пространственная, и временная избыточность. Серия изображений, содержащих одно I-изображение, называется группой изображений. Пример видеопоследовательности с различными типами изображений показан на рисунке 7.1 (стрелками показаны направления предсказания в пределах одной группы изображений). Чем больше группа изображений, тем большая степень компрессии может быть достигнута.
Рис. 7.1 Видеопоследовательность и группа изображений
Рис. 7.2 Изображение со срезами и макроблоками