Файл: Операции, производимые с данными.pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 28.04.2023

Просмотров: 90

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Стандарт п’редложен в 1991 году некоммерческой орган’изацией «Консорциум Юн’икода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации. П’рименен’ие этого стандарта позволяет закодироват’ь очен’ь бол’ьшое число символов из разных пис’ьменностей: в документах Unicode могут соседствоват’ь китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, п’ри этом становятся ненужными кодовые стран’ицы.

По мере изменен’ия и пополнен’ия таблицы символов системы Юн’икода и выхода новых версий этой системы, — а эта работа ведется постоянно, поскол’ьку изначал’ьно система Юн’икод включала тол’ько Plane 0 — двухбайтные коды, — выходят и новые документы ISO. Система Юн’икод существует в общей сложности в следующих версиях:

1.1 (соответствует стандарту ISO/IEC 10646—1:1993),

2.0, 2.1 (тот же стандарт ISO/IEC 10646—1:1993 плюс дополнен’ия: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2),

3.0 (стандарт ISO/IEC 10646—1:2000).

3.2 (стандарт 2002 года)

4.0 (стандарт 2003)

4.01 (стандарт 2004)

4.1 (стандарт 2005)

5.0 (стандарт 2006)

Хотя формы записи UTF-8 и UTF-32 позволяют кодироват’ь до 231 (2 147 483 648) кодовых позиций, было п’ринято решен’ие испол’ьзоват’ь лиш’ь 220+216 (1 114 112) для совместимости с UTF-16. Вп’рочем, даже и этого более чем достаточно — сегодня (в версии 5.0) испол’ьзуется чут’ь бол’ьше 99 000 кодовых позиций.

Кодовое п’ространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскост’ь называется базовой, в ней расположены символы наиболее употребител’ьных пис’ьменностей. Первая плоскост’ь испол’ьзуется, в основном, для исторических пис’ьменностей. Плоскости 16 и 17 выделены для частного употреблен’ия.

Для обозначен’ия символов Unicode испол’ьзуется запис’ь вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF), где xxx — шестнадцатеричные цифры. Нап’ример, символ «я» (U+044F) имеет код 044F16 = 110310.

Ун’иверсал’ьная система кодирован’ия (Юн’икод) п’редставляет собой набор графических символов и способ их кодирован’ия для комп’ьютерной обработки текстовых данных.

Графические символы — это символы, имеющие видимое изображен’ие. Графическим символам п’ротивопоставляются уп’равляющие символы и символы форматирован’ия.

Графические символы включают в себя следующие группы:

буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов; цифры; знаки пунктуации; специал’ьные знаки (математические, техн’ические, идеограммы и п’р.); разделители.

Юн’икод — это система для линейного п’редставлен’ия текста. Символы, имеющие дополн’ител’ьные над- или подстрочные элементы, могут быт’ь п’редставлены в виде построенной по оп’ределенным п’равилам последовател’ьности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character).


Графические символы в Юн’икоде подразделяются на п’ротяженные и неп’ротяженные (бесширинные). Неп’ротяженные символы п’ри отображен’ии не зан’имают места в строке. К н’им относятся, в частности, знаки ударен’ия и п’рочие диакритические знаки. Как п’ротяженные, так и неп’ротяженные символы имеют собственные коды. П’ротяженные символы иначе называются базовыми (base characters), а неп’ротяженные- модифицирующими (combining characters); п’ричем последн’ие не могут встречат’ься самостоятел’ьно. Нап’ример, символ «á» может быт’ь п’редставлен как последовател’ьност’ь базового символа «a» (U+0061) и модифицирующего символа « ?» (U+0301) или как монолитный символ «á» (U+00C1).

Особый тип модифицирующих символов — селекторы варианта начертан’ия (variation selectors). Он’и действуют тол’ько на те символы, для которых такие варианты оп’ределены. В версии 5.0 варианты начертан’ия оп’ределены для ряда математических символов, для символов традиционного монгол’ьского алфавита и для символов пис’ьма Phags-Pa.

Поскол’ьку одн’и и те же символы можно п’редставит’ь различными кодами, что иногда затрудняет обработку, существуют п’роцессы нормализации, п’редназначенные для п’риведен’ия текста к оп’ределенному стандартному виду.

В стандарте Юн’икода оп’ределены 4 формы нормализации текста:

  1. Форма нормализации D (NFD) — канон’ическая декомпозиция. В п’роцессе п’риведен’ия текста в эту форму все составные символы рекурсивно заменяются на нескол’ько составных, в соответствии с таблицами декомпозиции.
  2. Форма нормализации C (NFC) — канон’ическая декомпозиция с последующей канон’ической композицией. Сначала текст п’риводится к форме D, после чего выполняется канон’ическая композиция — текст обрабатывается от начала к концу и выполняются следующие п’равила:

Символ S является начал’ьным, если он имеет нулевой класс модификации в базе символов Юн’икода.

В любой последовател’ьности символов, стартующей с начал’ьного символа S символ C блокируется от S если и тол’ько если между S и C ест’ь какой-либо символ B, который или является начал’ьным, или имеет одинаковый или бол’ьший класс модификации, чем C. Это п’равило расп’ространяется тол’ько на строки п’рошедшие канон’ическую декомпозицию.

Первичным композитом считается символ, у которого ест’ь канон’ическая декомпозиция в базе символов Юн’икода.

Символ X может быт’ь первично совмещен с символом Y если и тол’ько если существует первичный композит Z, канон’ически эквивалентный последовател’ьности <X, Y>.


Если очередной символ C не блокируется последн’им встреченным начал’ьным базовым символом L, и он может быт’ь успешно первично совмещен с н’им, то L заменяется на композит L-C, а C удаляется.

  1. Форма нормализации KD (NFKD) — совместимая декомпозиция. П’ри п’риведен’ии в эту форму все составные символы заменяются испол’ьзуя как канон’ические карты декомпозиции Юн’икода, так и совместимые карты декомпозиции, после чего резул’ьтат ставится в канон’ическом порядке.
  2. Форма нормализации KC (NFKC) — совместимая декомпозиция с последующей канон’ической композицией.

Термины «композиция» и «декомпозиция» пон’имают под собой соответственно соединен’ие или разложен’ие символов на составные части.

Коды в стандарте Unicode разделены на нескол’ько областей. Област’ь с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных пис’ьменностей, знаки пунктуации и техн’ические символы. Част’ь кодов зарезервирована для испол’ьзован’ия в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F. Шестнадцат’ь разрядов позволяют обеспечит’ь ун’икал’ьные коды для 65 536 различных символов — этого поля достаточно для размещен’ия в одной таблице символов бол’ьшинства языков планеты.

Несмотря на тривиал’ьную очевидност’ь такого подхода, п’ростой механ’ический переход на данную систему долгое время сдерживался из-за недостаточных ресурсов средств вычислител’ьной техн’ики (в системе кодирован’ия UNICODE все текстовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов техн’ические средства достигли необходимого уровня обеспеченности ресурсами, и сегодня мы наблюдаем постепенный перевод документов и п’рограммных средств на ун’иверсал’ьную систему кодирован’ия. Для индивидуал’ьных пол’ьзователей это еще бол’ьше добавило забот по согласован’ию документов, выполненных в разных системах кодирован’ия, с п’рограммными средствами, но это надо пон’имат’ь как трудности переходного периода.[2,4]

2.5 Кодирование графических данных

Если рассмотрет’ь с помощ’ью увеличител’ьного стекла черно-белое графическое изображен’ие, напечатанное в газете или кн’иге, то можно увидет’ь, что оно состоит из мел’ьчайших точек, образующих характерный узор, называемый растром. Растровое изображен’ие п’редставлено на рисунке 3.


Рисунок 3 - Растровое изображен’ие

Растр - это метод кодирован’ия графической информации (точечная структура графического изображен’ия).

Поскол’ьку линейные координаты и индивидуал’ьные свойства каждой точки (яркост’ь) можно выразит’ь с помощ’ью целых чисел, то можно сказат’ь, что растровое кодирован’ие позволяет испол’ьзоват’ь двоичный код для п’редставлен’ия графических данных. Общеп’ринятым на сегодняшн’ий ден’ь считается п’редставлен’ие черно-белых иллюстраций в виде комбинации точек с 256 градациями серого цвета, и, таким образом, для кодирован’ия яркости любой точки обычно достаточно вос’ьмиразрядного двоичного числа.

Для кодирован’ия цветных графических изображен’ий п’рименяется п’ринцип декомпозиции п’роизвол’ьного цвета на основные составляющие. В качестве таких составляющих испол’ьзуют три основных цвета:

  1. красный (Red, R);
  2. зеленый (Green, G);
  3. син’ий (Blue, В).

На п’рактике считается, что любой цвет, видимый человеческим глазом, можно получит’ь путем механ’ического смешен’ия этих трех основных цветов. Такая система кодирован’ия называется системой RGB (по первым буквам назван’ий основных цветов).

Если для кодирован’ия яркости каждой из основных составляющих испол’ьзоват’ь по 256 значен’ий (восем’ь двоичных разрядов), как это п’ринято для полутоновых черно-белых изображен’ий, то на кодирован’ие цвета одной точки надо затратит’ь 24 разряда. П’ри этом система кодирован’ия обеспечивает однозначное оп’ределен’ие 16,5 млн. различных цветов, что на самом деле близко к чувствител’ьности человеческого глаза. Режим п’редставлен’ия цветной графики с испол’ьзован’ием 24 двоичных разрядов называется полноцветным (True Color).

Каждому из основных цветов можно поставит’ь в соответствие дополн’ител’ьный цвет, то ест’ь цвет, дополняющий основной цвет до белого. Нетрудно заметит’ь, что для любого из основных цветов дополн’ител’ьным будет цвет, образованный суммой пары остал’ьных основных цветов. Соответственно, дополн’ител’ьными цветами являются:

    1. голубой (Cyan, С);
    2. пурпурный (Magenta., М);
    3. желтый (yellow, Y).

П’ринцип декомпозиции п’роизвол’ьного цвета на составляющие компоненты можно п’рименят’ь не тол’ько для основных цветов, но и для дополн’ител’ьных, то ест’ь любой цвет можно п’редставит’ь в виде суммы голубой, пурпурной и желтой составляющей. Такой метод кодирован’ия цвета п’ринят в полиграфии, но в полиграфии испол’ьзуется еще и четвертая краска — черная (Black, К). Поэтому данная система кодирован’ия обозначается четыр’ьмя буквами CMYK (черный цвет обозначается буквой К, потому, что буква В уже занята син’им цветом), и для п’редставлен’ия цветной графики в этой системе надо имет’ь 32 двоичных разряда. Такой режим тоже называется полноцветным (True Color).


Если умен’ьшит’ь количество двоичных разрядов, испол’ьзуемых для кодирован’ия цвета каждой точки, то можно сократит’ь объем данных, но п’ри этом диапазон кодируемых цветов заметно сокращается. Кодирован’ие цветной графики 16-разрядными двоичными числами называется режимом High Color.

П’ри кодирован’ии информации о цвете с помощ’ью вос’ьми бит данных можно передат’ь тол’ько 256 цветовых оттенков. Такой метод кодирован’ия цвета называется индексным. Смысл назван’ия в том, что, поскол’ьку 256 значен’ий совершенно недостаточно, чтобы передат’ь вес’ь диапазон цветов, доступный человеческому глазу, код каждой точки растра выражает не цвет сам по себе, а тол’ько его номер (индекс) в некоей сп’равочной таблице, называемой палитрой. Разумеется, эта палитра должна п’рикладыват’ься к графическим данным — без нее нел’ьзя воспол’ьзоват’ься методами восп’роизведен’ия информации на экране или бумаге (то ест’ь, воспол’ьзоват’ься, конечно, можно, но из-за неполноты данных полученная информация может быт’ь неп’равил’ьной: листва на дерев’ьях может оказат’ься красной, а небо — зеленым).

2.6 Кодирование звуковой информации

П’риемы и методы работы со звуковой информацией п’ришли в вычислител’ьную техн’ику позднее. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было стол’ь же длител’ьной и п’роверенной истории кодирован’ия. В итоге методы кодирован’ия звуковой информации двоичным кодом далеки от стандартизации. Множество отдел’ьных компан’ий разработали свои корпоративные стандарты, но если говорит’ь обобщенно, то можно выделит’ь два основных нап’равлен’ия.

  1. Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложит’ь на последовател’ьност’ь п’ростейших гармон’ических сигналов разных частот, каждый из которых п’редставляет собой п’равил’ьную синусоиду, а следовател’ьно, может быт’ь описан числовыми параметрами, то ест’ь кодом. В п’рироде звуковые сигналы имеют неп’рерывный спектр, то ест’ь являются аналоговыми. Их разложен’ие в гармон’ические ряды и п’редставлен’ие в виде дискретных цифровых сигналов выполняют специал’ьные устройства — аналогово-цифровые п’реобразователи (АЦП). Обратное п’реобразован’ие для восп’роизведен’ия звука, закодированного числовым кодом, выполняют цифро-аналоговые п’реобразователи (ЦАП). П’ри таких п’реобразован’иях неизбежны потери информации, связанные с методом кодирован’ия, поэтому качество звукозаписи обычно получается не вполне удовлетворител’ьным и соответствует качеству звучан’ия п’ростейших электромузыкал’ьных инструментов с окрасом, характерным для электронной музыки. В то же время данный метод кодирован’ия обеспечивает вес’ьма компактный код, и потому он нашел п’рименен’ие еще в те годы, когда ресурсы средств вычислител’ьной техн’ики были явно недостаточны.
  2. Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техн’ики. Если говорит’ь уп’рощенно, то можно сказат’ь, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкал’ьных инструментов (хотя не тол’ько для н’их). В техн’ике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, п’родолжител’ьност’ь и интенсивност’ь звука, динамику его изменен’ия, некоторые параметры среды, в которой п’роисходит звучан’ие, а также п’рочие параметры, характеризующие особенности звука. Поскол’ьку в качестве образцов испол’ьзуются «реал’ьные» звуки, то качество звука, полученного в резул’ьтате синтеза, получается очен’ь высоким и п’риближается к качеству звучан’ия реал’ьных музыкал’ьных инструментов.