Файл: Операции, производимые с данными (Операции с данными).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 25.06.2023

Просмотров: 65

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

То же самое универсальное кодирование означает, что проблема достаточно успешно реализуется в отдельных отраслях машиностроения, науки и культуры. В качестве примера системы записи математических выражений, телеграфный алфавит, флаг морской алфавит, системой Брайля для слепых, и многое другое.

Рисунок 1 – Примеры различных систем кодирования

Своя система существует и в вычислительной технике — она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски — binary digit или сокращенно bit (бит).

Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т. п.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия:

00 01 10 11

Тремя битами можно закодировать восемь различных значений: 000 001 010 011 100 101 110 111

Увеличивая на единицу количество разрядов в системе двоичного кодирования, мы увеличиваем в два раза количество значений, которое может быть выражено в данной системе, то есть общая формула имеет вид:

Т=2m

где N— количество независимых кодируемых значений;

m — разрядность двоичного кодирования, принятая в данной системе.

3.2 Кодирование целых и действительных чисел

Целые числа кодируются двоичным кодом достаточно просто — достаточно взять целое число и делить его пополам до тех пор, пока частное не будет равно единице. Совокупность остатков от каждого деления, записанная справа налево вместе с последним частным, и образует двоичный аналог десятичного числа.

19:2 = 9 + 1

9:2=4+1

4 : 2 = 2 +-0

2:2=1+0

Таким образом, 19 10= 100112.

Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит). Шестнадцать бит позволяют закодировать целые числа от 0 до 65 535, а 24 бита — уже более 16,5 миллионов разных значений.

Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число предварительно преобразуется в нормализованную форму:

3,1415926 = 0,31415926 • 101 300 000 = 0,3 • 106

123 456 789 - 0,123456789 • 1010

Первая часть числа называется мантиссой, а вторая — характеристикой. Большую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранения характеристики (тоже со знаком).


3.3 Кодирование текстовых данных

Если каждый символ алфавита соответствует определенное число (например, серийный номер), затем с помощью двоичного кода можно кодировать и текстовую информацию. Восемь битов достаточно для кодирования 256 различных символов. Этого достаточно, чтобы выразить различные комбинации восьми битов всех символов на английском и русском языках, причем оба строчных и заглавных букв и знаков препинания, символы, основные арифметические и некоторые наиболее часто встречающиеся специальные символы, такие как «§».

  С технической точки зрения это выглядит очень просто, но всегда были достаточно сильны организационные сложности. В первые дни вычислений, они были связаны с отсутствием стандартов, и теперь называется, наоборот, обилие параллельных и противоречивых стандартов. Для того, чтобы во всем мире одни и те же кодированные текстовые данные, нам нужны общие таблицы кодирования, и это пока не представляется возможным из-за противоречий между символами национальных алфавитов, а также корпоративный характер противоречий.

  Для английского языка, де-факто захватили нишу международных средств связи, противоречия уже сняты. Американский институт стандартов (ANSI - Американский национальный институт стандартов) внедрило систему кодирования ASCII (Американский стандартный код для обмена информацией - стандартный код США для обмена информацией). Система ASCII фиксированной кодовой книги два - начального до продвинутого. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

  Первый +0,32 основной кодовой таблицы, начиная с нуля, учитывая производители оборудования (особенно производителей компьютеров и принтеров). В этой области расположены так называемые управляющие коды, которые не соответствуют любые символы языков, и, следовательно, коды не выводятся на экран или печатающего устройства, но они могут управляться с помощью обоих режимов отображения других данных.

  Начиная с кода 32 кода 127 кодов доступны английские символы, знаки препинания, цифры, арифметические и некоторые вспомогательные символы. Базовая таблица kodiuovki ASCII приведена в таблице 2. Аналогичные системы кодирования текстовых данных были разработаны и в других странах. Например, в СССР в области кодирования системы работают кои-7 (обмен информацией код, семизначный). Тем не менее, поддержка аппаратного и программного обеспечения производителей привел американский код ASCII на уровне международных стандартов, а также национальных систем кодирования должны «отступление» ко второй, расширенной части системы кодирования, которая определяет значения кодов 128 255. отсутствие единого стандарта в этой области привело к множественности одновременно работающих кодировок. Только в России, можно указать три существующего стандарта кодирования и еще два устарели.


Таблица 2 – Базовая таблица кодировки ASCII

Так, например, кодировка символов русского языка, известная как кодировка Windows-1251, была введена «извне» — компанией Microsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение (таблица 3). Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Таблица 3 – Кодировка Windows 1251

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) — ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы (таблица 4). Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернет».

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название кодировки /50 (International Standard Organization — Международный институт стандартизации). На практике данная кодировка используется редко (таблица 5).

Таблица 4- Кодировка КОИ-8

Таблица 5 – Кодировка ISO

Таблица 6 – ГОСТ-альтеннативная кодировка

На компьютерах, работающих в операционных системах MS-DOS, могут действовать еще две кодировки (кодировка ГОСТ и кодировка ГОСТ-альтернативная). Первая из них считалась устаревшей даже в первые годы появления персональной вычислительной техники, но вторая используется и по сей день (таблица 6).

В связи с изобилием систем кодирования текстовых данных, действующих в России, возникает задача межсистемного преобразования данных — это одна из распространенных задач информатики.

3.4 Универсальная система кодирования текстовых данных

  Если проанализировать организационные проблемы, связанные с созданием единого sistemsh кодирования текстовых данных, то можно сделать вывод о том, что они вызваны ограниченным набором кодов (256). В то же время, очевидно, что если, например, Восьмибитовое кодированные символы представляют собой двоичные числа, числа с большим количеством битов, коды и диапазон возможных значений будет значительно больше. Такая система, основанная на 16-битной кодировке символов, называется универсальной - UNICODE. Unicode (Unicode или Unicode, английский Unicode.) - Стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Unicode имеет несколько форм представления: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Она была разработана как форма представления UTF-7 для семи каналов передачи битов, но из-за несовместимости с ASCII не получила широкого распространения и не входит в стандарт. В MicrosoftWindows NT и основанный на нем Windows 2000 и системы Windows XP, в основном используется форма UTF-16LE. В UNIX-подобных операционных систем GNU / Linux, BSD и Mac OS X принял форму UTF-8 для файлов и UTF-32 или UTF-8 символов в обработке памяти.


  Стандарт, предложенный в 1991 году некоммерческая организация "Консорциум Unicode" (англ. Консорциум Unicode), которая объединяет крупнейших IT-корпораций. Применение этого стандарта позволяет закодировать очень большое число символов из разных сценариев: для документов Unicode могут сосуществовать китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, таким образом, становятся ненужными кодовой страницы.

  Коды в стандарте Unicode разделены на несколько областей. Площадь коды U + 0000 до U + 007F содержит символы ASCII с соответствующими кодами. Далее расположены на отметках различных сценариев, знаки пунктуации и технические символы. Часть кода зарезервировано для будущего использования. Под символы кириллицы обозначаются кодом U + 0400 до U + 052F. Шестнадцать бит позволяют уникальные коды для 65536 различных символов - это поле достаточно, чтобы занять ту же таблицу символов большинства языков мира.

  Хотя тривиального доказательства такого подхода, простой механический переход к этой системе уже давно сдерживается из-за ограниченных ресурсов компьютерной техники (в системе кодирования UNICODE все текстовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов технические средства достигли необходимого уровня доступности ресурсов, и сегодня мы наблюдаем постепенный перевод документов и программного обеспечения для универсальной системы кодирования. Для индивидуальных пользователей, это добавило больше забот, чтобы унифицировать документы, оформленные в различных системах кодирования с программным обеспечением, но следует понимать, как трудности переходного периода.

  3.5 Кодирование данных изображения

  Если вы посмотрите с увеличительным стеклом в черно-белом графическом изображении, который напечатан в газете или книге, мы видим, что она состоит из крошечных точек, образующих характерный узор, называемый растр (рис 2).

Рисунок 2 – Растр – метод кодирования графической информации, издавна принятый в полиграфии

Так как линейное положение и индивидуальные свойства каждой точки (яркость) можно выразить с помощью целых чисел, то можно сказать, что кодирование растровых изображений позволяет использовать двоичный код для представления графических данных. Общим сегодня считается черно-белое представление изображений в виде комбинаций точек с 256 оттенков серого, и, таким образом, чтобы закодировать яркость любой точки обычно достаточно восьми разрядного двоичного числа.


  Для кодирования цветной графики и изображений, принцип разложения произвольного цвета на основные компоненты. В качестве таких компонентов с использованием трех основных цветов: красный (Red, R), зеленый (зеленый, G) и синий (голубой). Рассмотренные на практике (хотя и не теоретически), что любой цвет видимым человеческим глазом, могут быть получены путем механического смешивания трех основных цветов. Такая система называется система кодирования RGB в соответствии с первым буквам названий основных цветов.

  При кодировании яркости каждого из основных компонентов, используемых для 256 значений (восемь бит), как это имеет место для полутоновое черно-белых изображений, цвет кодирования один момент вы должны потратить 24 бита. Система кодирования обеспечивает однозначное определение 16,5 млн различных цветов, что очень близко к чувствительности человеческого глаза. Просмотр цветной графики с использованием 24-битного полный цвет называется (истинный цвет).

  Он может быть установлен на каждый из основных цветов в дополнительном подбора цвета, т. е. цвет, дополняющий основного цвета к белому. Легко видеть, что для каждого из основных цветов комплементарных пар цветов, образованных на сумму оставшихся первичных цветов. Соответственно, дополнительные цвета: синий (С), пурпурного (Magenta, M.) и желтый (желтый, у). Принцип разложения произвольной цветовых компонентов могут быть использованы не только для основных цветов, но и для других, то есть, любой цвет можно представить в виде суммы голубого, пурпурного и желтого цветов. Такой метод кодирования цвета принят в полиграфии, но и печать с использованием чернил четвертый - черный (черный, к). Таким образом, эта система кодирования обозначается четырьмя буквами CMYK (черный цвет обозначается буквой, потому что письмо уже занята синим цветом), а также для представления цветной графики в этой системе должны иметь 32 бита. Этот режим также известен как полный цвет (истинный цвет).

  Если сокращение числа битов, используемых для кодирования каждого цвета точки, то можно уменьшить объем данных, но диапазон цвет, закодированный заметно снижается. Кодирование цветной графики 16-разрядных двоичных чисел называется режимом High Color.

  При кодировании информации о цвете с использованием восьми битов только 256 цветов может передавать данные. Этот метод кодирования называется индекс цвета. Смысл названия в том, что, так как 256 значений достаточно отлично передать весь диапазон цветов, доступных для человеческого глаза, каждый код точка не выражает сам цвет, а только его номер (индекс) в справочной таблице, называется палитра. Конечно, эта палитра должна быть применена к данным изображения, вы не можете использовать методы воспроизведения информации на экране или на бумаге (то есть, конечно, возможно, но из-за неполноты информации не будет адекватным : листья деревьев может быть красным, а небо зеленый).