Файл: Операции, производимые с данными.pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 28.04.2023

Просмотров: 87

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

К сложным данным относятся: массивы и списки (однотипные), структуры, записи, таблицы (разнотипные). В ходе информационного п’роцесса данные п’реобразуются из одного вида в другой с помощ’ью методов. Обработка данных включает в себя множество различных операций. По мере развития научно-техн’ического п’рогресса и общего усложнен’ия связей в человеческом обществе трудозатраты на обработку данных неуклонно возрастают. П’режде всего, это связано с постоянным усложнен’ием условий уп’равлен’ия п’роизводством и обществом. Второй фактор, также вызывающий общее увеличен’ие объемов обрабатываемых данных, тоже связан с научно-техн’ическим п’рогрессом, а именно с быстрыми темпами появлен’ия и внедрен’ия новых носителей данных, средств их хранен’ия и доставки.

В структуре возможных операций с данными можно выделит’ь основные:

  1. сбор данных - накоплен’ие информации с цел’ью обеспечен’ия достаточной полноты для п’ринятия решен’ий;
  2. формализация данных - п’риведен’ие данных, поступающих из разных источн’иков, к одинаковой форме, чтобы сделат’ь их сопоставимыми между собой, то ест’ь повысит’ь их уровен’ь доступности;
  3. фил’ьтрация данных - отсеиван’ие «лишн’их» данных, в которых нет необходимости для п’ринятия решен’ий; п’ри этом должен умен’ьшат’ься уровен’ь «шума», а достоверност’ь и адекватност’ь данных должны возрастат’ь;
  4. сортировка данных - упорядочен’ие данных по заданному п’ризнаку с цел’ью удобства испол’ьзован’ия; повышает доступност’ь информации;
  5. архивация данных - орган’изация хранен’ия данных в удобной и легкодоступной форме; служит для сн’ижен’ия экономических затрат по хранен’ию данных и повышает общую надежност’ь информационного п’роцесса в целом;
  6. защита данных - комплекс мер, нап’равленных на п’редотвращен’ие утраты, восп’роизведен’ия и модификации данных;
  7. транспортировка данных - п’рием и передача (доставка и поставка) данных между удаленными участн’иками информационного п’роцесса; п’ри этом источн’ик данных в информатике п’ринято называт’ь сервером, а потребителя - клиентом;
  8. п’реобразован’ие данных - перевод данных из одной формы в другую или из одной структуры в другую. П’реобразован’ие данных часто связано с изменен’ием типа носителя, нап’ример кн’иги можно хран’ит’ь в обычной бумажной форме, но можно испол’ьзоват’ь для этого и электронную форму, и микрофотопленку [5].

Необходимост’ь в многократном п’реобразован’ии данных возн’икает также п’ри их транспортировке, особенно если она осуществляется средствами, не п’редназначенными для транспортировки данного вида данных. В качестве п’римера можно упомянут’ь, что для транспортировки цифровых потоков данных по каналам телефонных сетей (которые изначал’ьно были ориентированы тол’ько на передачу аналоговых сигналов в узком диапазоне частот) необходимо п’реобразован’ие цифровых данных в некое подобие звуковых сигналов, чем и зан’имаются специал’ьные устройства — телефонные модемы [7].


2. Кодирование данных

2.1 Кодирование данных двоичным кодом

Для автоматизации работы с данными, относящимися к различным типам, очен’ь важно ун’ифицироват’ь их форму п’редставлен’ия. Для этого обычно испол’ьзуется п’рием кодирован’ия, то ест’ь выражен’ие данных одного типа через данные другого типа. Естественные человеческие языки — это не что иное, как системы кодирован’ия понятий для выражен’ия мыслей посредством речи.

К языкам близко п’римыкают азбуки (системы кодирован’ия компонентов языка с помощ’ью графических символов). История знает интересные, хотя и безуспешные попытки создан’ия «ун’иверсал’ьных» языков и азбук. По-видимому, безуспешност’ь попыток их внедрен’ия связана с тем, что национал’ьные и социал’ьные образован’ия естественным образом пон’имают, что изменен’ие системы кодирован’ия общественных данных неп’ременно п’риводит к изменен’ию общественных методов (то ест’ь норм п’рава и морали), а это может быт’ь связано с социал’ьными потрясен’иями.

Та же п’роблема ун’иверсал’ьного средства кодирован’ия достаточно успешно реализуется в отдел’ьных отраслях техн’ики, науки и кул’ьтуры. В качестве п’римеров можно п’ривести систему записи математических выражен’ий, телеграфную азбуку, морскую флажковую азбуку, систему Брайля для слепых и многое другое.

Своя система существует и в вычислител’ьной техн’ике — она называется двоичным кодирован’ием и основана на п’редставлен’ии данных последовател’ьност’ью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски — binary digit или сокращенно bit (бит). П’римеры различных систем кодирован’ия п’редставлены на рисунке 2.

Рисунок 2 - П’римеры различных систем кодирован’ия

Одн’им битом могут быт’ь выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или лож’ь и т. п.). Если количество битов увеличит’ь до двух, то уже можно выразит’ь четыре различных понятия:

00 01 10 11 данные обработка носител’ь кодирован’ие

Тремя битами можно закодироват’ь восем’ь различных значен’ий: 000 001 010 011 100 101 ПО 111

Увеличивая на един’ицу количество разрядов в системе двоичного кодирован’ия, мы увеличиваем в два раза количество значен’ий, которое может быт’ь выражено в данной системе, то ест’ь общая формула имеет вид:


N=

где N— количество независимых кодируемых значен’ий;

m — разрядност’ь двоичного кодирован’ия, п’ринятая в данной системе.

2.2 Кодирование целых и действительных чисел

Целые числа кодируются двоичным кодом довол’ьно п’росто — достаточно взят’ь целое число и делит’ь его пополам до тех пор, пока частное не будет равно един’ице. Совокупност’ь остатков от каждого делен’ия, записанная сп’рава налево вместе с последн’им частным, и образует двоичный аналог десятичного числа.

19:2 = 9 + 1

9:2=4+1

4 : 2 = 2 +-0

2:2=1+0

Таким образом, 1910= 100112.

Для кодирован’ия целых чисел от 0 до 255 достаточно имет’ь 8 разрядов двоичного кода (8 бит). Шестнадцат’ь бит позволяют закодироват’ь целые числа от 0 до 65 535, а 24 бита — уже более 16,5 миллионов разных значен’ий.

Для кодирован’ия действител’ьных чисел испол’ьзуют 80-разрядное кодирован’ие. П’ри этом число п’редварител’ьно п’реобразуется в нормализованную форму:

3,1415926 = 0,31415926 • 101 300 000 = 0,3 • 106

123 456 789 - 0,123456789 • 1010

Первая част’ь числа называется мантиссой, а вторая — характеристикой. Бол’ьшую част’ь из 80 бит отводят для хранен’ия мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранен’ия характеристики (тоже со знаком).

2.3 Кодирование текстовых данных

Если каждому символу алфавита сопоставит’ь оп’ределенное целое число (нап’ример, порядковый номер), то с помощ’ью двоичного кода можно кодироват’ь и текстовую информацию. Вос’ьми двоичных разрядов достаточно для кодирован’ия 256 различных символов. Этого хватит, чтобы выразит’ь различными комбинациями вос’ьми битов все символы английского и русского языков, как строчные, так и п’рописные, а также знаки п’репинан’ия, символы основных арифметических действий и некоторые общеп’ринятые специал’ьные символы, нап’ример символ «§».

Техн’ически это выглядит очен’ь п’росто, однако всегда существовали достаточно веские орган’изационные сложности. В первые годы развития вычислител’ьной техн’ики он’и были связаны с отсутствием необходимых стандартов, а в настоящее время вызваны, наоборот, изобилием одновременно действующих и п’ротиворечивых стандартов. Для того чтобы вес’ь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирован’ия, а это пока невозможно из-за п’ротиворечий между символами национал’ьных алфавитов, а также п’ротиворечий корпоративного характера.


Для английского языка п’ротиворечия уже сняты. Институт стандартизации США (ANSI — American National Standard Institute) ввел в действие систему кодирован’ия ASCII (American Standard Code for Information Interchange — стандартный код информационного обмена США). В системе ASCII закреплены две таблицы кодирован’ия — базовая и расширенная. Базовая таблица закрепляет значен’ия кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы п’роизводителям аппаратных средств (в первую очеред’ь п’роизводителям комп’ьютеров и печатающих устройств). В этой области размещаются так называемые уп’равляющие коды, которым не соответствуют н’икакие символы языков, и, соответственно, эти коды не выводятся н’и на экран, н’и на устройства печати, но ими можно уп’равлят’ь тем, как п’роизводится вывод п’рочих данных.

Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков п’репинан’ия, цифр, арифметических действий и некоторых вспомогател’ьных символов. Базовая таблица кодировки ASCII п’риведена в таблице 2. Аналогичные системы кодирован’ия текстовых данных были разработаны и в других странах. Так, нап’ример, в СССР в этой области действовала система кодирован’ия КОИ-7 (код обмена информацией, семизначный). Однако поддержка п’роизводителей оборудован’ия и п’рограмм вывела американский код ASCII на уровен’ь международного стандарта, и национал’ьным системам кодирован’ия п’ришлос’ь «отступит’ь» во вторую, расширенную част’ь системы кодирован’ия, оп’ределяющую значен’ия кодов со 128 по 255. Отсутствие единого стандарта в этой области п’ривело к множественности одновременно действующих кодировок. Тол’ько в России можно указат’ь три действующих стандарта кодировки и еще два устаревших.

Таблица 3

Базовая таблица кодировки ASCII

Так, нап’ример, кодировка символов русского языка, известная как кодировка Windows-1251, была введена «извне» — компан’ией Microsoft, но, учитывая широкое расп’ространен’ие операционных систем и других п’родуктов этой компан’ии в России, она глубоко закрепилас’ь и нашла широкое расп’ространен’ие (таблица 4). Эта кодировка испол’ьзуется на бол’ьшинстве локал’ьных комп’ьютеров, работающих на платформе Windows.

Таблица 4

Кодировка Windows 1251

Другая расп’ространенная кодировка носит назван’ие КОИ-8 (код обмена информацией, вос’ьмизначный) — ее п’роисхожден’ие относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы (таблица 5). Сегодня кодировка КОИ-8 имеет широкое расп’ространен’ие в комп’ьютерных сетях на территории России и в российском секторе Интернет.


Международный стандарт, в котором п’редусмотрена кодировка символов русского алфавита, носит назван’ие кодировки /50 (International Standard Organization — Международный институт стандартизации). На п’рактике данная кодировка испол’ьзуется редко (таблица 6).

Таблица 5

Кодировка КОИ-8

Таблица 6

Кодировка ISO

Таблица 7

ГОСТ-ал’ьтернативная кодировка

На комп’ьютерах, работающих в операционных системах MS-DOS, могут действоват’ь еще две кодировки (кодировка ГОСТ и кодировка ГОСТ-ал’ьтернативная). Первая из н’их считалас’ь устаревшей даже в первые годы появлен’ия персонал’ьной вычислител’ьной техн’ики, но вторая испол’ьзуется и по сей ден’ь (см. таблицу 7).

В связи с изобилием систем кодирован’ия текстовых данных, действующих в России, возн’икает задача межсистемного п’реобразован’ия данных — это одна из расп’ространенных задач информатики.

2.4 Универсальная система кодирования текстовых данных

Если п’роанализироват’ь орган’изационные трудности, связанные с создан’ием единой системы кодирован’ия текстовых данных, то можно п’рийти к выводу, что он’и вызваны огран’иченным набором кодов (256). В то же время очевидно, что если, нап’ример, кодироват’ь символы не вос’ьмиразрядными двоичными числами, а числами с бол’ьшим количеством разрядов, то и диапазон возможных значен’ий кодов станет намного бол’ьше. Такая система, основанная на 16-разрядном кодирован’ии символов, получила назван’ие ун’иверсал’ьной — UNICODE. Unicode (Юн’икод или Ун’икод, англ. Unicode) — стандарт кодирован’ия символов, позволяющий п’редставит’ь знаки п’рактически всех пис’ьменных языков. Юн’икод имеет нескол’ько форм п’редставлен’ия: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Была разработана также форма п’редставлен’ия UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила расп’ространен’ия и не включена в стандарт. В MicrosoftWindows NT и основанных на ней системах Windows 2000 и Windows XP в основном испол’ьзуется форма UTF-16LE. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X п’ринята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.