Файл: Различные способы представления данных в информационных системах (Понятие представления данных).pdf
Добавлен: 30.04.2023
Просмотров: 44
Скачиваний: 2
СОДЕРЖАНИЕ
1. Общие понятия представления данных
1.1. Понятие представления данных
1.2. Обработка информации с изменением формы: систематизация, сортировка, поиск и кодирование
2. Представление данных в различных средах
2.1. Представление данных в памяти ЭВМ
2.2. Представление данных в математике
Введение
На сегодняшний день информация является очень важным аспектом общественной жизни. Информация может существовать во множестве различных вариантов, и для интерпретации ее в компьютерные системы необходимо использовать разнообразные преобразования. Преобразованная информация является представленной в удобном для информационной системы виде. В данной работе будут рассмотрены различные способы представления информации.
Актуальность данной работы заключается в том, что непосвящённому человеку сложно ориентироваться во всем многообразии информации, но при корректной структуризации данных имеется возможность правильно интерпретировать работу информационных систем.
Объектом исследования в данной работе являются общие понятия представления данных, предметом – представление данных в различных сферах.
Задачами данной работы являются:
- изучение понятия представления данных;
- обзор способов обработки информации;
- рассмотрение кодирования информации;
- разбор представления данных в различных сферах с примерами.
В основу данной работы легли книги таких авторов, как Грэхем и Семакин.
1. Общие понятия представления данных
1.1. Понятие представления данных
Согласно ГОСТу 20886-85 представление данных является характеристикой, которая выражает правила кодирования элементов и образования конструкций данных на конкретном уровне рассмотрения в вычислительной системе[1] [1].
1.2. Обработка информации с изменением формы: систематизация, сортировка, поиск и кодирование
К обработке информации с изменением формы представления без изменения содержания информации относятся:
- систематизация;
- сортировка;
- поиск;
- кодирование.
Систематизация – это деление на группы по каким-либо признакам. Информацию систематизируется, например, по способу восприятия человеком[2].
Поиск информации – процесс отыскания в некотором хранилище информации, которая содержит нужные потребителю факты, сведения. Процесс систематизации является вспомогательным для процесса поиска. Методы поиска информации могут быть:
- наблюдение;
- общение;
- чтение соответствующей литературы;
- просмотр телепередач;
- работа в библиотеках;
- другие методы[3].
Для облегчения поиска внутри блока информации сортируется. Сортировка – размещение информации в определенном порядке (упорядочивание). Сортировка может быть:
- по алфавиту (в порядке следования букв алфавита);
- по номерам (в порядке возрастания или убывания чисел);
- в хронологической последовательности (по дате или времени).
К процессу обработки информации с изменением формы представления без изменения содержания относится кодирование[4] [4, 8].
1.3. Кодирование информации
Кодирование – переход от одной формы представления информации к другой, более удобной для восприятия, обработки, хранения или передачи в зависимости от цели. Обязательным условием кодирования является изменение формы представления без изменения содержания[5].
Способы кодирования бывают:
- графический – с помощью рисунков и знаков;
- числовой – с помощью чисел;
- символьный – с помощью символов алфавита;
- звуковой – с помощью звуков[6] [1, 4].
По итогам данной главы можно сделать вывод, о том, что представление данных является довольно обширным понятием, котором может охватывать различные сферы, рассмотренные ниже.
2. Представление данных в различных средах
2.1. Представление данных в памяти ЭВМ
Для представления как числовой так и не числовой информации в памяти ЭВМ используется двоичный способ кодирования.
Элементарная ячейка памяти ЭВМ имеет длину 8 бит (1 байт). Каждый байт имеет свой номер (его называют адресом). Наибольшую последовательность бит, которую ЭВМ может обрабатывать как единое целое, называют машинным словом. Длина машинного слова зависит от разрядности процессора и может быть равной 16, 32 битам и т.д.
Для кодирования символов достаточно одного байта. При этом можно представить 256 символов (с десятичными кодами от 0 до 255). Набор символов персональных компьютеров чаще всего является расширением кода ASCII (American Standart Code of Information Interchange - стандартный американский код для обмена информацией)[7].
В некоторых случаях при представлении в памяти ЭВМ чисел используется смешанная двоично-десятичная система счисления, где для хранения каждого десятичного знак нужен полубайт (4 бита) и десятичные цифры от 0 до 9 представляются соответствующими двоичными числами от 0000 до 1001. Например, упакованный десятичный формат, предназначенный для хранения целых чисел с 18-ю значащими цифрами и занимающий в памяти 10 байт (старший из которых знаковый), использует именно этот вариант[8].
Другой способ представления целых чисел - дополнительный код. Диапазон значений величин зависит от количества бит памяти отведенных для их хранения. Например, величины типа Integer лежат в диапазоне от -32768 (-215) до 32677 (215-1) и для их хранения отводится 2 байта: типа LongInt - в диапазоне от -231 до 231-1 и размещаются в 4 байтах: типа Word - в диапазоне от 0 до 65535 (216-1) используется 2 байта и т.д.[9].
Как видно из примеров, данные могут быть интерпретированы как числа со знаком, так и без знаков. В случае представления величины со знаком самый левый (старший) разряд указывает на положительное число, если содержит нуль, и на отрицательное, если - единицу.
Вообще, разряды нумеруются справа налево, начиная с нуля.
Дополнительный код положительного числа совпадает с его прямым кодом. Прямой код целого числа может быть представлен следующим образом: число переводиться в двоичную систему счисления, а затем его двоичную запись слева дополняют таким количеством незначащих нулей, сколько требует тип данных, к которому принадлежит число. Например, если число 37(10) = 100101(2) объявлено величиной типа Integer, то его прямым кодом будет 0000000000100101, а если величиной типа LongInt, то его прямой код будет 00000000000000000000000000100101. Для более компактной записи чаще используют шестнадцатеричный код. Полученные коды можно переписать соответственно как 0025(16) и 00000025(16)[10].
Дополнительный код целого отрицательного числа может быть получен по следующему алгоритму:
- записать прямой код модуля числа;
- инвертировать его (заменить единицы нулями, нули - единицами);
- прибавить к инверсионному коду единицу.
Например, запишем дополнительный код числа -37, интерпретируя его как величину типа LongInt:
- прямой код числа 37 есть 000000000000000000000000000100101;
- инверсный код 11111111111111111111111111011010;
- дополнительный код 11111111111111111111111111011011 или FFFFFFDB(16)[11].
При получении по дополнительному коду числа, прежде всего, необходимо определить его знак. Если число окажется положительным, то просто перевести его код в десятичную систему исчисления. В случае отрицательного числа необходимо выполнить следующий алгоритм:
- вычесть из кода 1;
- инвертировать код;
- перевести в десятичную систему счисления. Полученное число записать со знаком минус[12].
Несколько иной способ применяется для представления в памяти персонального компьютера действительных чисел. Рассмотрим представление величин с плавающей точкой.
Любое действительное число можно записать в стандартном виде M*10p, где 1 ≤ M < 10, р- целое число. Например, 120100000 = 1,201*108. Поскольку каждая позиция десятичного числа отличается от соседней на степень числа 10, умножение на 10 эквивалентно сдвигу десятичной запятой на 1 позицию вправо. Аналогично деление на 10 сдвигает десятичную запятую на позицию влево. Поэтому приведенный выше пример можно продолжить: 120100000 = 1,201*108 = 0,1201*109 = 12,01*107... Десятичная запятая плавает в числе и больше не помечает абсолютное место между целой и дробной частями[13].
В приведённой выше записи М называют мантиссой числа, а р - его порядком. Для того чтобы сохранить максимальную точность, вычислительные машины почти всегда хранят мантиссу в нормализованном виде, что означает, что мантисса в данном случае есть число, лежащее между 1(10) и 2(10) (1 ≤ М < 2). Основные системы счисления здесь, как уже отмечалось выше,- 2. Способ хранения мантиссы с плавающей точкой подразумевает, что двоичная запятая находится на фиксированном месте. Фактически подразумевается, что двоичная запятая следует после первой двоичной цифры, т.е. нормализация мантиссы делает единичным первый бит, помещая тем самым значение между единицей и двойкой. Место, отводимое для числа с плавающей точкой, делится на два поля. Одно поле содержит знак и значение мантиссы, а другое содержит знак и значение порядка[14].
Персональный компьютер IBM PC с математическим сопроцессором 8087 позволяет работать со следующими действительными типами (диапазон значений указан по абсолютной величине):
Тип Диапазон Мантисса Байты
Real 2,9*10-39..1,7*1038 11-12 6
Single 1,5*10-45..3,4*1038 7-8 4
Double 5,0*10-324..1,7*10308 15-16 8
Extended 3,4*10-4932..1,1*104932 19-20 10
Покажем преобразование действительного числа для представления его в памяти ЭВМ на примере величины типа Double[15].
Как видно из таблицы, величина этого типа занимает в памяти 8 байт. На рисунке показано, как здесь представлены поля мантиссы и порядка:
S Смещенный порядок Мантисса
63 52 0
Можно заметить, что старший бит, отведенный под мантиссу, имеет номер 51, т.е. мантисса занимает младшие 52 бита. Черта указывает здесь на положение двоичной запятой. Перед запятой должен стоять бит целой части мантиссы, но поскольку она всегда равна единице, здесь данный бит не требуется и соответствующий разряд отсутствует в памяти (но он подразумевается). Значение порядка храниться здесь не как целое число, представленное в дополнительном коде. Для упрощения вычислений и сравнения действительных чисел значение порядка в ЭВМ хранится в виде смещенного числа, т.е. к настоящему значению порядка, перед записью его в память, прибавляется смещение. Смещение выбирается так, чтобы минимальному значению порядка соответствовал нуль. Например, для типа Double порядок занимает 11 бит и имеет диапазон от 2-10^23 до 210^23, поэтому смещение равно 1023(10) = 1111111111(2). Наконец, бит с номером 63 указывает на знак числа[16].
Таким образом, из вышесказанного вытекает следующий алгоритм для получения представления действительного числа в памяти ЭВМ:
- перевести модуль данного числа в двоичную систему счисления;
- нормализовать двоичное число, т.е. записать в виде М*2p, где М - мантисса (ее целая часть равна 1(2)) и р - порядок, записанный в десятичной системе счисления;
- прибавить к порядку смещение и перевести смещенный порядок в двоичную систему счисления;
- учитывая знак заданного числа (0 - положительное; 1 - отрицательное), выписать его представление в памяти ЭВМ[17] [2,3, 5, 7].
2.2. Представление данных в математике
Любое десятичное число можно представить в любой позиционной системе счисления, для целых чисел это можно сделать единственным способом. На основании этого можно утверждать, что любое число может быть записано в виде суммы степеней числа P, где Р – натуральное число больше 1. В качестве базиса позиционной системы берется возрастающая последовательность степеней числа Р и тем самым однозначно определяется Р-ичная система счисления. Разложение числа по степеням Р является представлением данного числа в Р-ичной системе счисления. Представление числа в Р-ичной системе счисления называется развернутой формой записи числа. Другим способом записи является последовательное перечисление значащих цифр, начиная со старшей[18].