Файл: Стандарты текстовой информации в ИС (Основные понятия представления текстовой информации в ИС.).pdf
Добавлен: 05.07.2023
Просмотров: 61
Скачиваний: 1
Основные понятия представления текстовой информации в ИС.
Рассмотрение данного вопроса правильней было бы начать с определения «Информационной системы».
Информационная система (ИС) — это система, предназначенная для ведения информационной модели, чаще всего — какой-либо области человеческой деятельности.
Эта система должна обеспечивать средства для протекания информационных процессов:
- Хранение;
- Передача;
- Преобразование информации.
Различают 3 класса информационных систем по степени их автоматизации:
Ручные информационные системы - характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций
человеком. Например, о деятельности менеджера в фирме, где отсутствуют компьютеры, можно говорить, что он работает с ручной ИС.
Автоматизированные информационные системы (АИС) - наиболее популярный класс ИС. Предполагают участие в процессе обработки информации и человека, и
технических средств, причем главная роль отводится компьютеру.
Автоматические информационные системы — выполняют все операции по переработке информации без участия человека, различные роботы. Примером автоматических информационных систем являются многие поисковые системы сети
Интернет, например Google, Rambler, Yandex, где сбор информации о сайтах осуществляется автоматически поисковым роботом (crawler) и человеческий фактор не влияет на ранжирование результатов поиска.
Обычно под термином ИС понимают именно Автоматизированные информационные системы (АИС).
Обработка текстовой информации.
Существует множество методов обработки информации, но в большинстве случаев они сводятся к обработке текстовых и числовых данных.
Текстовая информация может возникать из различных источников и иметь различную степень сложности по форме представления. В зависимости от формы представления для обработки текстовых сообщений используют разнообразные информационные технологии. Чаще всего в качестве инструментального средства обработки текстовой электронной информации применяют текстовые редакторы или процессоры. Они представляют программный продукт, обеспечивающий пользователя специальными средствами, предназначенными для создания, обработки и хранения текстовой информации. Текстовые редакторы и процессоры используются для составления, редактирования и обработки различных видов информации. Отличие текстовых редакторов от процессоров заключается в том, что редакторы, как правило, предназначены для работы только с текстами, а процессоры позволяют использовать и другие виды информации.
Редакторы, предназначенные для подготовки текстов условно можно разделить на обычные (подготовка писем и других простых документов) и сложные (оформление документов с разными шрифтами, включающие графики, рисунки и др.). Редакторы, используемые для автоматизированной работы с текстом, можно разделить на несколько типов: простейшие, интегрированные, гипертекстовые редакторы, распознаватели текстов, редакторы научных текстов, издательские системы.
В простейших редакторах-форматерах (например, “Блокнот”) для внутреннего представления текста дополнительные коды не используются, тексты же обычно формируются на основе знаков кодовой таблицы ASCII.
Текстовые процессоры представляют систему подготовки текстов (Word Processor). Наибольшей популярностью среди них пользуется программа MS Word. Технология обработки текстовой информации с помощью таких программ обычно включает следующие этапы:
1) создание файла для хранения текстовой информации;
2) ввод и (или) копирование текстовой информации в компьютер;
3) сохранение текста, представленного в электронной форме;
4) открытие файла, хранящего текстовую информацию;
5) редактирование электронной текстовой информации;
6) форматирование текста, хранящегося в электронной форме;
7) создание текстовых файлов на основе встроенных в текстовый редактор стилей оформления;
8) автоматическое формирование оглавления к тексту и алфавитного справочника;
9) автоматическая проверка орфографии и грамматики;
10) встраивание в текст различных элементов и объектов;
11) объединение документов;
12) печать текста.
К основным операциям редактирования относят: добавление; удаление; перемещение; копирование фрагмента текста, а также поиска и контекстной замены. Если создаваемый текст представляет многостраничный документ, то можно применять форматирование страниц или разделов. При этом в тексте появятся такие структурные элементы, как: закладки, сноски, перекрестные ссылки и колонтитулы.
Большинство текстовых процессоров поддерживает концепцию составного документа – контейнера, включающего различные объекты. Она позволяет вставлять в текст документа рисунки, таблицы, графические изображения, подготовленные в других программных средах. Используемая при этом технология связи и внедрения объектов называется OLE (Object Linking and Embedding – связь и внедрение объектов).
Для автоматизации выполнения часто повторяемых действий в текстовых процессорах используют макрокоманды. Самый простой макрос – записанная последовательность нажатия клавиш, перемещений и щелчков мышью. Она может воспроизводиться, как магнитофонная запись. Её можно обработать и изменить, добавив стандартные макрокоманды.
Перенос текстов из одного текстового редактора в другой осуществляется программой-конвертером. Она создаёт выходной файл в соответствующем формате. Обычно программы текстовой обработки имеют встроенные модули конвертирования популярных файловых форматов.
Разновидностью текстовых процессоров являются настольные издательские системы. В них можно готовить материалы по правилам полиграфии. Программы настольных издательских систем (например, Publishing, PageMaker) являются инструментом верстальщика, дизайнера, технического редактора. С их помощью можно легко менять форматы и нумерацию страниц, размер отступов, комбинировать различными шрифтами и т.п. В большей степени они предназначены для издания полиграфической продукции.
Международные стандарты кодов символов и их представление в современных ИС, языках программирования и программных платформах.
Кодировки ASCII, ANSI, КОI8 и некоторые другие.
Поскольку текст изначально дискретен — он состоит из отдельных символов, — для компьютерного представления текстовой информации используется другой способ: все символы кодируются числами, и текст представляется в виде набора чисел — кодов символов, его составляющих. При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст. Для этого используются так называемые кодовые таблицы символов, в которых каждому коду символа ставится в соответствие изображение символа.
Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.
Существует много различных кодировок. В большинстве из них символы кодируются восьмибитовыми (или однобайтными) числами. В одном байте можно записать 256 различных целых чисел. Этого достаточно для кодирования всех букв русского и латинского алфавитов, арабских цифр, знаков препинания и некоторых других необходимых символов.
Для наглядности кодируемые символы располагаются в таблице. Таблица разбита на 16 строк и 16 столбцов. Каждая строка и каждый столбец имеют четырехразрядные двоичные номера от 0000 до 1111 (или шестнадцатеричные от 0 до F). Код символа составляется из номеров столбца и строки, на пересечении которых он находится. Этим двоичным числам соответствуют десятичные числа от 0 до 255.
До появления операционной системы Windows основной являлась кодовая таблица символов ASCII (American Standard Code for Information Interchange - американский стандартный код обмена информацией).
Разработана она была в 1960-х годах в США и применялась для любых видов передачи информации, в том числе и некомпьютерных (телеграф, факсимильная связь и т. д.).
Первая половина таблицы ASCII (коды от 0 до 127) содержит знаки препинания, цифры, символы латинского алфавита, математические знаки и является общепринятой. Коды от 128 до 255 называются расширенными и используются для национальных алфавитов и символов псевдографики.
В таблице ASCII отсутствуют символы кириллицы. Для представления кириллицы в DOS была разработана кодовая страница СР-866, построенная на основе ASCII. Символы с кодами от 0 до 127 в этой таблице такие же, как в кодировке ASCII, а символы кириллицы расположены на тех позициях, где в таблице ASCII находятся относительно редко используемые символы национальных алфавитов и греческие буквы. Ниже приведен фрагмент этой таблицы []. Символам кириллицы здесь соответствуют десятичные коды от 128 до 175 и от 224 до 239.
С появлением графической среды Windows ASCII морально устарела, в частности, ненужными стали псевдографические символы. Фирмой Мiсrosоft была разработана новая кодовая таблица ANSI. Для представления кириллицы в Windows на основе кодировки ANSI построена кодовая страница СР-12565. Символам кириллицы здесь соответствуют шестнадцатеричные коды от С0 до FF, или в десятичной системе счисления от 192 до 255.
В середине семидесятых годов специалистами одного из советских НИИ был разработан новый стандарт, предназначенный для представления символов русского языка в электронной форме. Сейчас эта кодировка известна под наименованием КОI8 (код обмена информации восьмибитовый). Став базовой кодировкой для только что появившихся тогда в нашей стране русифицированных UNIХ - совместимых операционных систем, KOI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке, в силу чего данной кодировке было присвоено соответствие стандарту ГОСТ 19768-74.
После ликвидации Советского Союза этот стандарт претерпел некоторые изменения, разделившись на две отдельные спецификации: KOI8-R применяется в настоящее время для представления символов русского языка, KOI8-U – украинского.
Кодировка КОI8 также используется в качестве принятого в Российском Интернете «формата по умолчанию» при пересылке сообщений электронной почты.
Стандарт MicroSoft/IBM code page 866 (альтернативная кодировка DOS) служит базовой кодировкой в операционных системах MS-DOS и OS/2, и потому в настоящее время медленно, но верно утрачивает свои позиции, ибо даже сам разработчик и производитель DOS компания Мiсrоsоft отказалась от дальнейшей поддержки этой линии операционных платформ. Тем не менее, кодировка жива и по сей день, прежде всего благодаря той части пользователей, которые не намерены пока расставаться с браузерами, работающими в среде MS – DOS.
Компания MicroSoft, создавая программное обеспечение для работы в Интернете, как водится, пошла своим путем, предложив стандарт Мiсrоsоft code page 1251 (Windows-1251), получивший чрезвычайно широкое распространение благодаря необыкновенной популярности операционной системы Мiсrоsоft Windows и http - сервера IIS (Internet 1nformation Server), входящего в комплект поставки Windows NT/2000. Именно поэтому и Windows – 1251, и KOI8 - R входят в тот минимально допустимый набор кодировок, которые должна обязательно поддерживать любая мало-мальски уважающая себя веб - страница.
Кодировка ISO – 8859-5 была разработана Международной организацией по стандартизации (International Standards Organization, ISO) с единственной целью: унифицировать представление символов национальных алфавитов в электронной форме. Именно поэтому ISO предложила целый набор кодировок серии 8859, каждая из которых описывала свой набор знаков: существует соответствующая кодировка ISO для арабского языка (ISO-8859-6), иврита (ISO-8859-8), латиницы (ISO-8859-1) и других языков мира. В силу различных причин русский вариант кодировки ISO не получил широкого распространения, однако все же изредка встречается в Интернете и потому поддерживается рядом русскоязычных серверов.
Кодировка Macintosh СР (МАС) ориентирована на персональные компьютеры Apple Macintosh, оснащенные операционной системой MacOS. Из-за высокой стоимости Аррlе - совместимые компьютеры не стали в России популярными, однако они весьма широко используются на Западе и иногда эксплуатируются на крупных отечественных предприятиях.
В 1991 году был разработан новый стандарт кодирования символов, получивший название Unicode, который, по замыслу его разработчиков, позволил бы использовать в текстах любые символы любых языков мира. Этот стандарт используется в качестве основной кодировки в операционной системе Microsoft Windows ХР.