Файл: Стандарты текстовой информации в ИС (Основные понятия представления текстовой информации в ИС.).pdf

Скачать файл (0,18Мб)

Заказать решение

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 05.07.2023

Просмотров: 58

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

Основные понятия представления текстовой информации в ИС.

Обработка текстовой информации.

Кодировки ASCII, ANSI, КОI8 и некоторые другие.

Стандарт кодирования символов Unicode.

ISO/IEC 10646.

Список используемой литературы.

Unicode (Юникод или Уникод, англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Юникод имеет несколько форм представления: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Была разработана также форма представления UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила распространения и не включена в стандарт. В Microsoft Windows NT и основанных на ней системах Windows 2000 и Windows XP в основном используется форма UTF-16LE. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. «Unicode Consortium»), объединяющей крупнейшие IT-корпорации. Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, при этом становятся ненужными кодовые страницы.

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.

Большинство современных операционных систем в той или иной степени обеспечивают поддержку Юникода.

В операционных системах семейства Windows NT для внутреннего представления имён файлов и других системных строк используется двухбайтовая кодировка UTF-16LE. Системные вызовы, принимающие строковые параметры, существуют в однобайтном и двухбайтном вариантах.

UNIX-образные операционные системы, в том числе, Linux, BSD, Mac OS X, используют для представления Юникода кодировку UTF-8. Большинство программ могут работать с UTF-8 как с традиционными однобайтными кодировками, не обращая внимания на то, что символ представляется как несколько последовательных байт. Для работы с отдельными символами строки обычно перекодируются в UCS-4, так что каждому символу соответствует машинное слово.

Одной из первых успешных коммерческих реализаций Юникода стала среда программирования Java. В ней принципиально отказались от восьмибитного представления символов в пользу шестнадцатибитного. Сейчас большинство языков программирования поддерживают строки Unicode, хотя их представление может различаться в зависимости от реализации.

Стандарт Юникод поддерживает языки как с направлением написания слева - направо (англ. Left – to - right, LTR) так и с написанием справа - налево (англ. Right – to - eft, RTL), как иврит и арабский язык. Кроме того, Юникод поддерживает комбинированные тексты, содержащие одновременно RTL и LTR фразы. Данная возможность называется двунаправленность (англ. bidirectional, Bidir). Простые реализации Юникода могут не иметь поддержки двунаправленности.

Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных.
Графические символы — это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования.
Графические символы включают в себя следующие группы:

буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов;
цифры;
знаки пунктуации;
специальные знаки (математические, технические, идеограммы и пр.);
разделители.

Юникод — это система для линейного представления текста. Символы, имеющие дополнительные надстрочные или подстрочные элементы, представляются в виде последовательности кодов, составленной по определённым правилам (декомпозированный вариант) или единого символа (композированный вариант).

Представление символа «Й» (U+0419) в виде базового символа «И» (U+0418) и комбинируемого символа «» (U+0306).

Графические символы в Юникод подразделяются на протяжённые и непротяжённые (бесширинные). Непротяженные символы при отображении не занимают места в строке. К ним относятся ударения, диакритические знаки и т. п. При кодировании в Юникоде, как протяжённые, так и непротяжённые символы имеют собственные коды. Протяжённые символы иначе называются базовыми, а непротяжённые — комбинируемыми, потому что они не могут встречаться самостоятельно. Например, символ «á» будет представлен как последовательность базового символа «a» (U+0061) и комбинируемого символа «´» (U+0301) или как отдельный символ «á» (U+00C1).

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.
С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

В Юникоде зарезервировано 1 114 112 (= 2²⁰ + 2¹⁶) позиций символов, из которых сейчас используется около 90000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 (Latin-1).
Хоть формы записи UTF-8 и UTF-32 позволяют кодировать до 2³¹ (2 147 483 648) кодовых позиций, принято решение использовать лишь 2²⁰+2¹⁶ (1 114 112) для совместимости с UTF-16. Впрочем, даже и этого более чем достаточно — на сегодняшний день используется чуть больше 96 000 кодовых позиций.

Кодовое пространство разделено на 17 «плоскостей» по 65536 (= 2¹⁶) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления.

Для обозначения символов Unicode используется запись вида «U+xxxx» или «U+yyyyyyyy», где xxxx и yyyyyyyy — шестнадцатеричная запись номера символа. Например, символ «я» (U+044F) имеет код 044F₁₆ = 1103₁₀.

Базовая многоязыковая плоскость.

Базовая плоскость UNICODE:

Чёрный	— расширенный латинский алфавит;
Голубой	— лингвистические символы международного фонетического алфавита IPA;
Синий	— другие европейские алфавиты;
Оранжевый	— письменности Ближнего Востока;
Светло-оранжевый	— письменности Африки;
Зелёный	— письменности Южной Азии;
Фиолетовый	— письменности Юго-восточной Азии;
Красный	— письменности Восточной Азии;
Розовый	— унифицированные китайско-японско-корейские символы;
Жёлтый	— письменности аборигенов Северной Америки;
Пурпурный	— символы;
Тёмно-серый	— диакритики;
Светло-серый	— суррогатные пары UTF-16 и области для частного использования;
Сине-зелёный	— другие знаки;
Белый	— не используется.

Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilanguage Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско – японско - корейскими иероглифами.

Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но также включает музыкальные и математические символы.

Некоторые регионы Unicode выделены для частного использования и экспериментов.
Частная область включает:

Регион в Базовой плоскости U+E000…U+F8FF
Расширенные плоскости 15 (U+F0000…U+FFFFF) и 16 (U+100000…U+10FFFF).

По мере изменения и пополнения таблицы символов системы Юникода и выхода новых версий этой системы — а эта работа ведётся постоянно, поскольку изначально система Юникод была представлена в ISO в недоработанном виде — выходят и новые документы ISO. Система Юникод существует в общей сложности в следующих версиях:

1.1 (соответствует стандарту ISO/IEC 10646—1:1993),
2.0, 2.1 (тот же стандарт ISO/IEC 10646—1:1993 плюс дополнения: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2),
3.0 (стандарт ISO/IEC 10646—1:2000).
3.2 (стандарт 2002 года)
4.0 (стандарт 2003)
4.01 (стандарт 2004)
4.1 (стандарт 2005)
5.0 (стандарт 2006)

Для примера можно рассмотреть символы, представленные в основной плоскости в версии Unicode 4.1.

В Unicode 4.1 в основной плоскости представлены следующие символы:

Базовый латинский алфавит (0000—007F)
Дополнительные символы Latin-1 (0080—00FF)
Расширенный латинский алфавит-A (0100—017F)
Расширенный латинский алфавит-B (0180—024F)
Международный фонетический алфавит (IPA) Extensions (0250—02AF)
Пробельные символы (02B0—02FF)
диакритические символы (0300—036F)
Греческий и коптский алфавиты (0370—03FF)
Кириллица (0400—04FF)
Дополнительные символы кириллицы (0500—052F)
Армянский алфавит (0530—058F)
Еврейский алфавит (0590—05FF)
Арабский алфавит (0600—06FF)
Сирийский алфавит (0700—074F)
Дополнительные символы арабского алфавита (0750—077F)
Thaana (0780—07BF)
Индийские письменности:
- Деванагари (0900—097F)
- Бенгали (0980—09FF)
- Gurmukhi (0A00—0A7F)
- Gujarati (0A80—0AFF)
- Oriya (0B00—0B7F)
- Tamil (0B80—0BFF)
- Telugu (0C00—0C7F)
- Kannada (0C80—0CFF)
- Malayalam (0D00—0D7F)
- Sinhala (0D80—0DFF)
Тайский алфавит (0E00—0E7F)
Лаосская письменность (0E80—0EFF)
Тибетская письменность (0F00—0FFF)
Бирманский алфавит (1000—109F)
Грузинский алфавит (10A0—10FF)
Отдельные буквы (Jamo) хангыль (1100—11FF)
Амхарский язык (1200—137F)
Ethiopic Supplement (1380—139F)
Язык чероки (13A0—13FF)
Unified Canadian Aboriginal Syllabics (1400—167F)
Ogham (1680—169F)
Рунный алфавит (16A0—16FF)
Филиппинские письменности:
- Tagalog (1700—171F)
- Hanunoo (1720—173F)
- Buhid (1740—175F)
- Tagbanwa (1760—177F)
Кхмерский алфавит (1780—17FF)
Монгольский алфавит (1800—18AF)
Limbu (1900—194F)
Tai Le (1950—197F)
New Tai Lue (1980—19DF)
Khmer Symbols (19E0—19FF)
Buginese (1A00—1A1F)
Фонетические расширения (1D00—1D7F)
Дополнительные фонетичестие расширения (1D80—1DBF)
Дополнительные диакритические знаки (1DC0—1DFF)
Latin Extended Additional (1E00—1EFF)
Расширенный греческий алфавит (1F00—1FFF)
Символы:
- Пунктуация (2000—206F)
- Надстрочные и подстрочные знаки (2070—209F)
- Символы валют (20A0—20CF)
- Combining Diacritical Marks for Symbols (20D0—20FF)
- Letterlike Symbols (2100—214F)
- Number Forms (2150—218F)
- Стрелки (2190—21FF)
- Математические операторы (2200—22FF)
- Прочие технические символы (2300—23FF)
- Control Pictures (2400—243F)
- Optical Character Recognition (2440—245F)
- Enclosed Alphanumerics (2460—24FF)
- Символы для рисования рамок (2500—257F)
- Block Elements (2580—259F)
- Геометрические фигуры (25A0—25FF)
- Прочие символы (2600—26FF)
- Dingbats (2700—27BF)
- Miscellaneous Mathematical Symbols-A (27C0—27EF)
- Supplemental Arrows-A (27F0—27FF)
- Азбука Брайля (2800—28FF)
- Supplemental Arrows-B (2900—297F)
- Miscellaneous Mathematical Symbols-B (2980—29FF)
- Supplemental Mathematical Operators (2A00—2AFF)
- Miscellaneous Symbols and Arrows (2B00—2BFF)
Глаголица (2C00—2C5F)
Коптский алфавит (2C80—2CFF)
Georgian Supplement (2D00—2D2F)
Tifinagh (2D30—2D7F)
Ethiopic Extended (2D80—2DDF)
Supplemental Punctuation (2E00—2E7F)
CJK Radicals Supplement (2E80—2EFF)
Kangxi Radicals (2F00—2FDF)
Ideographic Description Characters (2FF0—2FFF)
CJK Symbols and Punctuation (3000—303F)
Хирагана (3040—309F)
Катакана (30A0—30FF)
Чжуинь (Бопомофо) (3100—312F)
Хангыль Compatibility Jamo (3130—318F)
Kanbun (3190—319F)
Расширение Бопомофо (31A0—31BF)
CJK Strokes (31C0—31EF)
Katakana Phonetic Extensions (31F0—31FF)
Enclosed CJK Letters and Months (3200—32FF)
CJK Compatibility (3300—33FF)
CJK Unified Ideographs Extension A (3400—4DBF)
Yijing Hexagram Symbols (4DC0—4DFF)
CJK Unified Ideographs (4E00—9FFF)
Yi Syllables (A000—A48F)
Yi Radicals (A490—A4CF)
Modifier Tone Letters (A700—A71F)
Syloti Nagri (A800—A82F)
Слоги хангыль (AC00—D7AF)
Верхняя часть суррогатных пар (D800—DB7F)
Верхняя часть суррогатных пар для частного использования (DB80—DBFF)
Нижняя часть суррогатных пар (DC00—DFFF)
Область для частного использования (E000—F8FF)
CJK Compatibility Ideographs (F900—FAFF)
Alphabetic Presentation Forms (FB00—FB4F)
Arabic Presentation Forms-A (FB50—FDFF)
Variation Selectors (FE00—FE0F)
Vertical Forms (FE10—FE1F)
Combining Half Marks (FE20—FE2F)
CJK Compatibility Forms (FE30—FE4F)
Small Form Variants (FE50—FE6F)
Arabic Presentation Forms-B (FE70—FEFF)
Halfwidth and Fullwidth Forms (FF00—FFEF)
Специальные символы (FFF0—FFFF)

Некоторые письменности будут добавлены в следующей версии Unicode. Эти письменности и предложенные диапазоны перечислены далее:

N'Ko ( Mandekan) (07C0—07FF)
Balinese (1B00—1B7F)
Lepcha ( Rong) (1C00—1C4F)
Latin Extended-C (2C60—2C7F)
Santali (Ol Cemet' / Ol Chiki) (2DE0—2DFF)
Vai (A500—A61F)
Latin Extended-D (A720—A7FF)
Phags-pa (A840—A87F)
Saurashtra (AB00—AB5F)

Но, как ни грустно это признавать, любая изобретённая человеком система, Unicode не свободен от недостатков.

Недостатки стандарта кодирования символов Unicode.

Многие системы письма всё ещё не представлены в Юникоде. Например, письменность церковнославянского языка содержит много дополнительных графических элементов (такие как титлы и надстрочные буквы). Они не могут быть должным образом представлены в системе Юникод, хотя отдельные элементы для этого имеются. Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, пока в принципе не предусмотрено.
Тексты на китайском, корейском и японском языке имеют традиционное написание сверху вниз, начиная с правого верхнего угла. Данная возможность не отражена в Юникоде (впрочем, она и не должна быть отражена, поскольку это относится к форматированию текста, а не к кодированию символов).
В стандартах Юникода не было зафиксировано, когда вводится отдельная кодовая позиция для готового (Precomposed) символа, а когда его необходимо набирать из базового и диакритического. Например, русские буквы Ё (U+0401) и Й (U+0419) существуют в виде отдельных символов, хотя могут быть представлены и набором базового символа плюс диакритика (Decomposed): Е+¨ (U+0415 U+0308), И+ (U+0418 U+0306). В то же время, множество символов из языков с алфавитами на основе кириллицы не имеют precomposed форм.
Юникод предусматривает возможность разных начертаний одного и того же символа в зависимости от языка. Так, китайские иероглифы могут иметь разные начертания в китайском, японском (кандзи) и корейском (ханджа), но при этом в Юникоде обозначаться одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Часто возникают накладки, когда, например, японский текст выглядит «по-китайски». Аналогично, русский и сербский языки используют разное начертание курсивных букв n и m (в сербском они выглядят как и и ш). Поэтому нужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.
Файлы с текстом в Юникоде занимают больше места в памяти, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков алфавит которых укладывается в ASCII). Однако с увеличением мощности компьютерных систем и удешевлением памяти и дискового пространства эта проблема становится всё менее существенной.
Хотя поддержка Юникода реализована в наиболее распространённых операционных системах, не всё прикладное программное обеспечение поддерживает корректную работу с ним. В частности, не всегда обрабатываются метки BOM и плохо поддерживаются диакритические символы. Проблема является временной и есть следствие сравнительной новизны стандартов Юникода (в сравнении с однобайтовыми национальными кодировками).

Смотрите также файлы

Проблемы и перспективы развития малого бизнеса.pdf

Технологии работы с ГТ и ММ ИТ..pdf

Договоры страхования (Участники договора страхования).pdf

Система источников права интеллектуальной собственности.pdf

Принципы налогового права (Общие принципы налогового права характерные для финансового права в целом.).pdf

Файл: Стандарты текстовой информации в ИС (Основные понятия представления текстовой информации в ИС.).pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно