Файл: Стандарты текстовой информации в ИС.pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 08.07.2023

Просмотров: 30

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Для обозначения символов Unicode используется запись вида «U+xxxx» или «U+yyyyyyyy», где xxxx и yyyyyyyy — шестнадцатеричная запись номера символа. Например, символ «я» (U+044F) имеет код 044F16 = 110310.

Базовая многоязыковая плоскость предоставлена на рисунке 2.

Рисунок 2. Базовая многоязыковая плоскость

Базовая плоскость UNICODE расшифрована в таблице 1.

Цвет

Что зашифровано

Чёрный

Расширенный латинский алфавит

Голубой

Лингвистические символы международного фонетического алфавита IPA

Синий

Другие европейские алфавиты

Оранжевый

Письменности Ближнего Востока

Светло-оранжевый

Письменности Африки

Зелёный

Письменности Южной Азии

Фиолетовый

Письменности Юго-восточной Азии

Красный

Письменности Восточной Азии

Розовый

Унифицированные китайско-японско-корейские символы

Жёлтый

Письменности аборигенов Северной Америки

Пурпурный

Символы

Тёмно-серый

диакритики

Светло-серый

Суррогатные пары UTF-16 и области для частного использования

Сине-зелёный

Другие знаки

Белый

Не используется

Чёрный

Расширенный латинский алфавит

Таблица 1.

Расшифровка базовой плоскости UNICODE

Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilanguage Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско – японско - корейскими иероглифами.

Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но также включает музыкальные и математические символы.

Некоторые регионы Unicode выделены для частного использования и экспериментов.
Частная область включает:

  • Регион в Базовой плоскости U+E000…U+F8FF;
  • Расширенные плоскости 15 (U+F0000…U+FFFFF) и 16 (U+100000…U+10FFFF).

По мере изменения и пополнения таблицы символов системы Юникода и выхода новых версий этой системы — а эта работа ведётся постоянно, поскольку изначально система Юникод была представлена в ISO в недоработанном виде — выходят и новые документы ISO. Система Юникод существует в общей сложности в следующих версиях:


  • 1.1 (соответствует стандарту ISO/IEC 10646—1:1993);
  • 2.0, 2.1 (тот же стандарт ISO/IEC 10646—1:1993 плюс дополнения: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2);
  • 3.0 (стандарт ISO/IEC 10646—1:2000);
  • 3.2 (стандарт 2002 года);
  • 4.0 (стандарт 2003);
  • 4.01 (стандарт 2004);
  • 4.1 (стандарт 2005);
  • 5.0 (стандарт 2006).

Для примера можно рассмотреть символы, представленные в основной плоскости в версии Unicode 4.1.

В Unicode 4.1 в основной плоскости представлены следующие символы:

  • Базовый латинский алфавит (0000—007F);
  • Дополнительные символы Latin-1 (0080—00FF);
  • Расширенный латинский алфавит-A (0100—017F);
  • Расширенный латинский алфавит-B (0180—024F);
  • Международный фонетический алфавит (IPA) Extensions (0250—02AF);
  • Пробельные символы (02B0—02FF);
  • диакритические символы (0300—036F);
  • Греческий и коптский алфавиты (0370—03FF);
  • Кириллица (0400—04FF);
  • Дополнительные символы кириллицы (0500—052F);
  • Армянский алфавит (0530—058F);
  • Еврейский алфавит (0590—05FF);
  • Арабский алфавит (0600—06FF);
  • Сирийский алфавит (0700—074F);
  • Дополнительные символы арабского алфавита (0750—077F);
  • Thaana (0780—07BF);
  • Индийские письменности:
  • Деванагари (0900—097F);
  • Бенгали (0980—09FF);
  • Gurmukhi (0A00—0A7F);
  • Gujarati (0A80—0AFF);
  • Oriya (0B00—0B7F);
  • Tamil (0B80—0BFF);
  • Telugu (0C00—0C7F);
  • Kannada (0C80—0CFF);
  • Malayalam (0D00—0D7F);
  • Sinhala (0D80—0DFF).
  • Тайский алфавит (0E00—0E7F);
  • Лаосская письменность (0E80—0EFF);
  • Тибетская письменность (0F00—0FFF);
  • Бирманский алфавит (1000—109F);
  • Грузинский алфавит (10A0—10FF);
  • Отдельные буквы (Jamo) хангыль (1100—11FF);
  • Амхарский язык (1200—137F);
  • Ethiopic Supplement (1380—139F);
  • Язык чероки (13A0—13FF);
  • Unified Canadian Aboriginal Syllabics (1400—167F);
  • Ogham (1680—169F);
  • Рунный алфавит (16A0—16FF);
  • Филиппинские письменности:
  • Tagalog (1700—171F);
  • Hanunoo (1720—173F);
  • Buhid (1740—175F);
  • Tagbanwa (1760—177F).
  • Кхмерский алфавит (1780—17FF);
  • Монгольский алфавит (1800—18AF);
  • Limbu (1900—194F);
  • Tai Le (1950—197F);
  • New Tai Lue (1980—19DF);
  • Khmer Symbols (19E0—19FF);
  • Buginese (1A00—1A1F);
  • Фонетические расширения (1D00—1D7F);
  • Дополнительные фонетичестие расширения (1D80—1DBF);
  • Дополнительные диакритические знаки (1DC0—1DFF);
  • Latin Extended Additional (1E00—1EFF);
  • Расширенный греческий алфавит (1F00—1FFF);
  • Символы:
  • Пунктуация (2000—206F);
  • Надстрочные и подстрочные знаки (2070—209F);
  • Символы валют (20A0—20CF);
  • Combining Diacritical Marks for Symbols (20D0—20FF);
  • Letterlike Symbols (2100—214F);
  • Number Forms (2150—218F);
  • Стрелки (2190—21FF);
  • Математические операторы (2200—22FF);
  • Прочие технические символы (2300—23FF);
  • Control Pictures (2400—243F);
  • Optical Character Recognition (2440—245F);
  • Enclosed Alphanumerics (2460—24FF);
  • Символы для рисования рамок (2500—257F);
  • Block Elements (2580—259F);
  • Геометрические фигуры (25A0—25FF);
  • Прочие символы (2600—26FF);
  • Dingbats (2700—27BF);
  • Miscellaneous Mathematical Symbols-A (27C0—27EF);
  • Supplemental Arrows-A (27F0—27FF);
  • Азбука Брайля (2800—28FF);
  • Supplemental Arrows-B (2900—297F);
  • Miscellaneous Mathematical Symbols-B (2980—29FF);
  • Supplemental Mathematical Operators (2A00—2AFF);
  • Miscellaneous Symbols and Arrows (2B00—2BFF).
  • Глаголица (2C00—2C5F);
  • Коптский алфавит (2C80—2CFF);
  • Georgian Supplement (2D00—2D2F);
  • Tifinagh (2D30—2D7F);
  • Ethiopic Extended (2D80—2DDF);
  • Supplemental Punctuation (2E00—2E7F);
  • CJK Radicals Supplement (2E80—2EFF);
  • Kangxi Radicals (2F00—2FDF);
  • Ideographic Description Characters (2FF0—2FFF);
  • CJK Symbols and Punctuation (3000—303F);
  • Хирагана (3040—309F);
  • Катакана (30A0—30FF);
  • Чжуинь (Бопомофо) (3100—312F);
  • Хангыль Compatibility Jamo (3130—318F);
  • Kanbun (3190—319F);
  • Расширение Бопомофо (31A0—31BF);
  • CJK Strokes (31C0—31EF);
  • Katakana Phonetic Extensions (31F0—31FF);
  • Enclosed CJK Letters and Months (3200—32FF);
  • CJK Compatibility (3300—33FF);
  • CJK Unified Ideographs Extension A (3400—4DBF);
  • Yijing Hexagram Symbols (4DC0—4DFF);
  • CJK Unified Ideographs (4E00—9FFF);
  • Yi Syllables (A000—A48F);
  • Yi Radicals (A490—A4CF);
  • Modifier Tone Letters (A700—A71F);
  • Syloti Nagri (A800—A82F);
  • Слоги хангыль (AC00—D7AF);
  • Верхняя часть суррогатных пар (D800—DB7F);
  • Верхняя часть суррогатных пар для частного использования (DB80—DBFF);
  • Нижняя часть суррогатных пар (DC00—DFFF);
  • Область для частного использования (E000—F8FF);
  • CJK Compatibility Ideographs (F900—FAFF);
  • Alphabetic Presentation Forms (FB00—FB4F);
  • Arabic Presentation Forms-A (FB50—FDFF);
  • Variation Selectors (FE00—FE0F);
  • Vertical Forms (FE10—FE1F);
  • Combining Half Marks (FE20—FE2F);
  • CJK Compatibility Forms (FE30—FE4F);
  • Small Form Variants (FE50—FE6F);
  • Arabic Presentation Forms-B (FE70—FEFF);
  • Halfwidth and Fullwidth Forms (FF00—FFEF);
  • Специальные символы (FFF0—FFFF).

Некоторые письменности будут добавлены в следующей версии Unicode. Эти письменности и предложенные диапазоны перечислены далее:

  • N'Ko ( Mandekan) (07C0—07FF);
  • Balinese (1B00—1B7F);
  • Lepcha ( Rong) (1C00—1C4F);
  • Latin Extended-C (2C60—2C7F);
  • Santali (Ol Cemet' / Ol Chiki) (2DE0—2DFF);
  • Vai (A500—A61F);
  • Latin Extended-D (A720—A7FF);
  • Phags-pa (A840—A87F);
  • Saurashtra (AB00—AB5F).

Но, как ни грустно это признавать, как и любая изобретённая человеком система, Unicode тоже не свободен от недостатков.

  1. Недостатки стандарта кодирования символов Unicode

Многие системы письма всё ещё не представлены в Юникоде. Например, письменность церковнославянского языка содержит много дополнительных графических элементов (такие как титлы и надстрочные буквы). Они не могут быть должным образом представлены в системе Юникод, хотя отдельные элементы для этого имеются. Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, пока в принципе не предусмотрено.

Тексты на китайском, корейском и японском языке имеют традиционное написание сверху вниз, начиная с правого верхнего угла. Данная возможность не отражена в Юникоде (впрочем, она и не должна быть отражена, поскольку это относится к форматированию текста, а не к кодированию символов).

В стандартах Юникода не было зафиксировано, когда вводится отдельная кодовая позиция для готового (Precomposed) символа, а когда его необходимо набирать из базового и диакритического. Например, русские буквы Ё (U+0401) и Й (U+0419) существуют в виде отдельных символов, хотя могут быть представлены и набором базового символа плюс диакритика (Decomposed): Е+¨ (U+0415 U+0308), И+ (U+0418 U+0306). В то же время, множество символов из языков с алфавитами на основе кириллицы не имеют precomposed форм.

Юникод предусматривает возможность разных начертаний одного и того же символа в зависимости от языка. Так, китайские иероглифы могут иметь разные начертания в китайском, японском (кандзи) и корейском (ханджа), но при этом в Юникоде обозначаться одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Часто возникают накладки, когда, например, японский текст выглядит «по-китайски». Аналогично, русский и сербский языки используют разное начертание курсивных букв n и m (в сербском они выглядят как и и ш). Поэтому нужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.


Файлы с текстом в Юникоде занимают больше места в памяти, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков алфавит которых укладывается в ASCII). Однако с увеличением мощности компьютерных систем и удешевлением памяти и дискового пространства эта проблема становится всё менее существенной.

Хотя поддержка Юникода реализована в наиболее распространённых операционных системах, не всё прикладное программное обеспечение поддерживает корректную работу с ним. В частности, не всегда обрабатываются метки BOM и плохо поддерживаются диакритические символы. Проблема является временной и есть следствие сравнительной новизны стандартов Юникода (в сравнении с однобайтовыми национальными кодировками).

  1. ISO/IEC 10646

Консорциум Юникода работает в тесной связи с рабочей группой ISO/IEC/JTC1/SC2/WG2, которая занимается разработкой международного стандарта 10646 (ISO/IEC 10646). Между стандартом Юникода и ISO/IEC 10646 установлена синхронизация, хотя каждый стандарт использует свою терминологию и систему документации.

Сотрудничество Консорциума Юникода с Международной организацией по стандартизации (англ. International Organization for Standardization, ISO) началось в 1991 году. В 1993 году ISO выпустила стандарт DIS 10646.1. Для синхронизации с ним, Консорциум утвердил стандарт Юникода версии 1.1, в который были внесены дополнительные символы из DIS 10646.1. В результате, значения закодированных символов в Unicode 1.1 и DIS 10646.1 полностью совпали.

В дальнейшем сотрудничество двух организаций продолжилось. В 2000 году стандарт Unicode 3.0 был синхронизирован с ISO/IEC 10646-1:2000. Предстоящая третья версия ISO/IEC 10646 будет синхронизирована с Unicode 4.0. Возможно, эти спецификации даже будут опубликованы как единый стандарт.

Аналогично форматам UTF-16 и UTF-32 в стандарте Юникода, стандарт ISO/IEC 10646 также имеет две основные формы кодирования символов: UCS-2 (2 байта на символ, аналогично UTF-16) и UCS-4 (4 байта на символ, аналогично UTF-32). UCS значит универсальный многооктетный (многобайтовый) кодированный набор символов (англ. Universal Multiple-Octet Coded Character Set). Как уже упоминалось, UCS-2 можно считать подмножеством UTF-16 (UTF-16 без суррогатных пар), а UCS-4 является синонимом для UTF-32.

Вывод

В информатике большое число информационных процессов проходит с использованием кодирования данных. Поэтому понимание данного процесса очень важно при постижении азов этой науки. Под кодированием информации понимают процесс преобразования символов, записанных на разных естественных языках (русский язык, английский язык и т.д.) в цифровое обозначение.