Файл: Языки гипертекстовой разметки(Язык гипертекстовой разметки ).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 26.06.2023

Просмотров: 210

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Таким образом, под гипертекстом стоит понимать совокупность обычных фрагментов текста, связь между которыми реализуется посредством ссылок, встроенных в информационную систему, что позволяет пользователям осуществлять переход от одного текстового фрагмента к другому по их выбору. Основное преимущество гипертекста состоит в нелинейности повествования, которая позволяет создавать сразу несколько линейных последовательностей в изучении материала, что позволяет, не изучая всю предоставленную информацию, а только выбирать нужную, что позволяет сэкономить много времени[11].

1.2. Характеристика и сравнение языков разметки гипертекста

Языки разметки позволяют создавать гибкую форму представления информации. С их помощью стало возможным демонстрировать информацию в удобном человеку виде, что активно используется во всех сферах жизни. Хотя основные задачи этих языков заключаются в структурировании представления информации и облегчении ее восприятия, сами же языки разметки обладают рядом проблем, которые затрудняют восприятие их самих как человеком, так и программными средствами.

Языки разметки используются для структурирования и корректного представления любого вида информации[12]. Являясь инструментарием для выражения информации в удобной человеку форме, языки разметки отличаются строгой формализованностью, как и любые другие языки, отвечающие за взаимодействие компьютера и человека. И хотя наполнение семантикой тезауруса семейства языков разметки, произошедших от SGML, упрощает понимание исходного кода для человека, их синтаксис заставляет мысленно представлять структуру документов в виде дерева визуализации. Человеку же более удобно воспринимать естественные языки. Отсюда возникает необходимость пересмотра представления разметки и создание нового подхода, который был бы ориентирован в первую очередь на восприятие языка человеком.

Так в 1986г. Международная организация по стандартизации (ISO) приняла первый стандарт ISO-8879, именуемый «Standard Generalized Markup Language (SGML)». Этот стандарт был посвящен описанию языка SGML - обобщенного метаязыка, позволяющего строить системы логической и структурной разметки любых разновидностей текстов. При этом следует подчеркнуть, что в такой разметке управляющие коды, вносимые в текст, не несут информации о внешнем виде документа, а только задают его логическую структуру, т.е. указывают границы и соподчинение его составных частей[13].


Следует отметить, что SGML является наследником разработанного в 1960 году в IBM языка GML (Generalized Markup Language - обобщенный язык разметки), который представлял собой набор макросов для реализации разметки и использовал теги для оформления текста, используя процедурную разметку SCRIPT, определяющую, чем текст является с точки зрения параграфов, заголовков, списков и таблиц, что позволяло осуществить автоматическое форматирование текста для различных устройств, необходимо было только указать разновидность устройства.

SGML широко использовался в печатной и издательской сфере, но ввиду его сложности широкого распространения для повседневного использования он не получил.

SGML документ состоит из следующих основных частей:

- SGML декларация – для определения символов и ограничителей, которые могут появляться в приложении;

- Document Type Definition (DTD) – тип документа, для определения синтаксиса конструкций разметки;

- спецификация семантики – для определения ограничений синтаксиса, которые не могут быть выражены внутри DTD;

- содержимое SGML-документа - должен быть хотя бы корневой элемент.

Отличительными характеристиками SGML являются:

- упор на описательную, а не на процедурную разметку. Так система описательной разметки использует коды разметки лишь предоставляющие названия для классификации частей документа, а инструкции, необходимые для обработки документа собираются вне документа в отдельных процедурах или программах. Так один и тот же документ может быть обработан различными программами, применяющими различные правила обработки к определенным частям документам в зависимости от степени их важности;

- концепция типа документа. Так тип документа определяется набором частей документа и их структурой. Ввиду того, что документ может быть отнесен к какому-либо известному типу, по определенным атрибутам программа анализатор проверяет, что все элементы, требуемые типом документа, на самом деле присутствуют и расположены в правильном порядке;

- независимость от конкретной системы в представлении текста – позволяющая обеспечить транспортабельность закодированных документов из одной аппаратной и программной среды в другую без потери информации на уровне строк байтов (символов), из которых составляется документ.

На сегодняшний день семейство языков, произошедших от SGML (Standart Generalized Markup Language), занимает доминирующие позиции в задачах представления информации. Наиболее часто используемыми языками этого семейства являются XML, HTML и XHTML, семантика и синтаксис которых были разработаны в конце прошлого столетия[14]. В числе ключевых особенностей данных языков можно выделить:


1) относительно компактный базовый тезаурус;

2) возможность добавления в тезаурус пользовательских литеральных последовательностей;

3) строго формализованная модель синтаксического анализа исходных кодов.

Несмотря на синтаксические различия, языки данного семейства основаны на базовом семантическом принципе: блочная структура кода использует модель контейнеров данных, каждый из которых помечается тегом, определяющим способ интерпретации данных.

Фундаментальным недостатком такой модели является низкая человекочитаемость (мера способности оператора-человека анализировать содержимое документа), обусловленная:

1) сложной структурой кода;

2) большим количеством специальных символов.

Таким образом, SGML решал проблему стандартизации обмена данными между разнородными программами и платформами. Однако являлся очень сложным. Кроме того, SGML-документ было трудно интерпретировать без определений языка разметки, который хранится в определении типа документа, который необходимо было посылать вместе с самим SGML-документом, чтобы распознать теги, созданные пользователем. Поэтому язык SGML не получил масштабного распространения, однако лег в основу языка HTML (Hyper Text Markup Language - язык разметки гипертекста).

По сути, HTML представляет собой набор предписаний SGML, сформулированных в виде DTD. В случае языка HTML DTD хранится в браузере и этот DTD во много раз меньше, чем DTD SGML.

HTML - это технология представления данных, которая не несет содержательной информации, помимо той, которая заключена в тегах, при этом значимость тегов здесь не определена, поэтому нельзя представить иерархию данных[15].

Язык HTML интерпретируется браузерами - полученный в результате интерпретации форматированный текст отображается на экране монитора компьютера или мобильного устройства.

Существует девять версий языка HTML.

HTML 2.0 — опубликован IETF как RFC 1866 в статусе Proposed Standard (24 ноября 1995 года);

HTML 3.0 — 28 марта 1995 года — IETF Internet Draft (до 28 сентября 1995 года);

HTML 3.2 — 14 января 1997 года;

HTML 4.0 — 18 декабря 1997 года;

HTML 4.01 — 24 декабря 1999 года;

ISO/IEC 15445:2000 (так называемый ISO HTML, основан на HTML 4.01 Strict) — 15 мая 2000 года;

HTML5 — 28 октября 2014 года;

HTML 5.1 начал разрабатываться 17 декабря 2012 года. Рекомендован к применению с 1 ноября 2016 года.

HTML 5.2 был представлен 14 декабря 2017 года.

Официальной спецификации HTML 1.0 не существует. До 1995 года существовало множество неофициальных стандартов HTML. Чтобы стандартная версия отличалась от них, ей сразу присвоили второй номер.


В версии HTML 3.0 в целях разрешения противоречия между идеологией структурной разметки и потребностями пользователей в гибких и разнообразных возможностях визуального представления информации, ввели иерархические стилевые спецификации (Cascading Style Sheets - CSS). Система CSS формально независима от HTML, имеет совершенно иной синтаксис, не наследует никаких идеологических ограничений и позволяет уже совершенно в иных терминах задавать параметры визуального представления для любого тега HTML.

В HTML.3.2 и HTML.4.0 разработчики попыталась объединить большинство нововведений языка, появившихся после выхода версии 3.0, с учетом современных концепций развития компьютерных технологий, в частности Мультимедиа.

В поддержку языка HTML была создана целая серия программных языков, таких, как Java, JavaScript, Perl, PHP и т.д. Тем самым открылась возможность для создания динамических Web-страниц, включающих формы, таблицы, фреймы и другие элементы.

Следует подчеркнуть, что HTML до его 5-ой версии определялся как приложение SGML. Спецификации HTML5 формулируются в терминах DOM (объектной модели документа).

Достоинства и недостатки HTML представлены в Таблице 1.1. Приложения 1.

В 1998г. члены рабочей группы Консорциума World Wide Web, упростив SGML для использования в Web, предложили расширяемый язык разметки XML (eXtensible Markup Language - расширяемый язык разметки).

XML представляет собой подмножество SGML, причем любой действительный документ XML является действительным документом SGML. Как и SGML, XML - это метаязык, определяющий другие языки разметки для специфических целей. Например, язык синхронизированной интеграции мультимедиа (Synchronized Multimedia Integration Language - SMIL) базируется на XML[16].

XML предназначен для хранения структурированных данных (взамен существующих файлов баз данных), для обмена информацией между программами

Целью создания XML было обеспечение совместимости при передаче структурированных данных между разными системами обработки информации, особенно при передаче таких данных через Интернет. Словари, основанные на XML (например, RDF, RSS, MathML, XHTML, SVG), сами по себе формально описаны, что позволяет программно изменять и проверять документы на основе этих словарей, не зная их смыслового значения.

XML используется для разметки стандартных документов во многом так же, как HTML. Однако XML ориентирован на работу со структурированными данными, такими, как результаты запроса, метаинформация о Web-узле или элементы и тип схемы.

Документ XML внешне похож на HTML. Он также состоит из текстовых фрагментов, аннотированных заключенными в угловые скобки тегами. Однако, в отличие от HTML, смысл тега зависит от регистра, а каждый открывающий тег должен во всех случаях иметь парный закрывающий тег.


В Таблице 1.2. Приложения 1 приведены основные преимущества и недостатки языка XML.

Язык XML целесообразно использовать разработчиками сложных информационных систем, с большим количеством приложений, связанных потоками информации самой различной структурой. В этом случае XML - документы выполняют роль универсального формата для обмена информацией между отдельными компонентами большой программы.

XML является базовым стандартом для нового языка описания ресурсов, RDF, позволяющего упростить многие проблемы в Web, связанные с поиском нужной информации, обеспечением контроля за содержимым сетевых ресурсов, создания электронных библиотек и т.д.[17] Он также позволяет описывать данные произвольного типа и используется для представления специализированной информации, например химических, математических, физических формул, медицинских рецептов, нотных записей, и т.д. Следовательно, XML может служить мощным дополнением к HTML для распространения в Web "нестандартной" информации.

Вся информация, располагающаяся между начальным и конечными тэгами, рассматривается в XML как данные, и поэтому учитываются все символы форматирования (в HTML они игнорируются).

Содержимое XML документа представляет собой набор элементов, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.

Первой строкой документа XML является декларация XML. Эта необязательная часть файла определяет его как файл XML (например, <?xml version="1.0" encoding="utf-8"?>). Начальный и замыкающий теги корневого элемента окружают весь текст XML-документа. В файле должен присутствовать только один корневой элемент (например, <recipe> (рецепт), и это необходимая "обложка" для него. По мере создания документа в него помещается текст и дополнительные теги между <recipe> и </recipe>. При создании XML регистры начального и конечного тегов должны совпадать. В XML сначала выбираются имена элементов, а затем на основе этих имен определяется соответствующее описание DTD или схема. Пробелы в именах элементов не допускаются, при этом имена должны начинаться с буквы.

Язык XML устраняет существенные недостатки, присущие HTML. Но в то же время XML остается гораздо более простым языком, чем SGML, сохраняя при этом большинство из его возможностей. Упрощение XML по отношению к SGML было достигнуто в основном за счет облегчения запутанных синтаксических правил определения новых классов документов в DTD. Более того, простые документы XML могут вообще не иметь определения типа (DTD). В XML не были перенесены многие редко используемые возможности SGML, что облегчает написание программ обработки. Другими словами можно сказать, что упрощение XML было произведено за счет потери обобщенности, присущей SGML - язык XML изначально ориентирован на Web-технологии.