Файл: Языки гипертекстовой разметки.pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 19.06.2023

Просмотров: 51

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Глобальная карта. Это графическое представление полной сети из узлов и связей. Но такие карты мало пригодны для реальных гипертекстов объемом свыше сотни узлов.

История (бэктрекинг). Посещенные узлы и связи текущего трейла сохраняются и есть возможность вернуться в предыдущие узлы.

Туры (проложенные маршруты). Это хранящиеся пути, которые можно проходить по желанию. Подобное полезно при создании гипертекстовых учебников или демонстраций.

Поиск (в совокупности гипертекстовых узлов). Используются все достижения в области информационного поиска: булевские запросы, морфологический поиск, языки запросов и др.

Индекс. Список подсвеченных слов, связей или узлов, по алфавиту, теме, автору, предмету и др. Индексы создаются автором и не учитывают точку зрения читателя на то, как он хочет использовать гипертекст.

Закладки. Читатель может сохранить свою текущую позицию, чтобы вернуться к ней позже.

Когерентная навигация сделана в системе СМИСК – российской разработке, где локальные переходы по связям в строящейся тропе-трейле происходят под так называемым макроконтролем, следящем за глобальной связностью. Этот контроль базируется на иерархии (реализована в форме интерактивного дерева, которое развертывается в тропу-дискурс) подтем строящегося дискурса. Теоретически разработки СМИСК опираются на труды таких известных психолого-лингвистов, как ван Дийк, Кинч и Левельт. Результаты были представлены в докладе на гипертекстовой секции международной конференции "Восток-Запад" EWHCI'93.

Глава 2. Виды языков гипертекстовой разметки

Сегодня самый популярный язык гипертекстовой разметки HTML -создан специально для организации информации в сети Интернет, является одной из ключевых составляющих технологии WWW. С ее использованием информационные ресурсы реализованы в форме интерактивного дерева, которое развертывается в тропу-дискурс, более упорядочен. HTML (HyperText Markup Language) - язык гипертекстовой разметки, который используется в World Wide Web. Он создавался как язык для обмена научной и технической документацией. Стандартизацией языка HTML занимается W3C (WWW Consortium). [15]

HTML -это упрощенная версия общего языка разметки SGML (Standart Generalised Markup Language), который был утвержден ISO в качестве стандарта в 80-х годах. Предназначен для создания других языков разметки, он определяет допустимый набор тэгов, их атрибуты и внутреннюю структуру документа. Контроль за правильностью использования дескрипторов осуществляется с помощью набора правил, называемых DTD-описаниями. Для каждого класса документов определяется свой набор правил, описывающих грамматику соответствующего языка разметки. [15]


2.1 SGML и его структуры

SGML — метаязык, на нем можно определять язык разметки для документов. SGML — наследник разработанного в69г.в IBM языка GML (Generalized Markup Language).[16] SGML был разработан для совместного использования машинно-читаемых документов в больших правительственных и аэрокосмических проектах. Он использовался в печатной и издательской сфере, но его сложность затруднила распространение. Основные части документа SGML: 1) SGML-декларация — определяет, какие символы и ограничители могут появляться в приложении; 2) Document Type Definition — определяет синтаксис конструкций разметки. DTD включает дополнительные определения, такие, как символьные ссылки-мнемоники; 3) Спецификация семантики — даёт ограничения синтаксиса и не могут быть выражены внутри DTD. Изменяя SGML-декларацию, можно даже отказаться от использования угловых скобок, хотя этот синтаксис считается стандартным, так называемым concrete reference syntax. Пример синтаксиса SGML: [16]

<quote type="example">

typically something like <italics>this</italics>

SGML стандартизован ISO: «ISO 8879:1986 Information processing—Text and office systems—Standard Generalized Markup Language (SGML)».

Языки HTML и XML произошли от SGML. HTML — это приложение SGML, а XML — это подмножество SGML, разработанное для упрощения процесса машинного разбора документа. Другими приложениями SGML являются SGML Docbook (документирование) и «Z Format» (типография и документирование). Структура SGML описывает простой механизм разметки или идентификации структурных единиц текста, предоставляемый SGML.

Определение структуры документов SGML: DTD

Правила - первый шаг в создании формальной спецификации структуры SGML документа или определения типа документа, обычно сокращаемого как DTD. При создании DTD дизайнер документа может задавать произвольно жесткую или гибкую структуру. Нужно найти компромисс между удобством следования простым правилам и сложностью поддержки реальных текстов: дизайнер может иметь очень туманное представление об изначальном предназначении или смысле старых текстов, и задание непротиворечивых правил, касающихся их структуры, может быть очень сложным. Не существует единственного DTD, охватывающего все сведения о тексте. В настоящее время SGML шире всего применяется там, где основным требованием является единообразие структуры документов. Однако использование простых правил может сильно упростить задачу аккуратной разметки элементов и ограниченных текстов.


Правила минимизации

Вторая часть описания задает правила минимизации для элемента -определяют, обязаны ли присутствовать открывающая и закрывающая метки для каждого появления данного элемента. Они имеют вид пары символов, разделенных пробелом, первый из которых относится к открывающей, а второй -к закрывающей метке. В обоих случаях должны присутствовать или минус ( метка должна присутствовать) или буква O (она может быть опущена). В нашем примере каждый элемент, кроме <line>, должен иметь открывающую метку. Только элементы <poem> и <anthology> обязаны иметь закрывающую метку.

Обозначения включения

Вышеприведенное описание для <stanza> устанавливает, что строфа состоит из одной или более строк. Оно использует обозначение включения (occurence indicator) т.е. сколько раз может встречаться элемент, поименованный в модели содержимого. В синтаксисе SGML есть три обозначения включения: плюс (может встречаться один или более раз) вопросительный знак (может быть не более одного элемента) и звездочка (элемент может или отсутствовать, или появляться один и более раз).

Связки

Модель содержимого (TITLE?, STANZA+) содержит больше одного компонента и нужно указать порядок их появления. Это упорядочение определяется связкой (group connector) -запятой -использованным между ее компонентами. Существуют три связки, обычно представляемых запятой (оба компонента должны встречаться в порядке, указанном в модели содержимого), вертикальной чертой (может встречаться только один из компонентов, которые она соединяети), знаком "&" (компоненты, которые она соеденяет должны встречаться оба в произвольном порядке).

Группы модели

Группы модели (model groups), могут модифицироваться обозначениями включения и быть объединенными связками.

2.1.1 Описательная разметка

Эта система использует коды, дающие названия для классификации частей документа. Коды <para> или \end{list} идентифицируют часть документа и утверждают: "следующий элемент - параграф" или "это - конец начатого последним списка" и т.д. Система процедурной разметки определяет, какая обработка должна производиться в конкретной точке документа: "здесь вызвать процедуру PARA с параметрами 1, b и x", или "сдвинуть левую границу на 2см влево, правую -- на 2см вправо, пропустить строку и встать на новую левую границу", и т.д. В SGML инструкции для обработки документа с определенными целями отделяются от описательной разметки, встречающейся внутри документа и они собираются вне документа в отдельных программах. В процедурной разметке один документ можно обрабатывать разными программами, которые может применять различные правила обработки к частям документам, которые она считает важными. С одними и теми же частями файла могут ассоциироваться разные правила обработки. Например, одна программа может выделять имена людей и географические имена, а другая, оперирующая тем же текстом, может печатать имена собственные шрифтом отличающегося начертания.


2.1.2 Типы документов и независимость данных

SGML вводит понятие типа документа (document type definition, DTD). Тип документа определяется его составными частями и их структурой. Можно использовать специальную программу, называющуюся анализатором (parser), для проверки документа. Он проверяет все элементы, требуемые типом документа. Разные документы одного и того же типа могут обрабатываться одинаковым образом. Цель создания SGML в обеспечении транспортабельности закодированных документов из одной аппаратной и программной среды в другую без потери информации. SGML предоставляет универсальный механизм строковой подстановки (string substitution), то есть, простой машинно-независимый способ обозначить, что некоторая последовательность символов в документе должна заменяться при его обработке некоторой другой последовательностью. Одно очевидное применение этого механизма -обеспечение согласованности номенклатуры; другое - противодействие печально известной неспособности различных компьютерных систем понимать наборы символов друг друга. Строки, определенные этим механизмом подстановки, называются объектами (entities) - оно означает именованную часть размеченного документа, безотносительно ко всяческим соображениями структуры. Для включения его в документ используется конструкция, известная как ссылка на объект (entity reference).

2.2 HTML, структура HTML-документа и основные элементы

HTML — стандартный язык разметки документов во Всемирной паутине. Большинство веб-страниц содержат разметку на языке HTML (или XHTML). Он интерпретируется браузерами. Форматированный текст отображается на экране монитора компьютера или мобильного устройства.

Язык HTML является приложением SGML и соответствует международному стандарту ISO 8879. Язык HTML разработан британским учёным Тимом Бернерсом-Ли приблизительно в 86—91 г. в стенах ЦЕРНа в Женеве в Швейцарии. HTML создавался как язык для обмена научной и технической документацией, пригодный для использования людьми. HTML успешно справлялся с проблемой сложности SGML путём небольшого набора структурных и семантических элементов — дескрипторов. Мультимедийные возможности были добавлены позже.Текст с разметкой HTML должен был без искажений воспроизводиться на оборудовании с различной оснащённостью. Современное применение HTML далеко от его изначальной задачи. Например, тег <table> предназначен для создания таблиц, но часто используется и для оформления размещения элементов на странице.


Теги и их параметры нечувствительны к регистру. То есть <A HREF="http://example.com"> и <a href="http://example.com"> означают одно и то же. В последних версиях HTML практически у каждого тега много необязательных параметров — обычно не меньше 15. Осмотрим несколько:

Гиперссылки

<a href="filename" target="_self">название ссылки</a>

1)Атрибут href задает значение адреса документа, на который указывает ссылка;

2)filename — имя файла или адрес Internet, на который необходимо сослаться;

3)название ссылки — название гипертекстовой ссылки, которое будет отображаться в браузере, то есть показываться тем, кто зашел на страницу.

4)target — задает значение окна или фрейма, в котором будет открыт документ, на который указывает ссылка. Возможные значения атрибута:

    1. _top — открытие документа в текущем окне;
    2. _blank — открытие документа в новом окне;
    3. _self — открытие документа в текущем фрейме;
    4. _parent — открытие документа в родительском фрейме.

Текстовые блоки

  • <H1> … </H1>, <H2> … </H2>, … ,<H6> … </H6> — заголовки 1, 2, … 6 уровня. Используются для выделения частей текста (заголовок 1 — самый крупный, 6 — самый мелкий).
  • <P> — новый абзац. Можно в конце абзаца поставить </P>, но это не обязательно.
  • <BR> — новая строка. Этот тег не закрывается (то есть не существует тега </BR>)
  • <PRE> … </PRE>  — режим preview (preformatted text). В этом режиме текст заключается в рамку и никак не форматируется (то есть теги, кроме </PRE>, игнорируются, и переводы строки ставятся там, и только там, где они есть в оригинальном документе).
  • <SPAN> … </SPAN>  — строка (обычно используется для применения стилей CSS)

Изображения

  • IMG — вставка изображения. Этот тег не закрывается.
    1. SRC — имя или URL
    2. ALT — альтернативное имя (отобразится, если в браузере запретить отображать картинки)
    3. WIDTH, HEIGHT — размеры (если не совпадают с истинными размерами картинки, то изображение «растянется» или «сожмется»)
    4. ALIGN — задает параметры обтекания текстом (top, middle, bottom, left, right)
    5. VSPACE, HSPACE — задают размеры вертикального и горизонтального пространства вокруг изображения

2.3 XML достоинство и недостатки

XML — рекомендованный Консорциумом Всемирной паутины язык разметки, представляющий собой свод общих синтаксических правил. XML предназначен для хранения структурированных данных для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки. XML является упрощённым подмножеством языка SGML. Целью создания XML было обеспечение совместимости при передаче структурированных данных между разными системами обработки информации. XML также является применение так называемых пространств имён (namespace).