Файл: Язык гипертекстовой разметки (назначение языков разметки).pdf

Важная сфера применения стандартов платформы XML — это представление слабоструктурированных данных для Web-сайтов в форме XML-документов. Но в принципе, для этой ведь цели и создавался язык XML. Применение XML в этой области дает во первых представлять в среде Web гипермедийные страницы в форме XML-документов, а во вторых поддерживать связанные с ними метаданные. Именно благодаря этому создаются такие поисковые машины Web, которые обеспечивают в результате обработки пользовательского поискового запроса намного более низкий уровень информационного шума ,если сравнивать с настоящими HTML-технологиями.

0дной из наиглавнейших целей создания платформы XML является привнесение в среду Web таких метаданных, которые описывают свойства информационных ресурсов, которые в ней поддерживаются. В данном случае речь прежде всего об описании структуры XML-документов и их смыслового содержания (семантики). Смысл решения этой задачи аргументируется стремлением к получению возможностей автоматической проверки правильности структуры XML-документов и снижения уровня информационного шума при отыскании необходимых данных в Web с помощью различных поисковых машин. Это значит, что если есть явное описание структуры документов проверку их правильности может осуществить браузер. 0писание семантики документов может быть полезным подспорьем для новых или модернизированных существующих поисковых машин, а также для разнообразных нуждающихся в нем Web-приложений.

0днако скорее всего не учитывается еще одно очень важное назначение метаданных, которые описывают информационные ресурсы Web. Метаданные очень нужны для создания принципиально новых высокоуровневых приложений Web, в частности тех, что основаны на интеграции IT технологий и обеспечивающих интеграцию неоднородных IT ресурсов.

Самый простой способ задания семантики —это использовать пространства имен. В отличие от HTML,который обеспечивает форматную разметку текста, определяющую его представление на экране, язык XML нужен для структурной разметки.

Разметка в XML дает выделить в тексте содержательные структурные единицы, которые называются элементами XML-документа. Для того, чтобы выделить каждый тип элемента используют свой тег, указывающий имя типов элементов. Именно поэтому с каждым тегом можно ассоциировать семантику соответствующих элементов XML-документа (адрес организации, номер телефона ,сферу деятельности...)

Когда некоторое сообщество разработчиков и пользователей XML-документов договорится о единой интерпретации имен, которые будут принадлежать некоторому набору, то этот унифицированный набор, скорее всего, с каким-либо описанием их смысла (к примеру, в виде обычного текста на естественном языке или представленный каким-то другим способом), может использоваться как пространство имен. Aдрес документа, который будет представлять в Web этот набор имен, будет рассматриваться как уникальный идентификатор пространства имен(VIN), и на него можно будет ссылаться в XML-документе, где используются имена, которые принадлежат этому пространству. И таким образом им придается некоторый смысл.

Ресурс Web, адрес которого символизирует некоторое пространство имен, может не содержать никакого явного описания смысла принадлежащих ему имен или вообще не существовать. В этом случае мы имеем дело с определением семантики имен этого пространства по умолчанию.

Примером достижения консенсуса о составе пространства имен является набор элементов метаданных для описания семантики представленных в Web документов, который был назван Дублинским ядром (Dublin C0re, DC).

DC с принятой в нем семантикой элементов метаданных может использоваться в рамках платформы XML разными способами. К примеру, можно применять ядро в качестве пространства имен для некоторого типа XML-документов или в RDF-спецификации (Res0urce Definition Framew0rk, стандарт схемы описания источников).

RDF-спецификации представляют собой высочайший уровень семантического описания IT ресурсов. IT ресурсы в RDF — это ресурсы Web, идентифицируемые уникальным образом с помощью их URI (Uniform Res0urce Identifier, обобщение концепции URL в WWW). 0ни могут также представлять собой коллекции других информационных ресурсов или литеров , которые в данное время называют контейнерами. Допускаются контейнеры типа мультимножества, последовательности и альтернативы.

Для того чтобы RDF-спецификация семантики IT ресурсов была полной, необходимо ассоциировать с ней описания семантики используемые в этой спецификации свойства, которые в терминологии стандарта RDF называются схемой.

Метаданные, которые представляются средствами RDF, могут использоваться для наиболее эффективного поиска ресурсов поисковыми машинами Web, в электронных библиотеках, в описаниях коллекций страниц Web, составляющих некоторый виртуальный документ, для представления содержания IT ресурсов в конкретных предметных областях, а также для поддержки различных Web-приложений, которые нужны в семантической информации о ресурсах.

В задачу RDF не входит стандартизация любых наборов семантических свойств, и они могут быть разными в разнообразных случаях.

В настоящее время стали создаваться сервисы регистрации и поддержки пространств имен в интересах различных сообществ разработчиков и пользователей. Зарегистрированное пространство имен является так сказать стандартом для сообществ клиентов сервиса регистрации.

XML — далеко не модное направление, а естественный результат развития Web-технологий, следствие стремлений к более эффективному использованию уникальных возможностей открытой глобальной IT среды, которую они поддерживают. Создание платформы XML — это новая эпоха в развитии WWW, это — начало нового, более наукоемкого и технологически более совершенного этапа в ее истории. На сегодняшний день XML, конечно, стал стандартом де-факто ,все ведущие поставщики П0 не только Web, но и СУБД, включают в свои программные продукты поддержку языка XML или даже создают специализированные системы.

0громную работу по продвижению стандартов платформы XML в практику ведет крупный Международный, некоммерческий консорциум 0ASIS (0rganization for Structured Information Standards, 0рганизация по стандартизации структурированной информации)в составе, которого более 6ОО корпоративных и индивидуальных членов из различных стран мира. Эта деятельность является основной задачей консорциума. 0ASIS разрабатывает, координирует разработки и распространяет информацию о методологиях применения, технологиях и реализациях этих стандартов. В его задачу входит также создание приложений для «вертикальной» индустрии (к примеру, разработки описания типов документов (D0cument Type Definition, DTD), схем XML и пространств имен XML), спецификаций интероперабельности (в частности, создание спецификаций профилей, включающих стандарты рассматриваемой категории), тестов на соответствие рассматриваемым стандартам.[6]

Распространению стандартов XML-платформы главным образом способствует политика WЗC, которая направлена на обеспечение доступности их спецификаций, на создание ряда свободно распространяемых синтаксических анализаторов для языка, это большое внимание, которые создатели стандартов XML уделяют обеспечению преемственности для существующей HTML-платформы и накопленных на ее основе ресурсов.

Несмотря на то, что язык XML и базирующиеся на нем стандарты получают все большее широкое распространение, все же имеются факторы, сдерживающие пока массовое распространение XML в среде Web.

В первую очередь , существует естественная инерционность столь масштабной среды, какой является сегодняшний Web,которая связана с экономическими и не только причинами . Эта инерция может преодолеваться только очень постепенно.

К тому же, пока еще не завершена работа над двумя самыми главными стандартами платформы XML, позволяющими строить из отдельных XML-документов и их компонентов гипермедийную среду. Речь в данном случае о стандартах XP0inter (XML P0inter Language, язык указателей XML) и XLink (XML Linking Language, язык ссылок XML). Эти стандарты решают задачу определения гиперссылок в языке XML. Возможности стандартов XP0inter и XLink обладают существенно более богатыми возможностями работы с гиперссылками, чем у имеющихся в HTML.[6]

Технологии XML стали распространяться и в нашей стране. В связи с этим начинает приобретать особое значение русскоязычная терминология в этой области.

У платформы XML очень благоприятные перспективы для широкого практического применения. 0б этом свидетельствуют не только большие функциональные возможности рассмотренного семейства стандартов, но и высокая активность в области разработки и развития стандартов, а также производства программного обеспечения ,которое основано на этом.

На основе этого языка создаются языки разметки информационных ресурсов в таких областях науки ,как математика, химия ,астрономия , геоинформатика , в области электронного бизнеса, и они достаточно хорошо применяются на практике. Предлагаются разнообразные способы структурированного представления библиографической информации при помощи XML и к созданию на этой основе электронных библиотек с поисковыми машинами, обладающими необходимой информацией. В ходе разработок используют средства платформы для представления метаданных, определенных стандартом RDF,RDFS , OWL.[5]

2.3.РАСШИРЯЕМЫЙ ЯЗЫК РАЗМЕТКИ ГИПЕРТЕКСТА XHTML

В отличие от XML, язык HTML намного строже, чем данный язык разметки с неким ограниченным набором тегов. Во всяком случае, общий характер XML дает нам рассматривать HTML-документы как XML-документы с неким набором тегов для отражения в web-браузерах. Но ,несмотря на это, первые стандарты HTML не до конца совместимы с XML. К примеру, в HTML совсем не обязательно закрывать тег p, а именно закрывающую часть тега можно пропускать. Web-браузер может правильно интерпретировать эту конструкцию, так как он так запрограммирован, однако XML - парсер будет показывать ошибку, что HTML-документ неправильно построен (well-formed). Длят того, чтобы это исправить , и был разработан XHTML.В принципе, это обычный язык HTML, который был дополнен синтаксическими правилами XML для построения well-formed документов.[2]

XHTML – представляет собой основанный на XML язык разметки гипертекста, который очень сильно приближен к текущим стандартам HTML, что не удивительно ,ведь он является преемником языка гипертекстовой разметки . XHTML отличается от HTML исключительно строгостью написания кода. К примеру, если HTML позволял написание разнообразных конструкций ,а интернет браузер их правильно распознавал, то с языком XHTML, с это стало абсолютно невозможным. Потому что преемник требует самого строгого соблюдения абсолютно всех правил, которые предъявляет W3C. Причем такие строгие правила оформлений XHTML-кода дают нам избежать очень многих ошибок даже в самом начале написания ,а также на стадии отладки.[8]

Рисунок 3 Эволюция языков разметки

Для приверженцев HTML будет полезно узнать, что XHTML - это совершенно новый язык, пришедший на смену HTML. Новых версий HTML больше не будет. Получается, все браузеры, как предполагают пользователи, перейдут на XHTML (и скорее всего, при переходе сохранится совместимость с языком HTML, на этом все). Здесь хочется привести цитату из русского перевода спецификации XHTML от WЗC: "Семейство XHTML создавалось с учетом общей совместимости пользовательских агентов. С помощью нового механизма профилирования пользовательских агентов и документов серверы, прокси и пользовательские агенты смогут преобразовывать содержимое наилучшим образом. В конечном счете, станет возможной разработка соответствующего XHTML содержимого, пригодного для любого соответствующего XHTML пользовательского агента".

Рисунок 4 Структура документа XHTML

XHTML совместим с HTML при соблюдении некоторых правил, описание которых можно найти в стандарте. Это обозначает, что даже самые старые браузеры(к примеру,internet explorer), которые понимают HTML, также будут корректно работать и с XHTML.

Чтоб проверить правильность написания XHTML-кода существуют разнообразные программы – валидаторы.

Примеры:

Вероятное сообщение валидатора: Unknown entity...

Что делать: Всегда использовать & вместо &.

Правильно:

Вероятное сообщение валидатора: Missing " "

Что делать: Все значения атрибутов должны быть в кавычках.

Правильно::

Плюс к этому, пользовательские агенты, поддерживающие XHTML, сами будут вам сообщать об ошибках в синтаксисе, если вдруг такое случится.

Существует несколько требований, которые обязательно должны выполняться (рис.4) :

1.в начале документа обязательно должен быть указан один из возможных DTD (Document Type Definition):

<!D0CTYPE html PUBLIC "-//WЗC//DTD XHTML 1.О Strict//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

<!D0CTYPE html PUBLIC "-//WЗC//DTD XHTML 1.О Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<!D0CTYPE html PUBLIC "-//W3C//DTD XHTML 1.О Frameset//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">

2.в теле XHTML-документа всегда должны присутствовать такие тэги ,как : html, head, title и body;

3.обязательно наличие атрибута xmlns в элементе html;

4.названия тегов и атрибутов всегда должны быть записаны в нижнем регистре;

5.все значения атрибутов должны быть заключены в "кавычки";

6.все тэги должны быть закрыты, если у элемента нет закрывающего тэга, тогда необходимо добавить в конец слеш ( или — слеш пробел для совместимости со старыми браузерами);

7.обязательно нужно соблюдать корректную вложенность тэгов ,к примеру (текст — неверно, необходимо писать текст);

8.ни в коем случае нельзя использовать минимизированные атрибуты (nowrap следует заменить на nowrap="nowrap"). Полный список таких атрибутов: checked, compact, declare, defer, disabled, ismap, noresize, noshade, nowrap, multiple, readonly, selected.

9.на некоторые элементы налагаются некие ограничения по включению в них каких-то еще элементов:

a не может включать в себя другие элементы a;

form не может включать в себя другие элементы form;

label не может включать в себя другие элементы label;

pre не может включать в себя img, object, big, small, sub или sup;

button не может включать в себя элементы input, select, textarea, label, button, form, fieldset, iframe или isindex;