"Сетевой журнал"
http://www.setevoi.ru/cgi-bin/text.pl/magazines/2001/4/47
Сетевой журнал №4.2001
Семантический веб
Даниил Фертф
независимый эксперт
Хотя XHTML и XSLT довольно ограничены в возможностях, их использование позволяет разработчикам добавлять семантическую информацию при минимуме дополнительных усилий.
Для Тима Бернерса-Ли идея Семантического веба (Semantic Web) лежит в основе будущего Всемирной паутины. Совместно коллегами из World Wide Web Consortium (W3C) Бернерс-Ли интенсивно работает над инфраструктурой для этого нового этапа жизни веба. Однако что именно скрывается за словами "семантический веб", понятно еще далеко не до конца.
Веб для машин
Обвинения по поводу расплывчатости концепции Семантического веба сыплются в адрес Бернерса-Ли довольно часто. И они не лишены оснований. Судя по тому, что Бернерс-Ли до сих пор не представил полного изложения своих идей, не опубликовал ничего похожего на Semantic Web whitepaper, ему и самому пока далеко не все ясно. Однако с общими положениями и целями этой концепции и массой интересных предположений в связи с нею можно ознакомиться по тексту, озаглавленному Semantic Web Roadmap (www.w3.org/DesignIssues/Semantic.html).
Общее определение целей будущего веба выглядит очень заманчиво и амбициозно. Семантический веб - это не технология, а идеология. Для Бернерса-Ли Семантический веб -- это следующая ступень эволюции Интернета. Нынешний веб нацелен исключительно на предоставление информации людям и может эффективно читаться только людьми. "Вместо этого Семантический веб разрабатывает языки для выражения информации в форме, доступной для машинной обработки". То есть Семантический веб - это веб не для людей, а для машин, это комплекс технологий, позволяющих машинам лучше разбираться в Интернете, что, в свою очередь, сделает веб более полезным для людей.
Неудивительно, что такая цель делает рамки Семантического веба расплывчатыми и неопределенными. Для решения данной задачи может быть применено множество способов и технологий. Некоторые XML-разработчики испытывают устойчивое предубеждение по отношению к "Педантическому вебу", как они в шутку называют концепцию Бернерса-Ли, из-за того, что она опирается на технологию RDF (Resource Description Framework). Источником структурированной информации для машины может являться множество синтаксисов. Но если оставить в стороне споры о технологиях, то мы вынуждены будем признать ценность Семантического веба как инструмента, способного решать серьезные коммуникационные проблемы, причем прежде всего те из них, которые сейчас отнимают у нас больше всего времени: усовершенствование возможностей поиска, сортировки и классификации информации. Тем или иным способом, но лицо веба непременно изменится, и он вновь предложит нам новые возможности для общения и взаимодействия.
Никто не спорит, что развитие идей Семантического веба только началось. Однако на разработчиков глобальная картина не производит впечатления, если ее нельзя заставить работать. На сегодня главным вкладом в осуществление целей Семантического веба стал язык XML. Высвобождая информацию из непроницаемых, нерасширяемых форматов, XML являет собой универсальный синтаксический фундамент, на котором могут строиться решения проблем представления данных и отношений между ними. О XML мы подробно писали в статье "Вавилонские проблемы XML" (см. "Сетевой журнал", №1/2001). Поэтому здесь мы остановимся на других технологиях, являющихся ключевыми для этого шага развития Семантического веба. Это XHTML, XSLT и RDF.
XHTML и XSLT: потенциал простых технологий
Как ни удивительно, мощным инструментом Семантического веба является HTML собственной персоной, а точнее его расширение - XHTML (Extensible HTML). Большинство людей знакомо с "мета"-ярлыками, которые могут быть использованы для запечатления метаданных о документе в целом. Хотя они, как правило, не используются в сегодняшнем вебе, все же XHTML предлагает несколько возможностей внедрения семантических подсказок в разметку, что позволяет машинам воспринимать содержание веб-страницы не только как текст. Эти инструменты оперируют атрибутами класса, чаще всего используемыми с таблицами стилей. Их строгое применение может позволить машине извлекать данные со страницы, предназначенной для человеческого восприятия.
Семантический веб - это веб не для людей, а для машин. |
Аналогичные техники, неформально известные как "screen scrapping", уже какое-то время используются в Сети. Распространенные приложения такого рода включают извлечение из поисковых систем данных для Perl-сценариев или извлечение заголовков из новостных источников. Однако, как правило, такие приложения точно настраивались на дизайн HTML-страниц, и при его изменении каждый раз необходимо было перенастраивать "скребки" заново. Страница, промаркированная с помощью XHTML, как показано на примере, гораздо надежнее выполняет эти задачи, не отменяя при этом базовый интерфейс - HTML.
В то время как ASP-компании размышляют о добавлении SOAP (Simple Object Access Protocol) и других подобных интерфейсов к своим системам для предоставления удаленного доступа к приложениям, XHTML представляет им возможность избежать бремени поддержания двух интерфейсов (браузера и SOAP) путем внедрения машинно-считываемой информации непосредственно в HTML. Ценность и удобство простых веб-технологий еще не исчерпали своего потенциала.
Когда дополнительная информация внедрена в HTML-страницу, программе необходимо преобразовать ее в нужный формат. И здесь может пригодится другая технология W3C - XSLT (Extensible Stylesheet Language Transformations), расширяемые стилевые таблицы для преобразования языков. В общем смысле XSLT обеспечивает преобразование данных с XML-разметкой, созданной с использованием одного словаря, в простой текст, обычный HTML, или в данные с XML-разметкой, использующей любой другой словарь. Технология XSLT способна выделить и преобразовать дополнительные данные, внедренные с помощью XHTML. Она представляет собой отличный мост между старой HTML-технологией и зарождающимися XML-приложениями Семантического веба.
Хотя XHTML и XSLT достаточно ограничены в возможностях, их использование позволяет веб-разработчикам добавлять семантическую информацию при минимуме дополнительных усилий. Поступали предложения внедрить внутрь HTML-страниц RDF, но техника использования XSLT выглядит гораздо привлекательнее и проще. Мало кто хочет учить RDF, и это становится барьером для создания семантически богатых страниц.
RDF: сеть по тройкам
Тем не менее технология RDF (Resource Description Framework -- структура описания ресурсов, www.w3.org/RDF) - один из краеугольных камней в фундаменте Семантического веба. Действительно, мало кто в восторге от этой технологии, ее довольно громоздкий синтаксис часто вызывает критику со стороны XML-разработчиков, но весьма важным плюсом RDF является информационная модель. RDF определяет очень простую модель данных, состоящую из троек (субъект, предикат, объект), где субъектом и предикатом являются URI (Uniform Resource Identifiers - универсальные идентификаторы ресурсов), а объектом может быть либо URI, либо литерал. Такая простая модель позволяет представлять объект и его свойства. Вся сила RDF кроется именно в этой простоте.
Эффективность данной информационной модели вне всяких сомнений, однако предлагаемый W3C синтаксис RDF-модели, который опирается на синтаксические спецификации XML (этот вариант называется RDF/XML), по мнению многих, крайне неуклюж. Сейчас предлагаются другие синтаксисы, например, RDF-модели могут быть реализованы с использованием SOAP-правил. Если верно, что вся информация в сети может быть описана посредством RDF-троек, то синтаксис особого значения не имеет. Однако большие вопросы у специалистов вызывают универсальные идентификаторы URI.
Если у нас есть информационная модель, то появляется необходимость в описании характеристик модулируемых объектов. Например, мы хотим сказать, что у "Контакта" должны быть характеристики - имя, роль и организация. Здесь-то и начинают работать RDF-схемы - они определяют RDF-словарь, который может быть использован для определения "Контакта". Это позволяет всем пользователям ресурса типа "Контакт" иметь общие ожидания его характеристик и отношений с ресурсами прочих типов.
RDF-схемы немного отличаются от XML-схем структуры документов (таких, как DTD или XML Schema) тем, что они определяют не разрешенный синтаксис, а вместо этого классы, характеристики и их взаимосвязи: они действуют напрямую на уровне информационной модели, а не на синтаксическом уровне. В масштабах всего веба ключевой технологией являются именно RDF-схемы, поскольку они позволяют машинам выводить собственные умозаключения по поводу информации, собранной в Сети.
Сложнейшей проблемой в этой области является не какая-либо сетевая технология, а непосредственно само формальное описание объектов и их взаимоотношений, т. е. то, что называется онтологией. Пока отсутствуют индустриальные онтологии для, допустим, автомобильных деталей, будут существовать ограничения для использования Семантического веба в сфере автомобильного производства. Такие организации, как Dublin Core Metadata Initiative, уже некоторое время занимаются разработкой подобных словарей и добились определенного прогресса в отношении как самих онтологий, так и инструментов управления ими. Фактически сейчас уже идет процесс по продвижению RDF-схем еще на шаг вперед в определении онтологий. MIT/LCS приступил к разработке языка описания онтологий DAML (DARPA Agent Markup Language). Его название можно перевести как "язык разметки DARPA-агента", что, памятуя о военном предназначении DARPA, звучит несколько угрожающе.
Идеи Семантического веба уже вызвали немалый шум в сообществе XML-разработчиков, и этот процесс, несомненно, будет продолжаться. К тому же за последние полгода резко повысилась активность W3C и MIT/LCS в области Семантического веба и заметно увеличился интерес сообщества к RDF. Споры ведутся о пользе этой технологии, сложности использования RDF и т. д. Создание семантически богатых документов - сравнительно несложное дело, усилия уходят в основном на сбор, сортировку и уточнение данных. Несмотря на простоту связки XHTML/XSLT отправной точкой для Семантического веба пока что остается RDF. Однако идея Семантического веба - веба, доступного для машинного чтения, - может быть осуществлена с помощью очень многих технологий. И хотя некоторые жалуются на отсутствие четкого определения Семантического веба, его поистине глобальный подход в полной мере отражает то незаметное, но радикальное воздействие, которое он окажет на Сеть.
Комментариев нет:
Отправить комментарий