Blog DDTOR

Сеть, которая умнее людей

Алексей Андреев
lexa@spb.cityline.ru

Те, кто называет WWW "кучей мусора", говорят так лишь потому, что чувствуют очень даже "немусорную" силу этой Сети. И боятся ее. Потому что на самом деле WWW - это умная машина для умных людей. И в ближайшие годы, с развитием Semantic Web, она станет еще умнее, обещает ее изобретатель Тимоти Бернерс-Ли.

Агенты научного коммунизма

"Я думаю, что мы увидим более интернациональную, и возможно, более смышленую Сеть, когда она окончательно распространится по всему миру, а люди, которые пришли быстро обогатиться и не обогатились, покинут игровое поле".

Джефри Зельдман

Одно из массовых заблуждений по поводу Интернета состоит в том, что его создали военные. Это, конечно, не так. Военные могли еще что-то придумывать в древнем Китае. Но в XX веке для создания чего-либо нового в военной сфере требовались люди, работающие в чистых науках. Другое дело, что труд ученых во многих областях науки сначала использовала военная машина. А уже затем она бросала обглоданные кости технологий в руки гражданской индустрии, которая, еще немного обглодав их, отдавала нормальным людям за отдельные деньги.

Но с главной надстройкой Интернета - Word Wide Web - все получилось гораздо интереснее. Она была создана не только учеными, но и для ученых, по их собственным принципам. И проскользнула между пальцами тех, кто привык поедать новые технологии первым. То, что получилось в результате, стало бомбой замедленного действия, подрывающей и военную машину, и гражданскую индустрию.

Но сначала немного истории - которая, кстати, тоже начинается с опровержения стереотипа. Хотя Интернет и ассоциируется у многих с США, его главную надстройку World Wide Web придумал компьютерный консультант британского происхождения, работавший в Швейцарии. В марте 1989 года Тимоти Бернерс-Ли, сотрудник Европейской лаборатории физики элементарных частиц (CERN) в Женеве, обратился к руководству CERN с идеей создания распределенной информационной системы для обмена результатами исследований между учеными, находящимися в разных учреждениях и разных странах. В своем проекте "World Wide Web: Proposal for HyperText Project" Бернерс-Ли предложил объединить все информационные ресурсы CERN в систему, которая бы позволила легко переходить от одного документа к другому посредством гипер-ссылок.

Дальше развитие WWW носило характер массового общественного движения, чему очень способствовала идеология "открытого кода". Не требовалось ни специальной индустрии, ни специальных государственных мер, чтобы развивать эту Сеть - люди строили ее сами. И хотя распространение других сетей - ФИДО, Usenet - тоже шло снизу, в них не было той черты WWW, которая стала бомбой.

Речь идет о том, что универсальная система URL-адресов и технология гипертекста в сочетании с поисковыми программами образовали среду, где информация не только передается, но и интеллектуально обрабатывается. Под интеллектуальной обработкой имеется в виду не просто техническое преобразование информации (например, шифрование), а такие процессы, которые аналогичны человеческому мышлению. Например, автоматизированное собирание объектов в множества по определенным признакам, установление отношений между этими множествами (распознавание образов) и т.п. Несколько лет назад математик Дмитрий Манин придумал для описания этих механизмов забавный термин "платонова метрика" - своего рода "расстояние между идеями". В Сети платонова метрика заменяет метрику Евклида. Физическое расстояние между двумя серверами может быть огромно, но если оба сайта посвящены, например, кошкам, то при наборе слова "кошка" в поисковой системе эти сайты окажутся очень близки по идее - как две гиперссылки, стоящие на одной странице.

Таким образом, Интернет с надстройкой WWW - это не только система связи и большая база данных, но и система получения знаний, огромный искусственный интеллект с персональным интерфейсом для каждого желающего.

Для людей науки это был просто клад: в современной теоретической физике, например, просто невозможно создать что-либо "с нуля", не опираясь на работы предшественников. А уж сколько было случаев, когда люди тратили годы на исследования - и затем выясняли, что аналогичные результаты уже давно получены кем-то другим! В результате научное сообщество просто вынуждено было прийти к идее более-менее свободного обмена знаниями. Построение коммунизма имело место в отдельно взятом и страшно далеком от народа сообществе, поэтому его терпели.

Но когда птичка WWW выпорхнула из академического мира, она вынесла на публику этот тщательно скрываемый научный коммунизм. Нечего и говорить, всенародная система получения знаний вряд ли могла быть полезна военным, которые предпочитают скрывать знания. Да и индустрия, с ее любовью к "патентам", "авторским правам" и прочим "эксклюзивам", получила подарочек, смысл которого стал ясен гораздо позднее.

В 2001 году отмечается 10 лет World Wide Web. В течение этих десяти лет старая идеология "средства массовой информации" медленно, но верно подтачивалась новой концепцией "средства персонального доступа к знаниям". Нельзя сказать, чтобы старый мир особенно сдавался. В Сеть были искусственно привнесены многие офлайновые модели той самой индустрии, которая предпочитает распространять не знания, а продукты использования этих знаний. Дошло даже до того, что механизм гиперссылок стал искусственно подавляться (этим славится, например, агентство "Росбизнесконсалтинг", редакторам которого запрещено не только ставить ссылки, но и вообще упоминать источники новостей).

Однако Маклюэн не зря сказал, что "the media is the message". Если ориентация на доступ к знаниям встроена в сам механизм, а механизм получил всемирное распространение - то надурить такую систему уже непросто. Любой желающий с помощью элементарного поиска по Yahoo! может за пару минут найти оригиналы тех новостей, которые РБК публикует как свои. Любой желающий с помощью тех же поисковиков может составить собственную новостную ленту. Более того, в конце концов любой желающий, пользуясь все той же системой, может сам писать новости гораздо лучше, чем РИА "Новости"- а в некоторых случаях даже предсказать новости до того, как они произошли!

Именно в связи с этим аналитики предсказывают, что в 2002 году власть классических масс-медиа (телеканалов, музыкальных лейблов и особенно газет) закончится. Их будут вытеснять персонализированные сетевые сервисы, или "контентные гиды" (поисковые системы, напстероподобные p2p-сервисы обмена музыкой, интерактивное телевидение), которые помогают пользователю составлять собственные плей-листы, телепрограммы и новостные дорожки.

Следующий шаг: мыслящая Сеть

"Semantic Web начала развиваться на основе такого же общественного движения "снизу", как World Wide Web десять лет назад. Самые разные люди создают для нее ПО с открытым кодом. В течение следующих 10 лет это произведет новую революцию в нашем бизнесе, общественной жизни и образовании."

(Тимоти Бернерс-Ли)

В нынешнем виде WWW - вместе с поисковыми системами и другими сервисами - уже представляет собой "мыслящую Сеть". Однако нетрудно понять, что сами веб-страницы здесь пассивны, а "мыслящей частью" являются именно поисковые машины. Они не только индексируют страницы Сети, но и всячески анализируют их, организуя собственные базы знаний. Тот, кто контролирует поисковую систему - контролирует знания.

До сих пор поисковики были бесплатными, поскольку бизнес по старинке концентрировал свое внимание на обладании информацией. Но как уже сказано, эта модель умирает. И уже по опыту этого года видно, что в 2002 году сетевые сервисы обработки информации, которые ранее были бесплатными, будут все больше коммерциализироваться. А значит, доступ к знаниям опять будет не для всех.

Кроме того, сама по себе централизация - не очень полезная вещь. Неэффективно собирать знания со всей Сети в одном месте, и в том же одном месте обслуживать миллионы пользователей. Сейчас число хороших поисковиков можно пересчитать по пальцам. Их сбои (а то и планомерное блокирование) запросто могут привести к тому, что вся WWW превратится в "тело без мозга".

У Бернерса-Ли уже есть решение этой проблемы: нужно сделать более умной саму WWW, чтобы она хранила не только документы, но и их "смысл". Для этого семантика, то есть определенная информация о смысле документов, должна быть добавлена в описание самих веб-страниц на языке, который может так же легко обрабатываться компьютерами, как обрабатываться гипертекстовая разметка HTML.

Для начала речь идет самых простых семантических элементах, или мета-данных - которые, кстати, уже используются отдельными системами. Например, во внутренней верстке новостей Lenta.ru (а до этого - в Gazeta.ru) уже в 1999-м году использовались такие "метки", как .Author или .Title, которые помечают, соответственно, автора новости и заголовок новости. Эти данные используются роботом, который верстает сайт - например, каждый новый заголовок автоматически выносится на главную станицу сайта как гиперссылка. Эти же данные могут использовать другие боты, выполняющие экспорт заголовков на другие сайты, поиск по авторам и т.д.

В случае Семантической Сети для представления мета-данных используется универсальный язык XML, который позволяет создавать новые гипертекстовые "метки" (тэги). Кроме того, с помощью конструкций Resource Description Framework можно описывать отношения между различными объектами. RDF - это машинное преставление отношений в виде троек, чем-то напоминающих классическую схему "подлежащиее-сказуемое-определение". Например, "(Париж) (является столицей) (Франции)". Все элементы тройки RDF - это гиперссылки, ведущие туда, где определяются термины "Париж", "является столицей" и "Франция".

Третьим элементом Семантической Сети являются "онтологии" - универсальные базы знаний, которые собственно и определяют используемые термины в рамках классов и множеств. Например, в онтологии может быть описано, что "столица" - это особый тип "города". Для определения терминов, используемых в разметке XML-документа, достаточно сослаться на онтологию. Этой же ссылкой воспользуется и интеллектуальный бот-поисковик, который, например, ищет не просто "все туры", а "туры по столицам". С помощью онтологии бот сам поймет, что на сайте туров по Франции ему нужно выбрать именно тур по Парижу, так как это - столица.

Идентификаторы-гиперссылки могут ссылаться не только на веб-страницы, но и на определенные физические объекты - например, на домашнюю электронную аппаратуру. И самое интересное начнется, когда Семантическая Сеть объединится с Сенсорной Сетью. Тогда умные боты смогут управлять объектами материального мира - например, самостоятельно убирать громкость телевизора во время звонка телефона, или парковать одновременно сотню автомобилей.

Все это кажется довольно сумасшедшим проектом. Однако развитие Семантической Сети идет полным ходом, причем разработки ведут многие крупные компании, включая Hewlett-Packard и Nokia. Министерство обороны США, а точнее, его научное агентство DARPA, выделило уже десятки миллионов долларов на развитие своего языка разметки для Семантической Сети (DARPA Agent Markup Language).

Битва за стандарты

"Вседоступность Сети - вот ее сила. Разбей ее на две половины, и каждая из частей потеряет главную силу WWW - возможность поставить ссылку на что угодно... Только в том случае, если среда остается неделимой и универсальной, она будет являться средством для получения индивидуального, регионального или глобального знания".

Тимоти Бернерс-Ли

Издательская компания IDG в своей двадцатке технологий, которые изменят компьютерную жизнь в ближайшие годы, указала одним из главных таких достижений язык XML (Extensible Markup Language). По гибкости и универсальности XML значительно превосходит привычный HTML. Но самое главное - XML является платформой, идущей на смену разрозненным стандартам и диалектам.

Показательно, что стандарт XML был окончательно оформлен еще в 1998 году. Да и вообще в 2001 году не произошло ничего особенно нового в плане языков для веб-программирования или веб-браузеров (если не считать появление языка Curl, который пока не нашел широкого применения). Зато 2001 год стал борьбой за стандарты, которые бы наконец внесли порядок в хаос разнообразных веб-приложений.

Простым пользователям в 2001 году эта проблема стало особенно близка с распространением Macromedia Flash, в результате чего появилось множество сайтов, которые просто нельзя увидеть обычным браузером без дополнительного плагина.

По словам самого Бернерса-Ли, уже в 1992 году он почувствовал, что от популяризации WWW пора переходить к контролю за сохранением ее принципов универсальности. Возглавляемый им World Wide Web Consortium (W3C) все эти годы работал над тем, чтобы все то новое, что появляется в Сети, было общедоступно, независимо от компьютерного оборудования, программ, провайдеров и культурных особенностей самого пользователя.

Как отмечает Джефри Зельдман из Web Standards Project, на сегодняшний день W3C довольно далеко продвинулся в разработке самих стандартов - например, сейчас там занимаются такими прибамбасами, до реального применения которых еще очень далеко. Другое дело, что поддерживать общие стандарты (даже гораздо более низкие!) компании-разработчики соглашаются все более неохотно. В 2001 году Консорциум столкнулся с особенно сильным давлением со стороны индустрии. Компания Microsoft даже умудрилась запретить доступ на свой сайт MSN.com всех браузеров, кроме последней версии MS Internet Expolorer.

Нельзя сказать, что W3C смог полностью решить эти проблемы. С одной стороны, в нем была создана специальная рабочая группа, которая будет заниматься вопросами архитектуры Интернета (Technical Architecture Group). С другой стороны, в этом году организация Web Standards Project, в течение трех лет продвигавшая идеи Консорциума среди лидеров индустрии, закрылась. А сам Консорциум предложил новые правила, которые кардинально меняют концепцию открытых стандартов: теперь в качестве сетевых стандартов могут быть приняты запатентованные технологии, использование которых предполагает платную основу. Если новые правила будут приняты, ситуация может коренным образом измениться: платить деньги за использование стандартизированных Консорциумом средств смогут лишь крупные компании. Разработчики ПО в духе open source будут поставлены перед дилеммой: либо прекратить разработку приложений вообще, либо использовать другие стандарты. Пока что принятие новых правил "отправлено на доработку".

Очевидно, что в будущем году эти проблемы только усилятся, и в работе над Семантической Сетью тоже будет идти война за стандарты. Сам Бернерс-Ли считает, что Семантическая Сеть, так же как WWW, должна быть максимально децентрализована - в этом случае будет меньше шансов, что-то один станет контролировать базы сетевых знаний (онтологии). Но как сказано выше, хотя развитие Семантической Сети вовсю идет как общественное движение, существенную роль в этом процессе играют крупные компании и даже Минобороны США.

Боты, которые ботают

"Мозг ALICE содержит около 40.000 различный "категорий", на основе которых происходит распознавание паттернов речи. Это позволяет вести вполне приличный диалог на английском, несколько хуже - на немецком и французском. Уже есть итальянская, испанская и даже индонезийская версии. Я слышал о ботах, которые говорят на каталонском и других языках."

Ноэл Буш

Интерфейс интеллектуальных агентов-ботов Семантической Сети будет все больше приближаться к естественному языку. В это смысле 2001 год тоже стал переломным. Хотя развитие Интернета повлекло за собой новое массовое увлечение говорящими ботами, к этому году страсти несколько поутихли. Несмотря на эффектность таких приложений, коммерческое применение их остается под вопросом. По крайней мере, довольно известная компания Artificial Life в этом году обанкротилась и закрылась. Однако в этом же году создана AI ALICE Foundation - некоммерческая организация, которая будет координировать open-source проекты по развитию говорящих роботов - так же, как W3C координирует развитие WWW. В этом году программа искусственного интеллекта ALICE не только получила первую премию Лебнера за самые "человекоподобные" диалоги, но и смогла заставить одного из судей конкурса принять ее за человека. Благодаря открытости кода ALICE, сотни людей в разных странах строят сейчас собственных роботов на ее основе. Любопытно, что язык AIML, на котором написана ALICE, является производной от XML, так что AIML-файлы могут быть общедоступны через WWW, что позволяет превратить всю Сеть в базу знаний для бота. Об этом аналоге Семантической Сети можно подробнее прочесть в интервью Ноэля Буша, одного из учредителей ALICE AI Foundation.
Приватность: возьми сам, сколько надо

"Если бы у меня была возможность все сделать снова, я бы вписал механизм защиты приватности пользователя прямо в протокол HTTP".

Тимоти Бернерс-Ли

В борьбе за знания ученые нередко рискуют собственной безопасностью. Устройство WWW вполне отражает этот факт. Создавая сеть для связывания научных работ, они действительно не думали о том, что ее можно использовать и для слежки. В общем-то ничего удивительного: если WWW - это система получения знаний, то она может быть направлена и на получение знаний о том, кто ею пользуется. Для выявления вкусов, привычек и паттернов поведения отдельных пользователей, для моделирования их поведения - и манипулирования ими с помощью этих данных.

Поскольку технология защиты приватности, о которой говорит Бернерс-Ли, не была прописана в протоколе HTTP, обеспечить ее могут только программы и сервисы более высокого уровня. В этом смысле разочарованием года стало закрытие сразу двух известных сервисов анонимизации - Zero Knowledge и SafeWeb. Подобное положение вещей некоторые эксперты связывают прежде всего с финансовыми проблемами этих сервисов. Однако не последнюю роль сыграла и возросшая после терактов любовь американского общества к национальной безопасности. На волне такой любви ФБР стало быстренько инсталлировать у провайдеров подслушивающую систему Carnivore, а также разрабатывать еще более хитрый "Волшебный фонарь".

Позитивным же событием года стало то, что в новом браузере Internet Explorer 6 оказалась реализована поддержка формата защиты личных данных P3P. Теперь сайты, которые собирают информацию о пользователях, должны описать свою политику и выложить ее в корневой каталог сайта в машиночитаемом виде (на языке XML). Браузер проверяет этот файл, и в зависимости от настроек пользователя начинает "ругаться" в том случае, если сайт хочет узнать о пользователе больше, чем нужно.

Такая забота о пользователе - едва ли заслуга компании Microsoft, которая в этом же году уже подглядывать за пользователями интерактивного телевидения. Спецификация P3P разработала все тем же консорциумом W3C под руководством все того же Бернерса-Ли. Видимо, к этому году Microsoft просто вынуждена была применить этот стандарт, так как истории о шпионских cookies уже начали подрывать миф об удобстве сетевой коммерции.

Конечно, P3P - не панацея от всех бед. Некоторые считают, что система идентификации Passport, которую продвигает сейчас Microsoft, является куда более продвинутой системой шпионажа, чем собирание cookies. Однако показательно, что с поддержкой стандарта P3P "распределенная" идеология WWW начала реализоваться и в вопросах privacy. Если знания (оно же - сила) децентрализовано, то же самое будет происходить и с защитой частной жизни в Сети. Никакой "добрый дядя" не обеспечит всеобщую защиту. Вместо этого пользователь сам должен выбрать себе тот уровень "умной Сети", который ему подходит.

Кстати, собирая ссылки для этой статьи, я не видел ни одного баннера. Не то чтобы я каждый раз специально закрывал глаза, проклиная рекламщиков. Нет, я даже не задумывался об этих несчастных! Просто та часть Сети, в которой я работаю, уже умнее этих людей. И она сама не пускает ко мне то, чего я не просил. И будет еще умнее, если понадобится.

Обсудить в форуме (Сообщений : 34)