Переводы статей
о Семантической Сети и связанных с ней технологиях

http://www.cs.man.ac.uk/~ezolin/logic/rus_transl.html



Другие статьи


Полезные ссылки


Зарубежные сайты


Зарубежные статьи

8 комментариев:

Анонимно комментирует...

Есть перевод статьи "Metacrap: Putting the torch to seven straw-men of the meta-utopia" на
www.semantictools.ru/conception/metacrap

Kukash комментирует...

Спасибо, незнакомый друг. Заходи с комментариями еще. Если у тебя (вас) есть свой блогили сайт - я б в гости зашел тоже :-) А то осчусчение, что один на всем интернете :-( Кстати о переводе статьи - вот прям здесь и выложу себе и другим на память.

==========================

Метачепуха: проливаем свет на семь логических несуразиц по поводу мета-утопии

Кори Докторов
doctorow@craphound.com
Оригинал: http://www.well.com/~doctorow/metacrap.htm
Содержание

* 0. Содержание
* 1. Введение
* 2. Проблемы
o 2.1 Люди лгут
o 2.2 Люди ленивы
o 2.3 Люди глупы
o 2.4 Миссия – невыполнима (сами знаете)
o 2.5 Схемы не являются нейтральными
o 2.6 Метрики оказывают влияние на результат
o 2.7 Все можно описать разными способами
* 3. Заслуживающие доверия метаданные

1. Введение

Метаданные – это «данные о данных», такие например как: ключевые слова, размер страницы, заголовок, количество слов, аннотация, месторасположение, SKU (единица учета запасов товара), ISBN (международный издательский номер книги) и т. д. Откровенно говоря, метаданные, указываемые пользователями – это дань последней моде, особенно в мире XML. Типичный сценарий примерно таков: некоторое количество поставщиков определенного товара собираются вместе и договариваются о стандарте на метаданные (DTD или схеме) для данной области, например для стиральных машин. Они определяют общий словарь для описания стиральных машин: размер, вместительность, потребление энергии, расход воды, цена. Далее они создают базы данных своего оборудования таким образом, чтобы они были, частично или полностью, доступны для поисковых агентов и для других баз данных. Таким образом, потребитель может ввести параметры желаемой стиральной машины, и послать запрос сразу на несколько сайтов, чтобы получить исчерпывающий список доступных стиральных машин удовлетворяющих его критериям.

Если все присоединятся к такой системе и создадут хорошие метаданные описывающие их товары, услуги или информацию, то поиск в Интернете превратится в тривиальную задачу: музыкальные фанаты легко найдут всю доступную музыку указанного жанра, производители смогут эффективно разыскивать поставщиков, путешественники с легкостью зарезервируют номер в отеле для предстоящей поездки.

Мир исчерпывающих и надежных метаданных – утопия. Это – несбыточная мечта, основанная на самообмане, глупом высокомерии и истерически раздутых рыночных ожиданиях.
2. Проблемы

Существуют по меньшей мере семь непреодолимых препятствий между миром, как мы его знаем, и мета-утопией. Я перечислю их ниже:
2.1 Люди лгут

Метаданные существуют в мире конкуренции. Поставщики конкурируют, чтобы продать свой товар, чудаки конкурируют, чтобы выразить свои сумасбродные теории (mea culpa), артисты конкурируют за публику. Время, в течение которого человек способен сохранять внимание и кошелек может быть и не равно нулю, но, черт возьми, оно к нулю стремится.

Поэтому:

* Поиск по любому широко распространенному термину в поисковике, таком как Altavista неизбежно приведет к появлению, по крайней мере, одной ссылки на порносайт в первой десятке результатов.
* Ваш почтовый ящик забит спамом у которого в поле subject указано что-нибудь вроде «Re: Информация, которую вы запрашивали».
* «Магазин на диване» присылает вам рекламу, которая кричит: «Вы выиграли суперприз!»
* Пресс-релизы содержат присоединенные списки из мириадов бессмысленных, но модных словечек.

Мета-утопия – это мир метаданных, которым можно доверять. Когда отравляют колодец, от этого выигрывает отравитель. Мета-воды мгновенно становятся жутко ядовитыми.
2.2 Люди ленивы

Мы с вами заняты невероятно серьезным бизнесом – мы создаем информацию. Здесь, в Информационной Башне из Слоновой Кости, мы понимаем насколько это важно – создавать и поддерживать отличные метаданные для нашей информации.

Однако обычные граждане в высшей степени высокомерно смотрят на свою информацию. Ваша несведущая тетушка шлет вам e-mail без указания поля subject, половина страничек на Geocities носят название «Пожалуйста, назовите эту страницу», и ваш шеф сохраняет все свои файлы на десктопе и с очень полезными названиями, вроде «Новый Документ Microsoft Word.doc».

Лень эта – безгранична. Никакая простота использования не преодолеет ее. Для того чтобы осознать всю глубину мета-лени загрузите десяток случайных MP3 файлов из Napster-а. Наверняка, хотя бы один из них не будет иметь ни заголовка, ни имени исполнителя, ни какой бы то ни было информации о треке. И это не смотря на тот факт, что для сохранения всей этой информации достаточно было просто нажать на кнопку «Получить информацию о треке из CDDB», которая есть в любом приложении для записи MP3 файлов.

Если исключить такие меры как отрезание пальцев, или посылка групп мстительных инфо-ниндзей, чтобы заставить рядового пользователя добавлять метаданные в свои файлы, мы никогда не добьемся этого.
2.3 Люди глупы

Даже когда существует очевидная выгода от создания хороших метаданных, люди упорно отказываются приложить старание и позаботиться об их создании.

Возьмем например eBay (интернет аукцион): каждый продавец здесь имеет, черт возьми, все основания для того, чтобы дважды проверить свой список товаров на предмет наличия ошибок или опечаток. Попробуйте поискать «plam» на eBay. Прямо сейчас, и вы получите девять предложений купить «Plam Pilots». Ошибочно набранное название товара не отображается в результатах грамотно сформулированных запросов и, следовательно, приводит к меньшему количеству предложений и более низкой цене. Вам всегда гарантированы супер условия при покупке Plam Pilot на eBay.

Тонкости (да и не только тонкости) грамоты (орфография, пунктуация, грамматика) не доступны огромному большинству пользователей Интернета. Вера в то, что мистер Обычный Пользователь вдруг ни с того ни с сего, в массе своей, научится грамотно писать и расставлять знаки препинания (да еще и аккуратно распределять свою информацию в соответствии с какой-то иерархией) есть самообман чистой воды.
2.4 Миссия – невыполнима (сами знаете)

В мета-утопии каждый, кто вовлечен в опрометчивый бизнес описания сущностей, тщательно взвешивает сущности на весах, точно предсказывает их свойства, и записывает результаты своих предсказаний.

Простое наблюдение демонстрирует тщетность этого предположения. Когда Нильсен (рейтинговая система в Соединенных Штатах) использует записи в журналах (log-book), чтобы собирать информацию о телевизионных предпочтениях выбранных зрителей, то в результатах оказываются «Шедевры Театра» и «Улица Сезам». Но, когда журналы заменяют специальным устройством отслеживающим, какой канал телевизора включен в данный момент, то мы получаем реальную картину того, что смотрит обычная американская семья: борьбу обнаженных карликов, «Самые смешные косметические операции Америки» и передачу Джерри Спрингера «Моя дочь одевается как шлюха!».

Спросите программиста, сколько ему понадобится времени, чтобы написать тот или иной модуль. Спросите подрядчика, когда он закончит чинить вашу крышу. Задайте вопрос лаконичному южанину, далеко ли ручей. Лучше подбросьте монету, ответ будет не менее надежен.

Люди едва ли способны наблюдать за собственным поведением. Целые религии основаны с целью помочь людям лучше понять себя; психотерапевты загребают миллионы, работая в том же направлении.

Почему же мы должны поверить, что использование метаданных поможет мистеру Обычному Пользователю приблизиться к своей божественной природе.
2.5 Схемы не являются нейтральными

В мета-утопии блюстители эпистемология (раздел философии, изучающий основания знания) в белых халатах сидят и рационально выписывают иерархии идей. Что-нибудь вроде:

Ничего:
Черные дыры

Все:
Материальное:
Земля:
Планеты
Стиральные машины
Ветер:
Кислород
Вонь
Огонь:
Расщепление ядра
Синтез ядра
«Подлая Женщина-Дьявол» острый соус из Луизианы


В определенном под-домене, скажем, в «Стиральных машинах» эксперты договорятся о под-иерархии, с классами для надежности, для потребляемой энергии, цвета, размера и т. д.

Это предполагает, что существует «правильный» путь классификации идей, и что разумные люди, при наличии достаточного количества времени и стимулов, смогут договориться о подходящем способе построения такой классификации.

Ничего не может быть дальше от истины. Любая классификация идей неминуемо предполагает превалирование одних уровней иерархии над другими. Производитель небольших, дружелюбных по отношению к окружающей среде, стиральных машин построит классификацию так:

Потребление энергии:
Потребление воды:
Размер:
Вместимость


В то время как производитель яркой, переполненной функциями стиральной супермашины захочет построить классификацию иначе:

Цвет:
Размер:
Программируемость:
Надежность


Надежда, что конкурирующие интересы могут быть легко согласованы при создании общего словаря, полностью игнорирует мощь основополагающих принципов рынка.
2.6 Метрики оказывают влияние на результат

Договор об использовании общих метрик для измерения важных параметров в некоторой области обязательно поставит в привилегированное положение те вещи, которые получают лучшие результаты при использовании этого метода измерения. Тесты IQ ставят в привилегированное положение тех, кто хорошо с ними справляется. Рейтинг Нильсена дает преимущество 30- и 60- минутным ТВ передачам (вот почему MTV более не показывает видео; Нильсен не может оценить рейтинг трех-минутных мини-программ, и поэтому MTV не может продемонстрировать эффективность рекламы в своей сети). Мегагерцы дают преимущество CISC чипам Intel над RISC чипами Motorola.

Способы ранжирования взаимоисключают друг друга: программы, хорошие с точки зрения безопасности, получают низкие оценки с точки зрения удобства использования; десерты, обладающие хорошим вкусом, вредны для здоровья. Каждый игрок на поле стандартов стремится усилить значимость тех критериев оценки, которые ему выгодны, и принизить важность (а то и полностью проигнорировать) те, в которых он проигрывает.

Верить, что группа людей, конкурирующих за право поставить свою повестку дня, будет всецело удовлетворена, какой бы то ни было, иерархией знаний. Максимум на что мы можем надеяться – это компромисс, при котором все будут одинаково не удовлетворены.
2.7 Все можно описать разными способами

«Нет, я не смотрю мультики! Это культурная антропология».

«Это не сажа, это - искусство».

«Это не лысина, это солнечная батарея для секс-машины».

Разумные люди могут вечно не соглашаться по поводу того, как описывать что-либо. Вероятно Человек сам по себе – всего лишь коллекция ассоциаций и описаний, которые мы принимаем за идеи. Требование, чтобы все использовали один и тот же словарь для описания своего материала, оголяет познавательный пейзаж и поощряет однообразие идей.

И это просто не правильно.
3. Заслуживающие доверия метаданные

Должны ли мы тогда выбросить все эти метаданные?

Конечно нет. Метаданные могут быть довольно полезными, если сдобрены довольно значительным количеством соли. Мета-утопия никогда не осуществится, но метаданные часто являются хорошим средством для того, чтобы сделать грубое предположение об информации, заполнившей Интернет.

Определенные виды неявных метаданных ужасно полезны в действительности. Google эксплуатирует метаданные о структуре Всемирной Паутины. Проверяя количество ссылок, указывающих на страницу в Сети, Google получает статистику о числе Веб-авторов, кто полагает что эта страница достаточно важна, чтобы на нее сослаться, и, исходя из этого, делает весьма обоснованные предположения о том, насколько достойна внимания информация на этой странице.

Метаданные такого сорта оказываются гораздо более адекватны, чем те которые люди создают, для того чтобы их документы было легко найти. Они преодолевают проблемы, связанные со всей этой рыночной чушью, самообманом и коллизиями словарей.

В более широком смысле, такие метаданные могут рассматриваться как элемент селекции. Кто думает, что этот документ заслуживает внимания? Как близко соотносятся оценки этого человека с моими в течении некоторого времени? Такой вид неявного подтверждения информации – значительно лучший кандидат на то, чтобы стать панацеей в области извлечения информации, чем всеобъемлющая объединенная схема мира.
Перевод: Михаил Навернюк
Последние изменения: 02.03.107 08:40
Комментарии присылайте на: jupy [собака] semantictools.ru
Адрес статьи: http://www.semantictools.ru/conception/metacrap.shtml

olpa комментирует...

Ешё переводы: http://xmlhack.ru/texts/summary.html#semanticweb

hosting.web.hosti комментирует...

хостинг кода хостинг http://hosting.miheeff.ru хостинг кода

Анонимно комментирует...

разработки уроков разработка сайтов http://web-miheeff.ru разработки уроков

Анонимно комментирует...

разработка управленческих решений разработка сайтов http://web-miheeff.ru разработка управленческих решений

Анонимно комментирует...

great post, just the kind of information I was looking for

Анонимно комментирует...

This article was extremely interesting, especially since I was searching for thoughts on this subject last Thursday..