Оказывается в Глобальной паутине информации куда больше, чем это можно себе представить. Чаще всего пользователь находит на необходимые ему новые источники в Сети через информационно-поисковые системы, такие как Google, Yahoo! или "Яндекс", которые для многих стали "де-факто" стандартными. Однако кроме видимой для поисковых систем части Web-пространства существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти Web-страницы доступны в Интернет, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название - "скрытый" (deep) Web, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также невидимым (invisible) Web. Они чаще всего охватывают динамически формируемые Web-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.
В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в Web-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические Web-станицы, формируемые из баз данных, и запустив ее, получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети попросту невидима. Топология паутины - "галстук-бабочка"
В отличие от данных из обычного хранилища информации, документы из Web-пространства характеризуется большим количеством неявно включенных в них экспертных оценок, реализованных в виде взаимных гипертекстовых ссылок. Именно гиперссылки оказались в свое время основой для построения модели Web-пространства (или, попросту, веба). И именно их остутствие порождает скрытые области в этом пространстве.
В ноябре 1999, Андрей Брёдер (Andrei Bröder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" ресурсов и гиперсвязей веба. Исследования опровергли расхожее мнение, будто Интернет - это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн. веб-страниц и несколько млрд. ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре веб-пространства, котороая соответствует, по их мнению, ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра - соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между отдельными веб-страницами было обнаружено наличие:
- центральное ядро (28% веб-страниц) - компоненты сильной связности (SCC) или узел галстука, составляют веб-страницы, взаимосвязанные так тесно, что,следуя гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.
- 22% веб-страниц - это "отправные веб-страницы" (IN). Они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.
- столько же - 22% - "оконечных веб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад.
- 22% веб-страниц - отростки - полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две веб-страницы, не входящие в ядро.
Четыре основных множества - более 90% исследуемых веб-страниц, топологически относящихся к одной компоненте связности - обусловили название модели - "галстук- бабочка" (Bow tie).
Существующие "острова" вообще не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы - знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Интернет. Это и объяснило недостаток модели Брёдера - он исследовал в основном страницы открытого (поверхностного) веба, очевидно он отбирал их не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" веба можно признать верным, то "острова" в реальности оказались более объемными, чем в модели. Согласно исследованиям компании BrightPlanet, число "скрытых" (но не секретных) веб-страниц во много раз превышает количество видимых. Доступные сегодня благодаря традиционным информационно-поисковым системам 10 млрд. веб-страниц - это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это прежде всего динамически генерируемые страницы, файлы неопознаваемых поисковыми системами форматов, информация из многочисленных баз данных. В результате исследований также выявилось немало интересных особенностей "скрытого" веба, так, например, известно, что средняя его страница на 27% компактней средней страницы из поверхностной части веб-пространства.
Для того, чтобы определить, какие из ресурсов невидимы для поисковых систем, следует рассмотреть принцип работы типового индексатора - робота таких систем. Эти программы, как правило, посещают веб-страницы по известным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и. т.д. Обычно, как только робот определяет, что он обращается к динамической странице, он останавливает свою работу, так как чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. Т.е. "скрытый" веб охватывает в первую очередь содержимое онлайновых баз данных. Динамической является и быстро обновляемая информация - новости, конференции, онлайновые журналы.
Конечно, есть и явные "острова" по Брёдеру, на которые не ведут никакие гиперссылки, и от которого гиперссылки не исходят. Защищенные паролями коммерческие веб-сайты также попадают в категорию "скрытого" веба - о материалах этих сайтов большинство пользователей никогда не узнают с помощью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" веба, платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных.
Основатель BrightPlanet Майкл Бергман (Michael K. Bergman) выделил 12 разновидностей "скрытых" веб-ресурсов (см. www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу онлайновых баз данных. В списке оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы - объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб.
К "скрытому" веб также относятся многочисленные системы интерактивного взаимодействия с пользователями - помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную, пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие причисляют и веб-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично - поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме.
Недавно появилась категория так называемых "серых" сайтов, функционирующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц.
И конечно же, "скрытыми" оказываются веб-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов.
Безусловно, основной формат данных, с которым работают традиционные поисковые системы в Интернет - это HTML, причем статическая его часть. С другими форматами у многих поисковых систем имеются различные проблемы. К примеру, различные версии формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изображений, заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее, некоторые современные поисковые системы уже вполне сносно индексируют документы в этом формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения визуальных эффектов на веб-сайтах.
Кроме того, например, для нашего пользователя, наверняка "скрытой" можно признать большую часть гигантского китайского сегмента Интернет. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика стал четвертым в мире веб-ресурсом по этому показателю. Другая китайская поисковая система 3721.com заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей сети.
Пожалуй, самыми большими из известных ресурсов "скрытого" веба являются базы данных служб Dialog и LexisNexis.
Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (Web.dialog.com), созданная при поддержке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) - одному из всемирных лидеров в области предоставления интегрированных информационных решений. Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира. Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 г. как первая в мире онлайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией.На сегодняшний день Dialog включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar, Dialog NewsEdge® and Dialog IntelliscopeSM, которые обеспечивают доступ к более 1,4 млрд. документов через Интернет или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" веба (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных службы Dialog содержит 900 баз данных, доступных 700,000 пользователей, которые только за 1 час прочитывают свыше 17 миллионов документов из этих баз данных.
Основанная в 1973 году крупнейшая в мире онлайновая служба LexisNexis предоставляет своим пользователям юридическую, политическую, коммерческую, новостную, регистрационную и другую информацию. С 1979 года система баз данных LexisNexis - первая в мире служба полнотекстового поиска - в настоящее время охватывает свыше 35 000 источников информации, содержащих в совокупности более 4,6 миллиардов документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена сегодня в 20 странах, пользователи сервиса находятся в более чем 100 странах.
В "скрытом" вебе существует множество альтернатив коммерческим базам данных типа Dialog или Lexis-Nexis. Среди них, например сайт www.10kwizard.com, предлагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам.
Существуют тысячи баз данных "скрытого" веба, свободно доступные для пользователей, но чаще всего, не охватываемые традиционными поисковыми системами. Приведем еще несколько примеров:
- Educator's Reference Desk (http://www.askeric.org/) - этот ресурс содержит свыше двух тысяч учебных планов, несколько тысяч ссылок на образовательные документы, а также ссылки, представляющие собой запросы к архиву. С этого сайта обеспечивается доступ к базе данных ERIC - крупнейшему источнику информации по проблемам образования, а также к полнотекстовым дайджестам, составляемым экспертами.
- Nuclear Explosions Database (http://www.ga.gov.au/oracle/nukexp_query.html) - австралийская база данных по географии. Для работы с системой достаточно перейти в режим "Online Tools", после чего будет представлен список баз данных и карт.
- PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi) - с ресурса обеспечивается доступ к свыше 14 млн. ссылок системы MEDLINE, включая ссылки на полные тексты статей и информационные ресурсы. Имеется возможность перехода к службе PubMed Central (PMC), к свободно доступному архиву статей (свыше 90 тысяч) из научных журналов. Обеспечивается также доступ к глобальной поисковой системе NCBI, охватывающей базы данных по естествознанию.
- LookSmart's FindArticles (Web.findarticles.com) - база данных FindArticles - доступный через веб-интерфейс архив, содержащий 2.8 млн. статей из более 500 источников, накапливаемый с 1998 года.
Приведем еще один пример "скрытой" базы данных. Корпорация ChoicePoint недавно предоставила сервис Auto TrackXP, вошедший в список двадцати крупнейших "скрытых" сайтов мира (по рейтингу BrightPlanet). Auto TrackXP представляет собой базу данных объемом 30 TB, охватывающую практически все аспекты гражданской жизни США. База данных системы Auto TrackXP содержит информацию практически о каждом гражданине США. Например, чтобы определить, не завладел ли человек чужими документами, на основе системы организован платный сервис ProCheck, позволяющий сопоставить информацию из различных источников и государственных каталогов. Сегодня американцы испытывают шок, обнаруживая существование подобных баз данных, видя в этом нарушение своих гражданских прав.
"Скрытый" веб представляет собой гигантский репозитарий документов, звуков, изображений, фильмов и т.п. Безусловно, если большая часть этой информации не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты включают каталоги, метапоисковые сайты, доступные через веб базы данных, а также большое количество глобальных, региональных и специальных поисковых систем.
Для поиска в "скрытой" Сети, а именно в том ее сегменте, который составляют базы данных, сегодня уже существуют некоторые специализированные ресурсы. Среди них, например, системы BigHub (Web.bighub.com) и InvisibleWeb (Web.invisible-web.net) компании IntelliSeek. Сайт Invisible Web включает в себя каталог баз данных, большинство из которых не заиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необходимой информации станет наиболее оптимальным. На этом сайте Криса Шермана (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на различные базы данных, среди которых содержится немало уникальных ресурсов, например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах.
Лидером среди навигаторов в "скрытом" вебе является сайт CompletePlanet (Web.completeplanet.com) компании BrightPlanet. Этот сайт является крупнейшим каталогом, насчитывающим свыше 100 тысяч ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в онлайновых базах данных - LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" веба. Метопоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тысячам "скрытым" веб-ресурсам.
Сайт Direct Search (Web.freepint.com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" веба. На сайте содержится ссылка на лучшие ресурсы ценовой информации - MySimon.com, финансовой информации - FinancialFind.com, а также ссылки на информацию из научно- популярных журналов и научных баз данных по биотехнологиям - Biolinks.com.
В Интернет есть и другие сайты-навигаторы, а также специализированные программы поиска. Например, поисковая система по университетским архивам, библиотекам и книгам - Infomine Multiple Database Search (http://infomine.ucr.edu/search.phtml); каталог информационных сайтов, которые уникальны в своих областях - BUBL LINK (bubl.ac.uk/link/); полнотекстовый поиск по содержанию всех книг - Amazon.com.
Особенность большинства "скрытых" ресурсов - в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" веба, однако, чаще всего, роботы поисковых систем для "скрытого" веба включают уникальные для каждого такого ресурса модули доступа к данным.
Каталоги, как глобальные так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего, базы данных. Приведем несколько самых известных примеров:
- Портал WebData.com на первый взгляд ничем не отличается от других подобных ресурсов, однако содержит гиперсылку "Add Your Database" (добавить Вашу базу данных), говорящую о том, что на данном портале можно зарегистрировать базу данных - часть "скрытого" веба.
- Librarians' Index to the Internet (http://lii.org/) - каталог, содержащий свыше 14000 Интернет-ресурсов. LII также включает ссылки на "скрытые" в веб-пространстве базы данных. У владельцев таких баз данных есть возможность поместить соответствующую гиперссылку в этом каталоге на свой ресурс (в LII есть ссылка "and databases" (добавить базу данных).
- FindLaw (Web.findlaw.com/) - один из наиболее популярных в мире юридических веб-сайтов - огромный каталог правовых ресурсов, содержащий аннотированный список свободно доступных баз данных нормативно-правовых документов, для которых данный ресурс является "точкой входа".
- InfoMine (http://infomine.ucr.edu) - ресурс, содержащий ссылки на 120000 документов, представленных в 9 аннотированных баз данных. Этот каталог позиционирует себя как "виртуальную библиотеку Интернет-ресурсов", ориентированную на студентов и исследователей-профессионалов.
- About.com (http://www.about.com/) - портал, охватывающий тысячи, снабженных комментариями, ссылок на веб-ресурсы, в том числе и на ресурсы "скрытого" веба (имеется ссылка "Invisible Web"). На портале предоставляется возможность поиска в каталоге. Ресурс также включает несколько статей по проблематике "невидимого" веба: "What is the Invisible Web?", "Finding the Invisible Web", "Top Places to Search the Invisible Web" и др.
К разряду каталогов можно также отнести такие коллекции ссылок и поисковые системы и "скрытые" базы данных:
- Direct Search (http://www.freepint.com/gary/direct.htm) - ресурс, содержащий ссылки на ресурсы "скрытого" веба. Например, присутствует ссылка на сайт ResourceShelf (http://www.resourceshelf.com), обеспечивающий поиск в блогах (сетевых журналах) и новостных сообщениях.
- The Invisible Web Directory (http://www.invisible-web.net) - веб-сайт Шермана и Прайса (Chris Sherman & Gary Price) - соавторов термина "Invisible Web".
- Profusion (http://www.profusion.com) - сайт компании Intelliseek, первой создавшей каталог "невидимого" веба InvisibleWeb.com. ProFusion - это модифицированный метапоисковая поисковая система, позволяющая выбирать области поиска в "вертикальных" (тематических) разрезах.
- CompletePlanet (http://www.completeplanet.com) - сайт корпорации BrightPlanet Corporation, который охватывает свыше 70 000 поисковых баз данных и специальных поисковых систем.
Традиционная поисковая система чаще всего может назвать адрес базы данных, но не скажет, какие документы конкретно содержаться в ней. Типичный пример - информационно-поисковые системы по украинскому (http://www.rada.gov.ua) или российскому законодательству (http://www.kodeks.ru/). Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы как глобальные, так и локальные - описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" веба:
- Singingfish (http://www.singingfish.com) - поисковая система Singingfish обеспечивает поиск аудио- и видеофайлов, представленных на веб-сайтах.
- Scirus (http://www.scirus.com) - поисковая система по представленным в Интернете научным материалам, включая статьи из журналов и отчеты. Со страницы расширеного поиска (Advanced Search) доступны многочисленные тексты из баз данных EBSCO и ProQuest.
- UFOSeek (http://www.ufoseek.com) - поисковая система по материалам о паронормальных явлениях и НЛО. Качественный и полноценный поиск информации в "скрытом" вебе возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных ввиду своей платности сами являются объектами "скрытого" веба.
Информация, представленная в форматах, отличных от HTML для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com/) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск в документов в разнообазных форматах, доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска - достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf". Знаменитая служба Yahoo! сегодня уже не только каталог, но и полнофункциональная поисковая система. Поисковая система "Yahoo! Search" (http://www.yahoo.com) как и Google обеспечивает выдачу текстовых копий документов, размещенных в Интернет в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML- фидов (новостных лент и блогов - "живых журналов").
Специализированная система Gigablast (http://www.gigablast.com) предназначена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в исходных форматах, при этом обеспечивает булевый поиск и выдачу версионных копий документов, которые были в размещены в Сети, но возможно затем и удалены.
Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффективные инструменты поиска оперативно обновляемых новостных сообщений - это, например, "Яндекс.Новости" (http://news.yandex.ru/), Google News (http://news.google.com/) или Uaport (http://uaport.net/UAnews/). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например, NewsIsFree, Topix.net, и Daypop (Web.daypop.com). В России крупнейшими интеграторами новостей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине - InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info).
Многие сайты на своих страницах публикуют новости как собственные, корпоративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то даже будучи помещенными в архив, доступный из Интернет, эти сообщения рискуют оказаться в зоне "скрытого" веба.
Материалы публикаций попадают в разряд "невидимого" веба и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин), признают, что для изданий значительно выгодней публиковать усеченную бесплатную версию своих материалов - это обеспечит их популярность в Интернет, попадание изданий в индексы популярных поисковых систем.
Парадоксально, но как один из ресурсов "скрытого" веба можно рассматривать и архив ресурсов открытого веб-пространства. Такой архив - "Internet Archive" с 1996 года создает компания Alexa (Web.alexa.com). Сегодня объем базы данных Alexa превышает 500 TB. Новые страницы в настоящее время попадают в хранилище со скоростью 1 ТB в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документальным хранилищем. Например, с помощью технологии Alexa выполняется кластеризация веб-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам веб- пространства. Одно из наиболее интересных практических применений этой технологии - восстановление документов, некогда опубликованных в веб-пространстве, но впоследствии удаленных. При этом рост "скрытого" веба грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления контентом, динамической публикацией документов из баз данных и т.п.
Аналогичный проект, но относящийся только к одному типу информации - аудиовизуальной, - Informedia (Web.informedia.com/) разрабатывается в институте Карнеги Меллона. Informedia появилась в 1996 г. в рамках инициативы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоединились многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавании образов и речи.
Чем быстрее растет веб-пространство, тем хуже оно охватывается традиционными каталогами и поисковым машинам. Ввиду роста количества веб-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент веба растет очень интенсивно. С одной стороны, Интернет как огромное хранилище увеличивает объем информации, доступной "в принципе", но с другой стороны - растет информационный хаос, увеличивается энтропия сетевого информационного пространства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" веба, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Т.е. традиционные средства охвата информационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики - сталкеры в мире "скрытого" веба.
Спасти ситуацию могут и новые возможности унификации обмена информацией в Интернет. Одним из первых проектов консорпциума W3C в этой области стал "Семантический веб". Основная идея проекта заключается в такой организации данных, чтобы веб-серверы могли их использовать, а не только визуализировать, чтобы программы разных производителей могли эффективно работать с контентом. В рамках проекта "Семантического веб" были разработаны спецификации метаязыка XML, предусматривающие разделение средств визуализации и смыслового содержания. На основе XML создаются различные форматы, специально предназначенные для организации информационной коммуникации как между людьми, так и между серверами.
Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, BBC News, Amazon, CNet News, MSNBC, The Register, Wired и т.д.
Аналитики отмечают, что только в начале 2004 года, пользователи Интернет по- настоящему открыли для себя технологию RSS. Сегодня для работы с данными в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы приоткрывают завесу над динамично обновляемой частью "скрытого" Web.
Дмитрий Ландэ, dwl@visti.net