Во многих статьях, описывающих эффективные методы индексации сайта, не раз говорилось, что путь к сердцу любой поисковой системы – это карты сайта.
И это действительно верно, т. к. основной принцип нахождения новых страниц
поисковыми системами – это переход по ссылкам, опубликованным
на странице.
Так происходило раньше, да и что скрывать, сейчас этот метод не
утратил своей значимости даже в виду внедрения новых более эффективных методов
сбора новых ссылок.
Сколько себя помнит Интернет, веб-мастеры всегда пытались угодить поисковым паукам - помочь им собрать детальную информацию о структуре развиваемого ими сайта.
Первым, самым древним и вполне естественным способом, было создание специальной страницы, на которой помещались все ссылки сайта. Назывались и называются такие страницы картой сайта. Принцип работы прост: поисковый робот при визите на эту страницу автоматически пройдёт по опубликованным там ссылкам и занесёт их в индекс.
Подобная схема была удобна раньше, но сейчас, когда сайты перестали собой представлять исключительно статические страницы, возникла новая проблема, связанная с неэффективностью метода публикации классического варианта карты сайта, т. к. мест для ссылок не хватает, страницы получаются большими по размеру, неудобными в эксплуатации, как человеку, так и машине.
На некоторых сайтах число страниц перевалило за 1 000, поэтому абсолютно все ссылки разместить на карте сайта стало невозможно. Коэффициент проиндексированности таких сайтов стал снижаться.
И проблема была решена. В июне 2005 года компанией Google был создан новый удобный формат описания страниц сайта для улучшения качества их индексации поисковыми системами.
Стандарт получил название Sitemaps 0.84. За основу был принят принцип текстовой базы данных XML, позволяющий компактно в текстовом файле описать структуру сайта, включая новые и опубликованные ранее страницы с возможностью указания дополнительной мета-информации. Эффективное решение Sitemaps, предложенное Google, стало пользоваться бешеной популярностью.
Популярность сказалась и на мнении других поисковых систем к новому подходу создания карт сайта. Так в ноябре 2006 года к поддержке стандарта присоединились такие поисковые гиганты, как MSN и Yahoo, а в апреле - и Ask.com. На радостях формат Sitemaps получил новую версию Sitemap 0.90, расширяющую функциональные возможности.
В мае 2007 года было официально объявлено о возможности подключения файла в стандарте Sitemap в файле robots.txt поисковиками Ask, Google и Yahoo, т. е. найти карту сайта Sitemap стало проще: достаточно указать его местоположение в этом файле, а за источник информации для Sitemap использовать RSS-ленты или обычные текстовые файлы.
С июня 2008 года поисковая система "Яндекс" также стала поддерживать технологию Sitemaps.
Технология Sitemap, как и было сказано выше, реализуется при помощи текстовых баз данных XML, позволяющих компактно хранить данные в удобном для человека и программы виде. Сам файл XML именуется sitemap.xml, корректно также и создание сжатого gzip файла (sitemap.xml.gz).
Стандартом Sitemap предусмотрены следующие возможности и ограничения:
- один xml-файл может содержать в себе не больше 50 000
адресов и быть объёмом не больше 10 мегабайт;
- в
случае, если ваш сайт содержит более 50 000 страниц, а объём самого файла
превышает 10 мегабайт, можно воспользоваться возможностью подключениея
нескольких файлов sitemap.xml. В этом случае один файл делается
индексным, описывающим все адреса к остальным файлам
sitemap.
- Стандартом предусмотрена вложенность: в каждой
директории может быть свой sitemap.xml, описывающий файлы в директории и в
поддиректориях. Ссылок на директории, выше существующей, а также на посторонние
домены (в этом списке и поддомены основного домена) быть не должно.
- Сам
xml-файл должен быть в международной кодировке UTF-8.
- Все
специальные XML-символы, если они не используются по назначению
(т. е. не части тегов и параметров), должны быть закодированы (выполните
маскирование). Это относится к амперсанду (&), одинарной кавычке ('),
двойной кавычке ("), знак "меньше" (<) и знак "больше" (>).
- Все
адреса и пути должны быть полными, включая префикс http://
Пример файла Sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.site.ru/index.html</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Sitemap работает на основе технологии XML, поэтому в начале каждого сайта по традиции составляется xml-пролог:
<?xml version="1.0" encoding="UTF-8"?>
Указывающий версию
xml и кодировку документа
Затем идёт ряд обязательных тегов:
<urlset>
используется для указания начала и конца информации с данными о
страницах, описанных в файле Sitemap (используя вложенные в
него теги <url>), а также несёт дополнительную информацию обработчику
(поисковой системе) через параметр xmlns, с каким стандартом он имеет дело и в
случае чего URL, который описывает особенности определённого стандарта (схемы
стандарта).
<url> - контейнер, содержащий информацию
об определённой странице сайта.
<loc> - тег адреса
описываемого документа, здесь мы пишем URL страницы.
В контейнер <url> также входит ряд необязательных
тегов:
<lastmod> - дата последней модификации
документа, используется формат год-месяц-число. Все данные в числовой форме.
(Используйте этот тег с умом: не пишите здесь ложные значения, т. к. это
приведёт лишь к излишней нагрузке на сервер)
<changefreq>
- частота обновления страницы со следующими значениями:
always,
Hourly, daily, weekly, monthly, yearly,
never.
<priority> - приоритет страницы над
другими страницами сайта, т. е. ваше мнение об её важности относительно других
страниц вашего сайта. Используется числовой формат из диапазона 0,0 – 1,0.
Важно помнить, что необязательные теги никак не влияют на ранжирование информации в Интернете. Эти данные всего лишь помогают определить субъективное авторское мнение о проекте.
Пример индексного файла Sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2005-01-02</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
Здесь всё по аналогии: <sitemapindex> выполняет схожие
функции, что и < urlset >. Основное отличие этого тега в том, что он
описывает ссылки на sitemap-документы, а не на ссылки, как в случае с
< urlset >.
<sitemap> описывает
ссылку на другой файл sitemap.
<lastmod> указывает на
время последнего обновления файла sitemap.
1) В поисковой системе Google в центре веб-мастеров указать
URL вашего файла Sitemap, в поисковой системе "Яндекс" -
в разделе "Мои сайты"
2) Поместить сам файл в
корневую директорию, дав ему имя sitemap.xml или
sitemap.gz
3) Опубликовать в файле robots.txt информацию о
вашей карте сайта. (Как это сделать, читайте здесь: [1] http://dataword.info/robots.php)
1) Вручную написать синтаксис: очень неудобно, зато надёжно.
Вы всегда будете в курсе дела.
2) Использовать специальные
онлайн-сервисы генерации файлов Sitemap:
Например, можно это
сделать здесь: [2] http://www.sitemapspal.com/
3) Использовать
CMS, которая это будет делать автоматически. Например, на CMS
Wordpress можно подключить плагин, который будет автоматически генерировать
карту сайта, сжимать её, сохранять на диске и отправлять в
Google.
1) [3] http://www.sitemaps.org/ru/ - официальный сайт стандарта
Sitemaps
2) [4] http://ru.wikipedia.org/wiki/Sitemaps - информация о стандарте
Sitemaps на Wikipedia