Заголовок сообщения: Индексирование сайта с ЧПУ Добавлено: 13 Март 2004, 15:49:34
Вопрос по индексированию сайта с User-Friendly URL.
Раньше был сайт с адресами вида http://site/script?id=xxx&subid=yyy.
Страницы такого сайта замечательно индексировались Yandex'ом. Зато Google, Rambler и Aport дальше первых двух страниц не шли.
Сделал у сайта URL вида http://site/id/xxx - ситуация обратная. с Google и Rambler много переходов, Yandex - единичные случаи.
Про Google и Rambler все ясно, они не любят в адресах "стоп" символы типа &, ? и т.п.
Меня интересует, почему такой отвратительный результат показывает Yandex. Если "ручками" попытаться добавить часть страниц сайта вида /id/xxx - Yandex говорит, что страницы новые и будут в скором времени добавлены. Проходит месяц, другой - ситуация не меняется.
Кто-нибудь инвестигировал подобную проблему ? Есть подозрение, что Yandex считает адрес вида /id/xxx/ и /id/yyy/ разными сайтами. Пробовал убирать конечный слэш, результат тот же.
Въеб-мастера Yandex'а конструктивного ответа не дают.
gregzem, этот гад не любит, если у сайта есть "мёртвые" ссылки, и если набор "живых" и "мёртвых" ссылок часто меняется. Стабильности хочет, короче говоря. Если у него из базы поудалять всякие старые ссылки (http://site/script?id=xxx&subid=yyy) - дело идёт легче.
Вопрос для проформы - заголовки HTTP отдаются какие? Нормальные?
Возможно это так. Но у меня почему-то сайты, страницы которого с адресами http://site/script?id=xxx&subid=yyy индексируются Yandex'ом быстро и безболезненно, а адреса вида http://site/id/xxx - нет (страницы четыре из тридцати). Причем мертвых ссылок нет, так как изначально страницы сайта имеют фиксированный адрес (либо /id/xxx, либо /script?id=xxx).
Цитата:
Вопрос для проформы - заголовки HTTP отдаются какие? Нормальные?
Не отдается Last-Modified. Я тоже думал, что проблема в этом, но у сайта, страницы которого имеют адрес /script?id=xxx тоже не отдается Last-Modified, несмотря на это все они проиндексированы и периодически (где-то раз в две недели переиндексируются).
oLL, благодарю за информативный ответ. Что именно Вам не понятно в моем вопросе ? Может быть перечитать вопрос еще раз ? Что касается инвестигирования, то investigate - от англ. "изучать", "исследовать".
gregzem, ИМХО проблема всё-таки в заголовках. Те URL, которые проиндексировались - они уже в базе Yandex, это песня другая. Если, кстати, речь идёт о сайте из подписи, то вот пример:
Цитата:
HTTP/1.1 200 OK Date: Mon, 15 Mar 2004 07:01:21 GMT Server: Apache/1.3.27 (Unix) mod_auth_pgsql/0.9.12 PHP/4.3.3 PHP/3.0.18 rus/PL30.16 X-Powered-By: PHP/4.3.3 Set-Cookie: PHPSESSID=14238fe612a6e05b3be83442c9a71ecf; path=/ Expires: Thu, 01 Jan 1970 00:00:01 GMT Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0 Pragma: no-cache Connection: close Content-Type: text/html; charset=windows-1251 Last-Modified: Mon, 15 Mar 2004 07:01:22 GMT
Болдом я выделил те заголовки, которые могут ИМХО вызывать проблему. Эти заголовки выдал ReGet, программа закачки, а ей отдали куку с идентификатором сессии. Уже одно это может заставить робота отказаться индексировать. Еще я бы выкинул нафиг Expires и всё, что запрещает кэширование. Ну и, разумеется, нужен аккуратно прописанный Last-Modified, желательно соответствующий реальному времени изменения контента данной страницы. Last-Modified, равный текущему времени, роботы не любят очень, почти так же не любят, как и нулевой Expires.
gregzem, Опять же, в предположении, что речь идёт о сайте из профиля:
Цитата:
<meta http-equiv="pragma" content="no-cache"> <meta http-equiv="cache-control" content="no-cache"> <META NAME="title" Content="Документация и справочные руководства. Разработка и поддержка сайта на базе технологии Domino Web Site Builder. CMS."> <meta name="locale" content="RU"> <meta name="category" content="Corporative sites"> <meta name="robots" content="index,follow,all"> <meta name="revisit-after" content="3 days">
Лично я бы выкинул всё это из вредности, потому что пользы - никакой, а мало ли какой вред от этого будет (неприятие роботом). Соответственно вместо меты title использовал бы просто тэг title.
oLL, благодарю за информативный ответ. Что именно Вам не понятно в моем вопросе ? Может быть перечитать вопрос еще раз ? Что касается инвестигирования, то investigate - от англ. "изучать", "исследовать".
Спасибо за ликбез. В вашем вопросе нет простых вещей. Например:
Сайт - адрес
Страниц - столько-то
Яндексом проиндексировано за N времени - столько-то
Варианты вопроса
- почему проиндексировано так мало
- почему с Яндекса мало заходов
(имхо - это разные вопросы)
Ваши остальнывыкладки понятности вопросу пока не добавили (видимо, модераторам Яндекса - тоже)
Только вот в голову мне сейчас пришла одна нехорошая мысль: есть сайт http://www.aspectgroup.ru, который с адресами страниц вида /id/xxx (сделан на том же движке что и сайт из профайла и хостится на том же сервере), только у него проиндексированы все страницы. С сайтом из профайла нет никаких проблем, у него все проиндексировано, несмотря на то что сначала были адреса вида ?id=xxx, а потом стали /id/xxx. А проблемы с сайтом http://mnemonic.nizhny.ru/id/2/ (алиас http://mnemonic.nizhny.ru/sound/?id=2 ) - из этого сайта проиндексированы только 3 страницы, хотя всего там около 25 статей. Этот сайт также сделан на движке и хоститься опять же на одном сервере с вышеуказанными.
Закипаю. Кажется дело тут не в заголовках.…
gregzem, ну а в чём тогда, как не в заголовках? Сайты вполне себе честные, поэтому вторая причина плохой индексации (замеченный поисковый спам) из двух возможных отпадает. Остаются заголовки. И поведение робота это, кстати, подтверждает. Он именно начинает вести себя непредсказуемо (глючит), если не те заголовки дать, а не отказывается индексировать наотрез. Шо мы и наблюдаем.
ЗЫ. Больше всего, конечно, у меня под подозрением заголовок для установки PHP-шной сессии.
ЗЗЫ. Бааалин, невнимательно посмотрел. Кстати говоря, тож нехорошо, когда таким способом title пишется. А на одной из страниц я видел что два тайтла и разные. Лучше оставить ИМХО один, и в теге, а иначе роботка может набычиться.
Вообще-то "http://mnemonic.nizhny.ru/id/2/" - это для Яндекса не сайт, а лишь подкаталог на сайте "http://mnemonic.nizhny.ru/". С которого Яндекс проиндексировал более 2000 страниц.
http://www.yandex.ru/yandsearch?text=%2 … y.ru&pag=u И куда Яндек пойдет дальше в плане индексирования этого сайта - решает обычно сам Яндекс, если ему не подсказать, например - через форму http://www.yandex.ru/addurl.html Дополнительный совет - комментируйте скрипты на страницах, например - скрипт Яндекса, о такой код некоторые поисковики спотыкаются.
И общий совет - инвестигируйте, инвестигируйте и еще раз инвестигируйте основы веб-мастеринга и методы работы с поисковиками. Начать стоит с азов - http://searchengines.ru/forum/ Удач.
И куда Яндек пойдет дальше в плане индексирования этого сайта - решает обычно сам Яндекс, если ему не подсказать, например - через форму http://www.yandex.ru/addurl.html
Это я попробовал в первую очередь. Не помогает.
oLL писал(а):
Дополнительный совет - комментируйте скрипты на страницах, например - скрипт Яндекса, о такой код некоторые поисковики спотыкаются.
Я писал о "некоторых" поисковиках. У меня о такой "незакомментированный" скрипт споткнулся Рамблер, проиндексировав только верхушку документа. Пришлось просить помощи у модераторов Рамблера, которые это и посоветовали. В любом случае - хуже не будет. http://www.opennet.ru/docs/RUS/inet_boo … .html#28.2
Код:
Интерпретатор javascript позволяет вводить строку "<!--" в начало элемента script и игнорировать все символы, следующие за ней вплоть до конца строки. javascript интерпретирует "//" как начало комментария, который следует до конца текущей строки. Это необходимо, для того чтобы скрыть строку "-->" от интерпретатора javascript.
<script type="text/javascript"> <!-- to hide script contents from old browsers function square(i) { document.write("the call passed ", i ," to the function.","<br>") return i * i } document.write("the function returned ",square(5),".") // end hiding contents from old browsers --> </script>
Уровень доступа: Вы не можете начинать темы. Вы не можете отвечать на сообщения. Вы не можете редактировать свои сообщения. Вы не можете удалять свои сообщения. Вы не можете добавлять вложения.