Индексирование сайта с ЧПУ @ DeForum.ru
DeДверь  
Логин:  
Пароль:  
  Автологин  
   
Разместить рекламу
Письмо админу
Правила | FAQ | *Поиск | Наша команда | Регистрация | Вход
 
 
 Страница 1 из 1 [ Сообщений: 15 ] 
*   Список форумов / Начинка и техника / Программирование для WWW » ответить » создать топик « | »
Автор Сообщение
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Заголовок сообщения: Индексирование сайта с ЧПУ
Сообщение Добавлено: 13 Март 2004, 15:49:34 
Вопрос по индексированию сайта с User-Friendly URL.

Раньше был сайт с адресами вида http://site/script?id=xxx&subid=yyy.
Страницы такого сайта замечательно индексировались Yandex'ом. Зато Google, Rambler и Aport дальше первых двух страниц не шли.

Сделал у сайта URL вида http://site/id/xxx - ситуация обратная. с Google и Rambler много переходов, Yandex - единичные случаи.

Про Google и Rambler все ясно, они не любят в адресах "стоп" символы типа &, ? и т.п.

Меня интересует, почему такой отвратительный результат показывает Yandex. Если "ручками" попытаться добавить часть страниц сайта вида /id/xxx - Yandex говорит, что страницы новые и будут в скором времени добавлены. Проходит месяц, другой - ситуация не меняется.

Кто-нибудь инвестигировал подобную проблему ? Есть подозрение, что Yandex считает адрес вида /id/xxx/ и /id/yyy/ разными сайтами. Пробовал убирать конечный слэш, результат тот же.

Въеб-мастера Yandex'а конструктивного ответа не дают.
@TSV
постоянный участник
11
Сообщения: 4736
Зарегистрирован: 08.05.03
Сообщение Добавлено: 13 Март 2004, 15:55:17 
gregzem, этот гад не любит, если у сайта есть "мёртвые" ссылки, и если набор "живых" и "мёртвых" ссылок часто меняется. Стабильности хочет, короче говоря. :) Если у него из базы поудалять всякие старые ссылки (http://site/script?id=xxx&subid=yyy) - дело идёт легче.

Вопрос для проформы - заголовки HTTP отдаются какие? Нормальные? :gent:
oLL
постоянный участник
12
Сообщения: 2790
Зарегистрирован: 08.09.01
Откуда: ...куда...
Сообщение Добавлено: 13 Март 2004, 15:57:41 

Цитата:
Въеб-мастера Yandex'а конструктивного ответа не дают.


А вы им также конструктивно ставили вопрос?
Нельзя ли уточнить - что конкретно вас интересует? И что означает фраза:

Цитата:
Кто-нибудь инвестигировал подобную проблему ?

gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 15 Март 2004, 09:52:29 

@TSV писал(а):
Если у него из базы поудалять всякие старые ссылки (http://site/script?id=xxx&subid=yyy) - дело идёт легче.


Возможно это так. Но у меня почему-то сайты, страницы которого с адресами http://site/script?id=xxx&subid=yyy индексируются Yandex'ом быстро и безболезненно, а адреса вида http://site/id/xxx - нет (страницы четыре из тридцати). Причем мертвых ссылок нет, так как изначально страницы сайта имеют фиксированный адрес (либо /id/xxx, либо /script?id=xxx).


Цитата:
Вопрос для проформы - заголовки HTTP отдаются какие? Нормальные? :gent:


Не отдается Last-Modified. Я тоже думал, что проблема в этом, но у сайта, страницы которого имеют адрес /script?id=xxx тоже не отдается Last-Modified, несмотря на это все они проиндексированы и периодически (где-то раз в две недели переиндексируются).
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 15 Март 2004, 09:58:17 
oLL, благодарю за информативный ответ. :dandy: Что именно Вам не понятно в моем вопросе ? Может быть перечитать вопрос еще раз ? Что касается инвестигирования, то investigate - от англ. "изучать", "исследовать". :laugh:
@TSV
постоянный участник
11
Сообщения: 4736
Зарегистрирован: 08.05.03
Сообщение Добавлено: 15 Март 2004, 10:18:52 
gregzem, ИМХО проблема всё-таки в заголовках. Те URL, которые проиндексировались - они уже в базе Yandex, это песня другая. Если, кстати, речь идёт о сайте из подписи, то вот пример:

Цитата:
HTTP/1.1 200 OK
Date: Mon, 15 Mar 2004 07:01:21 GMT
Server: Apache/1.3.27 (Unix) mod_auth_pgsql/0.9.12 PHP/4.3.3 PHP/3.0.18 rus/PL30.16
X-Powered-By: PHP/4.3.3
Set-Cookie: PHPSESSID=14238fe612a6e05b3be83442c9a71ecf; path=/
Expires: Thu, 01 Jan 1970 00:00:01 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Connection: close
Content-Type: text/html; charset=windows-1251
Last-Modified: Mon, 15 Mar 2004 07:01:22 GMT


Болдом я выделил те заголовки, которые могут ИМХО вызывать проблему. Эти заголовки выдал ReGet, программа закачки, а ей отдали куку с идентификатором сессии. Уже одно это может заставить робота отказаться индексировать. Еще я бы выкинул нафиг Expires и всё, что запрещает кэширование. Ну и, разумеется, нужен аккуратно прописанный Last-Modified, желательно соответствующий реальному времени изменения контента данной страницы. Last-Modified, равный текущему времени, роботы не любят очень, почти так же не любят, как и нулевой Expires. :gent:
@TSV
постоянный участник
11
Сообщения: 4736
Зарегистрирован: 08.05.03
Сообщение Добавлено: 15 Март 2004, 10:30:53 
gregzem, Опять же, в предположении, что речь идёт о сайте из профиля:

Цитата:
<meta http-equiv="pragma" content="no-cache">
<meta http-equiv="cache-control" content="no-cache">
<META NAME="title" Content="Документация и справочные руководства. Разработка и поддержка сайта на базе технологии Domino Web Site Builder. CMS.">
<meta name="locale" content="RU">
<meta name="category" content="Corporative sites">
<meta name="robots" content="index,follow,all">
<meta name="revisit-after" content="3 days">


Лично я бы выкинул всё это из вредности, потому что пользы - никакой, а мало ли какой вред от этого будет (неприятие роботом). Соответственно вместо меты title использовал бы просто тэг title. :gent:
oLL
постоянный участник
12
Сообщения: 2790
Зарегистрирован: 08.09.01
Откуда: ...куда...
Сообщение Добавлено: 15 Март 2004, 11:05:29 

gregzem писал(а):
oLL, благодарю за информативный ответ. :dandy: Что именно Вам не понятно в моем вопросе ? Может быть перечитать вопрос еще раз ? Что касается инвестигирования, то investigate - от англ. "изучать", "исследовать". :laugh:



:laugh: Спасибо за ликбез. В вашем вопросе нет простых вещей. Например:
Сайт - адрес
Страниц - столько-то
Яндексом проиндексировано за N времени - столько-то

Варианты вопроса
- почему проиндексировано так мало
- почему с Яндекса мало заходов
(имхо - это разные вопросы)

Ваши остальнывыкладки понятности вопросу пока не добавили (видимо, модераторам Яндекса - тоже)
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 15 Март 2004, 12:27:44 
@TSV, Спасибо за советы.

Только вот в голову мне сейчас пришла одна нехорошая мысль: есть сайт http://www.aspectgroup.ru, который с адресами страниц вида /id/xxx (сделан на том же движке что и сайт из профайла и хостится на том же сервере), только у него проиндексированы все страницы. С сайтом из профайла нет никаких проблем, у него все проиндексировано, несмотря на то что сначала были адреса вида ?id=xxx, а потом стали /id/xxx. А проблемы с сайтом http://mnemonic.nizhny.ru/id/2/ (алиас http://mnemonic.nizhny.ru/sound/?id=2 ) - из этого сайта проиндексированы только 3 страницы, хотя всего там около 25 статей. Этот сайт также сделан на движке и хоститься опять же на одном сервере с вышеуказанными.
Закипаю. :confused: Кажется дело тут не в заголовках.…
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 15 Март 2004, 12:33:50 

@TSV писал(а):
Соответственно вместо меты title использовал бы просто тэг title. :gent:


Простой TITLE там тоже есть :laugh:
@TSV
постоянный участник
11
Сообщения: 4736
Зарегистрирован: 08.05.03
Сообщение Добавлено: 15 Март 2004, 12:34:48 
gregzem, ну а в чём тогда, как не в заголовках? Сайты вполне себе честные, поэтому вторая причина плохой индексации (замеченный поисковый спам) из двух возможных отпадает. Остаются заголовки. И поведение робота это, кстати, подтверждает. Он именно начинает вести себя непредсказуемо (глючит), если не те заголовки дать, а не отказывается индексировать наотрез. Шо мы и наблюдаем. :gent:

ЗЫ. Больше всего, конечно, у меня под подозрением заголовок для установки PHP-шной сессии. :spy:

ЗЗЫ. :lamer: Бааалин, невнимательно посмотрел. Кстати говоря, тож нехорошо, когда таким способом title пишется. А на одной из страниц я видел что два тайтла и разные. Лучше оставить ИМХО один, и в теге, а иначе роботка может набычиться. :dont:

:gent:
oLL
постоянный участник
12
Сообщения: 2790
Зарегистрирован: 08.09.01
Откуда: ...куда...
Сообщение Добавлено: 15 Март 2004, 13:26:20 

gregzem писал(а):
А проблемы с сайтом http://mnemonic.nizhny.ru/id/2/ (алиас http://mnemonic.nizhny.ru/sound/?id=2 ) - из этого сайта проиндексированы только 3 страницы, хотя всего там около 25 статей.


Вообще-то "http://mnemonic.nizhny.ru/id/2/" - это для Яндекса не сайт, а лишь подкаталог на сайте "http://mnemonic.nizhny.ru/". С которого Яндекс проиндексировал более 2000 страниц.
http://www.yandex.ru/yandsearch?text=%2 … y.ru&pag=u
И куда Яндек пойдет дальше в плане индексирования этого сайта - решает обычно сам Яндекс, если ему не подсказать, например - через форму http://www.yandex.ru/addurl.html
Дополнительный совет - комментируйте скрипты на страницах, например - скрипт Яндекса, о такой код некоторые поисковики спотыкаются.
И общий совет - инвестигируйте, инвестигируйте и еще раз инвестигируйте основы веб-мастеринга и методы работы с поисковиками. Начать стоит с азов - http://searchengines.ru/forum/
Удач.
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 15 Март 2004, 15:44:09 

oLL писал(а):
И куда Яндек пойдет дальше в плане индексирования этого сайта - решает обычно сам Яндекс, если ему не подсказать, например - через форму http://www.yandex.ru/addurl.html


Это я попробовал в первую очередь. Не помогает.


oLL писал(а):
Дополнительный совет - комментируйте скрипты на страницах, например - скрипт Яндекса, о такой код некоторые поисковики спотыкаются.


Yandex спотыкается о собственный скрипт :laugh: ?!


oLL писал(а):
Начать стоит с азов - http://searchengines.ru/forum/


Спасибо. Но похоже уже поздновато. :laugh:
oLL
постоянный участник
12
Сообщения: 2790
Зарегистрирован: 08.09.01
Откуда: ...куда...
Сообщение Добавлено: 15 Март 2004, 16:24:43 

Цитата:
Yandex спотыкается о собственный скрипт ?!


Я писал о "некоторых" поисковиках. У меня о такой "незакомментированный" скрипт споткнулся Рамблер, проиндексировав только верхушку документа. Пришлось просить помощи у модераторов Рамблера, которые это и посоветовали. В любом случае - хуже не будет. http://www.opennet.ru/docs/RUS/inet_boo … .html#28.2
Код:
Интерпретатор javascript позволяет вводить строку "<!--" в начало элемента script и игнорировать все символы, следующие за ней вплоть до конца строки. javascript интерпретирует "//" как начало комментария, который следует до конца текущей строки. Это необходимо, для того чтобы скрыть строку "-->" от интерпретатора javascript.

<script type="text/javascript">
<!-- to hide script contents from old browsers
function square(i) {
document.write("the call passed ", i ," to the function.","<br>")
return i * i
}
document.write("the function returned ",square(5),".")
// end hiding contents from old browsers -->
</script>



Цитата:
-Начать стоит с азов - http://searchengines.ru/forum/
-Спасибо. Но похоже уже поздновато.


Ну, тогда не знаю, чем вам еще помочь.
Только, наверное, просто пожелать удачи.
gregzem Муж.
новый человек
2
Сообщения: 252
Зарегистрирован: 29.04.03
Сообщение Добавлено: 16 Март 2004, 15:33:24 
oLL, спасибо за ответ. Приму к сведению.
*   Список форумов / Начинка и техника / Программирование для WWW « | » » ответить » создать топик
 Страница 1 из 1 [ Сообщений: 15 ] 
Показать сообщения за:   Поле сортировки  
Найти:
Перейти:  
Уровень доступа: Вы не можете начинать темы. Вы не можете отвечать на сообщения. Вы не можете редактировать свои сообщения. Вы не можете удалять свои сообщения. Вы не можете добавлять вложения.
cron


ООО ДеФорум
При использовании материалов сайта ссылка на DeForum.ru — обязательна.
Проект Павла Батурина ©2001-2077; // Powered by phpBB © 2013 phpBB Group
Rambler's Top100