Заголовок сообщения: Кто-нибудь делал систему статистики? Добавлено: 17 Октябрь 2005, 22:34:20
Поделитесь, плз, технологией. Потому как не пойму, что делаю не так. *)
В двух словах: пользователь приходит на сайт, и, если у него нет куки "counted", она ему ставится (на шесть, к примеру, часов) и пользователь записывается как уникальный.
Если у него нет куки "audience", она ему ставится и в следующий раз пользователь считается как "аудитория".
При этом фильтруются user-agentы, в которых есть строчки google, yandex, aport, rambler, yahoo!, wisenutbot и вообще что-либо со словом "bot".
Так вот. Число уникальных пользователей при этом получается сршенно неправдоподобным (где-то раз в пять больше реального, -- на сайте есть ещё три разных системы статистики). Число аудитории -- раза в два меньшим. Единственное, что считается более или менее правильно -- количество хитов.
При этом количество неопределённых браузеров (в user-agent`ах которых нет слов "gecko", "msie", "opera") получается аж тридцать процентов (что раза в три больше реальных данных). Сильно подозреваю, что эти трицдать процентов тоже какие-то боты, куки которым поставить не получается. Однако другие системы статистики про этих ботов ничего не говорят (судя по данным о user-agent`ах).
Единственный момент, который здесь явно не учитывается -- rss-ридеры. Но вряд ли они могли дать такой прирост.
Не понимаю, откуда берутся такие расхождения в цифрах с реальной картиной (под "реальной" я понимаю усреднённую статистику трёх остальных систем).
Все "встречи слов в строке" считаются функцией stripos, которая case-не-sensitive, так что здесь, вроде, пропусков быть не должно.
пользователь приходит на сайт, и, если у него нет куки "counted", она ему ставится
куки не использовал и пока не собираюсь. поскольку и без этой мелочи проблем хватает. Для начала вполне можно считать хосты. Тем более, что точность обоих вариантов, прямо скажем, не астрономическая, а реальные цифры отличаются весьма слабо. Научись считать хоть как-то, а потом уже будешь париться с таким понятием, как "посетители". Уж во всяком случае, одними куками, как бы ты их ни ставил, посетителей посчитать невозможно.
Цитата:
она ему ставится (на шесть, к примеру, часов) и пользователь записывается как уникальный
Это где это ты такой алгоритм подсчёта уникальных нашёл? то есть, мало того что цифру в 6 часов ты с потолка взял. Но, главное, если куку тебе не вернули, ты радостно молотишь каждый хит в "уникальные". Феерично.
Цитата:
Если у него нет куки "audience", она ему ставится и в следующий раз пользователь считается как "аудитория".
тот же самый вопрос. Ты вообще можешь ответить - что такое аудитория? Похоже, ты это определение с потолка взял.
Ты, кстати, в курсе, что статистика посещений может собираться вообще без кук? а статистика по сессиям и пути по сайту - без механизма сессий? что кроме, как помазать белой краской (поставить куку) есть СТАТИСТИЧЕСКИЕ методы? что аудитория вычисляется?
Цитата:
Так вот. Число уникальных пользователей при этом получается сршенно неправдоподобным
закономерный результат. Наверное, сначала надо определиться с тем, кого и как мы считаем?
Цитата:
При этом количество неопределённых браузеров (в user-agent`ах которых нет слов "gecko", "msie", "opera") получается аж тридцать процентов
какая проблема кидать неопределённые в файл и потом посмотреть ручками?
Цитата:
подозреваю, что эти трицдать процентов
Наверное, своими глазами посмотреть - это немножко продуктивнее, чем на пустом месте подозревать или у совсем уж посторонних людей спрашивать?
Цитата:
Не понимаю, откуда берутся такие расхождения в цифрах с реальной картиной (под "реальной" я понимаю усреднённую статистику трёх остальных систем).
Ну, ты, это... посмотрел бы сначала, КАК они свою статистику считают, что ли...
Акела, у вас есть мануал по изготовлениям статистики?..
Чебурген, по пунктам.
1. "Такой" алгоритм подсчёта уникальных я не нашёл, а попробовал, потому что не подозревал, что существует такое число user-agentoв, не возвращающих куку. И молочу я его вовсе без радости. Хотя понимаю, что это неправильно.
2. Цифра шесть часов -- произвольное время. Если бы алгоритм с куками работал, то считалось бы, что если человек зашёл один раз за шесть часов, потом ещё раз за другие шесть часов -- значит, это два разных уникальных посетителя. Впрочем, это число никто не мешает заменить на 24. Хотя, если подход с куками неправильный (по крайней мере такой, какой я пытался сделать), этот вопрос непринципиален.
3. Под "аудиторией" я понимал человека, который пришёл на сайт больше одного раза.
4.
Цитата:
статистика посещений может собираться вообще без кук
Об этом я догадывался.
Цитата:
СТАТИСТИЧЕСКИЕ методы? что аудитория вычисляется?
А вот об этом -- нет. Можете предложить какую-то литературу?
5.
Цитата:
какая проблема кидать неопределённые в файл и потом посмотреть ручками?
(sp),
а нафига вообще через куки?
ведь по айпи проще, хоть и не всех считает (нет юзеров в одной подсети и неправильно считает юзера с динамическим айпи)
(sp), а почему ты решил использовать куки? Я делал себе на сессиях+mysql
(1) Заходит юзер, заносишь его айпишник в базу если в базе такого нет
(2) Если такой есть, то обновляешь дату его захода
Вот и всё собственно
Я думаю, тебе стоит сначала пойти на сайты твоих систем статистики и прочитать определения терминов.
у спайлога, я помню, точно был.
в частности, уникальный посетитель считается именно в 24 часа.
Аудитория - то же самое. Надо смотреть, что под этим подразумевает провайдер. Вообще, аудитория, на мой взгляд, неинтересна. Это имеет значение для оценки честности раскрутки. А в обычной жизни понятно, что аудитория - это большая часть посетителей.
Литературу предложить не могу. поскольку, как уже говорил, аудитория меня не волнует.
мне интересны посетители (которых можно отличать ещё по набору НТТР заголовков), переходы с других сайтов, поисковые запросы, пути по сайту.
Цитата:
не подозревал, что существует такое число user-agentoв, не возвращающих куку.
Дело не в числе.
А в том, что при твоей методике ОДИН агент без кук будет тебе писать нового посетителя каждым ХИТОМ!
Будет интересно узнать результаты сравнения со счётчиками после перехода на учёт хостов.
Только, конечно, надо будет жёстче отсекать ботов.
(sp), нет. Просто здесь это неоднократно обсуждалось. В принципе Чебурген сказал всё то, под чем я готов подписаться, ноглавный вопрос в другом: статистика ДЛЯ ЧЕГО? Что хочется от неё получить?
ОДИН агент без кук будет тебе писать нового посетителя каждым ХИТОМ!
это тоже ясно.
Но вообще где-то в Сети есть материал о методах сбора статистики? У меня не получилось что-то толковое найти. Смотреть чужой код не очень хочется, а придумывать всё заново -- либо получается такая фигня, как сейчас, либо придётся таки убить кучу времени.
Чёрт с ней, с аудиторией. Сейчас мне хочется получать хотя бы более или менее точные данные хотя бы о количестве посетителей.
Акела, такой вопрос не обсуждался здесь ни разу. Поищите по словам "статистика" и "счётчик" и ничего кроме "а какую бы систему статистики использовать" не найдёте. От статистики я хочу получить, как нетрудно догадаться, внимательно прочитав топик, примерное количество уникальных посетителей (а не уникальных айпи), которые пришли на сайт. И не представляю, что вы хотели сказать фразой "rtfm".
Kurilshik, в моём случае это решение практически неприемлемо.
(sp), по поводу материалов не скажу. не знаю.
Сам я читал статистику спайлога, определения, которые он давал, и соображал, как это сделать самому.
По поводу количества посетителей, информации, как их считать, я не встречал.
Есть только некоторые собственные соображения.
Но главное - надо понимать, что все эти цифры - УСЛОВНЫ. И не надо попу рвать за астрономической точностью.
К примеру, все три твои системы статистики дружно хлопают ушами, когда к тебе на сайт заходит человек с отключёнными картинками. А я сам так два месяца ходил, пока на GPRS сидел. И чего? Никто особо по этому поводу не парится.
я бы на твоём месте считал сначала хосты.
Как любой нормальный программист - я бы упростил задачу. С хостами гораздо проще, чем с посетителями. А процедуры сбора храниния и анализа - практически те же.
Научился их счиать так, чтобы совпадало со счётчиками, а потом уже двигался дальше.
Но если тебе непременно нужны посетители, то ты поступаешь в корне неправильно.
ставить куку надо не на 6 часов, а на год! Вот тогда-то у тебя и будет аудитория.
Естественно, на этой куке ты не останавливаешься. Тех, кто с кукой не пришёл, тоже считаем. по тем же хостам.
Остаётся пикантный момент - как не посчитать два раза того, кто сначала зашёл без куки и был посчитан хостом, а потом получил куку и был посчитан кукой. Но и здесь можно решить.
Чебурген, только один момент: изображения тут ни при чём: статистика-то считается через include в пхп (а я пытаюсь сделать и вовсе интегрированную в программу-блог).
В общем, вывод: сразу ничего не получится.
(sp), в том и дело, что при обсуждении тех или иных систем статистики и рассматривалось именно как она должна быть сделана. В частности и то, что уже говорилось здесь.
Цитата:
как не посчитать два раза того, кто сначала зашёл без куки и был посчитан хостом, а потом получил куку и был посчитан кукой
Чебурген, две из них. Одна -- спеста, которая, как я понимаю, счиатет хосты, другая -- chCounter, третья -- неоднократно упоминавшийся здесь statcounter.
Просто не люблю я левые ("внешние") системы статистики *).
Бaзиль, у товарища проблема не в том, откуда брать информацию, а в том, как её интерпретировать.
причём очень большая проблема.
(sp), ты меня, надо сказать, сильно разочаровал.
Я тут соловьём разливаюсь, пытаюсь объяснить, что надо у внешних систем статистики учиться. У людей, которые что-то понимают в вопросе.
И мысли не предполагаю, что упоминавшиеся три - внутренние (иначе какой смысл на форум идти? вот тебе коды - бери да смотри!)
А тут, оказывается, ламер, который не может элементарное арифметическое действие произвести, уже составил своё авторитетное мнение о чужих системах. Они, типа, левые.
Ню-ню.
Чебурген, слово "левые" я употребил не в вашем любимом уничижительном смысле, а имея в виду то, что стоят они не на том сервере, на котором производится подсчёт.
Смотреть исходные коды я пробовал. И не у трёх, а у двух. Потому что третья, как я уже сказал, statcounter, -- расположена за пределами сервера.
Одна из систем считает людей по айпи. Мне это неинтересно. Вторая -- во-первых, непростая сама по себе, а во-вторых -- писана немцем. Отсюда некоторые проблемы с её пониманием.
Теперь об элементарных действиях. Какие прикажете производить действия в случае, когда не подходит ни подсчёт по айпи, ни подсчёт по кукам? Я этого не знаю, в сети описаний не нашёл (кроме, разумеется, метода "посмотреть исходники"). Именно поэтому я и пришёл на форум. Полагая, что есть люди, которые такие механизмы делали и принцип смогут в двух-трёх предложениях сформулировать. Со временем что-то у меня получится. Мне хотелось этот промежуток времени уменьшить.
Бaзиль, мною движут исключительно саморазвлекательные цели. Хочу научиться интерпретировать самостоятельно.
Уровень доступа: Вы не можете начинать темы. Вы не можете отвечать на сообщения. Вы не можете редактировать свои сообщения. Вы не можете удалять свои сообщения. Вы не можете добавлять вложения.