Кто-нибудь делал систему статистики? @ DeForum.ru
DeДверь  
Логин:  
Пароль:  
  Автологин  
   
Разместить рекламу
Письмо админу
Правила | FAQ | *Поиск | Наша команда | Регистрация | Вход
 
 
 Страница 1 из 1 [ Сообщений: 24 ] 
*   Список форумов / Начинка и техника / Программирование для WWW » ответить » создать топик « | »
Автор Сообщение
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Заголовок сообщения: Кто-нибудь делал систему статистики?
Сообщение Добавлено: 17 Октябрь 2005, 22:34:20 
Поделитесь, плз, технологией. Потому как не пойму, что делаю не так. *)

В двух словах: пользователь приходит на сайт, и, если у него нет куки "counted", она ему ставится (на шесть, к примеру, часов) и пользователь записывается как уникальный.
Если у него нет куки "audience", она ему ставится и в следующий раз пользователь считается как "аудитория".

При этом фильтруются user-agentы, в которых есть строчки google, yandex, aport, rambler, yahoo!, wisenutbot и вообще что-либо со словом "bot".

Так вот. Число уникальных пользователей при этом получается сршенно неправдоподобным (где-то раз в пять больше реального, -- на сайте есть ещё три разных системы статистики). Число аудитории -- раза в два меньшим. Единственное, что считается более или менее правильно -- количество хитов.

При этом количество неопределённых браузеров (в user-agent`ах которых нет слов "gecko", "msie", "opera") получается аж тридцать процентов (что раза в три больше реальных данных). Сильно подозреваю, что эти трицдать процентов тоже какие-то боты, куки которым поставить не получается. Однако другие системы статистики про этих ботов ничего не говорят (судя по данным о user-agent`ах).

Единственный момент, который здесь явно не учитывается -- rss-ридеры. Но вряд ли они могли дать такой прирост.

Не понимаю, откуда берутся такие расхождения в цифрах с реальной картиной (под "реальной" я понимаю усреднённую статистику трёх остальных систем).

Все "встречи слов в строке" считаются функцией stripos, которая case-не-sensitive, так что здесь, вроде, пропусков быть не должно.

_________________
baby`s got an atom bomb
Акела Муж.
Констататор
17
Сообщения: 7419
Зарегистрирован: 15.11.04
Сообщение Добавлено: 18 Октябрь 2005, 00:46:35 
RTFM
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 18 Октябрь 2005, 07:14:28 

Цитата:
Кто-нибудь делал систему статистики?


Я делал.
И сейчас продолжаю делать.

Цитата:
пользователь приходит на сайт, и, если у него нет куки "counted", она ему ставится


куки не использовал и пока не собираюсь. поскольку и без этой мелочи проблем хватает.
Для начала вполне можно считать хосты.
Тем более, что точность обоих вариантов, прямо скажем, не астрономическая, а реальные цифры отличаются весьма слабо.
Научись считать хоть как-то, а потом уже будешь париться с таким понятием, как "посетители". Уж во всяком случае, одними куками, как бы ты их ни ставил, посетителей посчитать невозможно.

Цитата:
она ему ставится (на шесть, к примеру, часов) и пользователь записывается как уникальный


Это где это ты такой алгоритм подсчёта уникальных нашёл?
то есть, мало того что цифру в 6 часов ты с потолка взял.
Но, главное, если куку тебе не вернули, ты радостно молотишь каждый хит в "уникальные". Феерично.

Цитата:
Если у него нет куки "audience", она ему ставится и в следующий раз пользователь считается как "аудитория".


тот же самый вопрос.
Ты вообще можешь ответить - что такое аудитория? Похоже, ты это определение с потолка взял.

Ты, кстати, в курсе, что статистика посещений может собираться вообще без кук?
а статистика по сессиям и пути по сайту - без механизма сессий?
что кроме, как помазать белой краской (поставить куку) есть СТАТИСТИЧЕСКИЕ методы? что аудитория вычисляется?


Цитата:
Так вот. Число уникальных пользователей при этом получается сршенно неправдоподобным


закономерный результат.
Наверное, сначала надо определиться с тем, кого и как мы считаем?


Цитата:
При этом количество неопределённых браузеров (в user-agent`ах которых нет слов "gecko", "msie", "opera") получается аж тридцать процентов


какая проблема кидать неопределённые в файл и потом посмотреть ручками?

Цитата:
подозреваю, что эти трицдать процентов


Наверное, своими глазами посмотреть - это немножко продуктивнее, чем на пустом месте подозревать или у совсем уж посторонних людей спрашивать?

Цитата:
Не понимаю, откуда берутся такие расхождения в цифрах с реальной картиной (под "реальной" я понимаю усреднённую статистику трёх остальных систем).


Ну, ты, это... посмотрел бы сначала, КАК они свою статистику считают, что ли...
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 18 Октябрь 2005, 11:00:59 
Акела, у вас есть мануал по изготовлениям статистики?..

Чебурген, по пунктам.

1. "Такой" алгоритм подсчёта уникальных я не нашёл, а попробовал, потому что не подозревал, что существует такое число user-agentoв, не возвращающих куку. И молочу я его вовсе без радости. Хотя понимаю, что это неправильно.

2. Цифра шесть часов -- произвольное время. Если бы алгоритм с куками работал, то считалось бы, что если человек зашёл один раз за шесть часов, потом ещё раз за другие шесть часов -- значит, это два разных уникальных посетителя. Впрочем, это число никто не мешает заменить на 24. Хотя, если подход с куками неправильный (по крайней мере такой, какой я пытался сделать), этот вопрос непринципиален.

3. Под "аудиторией" я понимал человека, который пришёл на сайт больше одного раза.

4.
Цитата:
статистика посещений может собираться вообще без кук


Об этом я догадывался.

Цитата:
СТАТИСТИЧЕСКИЕ методы? что аудитория вычисляется?


А вот об этом -- нет. Можете предложить какую-то литературу?

5.
Цитата:
какая проблема кидать неопределённые в файл и потом посмотреть ручками?


Сейчас именно так и делаю.

_________________
baby`s got an atom bomb
fStrange Муж.
соучастник
10
Сообщения: 900
Зарегистрирован: 25.07.05
Откуда: Ростов-на-Дону
Сообщение Добавлено: 18 Октябрь 2005, 11:42:15 
(sp),
а нафига вообще через куки?
ведь по айпи проще, хоть и не всех считает (нет юзеров в одной подсети и неправильно считает юзера с динамическим айпи)
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 18 Октябрь 2005, 12:13:58 
fStrange, посетители интересующего сайта в основном сидят на диалапе. Раньше я думал, что по кукам будет точнее. Ошибался.

_________________
baby`s got an atom bomb
Kurilshik
Goldmember
142
Сообщения: 12797
Зарегистрирован: 18.10.04
Откуда: Кожаное кресло
Сообщение Добавлено: 18 Октябрь 2005, 12:35:09 
(sp), а почему ты решил использовать куки? Я делал себе на сессиях+mysql
(1) Заходит юзер, заносишь его айпишник в базу если в базе такого нет
(2) Если такой есть, то обновляешь дату его захода
Вот и всё собственно :)

_________________

Портфолио - ЖЖ - Кулинарные рецепты - Блог о дизайне, уроки фотошоп

icq: 295346452 | Почта: info()alexey-popov.com

.
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 18 Октябрь 2005, 12:58:33 
Kurilshik, объясняю ещё раз. С тем же успехом я могу просто сразу внести в базу всю подсеть местных dial-up-провайдеров плюс-минус десять процентов.

_________________
baby`s got an atom bomb
Kurilshik
Goldmember
142
Сообщения: 12797
Зарегистрирован: 18.10.04
Откуда: Кожаное кресло
Сообщение Добавлено: 18 Октябрь 2005, 13:26:25 
(sp), с тем же успехом можно вычеркнуть из списка посетителей тех у кого нет кук, и посетителей с компьютерных клубов.

_________________

Портфолио - ЖЖ - Кулинарные рецепты - Блог о дизайне, уроки фотошоп

icq: 295346452 | Почта: info()alexey-popov.com

.
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 18 Октябрь 2005, 13:51:02 
Я думаю, тебе стоит сначала пойти на сайты твоих систем статистики и прочитать определения терминов.
у спайлога, я помню, точно был.
в частности, уникальный посетитель считается именно в 24 часа.
Аудитория - то же самое. Надо смотреть, что под этим подразумевает провайдер. Вообще, аудитория, на мой взгляд, неинтересна. Это имеет значение для оценки честности раскрутки. А в обычной жизни понятно, что аудитория - это большая часть посетителей.
Литературу предложить не могу. поскольку, как уже говорил, аудитория меня не волнует.
мне интересны посетители (которых можно отличать ещё по набору НТТР заголовков), переходы с других сайтов, поисковые запросы, пути по сайту.

Цитата:
не подозревал, что существует такое число user-agentoв, не возвращающих куку.


Дело не в числе.
А в том, что при твоей методике ОДИН агент без кук будет тебе писать нового посетителя каждым ХИТОМ!

Будет интересно узнать результаты сравнения со счётчиками после перехода на учёт хостов.
Только, конечно, надо будет жёстче отсекать ботов.
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 18 Октябрь 2005, 13:55:17 
(sp), есть мнение, что с курильщиком дискутировать нет смысла
Kurilshik
Goldmember
142
Сообщения: 12797
Зарегистрирован: 18.10.04
Откуда: Кожаное кресло
Сообщение Добавлено: 18 Октябрь 2005, 14:20:00 
Чебурген, Почему? Я предложил решение, работающее, согласен не самое лучшее. А вот через куки делать статистику я никогда небуду

_________________

Портфолио - ЖЖ - Кулинарные рецепты - Блог о дизайне, уроки фотошоп

icq: 295346452 | Почта: info()alexey-popov.com

.
Акела Муж.
Констататор
17
Сообщения: 7419
Зарегистрирован: 15.11.04
Сообщение Добавлено: 18 Октябрь 2005, 15:38:01 
(sp), нет. Просто здесь это неоднократно обсуждалось. В принципе Чебурген сказал всё то, под чем я готов подписаться, ноглавный вопрос в другом: статистика ДЛЯ ЧЕГО? Что хочется от неё получить?
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 18 Октябрь 2005, 18:47:59 
Чебурген,

Цитата:
ОДИН агент без кук будет тебе писать нового посетителя каждым ХИТОМ!


это тоже ясно.
Но вообще где-то в Сети есть материал о методах сбора статистики? У меня не получилось что-то толковое найти. Смотреть чужой код не очень хочется, а придумывать всё заново -- либо получается такая фигня, как сейчас, либо придётся таки убить кучу времени.

Чёрт с ней, с аудиторией. Сейчас мне хочется получать хотя бы более или менее точные данные хотя бы о количестве посетителей.

Акела, такой вопрос не обсуждался здесь ни разу. Поищите по словам "статистика" и "счётчик" и ничего кроме "а какую бы систему статистики использовать" не найдёте. От статистики я хочу получить, как нетрудно догадаться, внимательно прочитав топик, примерное количество уникальных посетителей (а не уникальных айпи), которые пришли на сайт. И не представляю, что вы хотели сказать фразой "rtfm".

Kurilshik, в моём случае это решение практически неприемлемо.

_________________
baby`s got an atom bomb
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 18 Октябрь 2005, 20:18:02 
(sp), по поводу материалов не скажу. не знаю.
Сам я читал статистику спайлога, определения, которые он давал, и соображал, как это сделать самому.
По поводу количества посетителей, информации, как их считать, я не встречал.
Есть только некоторые собственные соображения.
Но главное - надо понимать, что все эти цифры - УСЛОВНЫ. И не надо попу рвать за астрономической точностью.
К примеру, все три твои системы статистики дружно хлопают ушами, когда к тебе на сайт заходит человек с отключёнными картинками. А я сам так два месяца ходил, пока на GPRS сидел. И чего? Никто особо по этому поводу не парится.

я бы на твоём месте считал сначала хосты.
Как любой нормальный программист - я бы упростил задачу. С хостами гораздо проще, чем с посетителями. А процедуры сбора храниния и анализа - практически те же.
Научился их счиать так, чтобы совпадало со счётчиками, а потом уже двигался дальше.
Но если тебе непременно нужны посетители, то ты поступаешь в корне неправильно.
ставить куку надо не на 6 часов, а на год! Вот тогда-то у тебя и будет аудитория.
Естественно, на этой куке ты не останавливаешься. Тех, кто с кукой не пришёл, тоже считаем. по тем же хостам.
Остаётся пикантный момент - как не посчитать два раза того, кто сначала зашёл без куки и был посчитан хостом, а потом получил куку и был посчитан кукой. Но и здесь можно решить.
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 20 Октябрь 2005, 13:46:28 
Чебурген, только один момент: изображения тут ни при чём: статистика-то считается через include в пхп (а я пытаюсь сделать и вовсе интегрированную в программу-блог).
В общем, вывод: сразу ничего не получится.

_________________
baby`s got an atom bomb
Kurilshik
Goldmember
142
Сообщения: 12797
Зарегистрирован: 18.10.04
Откуда: Кожаное кресло
Сообщение Добавлено: 20 Октябрь 2005, 14:28:02 
(sp), ясно уже

_________________

Портфолио - ЖЖ - Кулинарные рецепты - Блог о дизайне, уроки фотошоп

icq: 295346452 | Почта: info()alexey-popov.com

.
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 20 Октябрь 2005, 15:53:18 

Цитата:
на сайте есть ещё три разных системы статистики


ты хочешь сказать, что все они подключены инклюдом?
Акела Муж.
Констататор
17
Сообщения: 7419
Зарегистрирован: 15.11.04
Сообщение Добавлено: 20 Октябрь 2005, 15:53:25 
(sp), в том и дело, что при обсуждении тех или иных систем статистики и рассматривалось именно как она должна быть сделана. В частности и то, что уже говорилось здесь.


Цитата:
как не посчитать два раза того, кто сначала зашёл без куки и был посчитан хостом, а потом получил куку и был посчитан кукой

Ч а вот это уже интереснее.
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 20 Октябрь 2005, 23:44:11 
Чебурген, две из них. Одна -- спеста, которая, как я понимаю, счиатет хосты, другая -- chCounter, третья -- неоднократно упоминавшийся здесь statcounter.
Просто не люблю я левые ("внешние") системы статистики *).

Акела, вы можете более ясно выражать свои мысли?

_________________
baby`s got an atom bomb
Бaзиль Муж.
участник
49
Сообщения: 1288
Зарегистрирован: 13.02.05
Откуда: Околомосковье
Сообщение Добавлено: 21 Октябрь 2005, 08:44:23 
а как насчет подробного анализа логов веб-сервера (предположим, Апача)?
весьма занятное занятие.

изобретать велосипеды вообще всегда было очень интересно.

_________________
Не кочегары мы, не плотники,
Но сожалений горьких нет -
Как нет?
А мы дизайнеры-художники,
И с высоты вам шлем привет -
Привет!
Чебурген
соучастник
3
Сообщения: 315
Зарегистрирован: 29.08.04
Сообщение Добавлено: 21 Октябрь 2005, 10:37:00 
Бaзиль, у товарища проблема не в том, откуда брать информацию, а в том, как её интерпретировать.
причём очень большая проблема.

(sp), ты меня, надо сказать, сильно разочаровал.
Я тут соловьём разливаюсь, пытаюсь объяснить, что надо у внешних систем статистики учиться. У людей, которые что-то понимают в вопросе.
И мысли не предполагаю, что упоминавшиеся три - внутренние (иначе какой смысл на форум идти? вот тебе коды - бери да смотри!)
А тут, оказывается, ламер, который не может элементарное арифметическое действие произвести, уже составил своё авторитетное мнение о чужих системах. Они, типа, левые.
Ню-ню.
Бaзиль Муж.
участник
49
Сообщения: 1288
Зарегистрирован: 13.02.05
Откуда: Околомосковье
Сообщение Добавлено: 21 Октябрь 2005, 15:02:25 
Чебурген, я это тоже имел в виду. "Всё уже интерпретировано до нас" © ;)

_________________
Не кочегары мы, не плотники,
Но сожалений горьких нет -
Как нет?
А мы дизайнеры-художники,
И с высоты вам шлем привет -
Привет!
(sp)
соучастник
0
Сообщения: 559
Зарегистрирован: 22.01.05
Сообщение Добавлено: 21 Октябрь 2005, 22:52:34 
Чебурген, слово "левые" я употребил не в вашем любимом уничижительном смысле, а имея в виду то, что стоят они не на том сервере, на котором производится подсчёт.
Смотреть исходные коды я пробовал. И не у трёх, а у двух. Потому что третья, как я уже сказал, statcounter, -- расположена за пределами сервера.
Одна из систем считает людей по айпи. Мне это неинтересно. Вторая -- во-первых, непростая сама по себе, а во-вторых -- писана немцем. Отсюда некоторые проблемы с её пониманием.

Теперь об элементарных действиях. Какие прикажете производить действия в случае, когда не подходит ни подсчёт по айпи, ни подсчёт по кукам? Я этого не знаю, в сети описаний не нашёл (кроме, разумеется, метода "посмотреть исходники"). Именно поэтому я и пришёл на форум. Полагая, что есть люди, которые такие механизмы делали и принцип смогут в двух-трёх предложениях сформулировать. Со временем что-то у меня получится. Мне хотелось этот промежуток времени уменьшить.

Бaзиль, мною движут исключительно саморазвлекательные цели. Хочу научиться интерпретировать самостоятельно.

_________________
baby`s got an atom bomb
*   Список форумов / Начинка и техника / Программирование для WWW « | » » ответить » создать топик
 Страница 1 из 1 [ Сообщений: 24 ] 
Показать сообщения за:   Поле сортировки  
Найти:
Перейти:  
Уровень доступа: Вы не можете начинать темы. Вы не можете отвечать на сообщения. Вы не можете редактировать свои сообщения. Вы не можете удалять свои сообщения. Вы не можете добавлять вложения.
cron


ООО ДеФорум
При использовании материалов сайта ссылка на DeForum.ru — обязательна.
Проект Павла Батурина ©2001-2077; // Powered by phpBB © 2013 phpBB Group
Rambler's Top100