начал писать скрипт, который проходит по сайту собирает все ссылки на его же страницы (в последствии удаляет все теги из страниц и для каждой страницы создает список уникальных слов, ну типа для поиска)… первая версия была с рекурсией, но пришлось убрать, ресурсы кушались неимоверно! сразу оговорюсь, что код не шедевр, вот и понимаю, что все очень примитивно
Код:
#!c:\perl\bin\perl #!/usr/bin/perl use LWP::Simple;
$pred='над &%@ X#$ в около тут а около еще какой to из такую такой рядом где-то то здесь вот он она они оно ты я мы'; my (%h_2index, %h_indexed); $url='eclipse.bestweb.ru/'; $start_page='index.htm';
print "Content-Type: text/html\n\n"; open FW, ">scan.txt"; &seek_n_destroy($main_start_page); close FW;
@indexed=keys %h_indexed; open FW, ">indexed.txt"; foreach $page (@indexed){ print FW "$page\n"; } close FW;
sub extract_links{ my $text=shift; my @ret_arr; while($text=~m/a\s*href=\"([\w,\.,\-,\&,\/,\~,\?,\d,\=,\%]+)\"/img){ print $1."\n"; push @ret_arr, $1; } return @ret_arr; }
худо бедно работает, но загвоздка появилась, когда к примеру попадается ссылка вида http://url/catalog/ а там уже как бы из index.html работает, то бишь из своего каталога... т.е. как я понимаю нужно еще как-то к извлеченным ссылкам добавлять каталог? но как?
может кто-то уже писал нечто подобное...
_________________ ...cut me, hurt me, rape my life...
if (!$enstring or !$cfrom or !$cto) {return ''} else { if ($cfrom ne "" and $cto ne "lc" and $cto ne "uc") { $_=$enstring;$cfrom=$codefunk{$cfrom};$cto=$codefunk{$cto}; eval "tr/$cfrom/$cto/"; return $_; } elsif (($cfrom ne "") and ($cto eq "lc" or $cto eq "uc")) { $_=$enstring; $cfrom=$codefunk{"$cfrom\_$cto"}; eval $cfrom; return $_; } } return $enstring; }
sub rutextdown {my $pvdtextstring=shift; return encoder($pvdtextstring,"win","lc")}
_________________ ...cut me, hurt me, rape my life...
Уровень доступа: Вы не можете начинать темы. Вы не можете отвечать на сообщения. Вы не можете редактировать свои сообщения. Вы не можете удалять свои сообщения. Вы не можете добавлять вложения.