www.gcmsite.ru

Новости Программы PHP-скрипты Статьи Числа
Услуги Резюме Игры Автомобили Поиск

СИСТЕМНОЕ И ВЕБ-ПРОГРАММИРОВАНИЕ
компьютерная техника, игры

Охота за поисковыми пауками: получаем статистику о сканировании страницы поисковыми роботами

На основе алгоритма, описанного в статье "Статистика переходов на отдельную страницу сайта" создадим более интересный алгоритм. Будем охотиться за поисковыми роботами (Crawler или Spider), определяя, когда они приходят на страницу.

Для чего нужен алгоритм определения поисковых роботов?

  • По набору статистических данных, полученных с помощью алгоритма, можно создать картину популярности страницы (сайта) в глазах того или иного поисковика.
  • Получить информацию о том, как быстро нужный поисковик проиндексирует страницу, в которую были внесены какие-то новшества, или проведены работы по оптимизации HTML-кода.

Чтобы файл статистики не рос бесконечно, нужно ввести проверку на размер файла.

Код алгоритма на php будет написан в виде функции, которую можно легко вызвать с любой страницы сайта. Функцию необходимо поместить в общий файл функций, используемых на сайте, или же в отдельный файл myfunction.php. Во втором случае перед вызовом функции статистики нужно подключить созданный файл с функцией с помощью команды include("myfunction.php").

<?php
# файл myfunction.php

function pg_log($pg){
 $pg_f="pagelog/".$pg; // здесь будут храниться файлы статистики

 $n=getenv("HTTP_USER_AGENT");
 $n2=$n;

 if (strstr($n, "Aport"))    { $n="spider Aport (ru)"; }
 if (strstr($n, "Convera"))  { $n="spider Convera (com)"; }
 if (strstr($n, "Dyatel"))   { $n="spider Ya.Dyatel (ru)"; }
 if (strstr($n, "e-Society")){ $n="spider e-Society (jp)"; }
 if (strstr($n, "eStyleSe")) { $n="spider eStyleSearch (?)"; }
 if (strstr($n, "FAST"))     { $n="spider FAST (no)"; }
 if (strstr($n, "Findexa"))  { $n="spider Findexa (no)"; }
 if (strstr($n, "Goku"))     { $n="spider Goku (ru)"; }
 if (strstr($n, "Google"))   { $n="spider Google (com)"; }
 if (strstr($n, "Gigabot"))  { $n="spider Gigabot (?)"; }
 if (strstr($n, "Girafa"))   { $n="spider Girafa (com)"; }
 if (strstr($n, "ia_archiver")){ $n="spider ia_archiver (?)"; }
 if (strstr($n, "ichiro"))   { $n="spider ichiro (jp)"; }
 if (strstr($n, "msnbot"))   { $n="spider MSN (com)"; }
 if (strstr($n, "psbot"))    { $n="spider PicSearch (com)"; }
 if (strstr($n, "Rambler"))  { $n="spider Rambler (ru)"; }
 if (strstr($n, "Space"))    { $n="spider Space Bison (?)"; }
 if (strstr($n, "Teoma"))    { $n="spider Ask Teoma (com)"; }
 if (strstr($n, "Turnitin")) { $n="spider Turnitin (com)"; }
 if (strstr($n, "Turtle"))   { $n="spider TurtleScanner (?)"; }
 if (strstr($n, "Yahoo"))    { $n="spider Yahoo (com)"; }
 if (strstr($n, "Yandex"))   { $n="spider Yandex (ru)"; }
 if (strstr($n, "ZyBorg"))   { $n="spider ZyBorg (com)"; }

 if ($n!=$n2){
  $f=@fopen($pg_f, "a+");
  @fputs ($f, date("H:i:s d.m.Y",time()).'|'.$n."\n");
  @fflush($f); @fclose($f); @chmod($pg_f, 0666);
  if ((filesize($pg_f))>250000){@unlink($pg_f);}
 }
}
?>

Вызов функции на тестовой странице сайта:

<?php
  include("myfunction.php");
  pg_log("page1");
?>

В файловой системе сайта должен быть создан каталог pagelog с атрибутами 0777, в котором будет создаваться и дополняться информацией файл page1.

Резюмируя, можно сказать, что с помощью вышеприведенного алгоритма Вы всегда будете в курсе даты и времени появления поисковиков на тестируемой странице. Лёгкой охоты на поисковых пауков!

Чтобы Ваша страница часто переиндексировалась поисковыми роботами, рекомендуется ссылку на нее указывать на главной странице сайта! Например, поисковик MSN будет приходить на страницу каждый день!

Часто спрашивают: как подключить сайт к поисковым роботам? На самом деле не надо подключать сайт к поисковым роботам, это даже вредно делать. Нужно лишь установить ссылку на сайт с одной из проиндексированных страниц. Поисковый робот, зайдя на ту страницу, увидит новую ссылку и придет на наш сайт. Вот таким образом и надо подключать сайт к поисковым роботам.

Дополнительная информация на тему "Программирование на PHP"


Delphi — это объектно-ориентированный язык программирования со строгой типизацией переменных. Он используется в основном для написания прикладных, пользовательских программ. Простота использования позволяет рекомендовать его в качестве языка для начального обучения программированию. Хотя, если смотреть на перспективу, работодатели мало интересуются работниками, программирующими на Delphi.

Интересные материалы на сайте:

Автор, разработчик: Шаров Евгений   (gcmsite@yandex.ru)
(c) 2000-2020 GCM-Site - системное и веб-программирование
Цитирование материалов сайта возможно только при наличии гиперссылки