Интернет-разведка. Руководство к действию - страница 13

Шрифт
Интервал


Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

Ну а далее ситуация развивалась еще более стремительно. Крис Шерман и Гари Прайс приводят такую хронологию возникновения и развития современных поисковых машин.

1994 г. – WebCrawler, Lycos, Yahoo!

1995 г. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.

1996 г. – HotBot, LookSmart.

1997 г. – NorthernLight.

1998 г. – Google, InvisibleWeb.com.

1999 г. – FAST.

2000 г. и далее – Сотни новых поисковых машин.

Русскоязычные поисковые машины появлялись в такой последовательности:

1996 г. – Rambler (www.rambler.ru);

1997 г. – Yandex (www.yandex.ru);

2004 г. – русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт

Прежде, чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать пауку, состоит обычно сайт.

Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов – тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег – такой же по написанию, как открывающий, но перед ним стоит косая черта.

Приведем пример очень простого сайта (рис. 1).



Рис. 1. Пример сайта, как его видно в браузере Мозилла Файрфокс.


Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом и закрывающим тегом ). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.

Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись – и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега , но при этом вместе с тегом <TITLE> находится внутри тега <Head>. То есть содержимое, заключенное в <TITLE>, – это часть того, что находится в <Head>. Такое расположение дает дополнительную возможность пауку лучше определять ключевые слова на сайте. Ведь если слова вынесены в заголовок текста или, тем более, всей страницы, вероятность того, что страница и текст посвящены теме, формулируемой этими словами, повышается.</p></div></div> <!-- Yandex.RTB R-A-11995824-7 --> <div id="yandex_rtb_R-A-11995824-7" class="fspot"><div class="finnerspot"></div></div> <script> window.yaContextCb.push(() => { Ya.Context.AdvManager.render({ "blockId": "R-A-11995824-7", "renderTo": "yandex_rtb_R-A-11995824-7" }) }) </script> <div class="show-more show-more_reader text-center mt-4"> <a class="btn btn-primary" href="/see/160910-internet-razvedka-rukovodstvo-k-deystviyu?page=14" > Следующая страница </a> </div> </section> <hr class="w-100"> <section> <div class="pagination-container"> <nav> <ul class="pagination"> <li class="page-item"> <a class="page-link" href="/work/160910-internet-razvedka-rukovodstvo-k-deystviyu#tx">1</a> </li> <li class="page-item disabled"> <span class="page-link">…</span> </li> <li class="page-item"> <a class="page-link" href="/see/160910-internet-razvedka-rukovodstvo-k-deystviyu?page=12#tx">12</a> </li> <li class="page-item active"> <span class="page-link">13</span> </li> <li class="page-item"> <a class="page-link" href="/see/160910-internet-razvedka-rukovodstvo-k-deystviyu?page=14#tx">14</a> </li> <li class="page-item"> <a class="page-link" href="/see/160910-internet-razvedka-rukovodstvo-k-deystviyu?page=15#tx">15</a> </li> <li class="page-item disabled"> <span class="page-link">…</span> </li> </ul> </nav> </div> </section> <hr class="w-100"> </div> </main> </div> </div> </div> <script src="/build/runtime.5332280c.js" defer></script><script src="/build/site.3d80c86c.js" defer></script> <!-- Yandex.Metrika counter --> <script type="text/javascript" > (function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.webvisor.org/metrika/tag_ww.js", "ym"); ym(97886539, "init", { clickmap:true, trackLinks:true, accurateTrackBounce:true }); </script> <!-- /Yandex.Metrika counter --> </div> </body> </html>