Поиск информации в Internet
"Всемирная паутина" в Интернет - это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту сети зачастую приходиться перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).
С начала 90-х годов интенсивно развиваются справочные службы Интернет, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.
В универсальных службах используется обычный принцип поиска в неструктурированных документах - по ключевым словам.
Ключевым словом документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа. Во многих текстовых процессорах ключевым словом является текст, по которому осуществляется поиск нужной информации.
Универсальная служба поиска (поисковая система) - это комплекс программ и мощных компьютеров, выполняющих следующие функции.
- Специальная программа (поисковый робот) непрерывно просматривает страницы "Всемирной паутины", выбирает ключевые слова и адреса документов, в которых эти слова обнаружены. Web - сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе - поисковой машине.
- Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющим условиям запроса (точнее список ссылок на эти страницы) и возвращает его Web - серверу.
- Web - сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.
Специализированные справочные службы - это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов, тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной систематизированной информацией о Сети.
Кроме того, многие сайты Интернет располагают собственными механизмами поиска (в пределах данного сайта).
|