Motor de búsqueda o Search engine
Se trata de un programa que busca a través de una base de
datos, en el contexto de la Web, se refiere usualmente a búsquedas
de bases de datos de documentos Html, recopilados por un robot.
Cómo decide un robot qué visitar depende del robot.
Cada uno usa diferentes estrategias. En general comienzan a trabajar
desde una lista histórica de URL's( Sitios Web). Especialmente
con documentos con muchos links, tales como una lista de servidores
"what's New"(qué hay de nuevo") y desde los
sitios más populares en la Web. Muchos indexan servicios
que le permiten dar de alta un sitio manualmente, los cuales harán
cola para ser indexados por el robot. Son usados a veces otros recursos
también como listas de correo, grupos de discusión,
etc. Esto les da un punto de partida para comenzar a seleccionar
url's que ha de visitar, analizarlas y usarlas como recurso para
incluirlas dentro de su base de datos.
Cómo decide un robot qué indexar Depende del robot,
pero generalmente usa los títulos de HTML (Titles) o los
primeros párrafos, o selecciona la HTML completa e indexa
las palabras contenidas, excluyendo las de uso común (pronombres,
adverbios y palabras como "web", "página",
etc)dependiendo de las construcciones de HTML, etc. Algunos seleccionan
las metaetiquetas, u otros tipos especiales de tags ocultas. Una
práctica muy común es indexar también los textos
alternativos de los gráficos. Le recomendamos les preste
especial atención, pues en caso de indexarse, son palabras
que contarán con un gran peso sobre la relevancia final en
el documento.
|