En este artículo voy a intentar ir recopilando los diferentes errores de indexación que me vaya encontrando.
Antes de comenzar a enumerar los diferentes errores de rastreo, por si alguien ando muy perdido, intentaré enumerar un par de criterios muy básicos para validar el correcto funcionamiento del rastreo:
A.-Cuando tarda un tiempo prudencial en rastrear el contenido, dependiendo lógicamente del tamaño del contenido a rastrear:
Si tarda menos de 10 segundos no es un buen síntoma….
B.-Verificar el correcto funcionamiento o los errores que se han producido en el log (Crawl Log):
C.-Y fundamentalmente comprobar que funcionan las búsquedas en MOSS.
1.- ERRORES DE ACCESO AL CONTENIDO
Normalmente el primer síntoma de que la indexación no va bien, es que una vez configurado el origen de contenido a rastrear, una vez que comenzamos un rastreo completo (full crawl) o incremental, este dura pocos segundos y en el log del crawl solo encontramos registros de errores como muestra la siguiente imagen:
Y en el detalle encontraríamos con algunos errores de este tipo:
-The system cannot find the path specified. (Exception from HRESULT: 0x80070003)
-Error: The item could not be accessed
-Acces is denied. Verify that either the Default Content Access Account has access to the repository, or add a crawl rule to crawl this repository. If the repository being crawled is a SharePoint repository, verify that the account you are using has “Full Read” permissions on the SharePoint Web Application being crawled.
En el visor de eventos de la máquina de la administración central:
The update cannot be started because the content source cannot be accessed. Fix the errors and try the update again
Este sería el punto de partida común, indagando un poco más encontraremos el origen real del error.
Un primer paso sería verificar que la ruta introducida a rastrear en el origen de contenido es correcta, y que si contamos con un AAM (Alternate Access Mapping) al FQDN (Full Qualified Domain Name), que ese FQDN es el que especificamos en el origen de contenido a rastrear.
También es necesario verificar que la cuenta que realiza el rastreo tiene acceso de lectura al sitio que queremos rastrear y comprobar si tiene acceso desde la propia máquina donde se realiza la indexación, para esto, lógicamente deberemos logarnos en la máquina de indexación con el usuario encargado de realizar el rastreo, y al acceder al sitio que se quiere rastrear si nos encontraremos con que no somos capaces de autenticarnos, y un error de este tipo en el navegador:
HTTP 401.1 - Unauthorized: Logon Failed
Quiere decir que nuestro problema será el “loopback check”. Este error es algo extraño ya que se puede acceder desde otras máquinas pero no desde la propia, para solucionarlo habrá de deshabilitarlo:
Follow these steps: 1.-Click Start, click Run, type regedit, and then click OK. 2.-In Registry Editor, locate and then click the following registry key: HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Lsa 3.-Right-click Lsa, point to New, and then click DWORD Value. 4.-Type DisableLoopbackCheck, and then press ENTER. 5.-Right-click DisableLoopbackCheck, and then click Modify. 6.-In the Value data box, type 1, and then click OK. 7.-Quit Registry Editor, and then restart your computer. |
En el mismo kb de Microsoft(http://support.microsoft.com/kb/896861/en-us) donde explica como deshabilitar el “loopback check” también explican otro método para solucionarlo.
En casos en los que la aplicación a rastrear se encuentre con un SSL, también puede ser que nos encontramos con que el crawler no es capaz de acceder al contenido ya que el certificado no es valido, algo bastante común en los entornos que no sean de producción, el error será algo de este tipo:
The secure socket layer (SSL) certificate sent by the server was invalid and this item will not be crawled
Para solucionarlo deberemos añadir una regla de rastreo indicando que ignore los warnings que se produzcan con el certificado:
Es posible que necesitemos reiniciar el servicio de búsqueda en las máquinas de indexación.
2.- ERRORES EN EL ALMACENAMIENTO DEL CONTENIDO RASTREADO
Otro caso de error es el relacionado con el almacenamiento de los datos rastreados, en este tipo de errores nos encontraremos algo como esto en el visor de eventos:
The gatherer service cannot be initialized.

Como bien detalla el propio error la carpeta temporal, esta llena o inaccesible, normalmente como este tipo de errores se producen en la configuración el problema será de permisos en el acceso a dicha carpeta, sobre la que el usuario que realiza el rastreo deberá tener permisos de administración, yo nunca me he encontrado sin espacio en la ruta de almacenamiento, pero me imagino que será algo que puede producirse y provocará este mismo error.
La carpeta donde se almacena este contenido rastreado se llama “gthrsvc”, y si no se ha indicado lo contrario en el momento de configurar la máquina de indexación se encontraré en:
C:\Documents and Settings\<Cuenta del usuario que realiza el rastreo>\Local Settings\Temp\gthrsvc\
Si no se existe esta carpeta y en la configuración del indexador no se especifica otra ruta, deberemos crearla y asignar los permisos correspondientes.