Conector de Microsoft Graph para sitios web empresariales

El conector de Microsoft Graph para sitios web empresariales permite a su organización indexar artículos y contenido de sitios web propiedad de la empresa. Después de configurar el conector y sincronizar el contenido del sitio web, los usuarios finales pueden buscar ese contenido desde cualquier cliente de Microsoft Search.

Nota:

Lea el artículo Configuración de conectores de Microsoft Graph en el artículo Centro de administración de Microsoft 365 para conocer las instrucciones generales de configuración de los conectores.

Este artículo está destinado a cualquier persona que configure, ejecute y supervise un conector de sitios web empresariales. Complementa el proceso de configuración general y muestra instrucciones que se aplican solo al conector de sitios web de Enterprise. En este artículo también se incluye información sobre la solución de problemas.

Paso 1: Agregar un conector en el Centro de administración de Microsoft 365

Incorporación del conector del sitio web de Enterprise

(Consulte las instrucciones generales de configuración para obtener más detalles)

Paso 2: Asignar un nombre a la conexión

Especifique estos atributos:

  • Name (obligatorio)
  • Identificador de conexión (obligatorio)
  • Descripción (opcional)
  • Active la casilla (obligatorio)

El identificador de conexión crea propiedades implícitas para el conector. Debe ser único y solo puede contener un máximo de 32 caracteres alfanuméricos. Para cambiar el identificador, vaya a Configuración avanzada.

Paso 3: Configurar las opciones de conexión

Para conectarse al origen de datos, rellene la dirección URL raíz del sitio web y seleccione una vertical personalizada para los resultados. Después de completar esta información, seleccione Probar conexión para comprobar la configuración.

URL del sitio web

Especifique la raíz del sitio web que desea rastrear. El conector de sitios web empresariales usará esta dirección URL como punto de partida y seguirá todos los vínculos de esta dirección URL para su rastreo.

Nota:

Puede indexar hasta 50 direcciones URL de sitio diferentes en una sola conexión. En el campo Direcciones URL, escriba las direcciones URL del sitio separadas por comas (,). Por ejemplo, https://www.contoso.com,https://www.contosoelectronics.com.

Uso de sitemap para rastrear

Cuando se selecciona, el conector solo rastreará las direcciones URL enumeradas en el sitemap. Esto también permite configurar el rastreo incremental durante un paso posterior. Si no se selecciona o no se encuentra ningún mapa de sitio, el conector realizará un rastreo profundo de todos los vínculos que se encuentran en la dirección URL raíz del sitio.

Configuración dinámica del sitio

Si el sitio web contiene contenido dinámico, por ejemplo, páginas web que residen en sistemas de administración de contenido como Confluence o Unily, puede habilitar un rastreador dinámico. Para activarlo, seleccione Habilitar rastreo para sitios dinámicos. El rastreador esperará a que el contenido dinámico se represente antes de que comience a rastrearse.

Captura de pantalla del panel Configuración de conexión para enterprise web connector.

Además de la casilla, hay tres campos opcionales disponibles:

  1. Listo para DOM: escriba el elemento DOM que el rastreador debe usar como señal de que el contenido está totalmente representado y que debe comenzar el rastreo.
  2. Encabezados para agregar: especifique qué encabezados HTTP debe incluir el rastreador al enviar esa dirección URL web específica. Puede establecer varios encabezados para diferentes sitios web. Se recomienda incluir valores de token de autenticación.
  3. Encabezados que se van a omitir: especifique los encabezados innecesarios que se deben excluir de las solicitudes de rastreo dinámico.

Los encabezados se deben agregar en la sintaxis siguiente: {"Root-URL":["TKey=TValue"]}

Ejemplo: {"https://www.contoso.com":["Token=Value","Type=Value2"]}

Nota:

El rastreo dinámico solo se admite para el modo de rastreo del agente.

Modo de rastreo: en la nube o local

El modo de rastreo determina el tipo de sitios web que desea indexar, ya sea en la nube o en el entorno local. Para los sitios web en la nube, seleccione Nube como modo de rastreo.

Además, el conector ahora admite el rastreo de sitios web locales. Para acceder a los datos locales, primero debe instalar y configurar el agente del conector. Para más información, consulte Agente del conector de Microsoft Graph.

En los sitios web locales, seleccione Agente como modo de rastreo y, en el campo Agente local, elija el agente del conector de Graph que instaló y configuró anteriormente.

Autenticación

Ninguno no requiere autenticación

Basic requiere un nombre de usuario y una contraseña.

OAuth 2.0 con Microsoft Entra ID requiere un identificador de recurso, un identificador de cliente y un secreto de cliente.

El identificador de recurso, el identificador de cliente y los valores de secreto de cliente dependerán de cómo haya realizado la configuración para la autenticación basada en Microsoft Entra ID para el sitio web:

  1. Si usa una aplicación como proveedor de identidades y la aplicación cliente para acceder al sitio web, el identificador de cliente y el identificador de recurso serán el identificador de aplicación de la aplicación y el secreto de cliente será el secreto que generó en la aplicación.

    Una vez configurada la aplicación cliente, asegúrese de crear un nuevo secreto de cliente en la sección Certificados & secretos de la aplicación. Copie el valor del secreto de cliente que se muestra en la página porque no se mostrará de nuevo.

    En las capturas de pantalla siguientes puede ver los pasos para obtener el identificador de cliente, el secreto de cliente y configurar la aplicación si está creando la aplicación por su cuenta.

    • Vista de la configuración en la sección personalización de marca:

      Imagen que muestra la sección de configuración en la página de personalización de marca.

    • Visualización de la configuración en la sección de autenticación:

      Imagen que muestra la sección de configuración en la página de autenticación.

      Nota:

      No es necesario tener la ruta especificada anteriormente para el URI de redirección en el sitio web. Solo si usa el token de usuario enviado por Azure en el sitio web para la autenticación, tendrá que tener la ruta.

    • Vista del identificador de cliente en la sección Essentials :

      Imagen que muestra el identificador de cliente en la sección essentials.

    • Vista del secreto de cliente en la sección Certificados & secretos :

      Imagen que muestra el secreto de cliente.

  2. Si usa una aplicación como proveedor de identidades para el sitio web como recurso y una aplicación diferente para acceder al sitio web, el identificador de cliente será el identificador de aplicación de la segunda aplicación y el secreto de cliente será el secreto configurado en la segunda aplicación. Sin embargo, el identificador de recurso será el identificador de la primera aplicación.

    No es necesario configurar un secreto de cliente en esta aplicación, pero deberá agregar un rol de aplicación en la sección Roles de aplicación, que se asignará más adelante a la aplicación cliente. Consulte las imágenes para ver cómo agregar un rol de aplicación.

    • Creación de un nuevo rol de aplicación:

      Imagen que muestra la opción para crear un rol de aplicación.

    • Edición del nuevo rol de aplicación:

      Imagen que muestra la sección para editar un rol de aplicación.

      Después de configurar la aplicación de recursos, cree la aplicación cliente y asígnele permisos para acceder a la aplicación de recursos agregando el rol de aplicación configurado anteriormente en los permisos de API de la aplicación cliente.

      Nota:

      Para ver cómo conceder permisos a la aplicación cliente, consulte Inicio rápido: Configuración de una aplicación cliente para acceder a una API web.

    En las capturas de pantalla siguientes se muestra la sección para conceder permisos a la aplicación cliente.

    • Agregar un permiso:

      Imagen que muestra la opción para agregar un permiso.

    • Selección de los permisos:

      Imagen que muestra la sección para seleccionar una API.

    • Agregar los permisos:

      Imagen que muestra los permisos seleccionados.

    Una vez asignados los permisos, deberá crear un nuevo secreto de cliente para esta aplicación yendo a la sección Certificados & secretos. Copie el valor del secreto de cliente que se muestra en la página, ya que no se mostrará de nuevo. Use el identificador de aplicación de esta aplicación como el identificador de cliente, el secreto de esta aplicación como secreto de cliente y el identificador de aplicación de la primera aplicación como identificador de recurso.

SiteMinder requiere una dirección URL con el formato correcto, https://custom_siteminder_hostname/smapi/rest/createsmsession, un nombre de usuario y una contraseña.

La autenticación de Windows solo está disponible en modo de agente. Requiere nombre de usuario, dominio y contraseña. Debe proporcionar el nombre de usuario y el dominio en el campo Nombre de usuario , en cualquiera de los siguientes formatos: domain\username o username@domain. Debe escribirse una contraseña en el campo Contraseña . Para autenticación de Windows, el nombre de usuario proporcionado también debe ser un administrador en el servidor donde está instalado el agente.

Paso 4: Configuración de metaetiqueta

El conector captura las metaetiquetas que las direcciones URL raíz pueden tener y las muestra. Puede seleccionar qué etiquetas incluir para el rastreo.

Configuración de metaetiquetas con autor, configuración regional y otras etiquetas seleccionadas.

Las metaetiquetas seleccionadas se pueden usar para crear propiedades personalizadas. Además, en la página Esquema puede administrarlos aún más (Consultable, Searchable, Recuperable, Refinable).

Paso 5: Configuración de propiedades personalizadas

Para enriquecer los datos indexados, cree propiedades personalizadas para las metaetiquetas seleccionadas o las propiedades predeterminadas del conector.

Propiedad personalizada configurada con una regla para los metadatos de equipo.

Para agregar una propiedad personalizada:

  1. Escriba un nombre de propiedad. Este nombre aparecerá en los resultados de búsqueda de este conector.
  2. Para el valor, seleccione Static o String/Regex Mapping (Asignación estática o string/regex). Se incluirá un valor estático en todos los resultados de búsqueda de este conector. Un valor de cadena o expresión regular variará en función de las reglas que agregue.
  3. Seleccione Editar valor.
  4. Si seleccionó un valor estático, escriba la cadena que desea que aparezca.
  5. Si seleccionó un valor de cadena o expresión regular:
    • En la sección Agregar expresiones , en la lista Propiedad , seleccione una propiedad o metaetiqueta predeterminada de la lista.
    • En Valor de ejemplo, escriba una cadena para representar el tipo de valores que podrían aparecer. Este ejemplo se usa al obtener una vista previa de la regla.
    • En Expresión, escriba una expresión regex para definir la parte del valor de propiedad que debe aparecer en los resultados de la búsqueda. Puede agregar hasta tres expresiones. Para obtener más información sobre las expresiones regex, consulte expresiones regulares de .NET o busque en la web una guía de referencia de expresiones regex.
    • En la sección Crear fórmula , escriba una fórmula para combinar los valores extraídos de las expresiones.

Paso 6: Agregar direcciones URL para excluir (restricciones de rastreo opcionales)

Hay dos maneras de evitar que las páginas se rastreen: no permitirlas en el archivo robots.txt o agregarlas a la lista exclusión.

Compatibilidad con robots.txt

El conector comprueba si hay un archivo robots.txt para el sitio raíz. Si existe, seguirá y respetará las instrucciones que se encuentran en ese archivo. Si no desea que el conector rastree determinadas páginas o directorios del sitio, incluya las páginas o directorios en las declaraciones "No permitir" en el archivo robots.txt.

Agregar direcciones URL para excluir

Opcionalmente, puede crear una lista de exclusión para excluir que algunas direcciones URL se rastreen si ese contenido es confidencial o no merece la pena rastrearlo. Para crear una lista de exclusión, examine la dirección URL raíz. Puede agregar las direcciones URL excluidas a la lista durante el proceso de configuración.

Paso 7: Asignar etiquetas de propiedad

Puede asignar una propiedad de origen a cada etiqueta si elige en un menú de opciones. Aunque este paso no es obligatorio, tener algunas etiquetas de propiedad mejorará la relevancia de la búsqueda y garantizará resultados de búsqueda más precisos para los usuarios finales.

Paso 8: Administrar esquema

En la pantalla Administrar esquema , puede cambiar los atributos de esquema (las opciones son Consulta, Búsqueda, Recuperar y Refinar) asociados a las propiedades predeterminadas o personalizadas, agregar alias opcionales y elegir la propiedad Content .

Paso 9: Administrar permisos de búsqueda

El conector de sitios web empresariales solo admite permisos de búsqueda visibles para todos. Los datos indexados aparecen en los resultados de la búsqueda y son visibles para todos los usuarios de la organización.

Paso 10: Establecer la programación de actualización

El conector de sitios web empresariales admite el rastreo completo e incremental. El rastreo incremental solo se admite para las conexiones configuradas con el rastreo de sitemaps habilitado. Sitemap para rastreo se puede seleccionar en el paso 3.

Durante un intervalo de actualización incremental, solo se rastrean las direcciones URL que se han modificado desde la última actualización incremental. En un intervalo de actualización completo, el conector volverá a rastrear todo el contenido del sitio web. Para una actualización completa, se recomienda establecer un intervalo de programación de actualización grande, entre una y dos semanas, para asegurarse de que el conector tenga suficiente tiempo para completar el rastreo. Se recomienda una actualización programada.

Paso 11: Revisión de la conexión

Siga las instrucciones generales de configuración.

Solución de problemas

Al leer el contenido del sitio web, el rastreo puede encontrar algunos errores de origen, que se representan mediante los códigos de error detallados siguientes. Para obtener más información sobre los tipos de errores, vaya a la página de detalles del error después de seleccionar la conexión. Seleccione el código de error para ver errores más detallados. Consulte También Supervisión de las conexiones para obtener más información.

Código de error detallado Mensaje de error
6001 No se puede acceder al sitio al que se intenta indexar
6005 La página de origen que se está intentando indexar se ha bloqueado según robots.txt configuración.
6008 No se puede resolver el DNS
6009 Para ver todos los errores del lado cliente (excepto HTTP 404, 408), consulte códigos de error HTTP 4xx para obtener más información.
6013 No se encontró la página de origen que se está intentando indexar. (Error HTTP 404)
6018 La página de origen no responde y la solicitud ha agotado el tiempo de espera. (Error HTTP 408)
6021 La página de origen que se intenta indexar no tiene contenido textual en la página.
6023 La página de origen que se está intentando indexar no es compatible (no es una página HTML)
6024 La página de origen que se está intentando indexar tiene contenido no compatible.
  • Los errores 6001-6013 se producen cuando no se puede acceder al origen de datos debido a un problema de red o cuando se elimina, mueve o cambia el nombre del propio origen de datos. Compruebe si los detalles del origen de datos proporcionados siguen siendo válidos.
  • Los errores 6021-6024 se producen cuando el origen de datos contiene contenido no textual en la página o cuando la página no es html. Compruebe el origen de datos y agregue esta página en la lista de exclusión o omita el error.