Conector de Microsoft Graph para sitios web empresariales
El conector de Microsoft Graph para sitios web empresariales permite a su organización indexar artículos y contenido de sitios web propiedad de la empresa. Después de configurar el conector y sincronizar el contenido del sitio web, los usuarios finales pueden buscar ese contenido desde cualquier cliente de Microsoft Search.
Nota:
Lea el artículo Configuración de conectores de Microsoft Graph en el artículo Centro de administración de Microsoft 365 para conocer las instrucciones generales de configuración de los conectores.
Este artículo está destinado a cualquier persona que configure, ejecute y supervise un conector de sitios web empresariales. Complementa el proceso de configuración general y muestra instrucciones que se aplican solo al conector de sitios web de Enterprise. En este artículo también se incluye información sobre la solución de problemas.
Paso 1: Agregar un conector en el Centro de administración de Microsoft 365
Incorporación del conector del sitio web de Enterprise
(Consulte las instrucciones generales de configuración para obtener más detalles)
Paso 2: Asignar un nombre a la conexión
Especifique estos atributos:
- Name (obligatorio)
- Identificador de conexión (obligatorio)
- Descripción (opcional)
- Active la casilla (obligatorio)
El identificador de conexión crea propiedades implícitas para el conector. Debe ser único y solo puede contener un máximo de 32 caracteres alfanuméricos. Para cambiar el identificador, vaya a Configuración avanzada.
Paso 3: Configurar las opciones de conexión
Para conectarse al origen de datos, rellene la dirección URL raíz del sitio web y seleccione una vertical personalizada para los resultados. Después de completar esta información, seleccione Probar conexión para comprobar la configuración.
URL del sitio web
Especifique la raíz del sitio web que desea rastrear. El conector de sitios web empresariales usará esta dirección URL como punto de partida y seguirá todos los vínculos de esta dirección URL para su rastreo.
Nota:
Puede indexar hasta 50 direcciones URL de sitio diferentes en una sola conexión. En el campo Direcciones URL, escriba las direcciones URL del sitio separadas por comas (,). Por ejemplo, https://www.contoso.com,https://www.contosoelectronics.com
.
Uso de sitemap para rastrear
Cuando se selecciona, el conector solo rastreará las direcciones URL enumeradas en el sitemap. Esto también permite configurar el rastreo incremental durante un paso posterior. Si no se selecciona o no se encuentra ningún mapa de sitio, el conector realizará un rastreo profundo de todos los vínculos que se encuentran en la dirección URL raíz del sitio.
Configuración dinámica del sitio
Si el sitio web contiene contenido dinámico, por ejemplo, páginas web que residen en sistemas de administración de contenido como Confluence o Unily, puede habilitar un rastreador dinámico. Para activarlo, seleccione Habilitar rastreo para sitios dinámicos. El rastreador esperará a que el contenido dinámico se represente antes de que comience a rastrearse.
Además de la casilla, hay tres campos opcionales disponibles:
- Listo para DOM: escriba el elemento DOM que el rastreador debe usar como señal de que el contenido está totalmente representado y que debe comenzar el rastreo.
- Encabezados para agregar: especifique qué encabezados HTTP debe incluir el rastreador al enviar esa dirección URL web específica. Puede establecer varios encabezados para diferentes sitios web. Se recomienda incluir valores de token de autenticación.
- Encabezados que se van a omitir: especifique los encabezados innecesarios que se deben excluir de las solicitudes de rastreo dinámico.
Los encabezados se deben agregar en la sintaxis siguiente: {"Root-URL":["TKey=TValue"]}
Ejemplo: {"https://www.contoso.com":["Token=Value","Type=Value2"]}
Nota:
El rastreo dinámico solo se admite para el modo de rastreo del agente.
Modo de rastreo: en la nube o local
El modo de rastreo determina el tipo de sitios web que desea indexar, ya sea en la nube o en el entorno local. Para los sitios web en la nube, seleccione Nube como modo de rastreo.
Además, el conector ahora admite el rastreo de sitios web locales. Para acceder a los datos locales, primero debe instalar y configurar el agente del conector. Para más información, consulte Agente del conector de Microsoft Graph.
En los sitios web locales, seleccione Agente como modo de rastreo y, en el campo Agente local, elija el agente del conector de Graph que instaló y configuró anteriormente.
Autenticación
Ninguno no requiere autenticación
Basic requiere un nombre de usuario y una contraseña.
OAuth 2.0 con Microsoft Entra ID requiere un identificador de recurso, un identificador de cliente y un secreto de cliente.
El identificador de recurso, el identificador de cliente y los valores de secreto de cliente dependerán de cómo haya realizado la configuración para la autenticación basada en Microsoft Entra ID para el sitio web:
Si usa una aplicación como proveedor de identidades y la aplicación cliente para acceder al sitio web, el identificador de cliente y el identificador de recurso serán el identificador de aplicación de la aplicación y el secreto de cliente será el secreto que generó en la aplicación.
Nota:
Para obtener pasos detallados para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
Una vez configurada la aplicación cliente, asegúrese de crear un nuevo secreto de cliente en la sección Certificados & secretos de la aplicación. Copie el valor del secreto de cliente que se muestra en la página porque no se mostrará de nuevo.
En las capturas de pantalla siguientes puede ver los pasos para obtener el identificador de cliente, el secreto de cliente y configurar la aplicación si está creando la aplicación por su cuenta.
Vista de la configuración en la sección personalización de marca:
Visualización de la configuración en la sección de autenticación:
Nota:
No es necesario tener la ruta especificada anteriormente para el URI de redirección en el sitio web. Solo si usa el token de usuario enviado por Azure en el sitio web para la autenticación, tendrá que tener la ruta.
Vista del identificador de cliente en la sección Essentials :
Vista del secreto de cliente en la sección Certificados & secretos :
Si usa una aplicación como proveedor de identidades para el sitio web como recurso y una aplicación diferente para acceder al sitio web, el identificador de cliente será el identificador de aplicación de la segunda aplicación y el secreto de cliente será el secreto configurado en la segunda aplicación. Sin embargo, el identificador de recurso será el identificador de la primera aplicación.
Nota:
Para conocer los pasos para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
No es necesario configurar un secreto de cliente en esta aplicación, pero deberá agregar un rol de aplicación en la sección Roles de aplicación, que se asignará más adelante a la aplicación cliente. Consulte las imágenes para ver cómo agregar un rol de aplicación.
Creación de un nuevo rol de aplicación:
Edición del nuevo rol de aplicación:
Después de configurar la aplicación de recursos, cree la aplicación cliente y asígnele permisos para acceder a la aplicación de recursos agregando el rol de aplicación configurado anteriormente en los permisos de API de la aplicación cliente.
Nota:
Para ver cómo conceder permisos a la aplicación cliente, consulte Inicio rápido: Configuración de una aplicación cliente para acceder a una API web.
En las capturas de pantalla siguientes se muestra la sección para conceder permisos a la aplicación cliente.
Agregar un permiso:
Selección de los permisos:
Agregar los permisos:
Una vez asignados los permisos, deberá crear un nuevo secreto de cliente para esta aplicación yendo a la sección Certificados & secretos. Copie el valor del secreto de cliente que se muestra en la página, ya que no se mostrará de nuevo. Use el identificador de aplicación de esta aplicación como el identificador de cliente, el secreto de esta aplicación como secreto de cliente y el identificador de aplicación de la primera aplicación como identificador de recurso.
SiteMinder requiere una dirección URL con el formato correcto, https://custom_siteminder_hostname/smapi/rest/createsmsession
, un nombre de usuario y una contraseña.
La autenticación de Windows solo está disponible en modo de agente. Requiere nombre de usuario, dominio y contraseña. Debe proporcionar el nombre de usuario y el dominio en el campo Nombre de usuario , en cualquiera de los siguientes formatos: domain\username o username@domain. Debe escribirse una contraseña en el campo Contraseña . Para autenticación de Windows, el nombre de usuario proporcionado también debe ser un administrador en el servidor donde está instalado el agente.
Paso 4: Configuración de metaetiqueta
El conector captura las metaetiquetas que las direcciones URL raíz pueden tener y las muestra. Puede seleccionar qué etiquetas incluir para el rastreo.
Las metaetiquetas seleccionadas se pueden usar para crear propiedades personalizadas. Además, en la página Esquema puede administrarlos aún más (Consultable, Searchable, Recuperable, Refinable).
Paso 5: Configuración de propiedades personalizadas
Para enriquecer los datos indexados, cree propiedades personalizadas para las metaetiquetas seleccionadas o las propiedades predeterminadas del conector.
Para agregar una propiedad personalizada:
- Escriba un nombre de propiedad. Este nombre aparecerá en los resultados de búsqueda de este conector.
- Para el valor, seleccione Static o String/Regex Mapping (Asignación estática o string/regex). Se incluirá un valor estático en todos los resultados de búsqueda de este conector. Un valor de cadena o expresión regular variará en función de las reglas que agregue.
- Seleccione Editar valor.
- Si seleccionó un valor estático, escriba la cadena que desea que aparezca.
- Si seleccionó un valor de cadena o expresión regular:
- En la sección Agregar expresiones , en la lista Propiedad , seleccione una propiedad o metaetiqueta predeterminada de la lista.
- En Valor de ejemplo, escriba una cadena para representar el tipo de valores que podrían aparecer. Este ejemplo se usa al obtener una vista previa de la regla.
- En Expresión, escriba una expresión regex para definir la parte del valor de propiedad que debe aparecer en los resultados de la búsqueda. Puede agregar hasta tres expresiones. Para obtener más información sobre las expresiones regex, consulte expresiones regulares de .NET o busque en la web una guía de referencia de expresiones regex.
- En la sección Crear fórmula , escriba una fórmula para combinar los valores extraídos de las expresiones.
Paso 6: Agregar direcciones URL para excluir (restricciones de rastreo opcionales)
Hay dos maneras de evitar que las páginas se rastreen: no permitirlas en el archivo robots.txt o agregarlas a la lista exclusión.
Compatibilidad con robots.txt
El conector comprueba si hay un archivo robots.txt para el sitio raíz. Si existe, seguirá y respetará las instrucciones que se encuentran en ese archivo. Si no desea que el conector rastree determinadas páginas o directorios del sitio, incluya las páginas o directorios en las declaraciones "No permitir" en el archivo robots.txt.
Agregar direcciones URL para excluir
Opcionalmente, puede crear una lista de exclusión para excluir que algunas direcciones URL se rastreen si ese contenido es confidencial o no merece la pena rastrearlo. Para crear una lista de exclusión, examine la dirección URL raíz. Puede agregar las direcciones URL excluidas a la lista durante el proceso de configuración.
Paso 7: Asignar etiquetas de propiedad
Puede asignar una propiedad de origen a cada etiqueta si elige en un menú de opciones. Aunque este paso no es obligatorio, tener algunas etiquetas de propiedad mejorará la relevancia de la búsqueda y garantizará resultados de búsqueda más precisos para los usuarios finales.
Paso 8: Administrar esquema
En la pantalla Administrar esquema , puede cambiar los atributos de esquema (las opciones son Consulta, Búsqueda, Recuperar y Refinar) asociados a las propiedades predeterminadas o personalizadas, agregar alias opcionales y elegir la propiedad Content .
Paso 9: Administrar permisos de búsqueda
El conector de sitios web empresariales solo admite permisos de búsqueda visibles para todos. Los datos indexados aparecen en los resultados de la búsqueda y son visibles para todos los usuarios de la organización.
Paso 10: Establecer la programación de actualización
El conector de sitios web empresariales admite el rastreo completo e incremental. El rastreo incremental solo se admite para las conexiones configuradas con el rastreo de sitemaps habilitado. Sitemap para rastreo se puede seleccionar en el paso 3.
Durante un intervalo de actualización incremental, solo se rastrean las direcciones URL que se han modificado desde la última actualización incremental. En un intervalo de actualización completo, el conector volverá a rastrear todo el contenido del sitio web. Para una actualización completa, se recomienda establecer un intervalo de programación de actualización grande, entre una y dos semanas, para asegurarse de que el conector tenga suficiente tiempo para completar el rastreo. Se recomienda una actualización programada.
Paso 11: Revisión de la conexión
Siga las instrucciones generales de configuración.
Solución de problemas
Al leer el contenido del sitio web, el rastreo puede encontrar algunos errores de origen, que se representan mediante los códigos de error detallados siguientes. Para obtener más información sobre los tipos de errores, vaya a la página de detalles del error después de seleccionar la conexión. Seleccione el código de error para ver errores más detallados. Consulte También Supervisión de las conexiones para obtener más información.
Código de error detallado | Mensaje de error |
---|---|
6001 | No se puede acceder al sitio al que se intenta indexar |
6005 | La página de origen que se está intentando indexar se ha bloqueado según robots.txt configuración. |
6008 | No se puede resolver el DNS |
6009 | Para ver todos los errores del lado cliente (excepto HTTP 404, 408), consulte códigos de error HTTP 4xx para obtener más información. |
6013 | No se encontró la página de origen que se está intentando indexar. (Error HTTP 404) |
6018 | La página de origen no responde y la solicitud ha agotado el tiempo de espera. (Error HTTP 408) |
6021 | La página de origen que se intenta indexar no tiene contenido textual en la página. |
6023 | La página de origen que se está intentando indexar no es compatible (no es una página HTML) |
6024 | La página de origen que se está intentando indexar tiene contenido no compatible. |
- Los errores 6001-6013 se producen cuando no se puede acceder al origen de datos debido a un problema de red o cuando se elimina, mueve o cambia el nombre del propio origen de datos. Compruebe si los detalles del origen de datos proporcionados siguen siendo válidos.
- Los errores 6021-6024 se producen cuando el origen de datos contiene contenido no textual en la página o cuando la página no es html. Compruebe el origen de datos y agregue esta página en la lista de exclusión o omita el error.