Compartir a través de


Conector de Microsoft Graph en la nube de Enterprise Websites

El conector microsoft graph en la nube de Sitios web empresariales permite a su organización indexar páginas web y contenido de sitios web propiedad de la empresa o sitios web públicos en Internet. Después de configurar el conector y el contenido de índice desde el sitio web, los usuarios finales pueden buscar ese contenido en Microsoft Search y Microsoft 365 Copilot.

Este artículo está destinado a administradores de Microsoft 365 o a cualquier persona que configure, ejecute y supervise un conector de Microsoft Graph en la nube de Enterprise Websites.

Importante

Puede usar el conector microsoft graph local de Enterprise Websites para indexar sitios web hospedados en el entorno local o en nubes privadas.

Capacidades

  • Indexar páginas web de sitios web accesibles en la nube.
  • Indexe hasta 50 sitios web en una sola conexión.
  • Excluir páginas web del rastreo mediante reglas de exclusión.
  • Use la búsqueda semántica en Copilot para permitir que los usuarios encuentren contenido relevante.

Tipos de archivo admitidos

Extensión de archivo Tipo de archivo Descripción
.pdf PDF Portable Document Format
.Odt Texto de OpenDocument Documento de texto OpenDocument
.Ods Hoja de cálculo de OpenDocument Hoja de cálculo de OpenDocument
.odp Presentación de OpenDocument Presentación de OpenDocument
.odg Gráficos opendocument Gráficos opendocument
.xls Excel (antiguo) Hoja de cálculo de Excel (formato antiguo)
.xlsx Excel (nuevo) Hoja de cálculo de Excel (nuevo formato)
.ppt PowerPoint (antiguo) Presentación de PowerPoint (formato antiguo)
.pptx PowerPoint (nuevo) Presentación de PowerPoint (nuevo formato)
.doc Word (antiguo) Documento Word (formato antiguo)
.docx Word (nuevo) documento Word (nuevo formato)
.csv CSV valores de Comma-Separated
.txt Texto sin formato Archivo de texto sin formato
.xml XML Lenguaje de marcado extensible
.Md Markdown Archivo Markdown
.rtf Formato de texto enriquecido Formato de texto enriquecido
.tsv Valores separados por tabulaciones valores de Tab-Separated

Tipos MIME admitidos

Tipo MIME Descripción
text/html Lenguaje de marcado de hipertexto (HTML) que se usa para dar formato a la estructura de una página web.
text/webviewhtml Tipo MIME usado para el contenido web representado en controles WebView.
text/x-server-parsed-html Documentos HTML analizados por el servidor, que a menudo se usan para el lado servidor incluye (SSI).

Limitaciones

  • El conector no admite mecanismos de autenticación como SAML, token JWT, autenticación basada en Forms, etc.
  • El conector no admite el rastreo de contenido dinámico en páginas web.

Requisitos previos

  • Debe ser el administrador de búsqueda del inquilino de Microsoft 365 de su organización.
  • Direcciones URL del sitio web: para conectarse al contenido del sitio web, necesita la dirección URL al sitio web. Puede indexar varios sitios web (hasta 50) en una sola conexión.
  • Cuenta de servicio (opcional): solo se necesita una cuenta de servicio cuando los sitios web requieren autenticación. Los sitios web públicos no requieren autenticación y se pueden rastrear directamente. Para los sitios web que requieren autenticación, se recomienda tener una cuenta dedicada para autenticar y rastrear el contenido.

Introducción

Captura de pantalla que muestra la pantalla de creación de conexiones para la nube de Microsoft Graph Connector for Enterprise Websites.

1. Nombre para mostrar

Se usa un nombre para mostrar para identificar cada cita en Copilot, lo que ayuda a los usuarios a reconocer fácilmente el archivo o elemento asociado. El nombre para mostrar también significa contenido de confianza. El nombre para mostrar también se usa como filtro de origen de contenido. Hay un valor predeterminado para este campo, pero puede personalizarlo para un nombre que los usuarios de su organización reconozcan.

2. Direcciones URL del sitio web que se van a indexar

Especifique la raíz del sitio web que desea rastrear. El conector de Microsoft Graph en la nube de Sitios web empresariales usa esta dirección URL como punto de partida y sigue todos los vínculos de esta dirección URL para su rastreo. Puede indexar hasta 50 direcciones URL de sitio diferentes en una sola conexión. En el campo Direcciones URL, escriba las direcciones URL del sitio separadas por comas (,). Por ejemplo, https://www.contoso.com,https://www.contosoelectronics.com.

Nota:

El conector siempre comienza a rastrearse desde la raíz de la dirección URL. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com/electronics, el conector iniciará el rastreo desde https://www.contoso.com.

El conector solo rastrea páginas web en el dominio de direcciones URL raíz y no admite el rastreo de direcciones URL fuera del dominio. El redireccionamiento solo se admite dentro del mismo dominio. Si hay redireccionamientos en las páginas web que se rastrearán, puede agregar la dirección URL redirigida directamente en la lista de direcciones URL que se rastrearán.

Uso de sitemap para rastrear

Cuando se selecciona, el conector solo rastrea las direcciones URL enumeradas en el mapa del sitio. Esta opción también permite configurar el rastreo incremental durante un paso posterior. Si no se selecciona o no se encuentra ningún mapa del sitio, el conector realiza un rastreo profundo de todos los vínculos que se encuentran en la dirección URL raíz del sitio.

Cuando se selecciona esta opción, el rastreador realiza los pasos siguientes:

a. El rastreador busca el archivo robots.txt en la ubicación raíz. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com, el rastreador busca el archivo robots.txt en https://www.contoso.com/robots.txt.

b. Al localizar el archivo robots.txt, el rastreador encuentra los vínculos de sitemap en el archivo robots.txt.

c. A continuación, el rastreador rastrea todas las páginas web como se muestra en los archivos de sitemap.

d. Si se produce un error en cualquiera de los pasos anteriores, el rastreador realiza un rastreo profundo del sitio web, sin generar ningún error.

3. Tipo de autenticación

El método de autenticación que elija se aplica a todos los sitios web que ha proporcionado para indexar en una conexión. Para autenticar y sincronizar contenido de sitios web, elija uno de los cuatro métodos admitidos:

a. Ninguna
Seleccione esta opción si los sitios web son accesibles públicamente sin ningún requisito de autenticación.

b. Autenticación básica
Escriba el nombre de usuario y la contraseña de su cuenta para autenticarse mediante la autenticación básica.

c. SiteMinder
La autenticación de Siteminder requiere una dirección URL con formato correcto, https://custom_siteminder_hostname/smapi/rest/createsmsession, un nombre de usuario y una contraseña.

d. Microsoft Entra credenciales de cliente de OAuth 2.0
OAuth 2.0 con Microsoft Entra ID requiere un identificador de recurso, un identificador de cliente y un secreto de cliente.

El identificador de recurso, el identificador de cliente y los valores de secreto de cliente dependen de cómo se haya configurado la autenticación basada en Microsoft Entra ID para el sitio web. Una de las dos opciones especificadas podría ser adecuada para su sitio web:

  1. Si usa una aplicación de Microsoft Entra como proveedor de identidades y la aplicación cliente para acceder al sitio web, el identificador de cliente y el identificador de recurso son el identificador de aplicación de esta única aplicación y el secreto de cliente es el secreto que generó en esta aplicación.

    Una vez configurada la aplicación cliente, asegúrese de crear un nuevo secreto de cliente en la sección Certificados & secretos de la aplicación. Copie el valor del secreto de cliente que se muestra en la página porque no se muestra de nuevo.

    En las capturas de pantalla siguientes, puede ver los pasos para obtener el identificador de cliente y el secreto de cliente, y configurar la aplicación si está creando la aplicación por su cuenta.

    • Vista de la configuración en la sección personalización de marca:

    • Vista de la configuración en la sección de autenticación:

      Nota:

      No es necesario tener la ruta especificada anteriormente para el URI de redirección en el sitio web. Solo si usa el token de usuario enviado por Azure en el sitio web para la autenticación, tendrá que tener la ruta.

    • Vista del identificador de cliente en la sección Essentials:

    • Vista del secreto de cliente en la sección Certificados & secretos :

  2. Si usa una aplicación (primera aplicación) como proveedor de identidades para el sitio web como recurso y una aplicación diferente (segunda aplicación) para acceder al sitio web, el identificador de cliente es el identificador de aplicación de la segunda aplicación y el secreto de cliente es el secreto configurado en la segunda aplicación. Sin embargo, el identificador de recurso es el identificador de la primera aplicación.

    No es necesario configurar un secreto de cliente en esta aplicación, pero debe agregar un rol de aplicación en la sección Roles de aplicación, que se asignará más adelante a la aplicación cliente. Consulte las imágenes para ver cómo agregar un rol de aplicación.

    • Creación de un nuevo rol de aplicación:

    • Edición del nuevo rol de aplicación:

      Después de configurar la aplicación de recursos, cree la aplicación cliente y asígnele permiso para acceder a la aplicación de recursos agregando el rol de aplicación configurado anteriormente en los permisos de API de la aplicación cliente.

      Nota:

      Para ver cómo conceder permisos a la aplicación cliente, consulte Inicio rápido: Configuración de una aplicación cliente para acceder a una API web.

    En las capturas de pantalla siguientes se muestra la sección para conceder permisos a la aplicación cliente.

    • Agregar un permiso:

    • Selección de los permisos:

    • Agregar los permisos:

    Una vez asignados los permisos, debe crear un nuevo secreto de cliente para esta aplicación yendo a la sección Certificados & secretos. Copie el valor del secreto de cliente que se muestra en la página, ya que no se muestra de nuevo. Use el identificador de aplicación de esta aplicación como el identificador de cliente, el secreto de esta aplicación como secreto de cliente y el identificador de aplicación de la primera aplicación como identificador de recurso.

4. Lanzamiento a audiencia limitada

Implemente esta conexión en una base de usuarios limitada si desea validarla en Copilot y en otras superficies de búsqueda antes de expandir el lanzamiento a una audiencia más amplia. Para obtener más información sobre el lanzamiento limitado, consulte Lanzamiento preconfigurado.

En este momento, está listo para crear la conexión para los sitios web en la nube. Puede hacer clic en Crear para publicar las páginas web de conexión e índice desde sus sitios web.

Para otras configuraciones, como permisos de acceso, reglas de inclusión de datos, esquema, frecuencia de rastreo, etc., tenemos valores predeterminados basados en lo que funciona mejor con los sitios web. Puede ver los valores predeterminados siguientes:

Usuarios Descripción
Permisos de acceso Todos los usuarios de la organización verán este contenido
Contenido Descripción
Direcciones URL que se van a excluir Ninguna
Administrar propiedades Para comprobar las propiedades predeterminadas y su esquema, consulte el contenido.
Sincronizar Descripción
Rastreo incremental Frecuencia: cada 15 minutos (solo se admite con el rastreo de sitemaps)
Rastreo completo Frecuencia: todos los días

Si desea editar cualquiera de estos valores, debe elegir la opción "Configuración personalizada".

Configuración personalizada

La configuración personalizada es para aquellos administradores que quieren editar los valores predeterminados de la configuración enumerada en la tabla anterior. Una vez que haga clic en la opción "Configuración personalizada", verá tres pestañas más: Usuarios, Contenido y Sincronización.

Usuarios

Captura de pantalla que muestra la pestaña Usuarios

Permisos de acceso

El conector en la nube de Enterprise Websites admite permisos de búsqueda visibles solo para todos los usuarios . Los datos indexados aparecen en los resultados de búsqueda de todos los usuarios de la organización.

Contenido

Captura de pantalla que muestra la pestaña Contenido en la que puede establecer reglas y propiedades de exclusión

Agregar direcciones URL para excluir (restricciones de rastreo opcionales)

Hay dos maneras de evitar que las páginas se rastreen: no permitirlas en el archivo robots.txt o agregarlas a la lista exclusión.

  1. Compatibilidad con robots.txt

    El conector comprueba si hay un archivo robots.txt para el sitio raíz. Si existe, sigue y respeta las instrucciones que se encuentran en ese archivo. Si no desea que el conector rastree determinadas páginas o directorios del sitio, incluya las páginas o directorios en las declaraciones "No permitir" en el archivo robots.txt.

  2. Agregar direcciones URL para excluir

    Opcionalmente, puede crear una lista de exclusión para excluir que algunas direcciones URL se rastreen si ese contenido es confidencial o no merece la pena rastrearlo. Para crear una lista de exclusión, examine la dirección URL raíz. Puede agregar las direcciones URL excluidas a la lista durante el proceso de configuración.

Administrar propiedades

Aquí, puede agregar o quitar propiedades disponibles de los sitios web, asignar un esquema a la propiedad (definir si una propiedad se puede buscar, consultar, recuperar o refinar), cambiar la etiqueta semántica y agregar un alias a la propiedad. Las propiedades seleccionadas de forma predeterminada se enumeran a continuación.

Source (propiedad) Etiqueta Descripción Esquema
Autores Autores Personas que participaron en el elemento en el origen de datos Consulta, recuperación
Contenido Contenido Todo el contenido de texto de una página web Búsqueda
CreatedDateTime Fecha y hora de creación Datos y hora en que se creó el elemento en el origen de datos Consulta, recuperación
Descripción Recuperar, buscar
FileType Extensión de archivo La extensión de archivo del contenido rastreado Consulta, refinación y recuperación
IconURL IconUrl Dirección URL del icono de la página web Recuperar
LastModifiedBy Última modificación Persona que modificó por última vez el elemento en el origen de datos Consulta, recuperación
LastModifiedDateTime Fecha de la última modificación Fecha y hora en que el elemento se modificó por última vez en el origen de datos. Consulta, recuperación
Título Título El título del elemento que desea que se muestre en Copilot y otras experiencias de búsqueda Recuperar, buscar
URL url La dirección URL objetivo del elemento en el origen de datos Recuperar

Enterprise Website Cloud Connector admite dos tipos de propiedades de origen:

  1. Etiqueta meta

    El conector captura las metaetiquetas que las direcciones URL raíz pueden tener y las muestra. Puede seleccionar qué etiquetas incluir para el rastreo. Una etiqueta seleccionada se indexa para todas las direcciones URL proporcionadas, si está disponible.

    Captura de pantalla que muestra la pestaña Contenido con el panel de metaetiquetas

    Las metaetiquetas seleccionadas se pueden usar para crear propiedades personalizadas. Además, en la página de esquema, puede administrarlos aún más (Consultable, Searchable, Recuperable, Refinable).

  2. Configuración de propiedades personalizadas

    Para enriquecer los datos indexados, cree propiedades personalizadas para las metaetiquetas seleccionadas o las propiedades predeterminadas del conector.

    Captura de pantalla que muestra la pestaña Contenido con el panel de propiedades personalizado

    Para agregar una propiedad personalizada:

    1. Escriba un nombre de propiedad. Este nombre aparece en los resultados de búsqueda de este conector.
    2. Para el valor, seleccione Static o String/Regex Mapping (Asignación estática o string/regex). Se incluye un valor estático en todos los resultados de búsqueda de este conector. Un valor de cadena o expresión regular varía en función de las reglas que agregue.
    3. Si seleccionó un valor estático, escriba el valor que desea que aparezca.
    4. Si seleccionó un valor string/rRegex:
      • En la sección Agregar expresiones , en la lista Propiedad , seleccione una propiedad o metaetiqueta predeterminada de la lista. En Valor de ejemplo, escriba una cadena para representar el tipo de valores que podrían aparecer. Este ejemplo se usa al obtener una vista previa de la regla. En Expresión, escriba una expresión regex para definir la parte del valor de propiedad que debe aparecer en los resultados de la búsqueda. Puede agregar hasta tres expresiones.
      • En la sección Crear fórmula , escriba una fórmula para combinar los valores extraídos de las expresiones.

Para obtener más información sobre las expresiones regex, consulte expresiones regulares de .NET o busque en la web una guía de referencia de expresiones regex.

Sincronizar

Captura de pantalla que muestra la pestaña Sincronizar donde puede configurar la frecuencia de rastreo.

El intervalo de actualización determina la frecuencia con la que se sincronizan los datos entre el origen de datos y el índice del conector de Graph. Hay dos tipos de intervalos de actualización: rastreo completo y rastreo incremental. Para obtener más información, vea Actualizar configuración.

Puede cambiar los valores predeterminados del intervalo de actualización desde aquí si lo desea.

Nota:

El rastreo incremental solo se admite cuando se selecciona la opción de rastreo de sitemap.

Solución de problemas

Después de publicar la conexión, puede revisar el estado en la pestaña Orígenes de datos del centro de administración. Para obtener información sobre cómo realizar actualizaciones y eliminaciones, consulte Administración del conector. Puede encontrar pasos de solución de problemas para los problemas más vistos aquí.

Si tiene problemas o quiere proporcionar comentarios, póngase en contacto con Microsoft Graph | Soporte técnico.