Conector de Microsoft Graph en la nube de Enterprise Websites
El conector microsoft graph en la nube de Sitios web empresariales permite a su organización indexar páginas web y contenido de sitios web propiedad de la empresa o sitios web públicos en Internet. Después de configurar el conector y el contenido de índice desde el sitio web, los usuarios finales pueden buscar ese contenido en Microsoft Search y Microsoft 365 Copilot.
Este artículo está destinado a administradores de Microsoft 365 o a cualquier persona que configure, ejecute y supervise un conector de Microsoft Graph en la nube de Enterprise Websites.
Importante
Puede usar el conector microsoft graph local de Enterprise Websites para indexar sitios web hospedados en el entorno local o en nubes privadas.
Capacidades
- Indexar páginas web de sitios web accesibles en la nube.
- Indexe hasta 50 sitios web en una sola conexión.
- Excluir páginas web del rastreo mediante reglas de exclusión.
- Use la búsqueda semántica en Copilot para permitir que los usuarios encuentren contenido relevante.
Tipos de archivo admitidos
Extensión de archivo | Tipo de archivo | Descripción |
---|---|---|
Portable Document Format | ||
.Odt | Texto de OpenDocument | Documento de texto OpenDocument |
.Ods | Hoja de cálculo de OpenDocument | Hoja de cálculo de OpenDocument |
.odp | Presentación de OpenDocument | Presentación de OpenDocument |
.odg | Gráficos opendocument | Gráficos opendocument |
.xls | Excel (antiguo) | Hoja de cálculo de Excel (formato antiguo) |
.xlsx | Excel (nuevo) | Hoja de cálculo de Excel (nuevo formato) |
.ppt | PowerPoint (antiguo) | Presentación de PowerPoint (formato antiguo) |
.pptx | PowerPoint (nuevo) | Presentación de PowerPoint (nuevo formato) |
.doc | Word (antiguo) | Documento Word (formato antiguo) |
.docx | Word (nuevo) | documento Word (nuevo formato) |
.csv | CSV | valores de Comma-Separated |
.txt | Texto sin formato | Archivo de texto sin formato |
.xml | XML | Lenguaje de marcado extensible |
.Md | Markdown | Archivo Markdown |
.rtf | Formato de texto enriquecido | Formato de texto enriquecido |
.tsv | Valores separados por tabulaciones | valores de Tab-Separated |
Tipos MIME admitidos
Tipo MIME | Descripción |
---|---|
text/html | Lenguaje de marcado de hipertexto (HTML) que se usa para dar formato a la estructura de una página web. |
text/webviewhtml | Tipo MIME usado para el contenido web representado en controles WebView. |
text/x-server-parsed-html | Documentos HTML analizados por el servidor, que a menudo se usan para el lado servidor incluye (SSI). |
Limitaciones
- El conector no admite mecanismos de autenticación como SAML, token JWT, autenticación basada en Forms, etc.
- El conector no admite el rastreo de contenido dinámico en páginas web.
Requisitos previos
- Debe ser el administrador de búsqueda del inquilino de Microsoft 365 de su organización.
- Direcciones URL del sitio web: para conectarse al contenido del sitio web, necesita la dirección URL al sitio web. Puede indexar varios sitios web (hasta 50) en una sola conexión.
- Cuenta de servicio (opcional): solo se necesita una cuenta de servicio cuando los sitios web requieren autenticación. Los sitios web públicos no requieren autenticación y se pueden rastrear directamente. Para los sitios web que requieren autenticación, se recomienda tener una cuenta dedicada para autenticar y rastrear el contenido.
Introducción
1. Nombre para mostrar
Se usa un nombre para mostrar para identificar cada cita en Copilot, lo que ayuda a los usuarios a reconocer fácilmente el archivo o elemento asociado. El nombre para mostrar también significa contenido de confianza. El nombre para mostrar también se usa como filtro de origen de contenido. Hay un valor predeterminado para este campo, pero puede personalizarlo para un nombre que los usuarios de su organización reconozcan.
2. Direcciones URL del sitio web que se van a indexar
Especifique la raíz del sitio web que desea rastrear. El conector de Microsoft Graph en la nube de Sitios web empresariales usa esta dirección URL como punto de partida y sigue todos los vínculos de esta dirección URL para su rastreo. Puede indexar hasta 50 direcciones URL de sitio diferentes en una sola conexión. En el campo Direcciones URL, escriba las direcciones URL del sitio separadas por comas (,). Por ejemplo, https://www.contoso.com,https://www.contosoelectronics.com
.
Nota:
El conector siempre comienza a rastrearse desde la raíz de la dirección URL. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com/electronics
, el conector iniciará el rastreo desde https://www.contoso.com
.
El conector solo rastrea páginas web en el dominio de direcciones URL raíz y no admite el rastreo de direcciones URL fuera del dominio. El redireccionamiento solo se admite dentro del mismo dominio. Si hay redireccionamientos en las páginas web que se rastrearán, puede agregar la dirección URL redirigida directamente en la lista de direcciones URL que se rastrearán.
Uso de sitemap para rastrear
Cuando se selecciona, el conector solo rastrea las direcciones URL enumeradas en el mapa del sitio. Esta opción también permite configurar el rastreo incremental durante un paso posterior. Si no se selecciona o no se encuentra ningún mapa del sitio, el conector realiza un rastreo profundo de todos los vínculos que se encuentran en la dirección URL raíz del sitio.
Cuando se selecciona esta opción, el rastreador realiza los pasos siguientes:
a. El rastreador busca el archivo robots.txt en la ubicación raíz. Por ejemplo: si la dirección URL proporcionada es https://www.contoso.com
, el rastreador busca el archivo robots.txt en https://www.contoso.com/robots.txt
.
b. Al localizar el archivo robots.txt, el rastreador encuentra los vínculos de sitemap en el archivo robots.txt.
c. A continuación, el rastreador rastrea todas las páginas web como se muestra en los archivos de sitemap.
d. Si se produce un error en cualquiera de los pasos anteriores, el rastreador realiza un rastreo profundo del sitio web, sin generar ningún error.
3. Tipo de autenticación
El método de autenticación que elija se aplica a todos los sitios web que ha proporcionado para indexar en una conexión. Para autenticar y sincronizar contenido de sitios web, elija uno de los cuatro métodos admitidos:
a.
Ninguna
Seleccione esta opción si los sitios web son accesibles públicamente sin ningún requisito de autenticación.
b.
Autenticación básica
Escriba el nombre de usuario y la contraseña de su cuenta para autenticarse mediante la autenticación básica.
c.
SiteMinder
La autenticación de Siteminder requiere una dirección URL con formato correcto, https://custom_siteminder_hostname/smapi/rest/createsmsession
, un nombre de usuario y una contraseña.
d.
Microsoft Entra credenciales de cliente de OAuth 2.0
OAuth 2.0 con Microsoft Entra ID requiere un identificador de recurso, un identificador de cliente y un secreto de cliente.
El identificador de recurso, el identificador de cliente y los valores de secreto de cliente dependen de cómo se haya configurado la autenticación basada en Microsoft Entra ID para el sitio web. Una de las dos opciones especificadas podría ser adecuada para su sitio web:
Si usa una aplicación de Microsoft Entra como proveedor de identidades y la aplicación cliente para acceder al sitio web, el identificador de cliente y el identificador de recurso son el identificador de aplicación de esta única aplicación y el secreto de cliente es el secreto que generó en esta aplicación.
Nota:
Para obtener pasos detallados para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
Una vez configurada la aplicación cliente, asegúrese de crear un nuevo secreto de cliente en la sección Certificados & secretos de la aplicación. Copie el valor del secreto de cliente que se muestra en la página porque no se muestra de nuevo.
En las capturas de pantalla siguientes, puede ver los pasos para obtener el identificador de cliente y el secreto de cliente, y configurar la aplicación si está creando la aplicación por su cuenta.
Vista de la configuración en la sección personalización de marca:
Vista de la configuración en la sección de autenticación:
Nota:
No es necesario tener la ruta especificada anteriormente para el URI de redirección en el sitio web. Solo si usa el token de usuario enviado por Azure en el sitio web para la autenticación, tendrá que tener la ruta.
Vista del identificador de cliente en la sección Essentials:
Vista del secreto de cliente en la sección Certificados & secretos :
Si usa una aplicación (primera aplicación) como proveedor de identidades para el sitio web como recurso y una aplicación diferente (segunda aplicación) para acceder al sitio web, el identificador de cliente es el identificador de aplicación de la segunda aplicación y el secreto de cliente es el secreto configurado en la segunda aplicación. Sin embargo, el identificador de recurso es el identificador de la primera aplicación.
Nota:
Para conocer los pasos para configurar una aplicación cliente como proveedor de identidades, consulte Inicio rápido: Registro de una aplicación con el Plataforma de identidad de Microsoft y Configuración de la aplicación App Service o Azure Functions para usar Microsoft Entra inicio de sesión.
No es necesario configurar un secreto de cliente en esta aplicación, pero debe agregar un rol de aplicación en la sección Roles de aplicación, que se asignará más adelante a la aplicación cliente. Consulte las imágenes para ver cómo agregar un rol de aplicación.
Creación de un nuevo rol de aplicación:
Edición del nuevo rol de aplicación:
Después de configurar la aplicación de recursos, cree la aplicación cliente y asígnele permiso para acceder a la aplicación de recursos agregando el rol de aplicación configurado anteriormente en los permisos de API de la aplicación cliente.
Nota:
Para ver cómo conceder permisos a la aplicación cliente, consulte Inicio rápido: Configuración de una aplicación cliente para acceder a una API web.
En las capturas de pantalla siguientes se muestra la sección para conceder permisos a la aplicación cliente.
Agregar un permiso:
Selección de los permisos:
Agregar los permisos:
Una vez asignados los permisos, debe crear un nuevo secreto de cliente para esta aplicación yendo a la sección Certificados & secretos. Copie el valor del secreto de cliente que se muestra en la página, ya que no se muestra de nuevo. Use el identificador de aplicación de esta aplicación como el identificador de cliente, el secreto de esta aplicación como secreto de cliente y el identificador de aplicación de la primera aplicación como identificador de recurso.
4. Lanzamiento a audiencia limitada
Implemente esta conexión en una base de usuarios limitada si desea validarla en Copilot y en otras superficies de búsqueda antes de expandir el lanzamiento a una audiencia más amplia. Para obtener más información sobre el lanzamiento limitado, consulte Lanzamiento preconfigurado.
En este momento, está listo para crear la conexión para los sitios web en la nube. Puede hacer clic en Crear para publicar las páginas web de conexión e índice desde sus sitios web.
Para otras configuraciones, como permisos de acceso, reglas de inclusión de datos, esquema, frecuencia de rastreo, etc., tenemos valores predeterminados basados en lo que funciona mejor con los sitios web. Puede ver los valores predeterminados siguientes:
Usuarios | Descripción |
---|---|
Permisos de acceso | Todos los usuarios de la organización verán este contenido |
Contenido | Descripción |
---|---|
Direcciones URL que se van a excluir | Ninguna |
Administrar propiedades | Para comprobar las propiedades predeterminadas y su esquema, consulte el contenido. |
Sincronizar | Descripción |
---|---|
Rastreo incremental | Frecuencia: cada 15 minutos (solo se admite con el rastreo de sitemaps) |
Rastreo completo | Frecuencia: todos los días |
Si desea editar cualquiera de estos valores, debe elegir la opción "Configuración personalizada".
Configuración personalizada
La configuración personalizada es para aquellos administradores que quieren editar los valores predeterminados de la configuración enumerada en la tabla anterior. Una vez que haga clic en la opción "Configuración personalizada", verá tres pestañas más: Usuarios, Contenido y Sincronización.
Usuarios
Permisos de acceso
El conector en la nube de Enterprise Websites admite permisos de búsqueda visibles solo para todos los usuarios . Los datos indexados aparecen en los resultados de búsqueda de todos los usuarios de la organización.
Contenido
Agregar direcciones URL para excluir (restricciones de rastreo opcionales)
Hay dos maneras de evitar que las páginas se rastreen: no permitirlas en el archivo robots.txt o agregarlas a la lista exclusión.
Compatibilidad con robots.txt
El conector comprueba si hay un archivo robots.txt para el sitio raíz. Si existe, sigue y respeta las instrucciones que se encuentran en ese archivo. Si no desea que el conector rastree determinadas páginas o directorios del sitio, incluya las páginas o directorios en las declaraciones "No permitir" en el archivo robots.txt.
Agregar direcciones URL para excluir
Opcionalmente, puede crear una lista de exclusión para excluir que algunas direcciones URL se rastreen si ese contenido es confidencial o no merece la pena rastrearlo. Para crear una lista de exclusión, examine la dirección URL raíz. Puede agregar las direcciones URL excluidas a la lista durante el proceso de configuración.
Administrar propiedades
Aquí, puede agregar o quitar propiedades disponibles de los sitios web, asignar un esquema a la propiedad (definir si una propiedad se puede buscar, consultar, recuperar o refinar), cambiar la etiqueta semántica y agregar un alias a la propiedad. Las propiedades seleccionadas de forma predeterminada se enumeran a continuación.
Source (propiedad) | Etiqueta | Descripción | Esquema |
---|---|---|---|
Autores | Autores | Personas que participaron en el elemento en el origen de datos | Consulta, recuperación |
Contenido | Contenido | Todo el contenido de texto de una página web | Búsqueda |
CreatedDateTime | Fecha y hora de creación | Datos y hora en que se creó el elemento en el origen de datos | Consulta, recuperación |
Descripción | Recuperar, buscar | ||
FileType | Extensión de archivo | La extensión de archivo del contenido rastreado | Consulta, refinación y recuperación |
IconURL | IconUrl | Dirección URL del icono de la página web | Recuperar |
LastModifiedBy | Última modificación | Persona que modificó por última vez el elemento en el origen de datos | Consulta, recuperación |
LastModifiedDateTime | Fecha de la última modificación | Fecha y hora en que el elemento se modificó por última vez en el origen de datos. | Consulta, recuperación |
Título | Título | El título del elemento que desea que se muestre en Copilot y otras experiencias de búsqueda | Recuperar, buscar |
URL | url | La dirección URL objetivo del elemento en el origen de datos | Recuperar |
Enterprise Website Cloud Connector admite dos tipos de propiedades de origen:
Etiqueta meta
El conector captura las metaetiquetas que las direcciones URL raíz pueden tener y las muestra. Puede seleccionar qué etiquetas incluir para el rastreo. Una etiqueta seleccionada se indexa para todas las direcciones URL proporcionadas, si está disponible.
Las metaetiquetas seleccionadas se pueden usar para crear propiedades personalizadas. Además, en la página de esquema, puede administrarlos aún más (Consultable, Searchable, Recuperable, Refinable).
Configuración de propiedades personalizadas
Para enriquecer los datos indexados, cree propiedades personalizadas para las metaetiquetas seleccionadas o las propiedades predeterminadas del conector.
Para agregar una propiedad personalizada:
- Escriba un nombre de propiedad. Este nombre aparece en los resultados de búsqueda de este conector.
- Para el valor, seleccione Static o String/Regex Mapping (Asignación estática o string/regex). Se incluye un valor estático en todos los resultados de búsqueda de este conector. Un valor de cadena o expresión regular varía en función de las reglas que agregue.
- Si seleccionó un valor estático, escriba el valor que desea que aparezca.
- Si seleccionó un valor string/rRegex:
- En la sección Agregar expresiones , en la lista Propiedad , seleccione una propiedad o metaetiqueta predeterminada de la lista. En Valor de ejemplo, escriba una cadena para representar el tipo de valores que podrían aparecer. Este ejemplo se usa al obtener una vista previa de la regla. En Expresión, escriba una expresión regex para definir la parte del valor de propiedad que debe aparecer en los resultados de la búsqueda. Puede agregar hasta tres expresiones.
- En la sección Crear fórmula , escriba una fórmula para combinar los valores extraídos de las expresiones.
Para obtener más información sobre las expresiones regex, consulte expresiones regulares de .NET o busque en la web una guía de referencia de expresiones regex.
Sincronizar
El intervalo de actualización determina la frecuencia con la que se sincronizan los datos entre el origen de datos y el índice del conector de Graph. Hay dos tipos de intervalos de actualización: rastreo completo y rastreo incremental. Para obtener más información, vea Actualizar configuración.
Puede cambiar los valores predeterminados del intervalo de actualización desde aquí si lo desea.
Nota:
El rastreo incremental solo se admite cuando se selecciona la opción de rastreo de sitemap.
Solución de problemas
Después de publicar la conexión, puede revisar el estado en la pestaña Orígenes de datos del centro de administración. Para obtener información sobre cómo realizar actualizaciones y eliminaciones, consulte Administración del conector. Puede encontrar pasos de solución de problemas para los problemas más vistos aquí.
Si tiene problemas o quiere proporcionar comentarios, póngase en contacto con Microsoft Graph | Soporte técnico.