Configurar modelo Los usuarios que compraron esto también compraron (versión preliminar)

Artículo
02/26/2024

Importante

Algunas o todas estas funciones están disponibles como parte de una versión preliminar. El contenido y la funcionalidad están sujetos a cambios.

Después de implementar con éxito los comprados con frecuencia juntos, debe:

Configurar la autenticación para el conjunto de datos de ejemplo de Contoso.
Configure el modelo para generar información sobre los datos disponibles en Lakehouse.

Configurar autenticación del conjunto de datos de muestra

Para configurar el conjunto de datos de ejemplo de Contoso con autenticación, realice los siguientes pasos:

Abra el panel de artefactos implementados y seleccione el conjunto de datos de ejemplo de Contoso, RDS_FBT_xxx_Dataset. Puede ver los detalles de conjunto de datos, que incluye el informe, el análisis SQL punto de conexión y Lakehouse. Seleccione Archivo/Configuración para revisar la configuración del modelo semántico.
Seleccione la pestaña Modelos semánticos. En la sección de credenciales de origen de datos, hay una alerta que dice No se pudo probar la conexión a su origen de datos. Vuelva a probar sus credenciales. Seleccione Editar credenciales.
Se abre una ventana emergente. Seleccioe OAuth2 como método de autenticación, introduzca un nivel de privacidad opcional y seleccione Iniciar sesión para iniciar sesión con esta autenticación.

Importante

Si intenta ver el informe de compras conjuntas frecuentes antes de configurar la autenticación para conjunto de datos, verá un error en la ventana del informe que dice "Se produjo una excepción debido a un problema de servicio local".

Configurar el modelo para generar información

El cuaderno consta de las siguientes celdas que cuentan la historia de cómo se procesan los datos para proporcionar el resultado requerido.

Precaución

Las siguientes celdas se utilizan en la secuencia específica recomendada. Si se usan en una secuencia diferente, el cuaderno falla.

1. Importar Bibliotecas

Este paso importa las bibliotecas necesarias para el cuaderno. En este paso no tiene que hacer ningún cambio.

2. Inicialice las configuraciones de Spark, el registrador y el puntero de control

Este paso inicializa las configuraciones de Spark, el registrador y los objetos de puntero de control que se utilizan para la ejecución del cuaderno.

El registrador se puede inicializar de dos maneras diferentes:

Configure para escribir registros en las salidas de la celda del cuaderno. Este es el comportamiento predeterminado.
Si está configurado para escribir registros en un espacio de trabajo Azure Application Insights, se necesitaría la cadena de conexión del espacio de trabajo Application Insights. Además, se generará un identificador de ejecución que se mostrará en la salida de la celda y se puede utilizar para consultar registros en el espacio de trabajo Application Insights.

El Checkpointer se utiliza para sincronizar la ejecución de Spark y evitar la posible generación de claves duplicadas. Debe proporcionar una ruta que se utilice como directorio de trabajo. checkpoint_dir es el nombre de la variable. El directorio debe estar dentro de la sección de archivos de Lakehouse. Es decir, debe comenzar con "Files/".

3. Conéctese a Lakehouse y lea las tablas de entrada

Este paso se conecta a Lakehouse y lee las tablas de entrada necesarias para el modelo. Las tablas de entrada se leen desde una de las tres opciones enumeradas:

El Lakehouse anclado del cuaderno, que contiene los datos de muestra. Esta es la opción predeterminada.
Cualquiera de los almacenes de lago conectados al cuaderno. Puede seleccionar el Lakehouse desde un menú desplegable.
Otro Lakehouse no conectado al cuaderno. Debe proporcionar la ruta completa al Lakehouse.

Para obtener detalles sobre las tablas de entrada, consulte Datos de entrada para Comprados juntos con frecuencia.

El cuaderno le permite ejecutar el modelo en múltiples períodos de tiempo, lo que puede ayudarlo a capturar la estacionalidad y los cambios en el comportamiento del cliente, la cartera de productos y el posicionamiento de los productos a lo largo del tiempo. También puede comparar los resultados de diferentes períodos de tiempo utilizando el panel de control listo para usar.

Para definir un período de tiempo, utilice la función add_analysis_period. Asegúrese de definir los períodos de análisis dentro de la duración de los datos de entrada. La duración de los datos de entrada (marca de tiempo de transacciones máxima y mínima) se registra en la salida de la celda. Puede definir hasta cinco períodos de tiempo. Las claves de referencia para los períodos se almacenan en la tabla TimePeriods.

4. Preprocesar los datos de entrada

Este paso une los marcos de datos de entrada para crear un conjunto de datos de PDV, que el modelo utiliza para generar información. En este paso no tiene que hacer ningún cambio.

El resultado de este paso son los siguientes marcos de datos:

compras: el marco de datos de PDV de compras contiene información sobre las compras realizadas por los clientes, como ID de entidad minorista, ID de producto, monto del precio de lista de productos, cantidad y marca de tiempo de la visita. Este marco de datos se crea uniendo las tablas Visita, Pedido, Transacción y TransactionLineItem.
time_periods: este marco de datos contiene los períodos de análisis definidos por usted en el paso anterior. Estos períodos se utilizan para dividir los datos y ejecutar el modelo en cada período.
retail_entities: este marco de datos contiene los identificadores de las entidades minoristas y su información. Una entidad minorista puede ser una tienda individual o un minorista. Estas entidades se utilizan para ejecutar el modelo a nivel de tienda o minorista.

5. Definir los parámetros del modelo y ejecutar el modelo

Se pueden configurar los siguientes parámetros del modelo para ajustar los resultados del modelo:

Nombre del parámetro: min_itemset_frequency
- Descripción: número mínimo de compras de conjuntos de artículos (colección de dos productos comprados juntos) a considerar en el análisis del modelo.
- Tipo de valor: entero
- Valor predeterminado: 3
- Requerido: verdadero.
- Valores permitidos: >=1
Nombre del parámetro: max_basket_size
- Descripción: Número máximo de artículos en una cesta. Si el número de artículos en la cesta excede el valor predeterminado, la cesta se recorta. El producto con menores ventas en conjunto de datos se recorta primero.
- Tipo de valor: entero
- Valor predeterminado: 20
- Requerido: verdadero.
- Valores permitidos: >=1
Nombre del parámetro: chi_2_alpha
- Descripción: Parámetro de significación estadística. Se utiliza para determinar si un par de productos asociados entre sí es significativo y estadísticamente significativo. Si un par de productos obtiene una puntuación inferior al valor del parámetro, se marcan en el campo Chi2IsSignificant de la tabla RuleAttributes.
- Tipo de valor: float
- Requerido: falso
- Valor predeterminado: 0,05 percentil
- Rango de valores permitidos: 0-1

Tras la ejecución, los datos se escriben en las tablas de salida. Tiene tres opciones para definir a qué Lakehouse escribir.

6. Crear tablas del panel de Power BI

Puede utilizar el parámetro num_top_associated_products para configurar el número de productos asociados principales que se mostrarán en el panel Power BI para cada producto.

Descripción: Número máximo de productos asociados para cada producto que se mostrará en el panel Power BI. Devuelve los mejores productos ordenados por el campo CombineRank
Tipo de valor: entero
Requerido: falso
Valor predeterminado: 5
Rango de valores permitidos: 1-10

Tras la ejecución, los datos se escriben en el Lakehouse. Para obtener detalles sobre las tablas de salida, consulte Datos de salida para Comprados juntos con frecuencia.

Similar a Conéctese a Lakehouse y lea la sección de tablas de entrada, existen tres métodos para escribir resultados en Fabric.

Share via