Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Azure Databricks proporciona acceso al conjunto de datos de pruebas comparativas de TPC-DS, una prueba comparativa ampliamente utilizada para probar el rendimiento de los sistemas creados para el almacenamiento y el análisis de datos. El conjunto de datos está disponible en dos tamaños de forma predeterminada en cada área de trabajo habilitada para catálogos de Unity. Estos conjuntos de datos son ideales para probar el rendimiento de Azure Databricks en una prueba comparativa estandarizada que simula escenarios comerciales realistas y de comercio electrónico. Para más información sobre este conjunto de datos, consulte la documentación de pruebas comparativas deTPC-DS .
¿Qué se incluye?
Los conjuntos de datos TPC-DS están disponibles en el samples catálogo con los siguientes esquemas:
-
tpcds_sf1: conjunto de datos a pequeña escala (aproximadamente 1 GB) -
tpcds_sf1000— Conjunto de datos a gran escala (aproximadamente 1 TB)
Ambos conjuntos de datos comparten las siguientes cualidades:
- Todos los usuarios del área de trabajo son de solo lectura y consultables.
- Son compatibles con almacenes de SQL y clústeres de uso completo
- Siga la especificación TPC-DS para realizar pruebas comparativas estandarizadas.
Prerrequisitos
Debe tener acceso a una instancia de SQL Warehouse o a un clúster de uso completo.
Vista previa de los datos
Para explorar los datos en la interfaz de usuario del Explorador de catálogos:
- Haga clic en
Catálogo en la barra lateral.
- Escriba tpcds en la barra de búsqueda. Ambos esquemas están en el
samplescatálogo. Haga clic en el nombre del esquema que desea ver. - En la pestaña Información general se enumeran todas las tablas del esquema. Haga clic en un nombre de tabla para abrir una introducción a las columnas y los tipos de datos de esa tabla.
- Use la navegación superior para ver los datos de ejemplo o los detalles de la tabla.
Consulta de los datos
Las consultas siguientes usan el conjunto de datos de escala más pequeño, tpcds_sf1. Para usar el conjunto de datos de mayor escala, reemplace el nombre del esquema por tpcds_sf1000. Haga clic en
de SQL en la barra lateral para abrir el editor de SQL. A continuación, use las siguientes consultas para empezar a explorar los datos.
Vista previa de tablas
SHOW TABLES IN samples.tpcds_sf1;
Exploración de una tabla
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Combinación y agregación de ejemplo
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
procedimientos recomendados
- Use el historial de consultas y el perfil de consulta para comprender las características de rendimiento e identificar las oportunidades de optimización.
- Comience con el conjunto de datos más pequeño
tpcds_sf1para las pruebas iniciales y, a continuación, escale verticalmente hastatpcds_sf1000para una evaluación completa del rendimiento. - Compare el rendimiento de las consultas en diferentes tamaños de SQL Warehouse para determinar las configuraciones óptimas de las cargas de trabajo.
- Use estos conjuntos de datos estandarizados para establecer líneas base de rendimiento y realizar un seguimiento de las mejoras a lo largo del tiempo.