Visualizaciones heredadas

En este artículo se describen las visualizaciones heredadas de Azure Databricks. Consulte Visualizaciones en cuadernos de Databricks y el editor de SQL para conocer las capacidades actuales de visualización al crear visualizaciones en el editor de SQL o en un cuaderno. Para obtener información sobre cómo trabajar con visualizaciones en paneles de IA/BI, consulte Tipos de visualización de paneles de AI/BI.

Azure Databricks también admite de forma nativa bibliotecas de visualización en Python y R, y permite instalar y usar bibliotecas de terceros.

Crear una visualización heredada

Para crear una visualización heredada a partir de una celda de resultados, haga clic en + y seleccione Legacy Visualization.

Las visualizaciones heredadas admiten un amplio conjunto de tipos de trazado:

Tipos de gráfico

Elija y configure un tipo de gráfico heredado

Para elegir un gráfico de barras, haga clic en el icono del gráfico de barras :

Icono de gráfico de barras

Para elegir otro tipo de trazado, haga clic en a la derecha del gráfico de barras y elija el tipo de trazado.

Tanto los gráficos de líneas como los de barras tienen una barra de herramientas integrada que admite un amplio conjunto de interacciones del lado cliente.

Barra de herramientas del gráfico

Para configurar un gráfico, haga clic en Opciones de trazado...

Opciones de trazado

El gráfico de líneas tiene varias opciones personalizadas: establecer un rango del eje Y, mostrar y ocultar puntos, y mostrar el eje Y con una escala de registro.

Para obtener información sobre los tipos de gráfico heredados, consulte:

Migra gráficos de líneas heredados

Coherencia de colores entre gráficos

Azure Databricks es compatible con dos tipos de consistencia de color en los gráficos heredados: conjunto de series y global.

La consistencia de color de tipo conjunto de una serie asigna el mismo color al mismo valor si existen series con los mismos valores pero ordenados de forma distinta (por ejemplo, A = ["Apple", "Orange", "Banana"] y B = ["Orange", "Banana", "Apple"]). Los valores se ordenan antes de trazarse, de modo que ambas leyendas se ordenan de la misma manera (["Apple", "Banana", "Orange"]) y los mismos valores reciben los mismos colores. Sin embargo, si tiene una serie C = ["Orange", "Banana"], no sería coherente en color con el conjunto A porque el conjunto no es igual. El algoritmo de ordenación asignaría el primer color a "Banana" en el conjunto C, pero en el conjunto A le asignaría el segundo color. Si quiere que estas series tengan colores uniformes, puede especificar que los gráficos tengan una uniformidad de color global.

En la coherencia de color global, todos los valores siempre se asignan al mismo color, independientemente de los valores que tenga la serie. Para habilitar esta opción en todos los gráficos, active la casilla Global color consistency (Coherencia de color global).

Coherencia de color global

Nota:

Para lograr esta coherencia, Azure Databricks aplica un algoritmo hash directamente de los valores a los colores. Para evitar colisiones (donde dos valores se asignan al mismo color exacto), el hash se aplica a un conjunto grande de colores. Como efecto secundario, no es posible garantizar colores con una apariencia agradable o fáciles de distinguir. Cuando hay muchos colores, existe la posibilidad de que algunos tengan una apariencia muy similar.

Visualizaciones de Machine Learning

Además de los tipos de gráfico estándar, las visualizaciones heredadas admiten los siguientes parámetros y resultados del entrenamiento del aprendizaje automático:

Residuos
Curvas ROC
Árboles de decisión

Valores residuales

En el caso de las regresiones lineales y logísticas, puede representar gráficamente una gráfica de valores ajustados frente a residuales. Para obtener este trazado, proporcione el modelo y el dataframe.

En el ejemplo siguiente se ejecuta una regresión lineal en la población de la ciudad en relación con los datos del precio de venta de las casas y, a continuación, se muestran los valores residuales frente a los datos predichos.

# Load data
pop_df = spark.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true")

# Drop rows with missing values and rename the feature and label columns, replacing spaces with _
from pyspark.sql.functions import col
pop_df = pop_df.dropna() # drop rows with missing values
exprs = [col(column).alias(column.replace(' ', '_')) for column in pop_df.columns]

# Register a UDF to convert the feature (2014_Population_estimate) column vector to a VectorUDT type and apply it to the column.
from pyspark.ml.linalg import Vectors, VectorUDT

spark.udf.register("oneElementVec", lambda d: Vectors.dense([d]), returnType=VectorUDT())
tdata = pop_df.select(*exprs).selectExpr("oneElementVec(2014_Population_estimate) as features", "2015_median_sales_price as label")

# Run a linear regression
from pyspark.ml.regression import LinearRegression

lr = LinearRegression()
modelA = lr.fit(tdata, {lr.regParam:0.0})

# Plot residuals versus fitted data
display(modelA, tdata)

Mostrar valores residuales

Curvas ROC

En el caso de las regresiones logísticas, puede representar una curva ROC. Para obtener este trazado, se suministra el modelo; es decir, los datos preparados previamente que se introducen en el método fit y el parámetro "ROC".

En el siguiente ejemplo se desarrolla un clasificador que predice si un individuo percibe ≥ 50 000 o > 50 000 al año a partir de varios atributos del individuo. El conjunto de datos Adult se deriva de datos de un censo y consta de información sobre 48 842 personas y sus ingresos anuales.

El código de ejemplo de esta sección utiliza la codificación one-hot.


# This code uses one-hot encoding to convert all categorical variables into binary vectors.

schema = """`age` DOUBLE,
`workclass` STRING,
`fnlwgt` DOUBLE,
`education` STRING,
`education_num` DOUBLE,
`marital_status` STRING,
`occupation` STRING,
`relationship` STRING,
`race` STRING,
`sex` STRING,
`capital_gain` DOUBLE,
`capital_loss` DOUBLE,
`hours_per_week` DOUBLE,
`native_country` STRING,
`income` STRING"""

dataset = spark.read.csv("/databricks-datasets/adult/adult.data", schema=schema)

from pyspark.ml import Pipeline
from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler

categoricalColumns = ["workclass", "education", "marital_status", "occupation", "relationship", "race", "sex", "native_country"]

stages = [] # stages in the Pipeline
for categoricalCol in categoricalColumns:
    # Category indexing with StringIndexer
    stringIndexer = StringIndexer(inputCol=categoricalCol, outputCol=categoricalCol + "Index")
    # Use OneHotEncoder to convert categorical variables into binary SparseVectors
    encoder = OneHotEncoder(inputCols=[stringIndexer.getOutputCol()], outputCols=[categoricalCol + "classVec"])
    # Add stages.  These are not run here, but will run all at once later on.
    stages += [stringIndexer, encoder]

# Convert label into label indices using the StringIndexer
label_stringIdx = StringIndexer(inputCol="income", outputCol="label")
stages += [label_stringIdx]

# Transform all features into a vector using VectorAssembler
numericCols = ["age", "fnlwgt", "education_num", "capital_gain", "capital_loss", "hours_per_week"]
assemblerInputs = [c + "classVec" for c in categoricalColumns] + numericCols
assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features")
stages += [assembler]

# Run the stages as a Pipeline. This puts the data through all of the feature transformations in a single call.

partialPipeline = Pipeline().setStages(stages)
pipelineModel = partialPipeline.fit(dataset)
preppedDataDF = pipelineModel.transform(dataset)

# Fit logistic regression model

from pyspark.ml.classification import LogisticRegression
lrModel = LogisticRegression().fit(preppedDataDF)

# ROC for data
display(lrModel, preppedDataDF, "ROC")

Mostrar ROC

Para mostrar los valores residuales, omita el parámetro "ROC":

display(lrModel, preppedDataDF)

Mostrar valores residuales de regresión logística

Árboles de decisión

Las visualizaciones heredadas admiten la representación de un árbol de decisión.

Para obtener esta visualización, debe proporcionar el modelo de árbol de decisión.

En los siguientes ejemplos se entrena un árbol para reconocer dígitos (0 a 9) del conjunto de datos de MNIST a partir de imágenes de dígitos escritos a mano y, a continuación, se muestra el árbol.

Pitón

trainingDF = spark.read.format("libsvm").load("/databricks-datasets/mnist-digits/data-001/mnist-digits-train.txt").cache()
testDF = spark.read.format("libsvm").load("/databricks-datasets/mnist-digits/data-001/mnist-digits-test.txt").cache()

from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline

indexer = StringIndexer().setInputCol("label").setOutputCol("indexedLabel")

dtc = DecisionTreeClassifier().setLabelCol("indexedLabel")

# Chain indexer + dtc together into a single ML Pipeline.
pipeline = Pipeline().setStages([indexer, dtc])

model = pipeline.fit(trainingDF)
display(model.stages[-1])

Scala

val trainingDF = spark.read.format("libsvm").load("/databricks-datasets/mnist-digits/data-001/mnist-digits-train.txt").cache
val testDF = spark.read.format("libsvm").load("/databricks-datasets/mnist-digits/data-001/mnist-digits-test.txt").cache

import org.apache.spark.ml.classification.{DecisionTreeClassifier, DecisionTreeClassificationModel}
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.ml.Pipeline

val indexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel")
val dtc = new DecisionTreeClassifier().setLabelCol("indexedLabel")
val pipeline = new Pipeline().setStages(Array(indexer, dtc))

val model = pipeline.fit(trainingDF)
val tree = model.stages.last.asInstanceOf[DecisionTreeClassificationModel]

display(tree)

Mostrar árbol de decisión

DataFrames de Streaming estructurado

Para visualizar el resultado de una consulta de streaming en tiempo real, puede usar display para mostrar un dataframe de Structured Streaming en Scala y Python.

Pitón

streaming_df = spark.readStream.format("rate").load()
display(streaming_df.groupBy().count())

Scala

val streaming_df = spark.readStream.format("rate").load()
display(streaming_df.groupBy().count())

display admite los siguientes parámetros opcionales:

streamName: el nombre de la consulta de streaming.
trigger (Scala) y processingTime (Python): define la frecuencia con que se ejecuta la consulta de streaming. Si no se especifica, el sistema comprueba la disponibilidad de los datos nuevos en cuanto se haya completado el procesamiento anterior. Para reducir el costo de producción, Databricks recomienda establecer siempre un intervalo de desencadenador. El intervalo de desencadenador predeterminado es 500 ms.
checkpointLocation: la ubicación en la que el sistema escribe toda la información del punto de comprobación. Si no se especifica, el sistema genera automáticamente una ubicación temporal para el punto de comprobación en DBFS. Para que la transmisión continúe con el procesamiento de datos en el lugar en que lo dejó, es preciso proporcionar una ubicación del punto de control. Databricks recomienda que en producción siempre se especifique la opción checkpointLocation.

Pitón

streaming_df = spark.readStream.format("rate").load()
display(streaming_df.groupBy().count(), processingTime = "5 seconds", checkpointLocation = "dbfs:/<checkpoint-path>")

Scala

import org.apache.spark.sql.streaming.Trigger

val streaming_df = spark.readStream.format("rate").load()
display(streaming_df.groupBy().count(), trigger = Trigger.ProcessingTime("5 seconds"), checkpointLocation = "dbfs:/<checkpoint-path>")

Para más información sobre estos parámetros, consulte el apartado en el que se indica cómo iniciar consultas de streaming.

Función `displayHTML`

Los cuadernos de los lenguajes de programación de Azure Databricks (Python, Scala y R) admiten gráficos HTML mediante la función displayHTML; esta función se puede usar en cualquier código HTML, CSS o JavaScript. Esta función admite gráficos interactivos mediante bibliotecas de JavaScript como D3.

Para ver ejemplos de uso de displayHTML, consulte:

HTML, D3 y SVG en cuadernos

Inserción de imágenes estáticas en cuadernos

Nota:

El <c0/> se sirve desde el dominio <c1/>, y el sandbox del iframe incluye el atributo <c2/>. Debe ser capaz de acceder a la dirección <code>databricksusercontent.com</code> desde el explorador. Si actualmente está bloqueada por la red corporativa, se debe agregar a la lista de permitidos.</p> </div> <h2 id="display-image-type"> <a id="images"></a>Imágenes</h2> <p>Las columnas que contienen tipos de datos de imagen se representan como HTML enriquecido. Azure Databricks intenta representar las miniaturas de imagen de las columnas de <code>DataFrame</code> que coinciden con <a href="https://spark.apache.org/docs/latest/api/scala/org/apache/spark/ml/image/ImageSchema$.html" data-linktype="external">ImageSchema</a> de Spark. La representación de miniaturas funciona para cualquier imagen que se lea correctamente a través de la función <code>spark.read.format('image')</code>. En el caso de los valores de imagen generados a través de otros medios, Azure Databricks es compatible con la representación de imágenes de uno, tres o cuatro canales (donde cada canal consta de un solo byte), con las siguientes restricciones:</p> <ul> <li> <strong>Imágenes de un canal</strong>: el campo <code>mode</code> debe ser igual a 0. Los campos <code>height</code>, <code>width</code> y <code>nChannels</code> deben describir con precisión los datos de la imagen binaria en el campo <code>data</code>.</li> <li> <strong>Imágenes de tres canales</strong>: el campo <code>mode</code> debe ser igual a 16. Los campos <code>height</code>, <code>width</code> y <code>nChannels</code> deben describir con precisión los datos de la imagen binaria en el campo <code>data</code>. El campo <code>data</code> debe contener datos de píxeles en fragmentos de tres bytes, y el canal debe ordenarlos como <code>(blue, green, red)</code> en cada píxel.</li> <li> <strong>Imágenes de cuatro canales</strong>: el campo <code>mode</code> debe ser igual a 24. Los campos <code>height</code>, <code>width</code> y <code>nChannels</code> deben describir con precisión los datos de la imagen binaria en el campo <code>data</code>. El campo <code>data</code> debe contener datos de píxeles en fragmentos de cuatro bytes, y el canal debe ordenarlos como <code>(blue, green, red, alpha)</code> en cada píxel.</li> </ul> <h3 id="example">Ejemplo</h3> <p>Supongamos que tiene una carpeta que contiene algunas imágenes:</p> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/sample-image-data.png" alt="Carpeta de datos de imagen" data-linktype="relative-path"/> </p> </div> <p>Si lee las imágenes en un dataframe y, a continuación, muestra dicho dataframe, Azure Databricks representa las miniaturas de las imágenes:</p> <pre><code class="lang-python">image_df = spark.read.format("image").load(sample_img_dir) display(image_df) </code></pre> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/image-data.png" alt="Mostrar DataFrame de imagen" data-linktype="relative-path"/> </p> </div> <h2 id="visualizations-in-python">Visualizaciones en Python</h2> <h3 id="in-this-section">En esta sección:</h3> <ul> <li> <a href="#seaborn" data-linktype="self-bookmark">Seaborn</a></li> <li> <a href="#other-python-libraries" data-linktype="self-bookmark">Otras bibliotecas de Python</a></li> </ul> <h3 id="seaborn">Seaborn</h3> <p>También puede usar otras bibliotecas de Python para generar trazados. Databricks Runtime incluye la biblioteca de visualización <a href="https://seaborn.pydata.org/" data-linktype="external">Seaborn</a>. Para crear un diagrama de Seaborn, importe la biblioteca, cree un diagrama y pase el diagrama a la función <code>display</code>.</p> <pre><code class="lang-python">import seaborn as sns sns.set(style="white") df = sns.load_dataset("iris") g = sns.PairGrid(df, diag_sharey=False) g.map_lower(sns.kdeplot) g.map_diag(sns.kdeplot, lw=3) g.map_upper(sns.regplot) display(g.fig) </code></pre> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/seaborn-iris.png" alt="Trazado de Seaborn" data-linktype="relative-path"/> </p> </div> <h3 id="other-python-libraries">Otras bibliotecas de Python</h3> <ul> <li> <a href="bokeh" data-linktype="relative-path">Bokeh</a></li> <li> <a href="matplotlib" data-linktype="relative-path">Matplotlib</a></li> <li> <a href="plotly" data-linktype="relative-path">Plotly</a></li> </ul> <h2 id="visualizations-in-r">Visualizaciones en R</h2> <p>Para trazar datos en R, use la función <code>display</code> como se indica a continuación:</p> <pre><code class="lang-r">library(SparkR) diamonds_df <- read.df("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", source = "csv", header="true", inferSchema = "true") display(arrange(agg(groupBy(diamonds_df, "color"), "price" = "avg"), "color")) </code></pre> <p>Puede usar la función <a href="https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/plot" data-linktype="external">plot</a> predeterminada de R.</p> <pre><code class="lang-r">fit <- lm(Petal.Length ~., data = iris) layout(matrix(c(1,2,3,4),2,2)) # optional 4 graphs/page plot(fit) </code></pre> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/r-iris.png" alt="Trazado de R predeterminado" data-linktype="relative-path"/> </p> </div> <p>También puede usar cualquier paquete de visualización de R. El cuaderno de R captura el gráfico resultante como un <code>.png</code> y lo muestra en línea.</p> <h3 id="in-this-section-1">En esta sección:</h3> <ul> <li> <a href="#lattice" data-linktype="self-bookmark">Red</a></li> <li> <a href="#dandefa" data-linktype="self-bookmark">DandEFA</a></li> <li> <a href="#plotly" data-linktype="self-bookmark">Plotly</a></li> <li> <a href="#other-r-libraries" data-linktype="self-bookmark">Otras bibliotecas de R</a></li> </ul> <h3 id="lattice">Enrejado</h3> <p>El paquete <a href="https://www.statmethods.net/advgraphs/trellis.html" data-linktype="external">Lattice</a> admite gráficos de Trellis (gráficos que muestran una variable o la relación entre variables, con condiciones en una o varias variables).</p> <pre><code class="lang-r">library(lattice) xyplot(price ~ carat | cut, diamonds, scales = list(log = TRUE), type = c("p", "g", "smooth"), ylab = "Log price") </code></pre> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/r-lattice.png" alt="Trazado Lattice de R" data-linktype="relative-path"/> </p> </div> <h3 id="dandefa">DandEFA</h3> <p>El paquete <a href="https://www.rdocumentation.org/packages/DandEFA/versions/1.6" data-linktype="external">DandEFA</a> admite diagramas de diente de león.</p> <pre><code class="lang-r">install.packages("DandEFA", repos = "https://cran.us.r-project.org") library(DandEFA) data(timss2011) timss2011 <- na.omit(timss2011) dandpal <- rev(rainbow(100, start = 0, end = 0.2)) facl <- factload(timss2011,nfac=5,method="prax",cormeth="spearman") dandelion(facl,bound=0,mcex=c(1,1.2),palet=dandpal) facl <- factload(timss2011,nfac=8,method="mle",cormeth="pearson") dandelion(facl,bound=0,mcex=c(1,1.2),palet=dandpal) </code></pre> <div class="mx-imgBorder"> <p> <img src="../_static/images/notebooks/r-daefa.png" alt="Gráfico DandEFA de R" data-linktype="relative-path"/> </p> </div> <h3 id="plotly">Plotly</h3> <p>El paquete de R <a href="https://plotly.com/r/" data-linktype="external">Plotly</a> usa <a href="https://www.htmlwidgets.org/" data-linktype="external">htmlwidgets para R</a>. Para ver instrucciones de instalación y un cuaderno, consulte <a href="htmlwidgets" data-linktype="relative-path">htmlwidgets</a>.</p> <h3 id="other-r-libraries">Otras bibliotecas de R</h3> <ul> <li> <a href="ggplot2" data-linktype="relative-path">ggplot2</a></li> <li> <a href="htmlwidgets" data-linktype="relative-path">htmlwidgets</a></li> </ul> <h2 id="visualizations-in-scala">Visualizaciones en Scala</h2> <p>Para trazar datos en Scala, use la función <code>display</code> como se indica a continuación:</p> <pre><code class="lang-scala">val diamonds_df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv") display(diamonds_df.groupBy("color").avg("price").orderBy("color")) </code></pre> <h2 id="deep-dive-notebooks-for-python-and-scala">Exploración profunda en cuadernos de Python y Scala</h2> <p>Para profundizar en las visualizaciones de Python, consulte el cuaderno:</p> <ul> <li> <a href="charts-and-graphs-python" data-linktype="relative-path">Profundización en la visualización en Python</a></li> </ul> <p>Para profundizar en las visualizaciones de Scala, consulte el cuaderno:</p> <ul> <li> <a href="charts-and-graphs-scala" data-linktype="relative-path">Profundización en la visualización en Scala</a></li> </ul>

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-27

Visualizaciones heredadas

Crear una visualización heredada

Elija y configure un tipo de gráfico heredado

Barra de herramientas del gráfico heredado

Coherencia de colores entre gráficos

Visualizaciones de Machine Learning

Valores residuales

Curvas ROC

Árboles de decisión

Pitón

Scala

DataFrames de Streaming estructurado

Pitón

Scala

Pitón

Scala

Función displayHTML

Comentarios

Recursos adicionales

Función `displayHTML`