Bagikan melalui


histogram_numeric

Menghitung histogram pada 'col' numerik menggunakan nb bins. Nilai yang dikembalikan adalah array pasangan (x,y) yang mewakili pusat bin histogram. Ketika nilai 'nb' ditingkatkan, perkiraan histogram menjadi lebih halus, tetapi dapat menghasilkan artefak di sekitar outlier. Dalam praktiknya, 20-40 bin histogram tampaknya berfungsi dengan baik, dengan lebih banyak bin yang diperlukan untuk himpunan data condong atau lebih kecil. Perhatikan bahwa fungsi ini membuat histogram dengan lebar bin non-seragam. Ini tidak menawarkan jaminan dalam hal kesalahan rata-kuadrat histogram, tetapi dalam praktiknya sebanding dengan histogram yang diproduksi oleh paket komputasi statistik R/S-Plus. Catatan: jenis output bidang 'x' dalam nilai pengembalian disebarluaskan dari nilai input yang digunakan dalam fungsi agregat.

Syntax

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parameter-parameternya

Pengaturan Tipe Description
col pyspark.sql.Column atau str Kolom target untuk dikerjakan.
nBins pyspark.sql.Column Jumlah kolom histogram.

Pengembalian Barang

pyspark.sql.Column: histogram pada 'col' numerik menggunakan nb bins.

Examples

Contoh 1: Komputasi histogram dengan 5 bin

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+