Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Menghitung histogram pada 'col' numerik menggunakan nb bins. Nilai yang dikembalikan adalah array pasangan (x,y) yang mewakili pusat bin histogram. Ketika nilai 'nb' ditingkatkan, perkiraan histogram menjadi lebih halus, tetapi dapat menghasilkan artefak di sekitar outlier. Dalam praktiknya, 20-40 bin histogram tampaknya berfungsi dengan baik, dengan lebih banyak bin yang diperlukan untuk himpunan data condong atau lebih kecil. Perhatikan bahwa fungsi ini membuat histogram dengan lebar bin non-seragam. Ini tidak menawarkan jaminan dalam hal kesalahan rata-kuadrat histogram, tetapi dalam praktiknya sebanding dengan histogram yang diproduksi oleh paket komputasi statistik R/S-Plus. Catatan: jenis output bidang 'x' dalam nilai pengembalian disebarluaskan dari nilai input yang digunakan dalam fungsi agregat.
Syntax
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Parameter-parameternya
| Pengaturan | Tipe | Description |
|---|---|---|
col |
pyspark.sql.Column atau str |
Kolom target untuk dikerjakan. |
nBins |
pyspark.sql.Column |
Jumlah kolom histogram. |
Pengembalian Barang
pyspark.sql.Column: histogram pada 'col' numerik menggunakan nb bins.
Examples
Contoh 1: Komputasi histogram dengan 5 bin
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+