糖尿病資料集

糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。 這是最熱門的 Scikit Learn Toy 資料集之一。

原始資料集描述 | 原始資料檔案

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料行

名稱 資料類型 唯一 值 (樣本)
AGE BIGINT 58 53 60
BMI double 163 24.1 23.5
BP double 100 93.0 83.0
S1 BIGINT 141 162 184
S2 double 302 125.8 114.8
S3 double 63 46.0 38.0
S4 double 66 3.0 4.0
S5 double 184 4.4427 4.3041
S6 BIGINT 56 92 96
SEX BIGINT 2 1 2
BIGINT 214 72 200

預覽

AGE SEX BMI BP S1 S2 S3 S4 S5 S6
59 2 32.1 101 157 93.2 38 4 4.8598 87 151
48 1 21.6 87 183 103.2 70 3 3.8918 69 75
72 2 30.5 93 156 93.6 41 4 4.6728 85 141
24 1 25.3 84 198 131.4 40 5 4.8903 89 206
50 1 23 101 192 125.4 52 4 4.2905 80 135
23 1 22.6 89 139 64.8 61 2 4.1897 68 97
36 2 22 90 160 99.6 50 3 3.9512 82 138
66 2 26.2 114 255 185 56 4.55 4.2485 92 63
60 2 32.1 83 179 119.4 42 4 4.4773 94 110
29 1 30 85 180 93.4 43 4 5.3845 88 310

資料存取

請使用以下程式碼範例,在 Azure Notebooks、Azure Databricks 或 Azure Synapse 中存取此資料集。

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import Diabetes

diabetes = Diabetes.get_tabular_dataset()
diabetes_df = diabetes.to_pandas_dataframe()

diabetes_df.info()

Azure Databricks

# This is a package in preview.
from azureml.opendatasets import Diabetes

diabetes = Diabetes.get_tabular_dataset()
diabetes_df = diabetes.to_spark_dataframe()

display(diabetes_df.limit(5))

Azure Synapse

此平台/封裝組合沒有可用的樣本。

後續步驟

檢視開放資料集目錄中的其餘資料集。