使用 Microsoft Fabric 探索和處理數據
數據是數據科學的基石,尤其是在定型機器學習模型以達成人工智慧時。 一般而言,當定型數據集大小增加時,模型會表現出增強的效能。 除了數據數量之外,數據的質量同樣重要。
為了保證數據的質量和數量,使用 Microsoft Fabric 的強固數據擷取和處理引擎是值得的。 建立基本數據擷取、探索和轉換管線時,您可以彈性地選擇低程式代碼或程式碼優先方法。
將數據內嵌至 Microsoft Fabric
若要在 Microsoft Fabric 中使用數據,您必須先內嵌數據。 您可以從多個來源擷取數據,包括本機和雲端數據源。 例如,您可以從儲存在本機計算機或 Azure Data Lake Storage (Gen2) 中的 CSV 檔案擷取數據。
小提示
深入瞭解如何使用 Microsoft Fabric 擷取及協調各種來源的數據。
聯機到數據源之後,您可以將數據儲存至 Microsoft Fabric Lakehouse。 您可以使用 Lakehouse 作為中央位置來儲存任何結構化、半結構化和非結構化檔案。 然後,每當您想要存取數據以進行探索或轉換時,您就可以輕鬆地連線到 Lakehouse。
探索和轉換您的數據
身為數據科學家,您可能最熟悉在 筆記本中撰寫和執行程序代碼。 Microsoft Fabric 提供由 Spark 計算提供熟悉的筆記本體驗。
Apache Spark 是開放原始碼平行處理架構,可用於大規模數據處理和分析。
筆記本會自動附加至 Spark 計算。 當您第一次在筆記本中執行單元格時,會啟動新的Spark會話。 當您執行後續儲存格時,工作階段會保存。 Spark 工作階段會在閒置一段時間後自動停止,以節省成本。 您也可以手動停止工作階段。
當您在筆記本中工作時,可以選擇要使用的語言。 針對數據科學工作負載,您可能會使用 PySpark (Python) 或 SparkR (R)。
在筆記本中,您可以使用慣用的連結庫,或使用任何內建視覺效果選項來探索數據。 如有必要,您可以轉換數據,並將處理的數據寫回 Lakehouse,以儲存已處理的數據。
使用 Data Wrangler 準備您的數據
為了協助您更快速地探索和轉換數據,Microsoft Fabric 提供易於使用 的數據 Wrangler。
啟動 Data Wrangler 之後,您將取得所使用數據的描述性概觀。 您可以檢視數據的摘要統計數據,以找出任何像是遺漏值的問題。
若要清除您的資料,您可以選擇任何內建的數據清除作業。 當您選取作業時,系統會自動為您產生結果和相關聯的程式代碼預覽。 當您選取所有必要的作業時,您可以將轉換匯出至程式代碼,並在您的資料上執行。