如何使用 Microsoft Fabric 筆記本
Microsoft Fabric 筆記本是開發 Apache Spark 作業和機器學習實驗的主要程式碼項目。 這是資料科學家和資料工程師用來撰寫受益於豐富視覺效果和 Markdown 文字的程式碼的網頁式互動式介面。 資料工程師撰寫程式碼來擷取資料、資料準備和資料轉換。 資料科學家也會使用筆記本來建置機器學習解決方案,包括建立實驗和模型、模型追蹤和部署。
Fabric 筆記本的用途:
- 無須設定即可開始使用。
- 使用直覺式低程式碼體驗輕鬆探索和處理資料。
- 使用內建的企業安全性功能保護資料的安全。
- 使用強大的 Spark 功能,分析原始格式(CSV、txt、JSON 等)處理過的檔格式(parquet、Delta Lake 等)。
- 透過增強的撰寫功能和內建的資料視覺效果,提高生產力。
本文說明如何在資料科學和資料工程體驗中使用筆記本。
執行筆記本的安全性內容
筆記本的執行可以在 Fabric 中以三種不同的方式觸發,並具有完全彈性以符合不同案例:
- 互動式執行:使用者透過不同的UX項目或呼叫REST API手動觸發執行。 執行會在目前使用者的安全性內容下執行。
- 以管線活動執行:從 Fabric Data Factory 管線觸發執行。 您可以在 Notebook 活動中找到詳細步驟。 執行會在管線擁有者的安全性內容下執行。
- 排程器:從排程器計劃觸發執行。 執行會在設定/更新排程器計劃的使用者安全性內容下執行。
這些執行選項具有不同安全性內容的彈性可讓您符合不同的案例和需求,但也要求您在設計和開發筆記本時注意安全性內容,否則可能會導致非預期的行為,甚至發生某些安全性問題。
第一次建立筆記本時,會顯示警告訊息以提醒您執行程式碼的風險,而不需檢閱它。
以下是一些可協助您避免安全性問題的最佳做法:
- 手動執行筆記本之前,請開啟筆記本 設定,並檢查關於 面板底下的詳細資料 區段以進行修改更新,請確定您符合最新的變更。
- 將筆記本活動新增至管線之前,請開啟筆記本 設定,並檢查關於 面板底下的詳細資料 區段,以取得修改更新,請確定您符合最新的變更。 如果您不確定最新的變更,最好先開啟 Notebook 來檢閱變更,再將它新增至管線。
- 在更新排程器方案之前,請先開啟筆記本 設定,並檢查關於 面板底下的詳細資料 區段,以取得修改更新,請確定您符合最新的變更。 如果您不確定最新的變更,最好先開啟 Notebook 以檢閱變更,再更新排程器方案。
- 將工作區分成不同的階段(開發、測試、生產),並控制不同階段的存取,以避免安全性問題。 只將您信任的使用者新增至 Prod 階段。
建立筆記本
您可以建立新的筆記本或匯入現有筆記本。
建立新的 Notebook
與其他標準網狀架構項目建立程序一樣,您可以從網狀架構 資料工程師 首頁、工作區新增 選項或建立中樞 輕鬆建立新的筆記本。
匯入現有筆記本
您可以使用工作區工具列中的專案,從本機計算機匯入一或多個現有的筆記本。 網狀架構筆記本可辨識標準 Jupyter Notebook .ipynb 檔案,以及來源檔案,例如.py、.scala 和 .sql,並據以建立新的筆記本項目。
匯出筆記本
您可以將筆記本匯出為其他標準格式。 Synapse 筆記本可以匯出為:
- 用於 Jupyter Notebook 的標準筆記本檔案 (.ipynb)。
- 可從瀏覽器直接開啟的 HTML 檔案 (.html)。
- Python 檔案 (.py)。
- LaTeX 檔案 (.tex)。
儲存筆記本
在 Fabric 中,筆記本預設會在開啟並編輯後自動儲存;您不需要擔心遺失程式碼變更。 您也可以使用儲存複本 來複製目前工作區中的另一個複本 或另一個工作區。
如果您想要手動儲存筆記本,您可以切換至手動 儲存 選項,讓筆記本項目的本機分支,然後使用 Save 或 CTRL+s 儲存變更。
您也可以選取編輯 -> 儲存選項 -> 手動 來切換至手動儲存模式。 若要開啟筆記本的本機分支,然後手動儲存,請選取儲存或使用 Ctrl+s 鍵盤捷徑。
連接 Lakehouses 和筆記本
網狀架構筆記本現在支援與 Lakehouses 的密切互動;您可以從 Lakehouse 總管輕鬆新增或現有的 Lakehouse。
您可以在 Lakehouse 總管中巡覽至不同的 lakehouse,並釘選一個 lakehouse 作為預設值。 您的預設值接著會掛接至執行階段工作目錄,而您可以使用本機路徑讀取或寫入預設 Lakehouse。
注意
您必須在釘選新的 Lakehouse 或重新命名預設 Lakehouse 之後重新啟動工作階段。
新增或移除 Lakehouse
選取 Lakehouse 名稱旁邊的 X 圖示會從筆記本索引標籤中移除它,但 Lakehouse 項目仍存在於工作區中。
選取新增 Lakehouse 以將更多 Lakehouse 新增至筆記本,方法是新增現有的 lakehouse 或建立新的 Lakehouse。
探索 Lakehouse 檔案
Lake view 的資料表和檔案 區段下的子資料夾和檔案會出現在 Lakehouse 列表與筆記本內容之間的內容區域中。 在 資料表 和 檔案區段中選取不同的資料夾,以重新整理內容區域。
資料夾和檔案操作
如果您使用滑鼠右鍵選取檔案(.csv、.parquet、.txt、.jpg、.png等),您可以使用Spark或 Pandas API 來載入資料。 新的程式碼儲存格會產生並插入焦點儲存格下方。
您可以從選取的檔案或資料夾,輕鬆地複製具有不同格式的路徑,並在程式碼中使用對應的路徑。
筆記本資源
Notebook 資源總管提供類似 Unix 的文件系統,可協助您管理資料夾和檔案。 它提供可寫入的檔案系統空間,您可以在其中儲存小型檔案,例如程式碼模組、語意模型和影像。 您可以使用筆記本中的程式碼輕鬆地存取它們,就像您使用本機文件系統一樣。
注意
- 內建資料夾和環境資料夾的資源儲存體上限為 500 MB,單一檔案大小上限為 100 MB。 它們總共允許最多 100 個檔案/資料夾實例。
- 使用
notebookutils.notebook.run()
時,請使用notebookutils.nbResPath
命令來存取目標筆記本資源。 內建的相對路徑 / 一律會指向根筆記本的內建資料夾。
內建資源資料夾
內建 resources 資料夾是每個筆記本項目實例的系統預先定義資料夾。 以下是筆記本資源的重要功能。
- 您可以使用一般作業,例如建立/刪除、上傳/下載、拖放、重新命名、重複,以及透過UI搜尋。
- 您可以使用相對路徑,例如
builtin/YourData.txt
快速探索。 方法notebookutils.nbResPath
可協助您撰寫完整路徑。 - 您可以透過寫入至 lakehouse 選項,輕鬆地將已驗證的資料移至 Lakehouse。 Fabric 已內嵌常見文件類型的豐富代碼段,可協助您快速開始使用。
- 這些資源也可透過 在參考筆記本執行案例
notebookutils.notebook.run()
中使用。
環境資源資料夾
環境資源資料夾是一個共用存放庫,其設計目的是簡化跨多個筆記本的共同作業。
您可以在環境中找到 [ 資源 ] 索引標籤,並擁有完整的作業來管理這裡的資源檔。 一旦筆記本連結至目前環境,這些檔案就可以跨多個筆記本共用。
在 [Notebook] 頁面中,您可以輕鬆地在 [從附加環境繼承的資源] 下找到第二個根資料夾。
您也可以使用 [內建資源] 資料夾,在檔案/資料夾上操作。
環境資源路徑會自動掛接至筆記本叢集,您可以使用相對路徑 /env 來存取環境資源。
檔案編輯器
檔案編輯器可讓您直接在筆記本的資源資料夾和環境資源資料夾中檢視和編輯檔案。 支援的檔類型包括 CSV、TXT、HTML、YML、PY、SQL 等。 透過檔案編輯器,您可以輕鬆地存取和修改筆記本內的檔案,它支援關鍵詞醒目提示,並在開啟和編輯程式碼檔案時提供必要的語言服務,例如 .py 和 .sql。
您可以透過 [檔案] 選單中的 [檢視和編輯] 來存取此功能。 按兩下檔案是較快的方式。
若要手動儲存檔案編輯器的內容變更,請按兩下 [ 儲存 ] 按鈕或鍵盤快捷方式: Ctrl+S,檔案編輯器不支援自動儲存。
檔案編輯器也會受到 筆記本模式的影響。 如果您處於筆記本模式,而不需要編輯許可權,您只能檢視檔案,但無法編輯這些檔案。
注意
以下是檔案編輯器的一些限制。
- 檔案大小限制為 1 MB。
- 檢視和編輯不支援這些文件類型: .xlsx 和 .parquet。
在筆記本中共同作業
Fabric 筆記本是共同作業項目,可支援多個使用者編輯相同的筆記本。
當您開啟筆記本時,預設會輸入共同編輯模式,而且會自動儲存每個筆記本編輯。 如果您的同事同時開啟相同的筆記本,您會看到其配置檔、執行輸出、游標指標、選取指標,以及編輯追蹤。 藉由使用共同作業功能,您可以輕鬆地完成配對程式設計、遠端偵錯和輔導案例。
共用筆記本
共用筆記本是與小組成員共同作業的便利方式。 根據預設,授權的工作區角色可以檢視或編輯/執行筆記本。 您可以使用已授與的指定許可權來共享筆記本。
在筆記本工具列上選擇共用。
選取可檢視此筆記本的人員對應的類別。 您可以選擇 收件者的共享、編輯 或執行許可權。
選取 套用 之後,您可以直接傳送筆記本,或將連結複製到其他人。 收件者接著可以使用其許可權等級授與的對應檢視來開啟筆記本。
若要進一步管理筆記本許可權,請選取工作區項目清單>更多選項,然後選取管理許可權。 您可以從該畫面更新現有的筆記本存取權和許可權。
為程式碼儲存格加上批注
批注是共同作業案例的另一個實用功能。 目前,Fabric 支援新增儲存格層級註解。
選取筆記本工具列上的註解 按鈕,以開啟註解 窗格。
在程式碼儲存格中選取程式碼,按一下註解 窗格中的新增,然後按一下張貼註解 按鈕來儲存。
如有需要,請選取批注旁的更多 選項,尋找編輯批注、解決線程 和刪除線程選項。
在註解中標記其他人
「標記」是指在註解線程中提及並通知使用者,以有效率地加強特定項目的共同作業。
選取儲存格中的程式碼區段,並新增批注線程。
如果您想要提及某人討論特定區段,請輸入使用者名稱,並選擇建議清單中的正確名稱。
分享您的深入解析並張貼。
系統將會觸發電子郵件通知,使用者按兩下開啟註解連結以快速找出此儲存格。
此外,在標記沒有存取權的人員時,授權並設定使用者的許可權,以確保您的程式碼資產受到妥善管理。
注意
針對註解項目,如果一小時內更新註解,標記的使用者將不會再收到電子郵件通知。 但它會將電子郵件通知傳送給新的已標記使用者。
筆記本模式切換器
網狀架構筆記本支援您可以輕鬆地切換的四種模式: 開發 模式、僅限 執行模式、 編輯 模式和 檢視 模式。 每個模式都會對應至特定的許可權組合。 將筆記本共用給其他小組成員時,您可以授與適當的許可權給收件者,而且他們將會根據其許可權看到最佳的可用筆記本模式,而且他們可以在擁有許可權的模式之間切換。
- 開發模式:需要讀取、執行、寫入許可權。
- 僅執行模式:需要讀取、執行許可權。
- 編輯模式:需要讀取、寫入許可權。
- 檢視模式:需要讀取許可權。