資料流程指令碼 (DFS)

適用於： Azure Data Factory Azure Synapse Analytics

提示

Data Factory in Microsoft Fabric 是下一代的 Azure Data Factory，擁有更簡單的架構、內建 AI 及新功能。如果你是資料整合新手，建議先從 Fabric Data Factory 開始。現有的 ADF 工作負載可升級至 Fabric，以存取資料科學、即時分析與報告等新能力。

資料流可同時在 Azure Data Factory 資料管線和 Azure Synapse Analytics 資料管線中使用。本文適用於映射資料流。如果您不熟悉轉換，請參閱使用對應數據流轉換數據的簡介文章。

資料流程指令碼 (DFS) 是與編碼語言類似的基礎中繼資料，可用來執行對應資料流中包含的轉換。每個轉換都是由一系列屬性所表示，這些屬性提供必要的資訊以正確執行作業。您可以按一下瀏覽器 UI 頂端功能區上的 [腳本] 按鈕，以查看並從 ADF 編輯指令碼。

腳本按鈕

例如，在來源轉換中，allowSchemaDrift: true, 會指示服務將所有來自來源資料集的資料行包含在資料流程中，即使它們未包含在結構描述投影中也一樣。

使用案例

DFS 會自動由使用者介面產生。您可以按一下 [指令碼] 按鈕來檢視和自訂指令碼。您也可以在 ADF UI 外部產生指令碼，然後將其傳遞至 PowerShell Cmdlet。在偵錯複雜資料流程時，您可能會發現，掃描指令碼的後置程式碼，比掃描流程的 UI 圖形表示更容易。

以下是一些範例使用案例：

以程式設計方式產生許多彼此相當類似的資料流程，也就是「大量複製」資料流程。
難以在 UI 中管理或導致驗證問題的複雜運算式。
偵錯並進一步了解執行期間傳回的各種錯誤。

當您建置資料流程指令碼以搭配 PowerShell 或 API 使用時，必須將格式化的文字摺疊成單行。您可以將索引標籤和分行符號保留為跳脫字元。但是必須格式化文字，藉以符合 JSON 屬性。底部的指令碼編輯器 UI 上有一個按鈕，會將指令碼格式化為單行。

複製按鈕

如何新增轉換

新增轉換需要三個基本步驟：新增核心轉換資料、重新路由傳送輸入資料流，然後重新路由輸出資料流。這最容易就在範例中看出來。假設我們先從下列這種簡單的來源到接收器資料流程開始：

source(output(
        movieId as string,
        title as string,
        genres as string
    ),
    allowSchemaDrift: true,
    validateSchema: false) ~> source1
source1 sink(allowSchemaDrift: true,
    validateSchema: false) ~> sink1

如果我們決定新增衍生的轉換，首先我們需要創建核心轉換內容，這內容具有簡單的運算式，以新增名為upperCaseTitle的新的大寫欄位：

derive(upperCaseTitle = upper(title)) ~> deriveTransformationName

然後，我們會採用現有的 DFS 並新增轉換：

source(output(
        movieId as string,
        title as string,
        genres as string
    ),
    allowSchemaDrift: true,
    validateSchema: false) ~> source1
derive(upperCaseTitle = upper(title)) ~> deriveTransformationName
source1 sink(allowSchemaDrift: true,
    validateSchema: false) ~> sink1

接著，我們會先識別新轉換要接在其後的轉換 (在此案例中為 source1)，然後將串流名稱複製到新轉換，以重新路由傳入串流：

source(output(
        movieId as string,
        title as string,
        genres as string
    ),
    allowSchemaDrift: true,
    validateSchema: false) ~> source1
source1 derive(upperCaseTitle = upper(title)) ~> deriveTransformationName
source1 sink(allowSchemaDrift: true,
    validateSchema: false) ~> sink1

最後，我們會識別出我們希望在這個新轉換後進行的轉換，並將其輸入資料流（在此案例中為 sink1）替換為我們新轉換的輸出資料流名稱：

source(output(
        movieId as string,
        title as string,
        genres as string
    ),
    allowSchemaDrift: true,
    validateSchema: false) ~> source1
source1 derive(upperCaseTitle = upper(title)) ~> deriveTransformationName
deriveTransformationName sink(allowSchemaDrift: true,
    validateSchema: false) ~> sink1

DFS 基本概念

DFS 由一系列互相連接的轉換所組成，包括來源、接收器，以及各種其他轉換，這些轉換可以新增資料行、篩選資料、聯結資料等，還有更多功能。腳本通常會以一個或多個來源開頭，後面接著許多轉換，並以一個或多個匯入點結束。

來源都有相同的基本建構：

source(
  source properties
) ~> source_name

例如，具有三個資料行的簡單來源 (movieId、title、內容類型) 為：

source(output(
        movieId as string,
        title as string,
        genres as string
    ),
    allowSchemaDrift: true,
    validateSchema: false) ~> source1

來源以外的全部轉換都有相同的基本建構：

name_of_incoming_stream transformation_type(
  properties
) ~> new_stream_name

例如，簡單的衍生轉換會採用資料行 (title)，並以其大寫版本覆寫，如下所示：

source1 derive(
  title = upper(title)
) ~> derive1

而沒有結構描述的接收器如下：

derive1 sink(allowSchemaDrift: true,
    validateSchema: false) ~> sink1

腳本片段

腳本摘要是 Data Flow Script 的可分享程式碼，可以用來跨資料流分享。以下這支影片說明如何使用腳本片段，以及利用 Data Flow Script 複製並貼上腳本的部分內容，放在你的 data flow 圖表後方：

彙總摘要統計資料

將 "Aggregate" 轉換新增至名為 "SummaryStats" 的資料流程中，然後在指令碼中將此程式碼貼入以取代現有的 SummaryStats 彙總函式。這會提供資料剖析摘要統計數據的通用模式。

aggregate(each(match(true()), $$+'_NotNull' = countIf(!isNull($$)), $$ + '_Null' = countIf(isNull($$))),
		each(match(type=='double'||type=='integer'||type=='short'||type=='decimal'), $$+'_stddev' = round(stddev($$),2), $$ + '_min' = min ($$), $$ + '_max' = max($$), $$ + '_average' = round(avg($$),2), $$ + '_variance' = round(variance($$),2)),
		each(match(type=='string'), $$+'_maxLength' = max(length($$)))) ~> SummaryStats

您也可以使用下列範例來計算資料中唯一數目和相異資料列的數目。可以在名為 ValueDistAgg 的彙總轉換資料流程中貼上下列範例。此範例使用名稱為 "title"的資料行。請務必將「title」替換為您資料中想用來取得值計數的字串資料行。

aggregate(groupBy(title),
	countunique = count()) ~> ValueDistAgg
ValueDistAgg aggregate(numofunique = countIf(countunique==1),
		numofdistinct = countDistinct(title)) ~> UniqDist

在彙總中包含所有資料行

這是一種通用的彙總模式，展示如何在建立彙總時，將其餘的欄位保留在輸出的中繼資料中。在此情況下，我們會使用 first() 函式來選擇名稱不是「電影」的每個資料行中的第一個值。若要使用此功能，請建立名為 DistinctRows 的 Aggregate 轉換，然後將此內容貼到指令碼中，以覆寫現有的 DistinctRows 彙總指令碼。

aggregate(groupBy(movie),
	each(match(name!='movie'), $$ = first($$))) ~> DistinctRows

建立資料列雜湊指紋

在您的資料流程指令碼中使用此程式碼，建立名為 DWhash 的新衍生資料行，藉以產生三個資料行的 sha1 雜湊。

derive(DWhash = sha1(Name,ProductNumber,Color)) ~> DWHash

您也可以使用以下指令碼，以存在於資料流中的所有資料行來產生資料列雜湊，而不需要為每個資料行命名：

derive(DWhash = sha1(columns())) ~> DWHash

String_agg 等同

此程式碼會像 T-SQL string_agg() 函式一樣運作，並將字串值彙總成陣列。然後，您可以將該陣列轉換成字串，藉以搭配 SQL 目的地使用。

source1 aggregate(groupBy(year),
	string_agg = collect(title)) ~> Aggregate1
Aggregate1 derive(string_agg = toString(string_agg)) ~> StringAgg

計算更新、Upsert、插入、刪除的數量

使用 Alter Row 轉換時，您可能想要計算 Alter Row 原則所產生的更新、Upsert、插入、刪除數量。請在您的 Alter Row 後新增 Aggregate 轉換，然後將此 Data Flow 指令碼貼到彙總定義中，以取得這些計數。

aggregate(updates = countIf(isUpdate(), 1),
		inserts = countIf(isInsert(), 1),
		upserts = countIf(isUpsert(), 1),
		deletes = countIf(isDelete(),1)) ~> RowCount

使用所有資料行的不同資料列

此程式碼片段會在您的資料流程中新增新的彙總轉換，此轉換會收集所有傳入的資料行，產生用於群組的雜湊，以消除重複項目，然後輸出每個重複項目的首次出現作為結果。您不需要明確命名資料行，它們將自動根據傳入的資料流生成。

aggregate(groupBy(mycols = sha2(256,columns())),
    each(match(true()), $$ = first($$))) ~> DistinctRows

檢查所有欄位中的 NULL 值

這是可以在資料流程中貼上的程式碼片段，以一般方式檢查所有資料行是否有 NULL 值。這項技術會利用結構描述漂移來查看全部資料列中的所有資料行，並使用條件式分割來分隔含 NULL 的資料列與不含 NULL 的資料列。

split(contains(array(toString(columns())),isNull(#item)),
	disjoint: false) ~> LookForNULLs@(hasNULLs, noNULLs)

使用 Select 自動對應結構描述漂移

當您需要從未知或動態的傳入資料行集合載入現有資料庫結構描述時，您必須在 Sink 轉換中對應右側資料行。只有在載入現有的資料表時，才需要此項目。請在您的 Sink 前新增這段程式碼片段，以建立可自動對應資料行的 Select。讓您的 Sink 對應保持為自動對應。

select(mapColumn(
		each(match(true()))
	),
	skipDuplicateMapInputs: true,
	skipDuplicateMapOutputs: true) ~> automap

保存欄位資料類型

請將此指令碼放在 Derived Column 定義中，將資料流程中的資料行名稱與資料類型儲存到持續性儲存區，並使用接收器寫入。

derive(each(match(type=='string'), $$ = 'string'),
	each(match(type=='integer'), $$ = 'integer'),
	each(match(type=='short'), $$ = 'short'),
	each(match(type=='complex'), $$ = 'complex'),
	each(match(type=='array'), $$ = 'array'),
	each(match(type=='float'), $$ = 'float'),
	each(match(type=='date'), $$ = 'date'),
	each(match(type=='timestamp'), $$ = 'timestamp'),
	each(match(type=='boolean'), $$ = 'boolean'),
	each(match(type=='long'), $$ = 'long'),
	each(match(type=='double'), $$ = 'double')) ~> DerivedColumn1

向下填滿

以下說明如何在資料集上實作常見的「向下填滿」問題，也就是當您想以序列中前一個非 NULL 值取代 NULL 值時。請注意，這項作業可能會有負面的效能影響，因為您必須在整個資料集中建立具有「虛擬」類別值的綜合視窗。此外，您必須依值排序，才能建立適當的資料序列，藉以尋找先前的非 NULL 值。下列程式碼片段會將合成類別建立為「假」類別，並以代理索引鍵排序。您可以移除代理索引鍵，並使用自己的資料特定排序索引鍵。此程式碼片段假設您已新增名為 source1 的來源轉換

source1 derive(dummy = 1) ~> DerivedColumn
DerivedColumn keyGenerate(output(sk as long),
	startAt: 1L) ~> SurrogateKey
SurrogateKey window(over(dummy),
	asc(sk, true),
	Rating2 = coalesce(Rating, last(Rating, true()))) ~> Window1

移動平均

移動平均可以透過 Windows 轉換在資料流中非常容易地實作。以下這個例子會產生 Microsoft 股價的 15 天移動平均。

window(over(stocksymbol),
	asc(Date, true),
	startRowOffset: -7L,
	endRowOffset: 7L,
	FifteenDayMovingAvg = round(avg(Close),2)) ~> Window1

所有資料行值的相異計數

您可以使用此指令碼來識別索引鍵資料行，並使用單一指令碼程式碼片段來檢視資料流中所有資料行的基數。將此指令碼新增為資料流中的聚合轉換，它會自動提供所有欄位的唯一計數。

aggregate(each(match(true()), $$ = countDistinct($$))) ~> KeyPattern

比較上一列或下一列的值

此範例程式碼片段示範如何使用 Window 轉換來比較目前資料列內容中的資料行值與目前資料列前後的資料行值。在此範例中，使用衍生欄位來生成一個虛擬值，以便在整個資料集中啟用視窗分割。代理索引鍵轉換可用來為每個資料列指派唯一索引鍵值。當您將此模式套用到資料轉換時，如果您有想用來排序的資料行，就可以移除代理鍵，如果您有可用來將資料分割的資料行，也可以移除衍生資料行。

source1 keyGenerate(output(sk as long),
	startAt: 1L) ~> SurrogateKey1
SurrogateKey1 derive(dummy = 1) ~> DerivedColumn1
DerivedColumn1 window(over(dummy),
	asc(sk, true),
	prevAndCurr = lag(title,1)+'-'+last(title),
		nextAndCurr = lead(title,1)+'-'+last(title)) ~> leadAndLag

我的資料中有多少個欄？

size(array(columns()))

從資料流程概觀一文開始探索資料流程

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-07