다음을 통해 공유


데이터 프로세서 파이프라인에서 Microsoft Fabric으로 데이터 보내기

Important

Azure IoT 작업 미리 보기 - Azure Arc에서 지원되는 Azure IoT 작업은 현재 미리 보기로 제공됩니다. 프로덕션 환경에서는 이 미리 보기 소프트웨어를 사용하면 안 됩니다.

베타, 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 약관은 Microsoft Azure 미리 보기에 대한 추가 사용 약관을 참조하세요.

Fabric Lakehouse 대상을 사용하여 Azure IoT 데이터 프로세서(미리 보기) 파이프라인에서 데이터를 Microsoft Fabric의 레이크하우스에 씁니다. 대상 스테이지에서는 parquet 파일을 델타 테이블의 데이터를 볼 수 있는 레이크하우스에 씁니다. 대상 스테이지는 메시지를 일괄 처리한 후 Microsoft Fabric으로 보냅니다.

필수 조건

Microsoft Fabric 대상 파이프라인 단계를 구성하고 사용하려면 다음이 필요합니다.

Microsoft Fabric 설정

데이터 파이프라인에서 Microsoft Fabric에 쓰기 전에 파이프라인에서 레이크하우스에 대한 액세스 권한을 부여해야 합니다. 서비스 주체 또는 관리 ID를 사용하여 파이프라인을 인증할 수 있습니다. 관리 ID를 사용하면 서비스 주체의 수명 주기를 관리할 필요가 없다는 장점이 있습니다. 관리 ID는 Azure에서 자동으로 관리되며 할당된 리소스의 수명 주기에 연결됩니다.

레이크하우스에 대한 서비스 주체 또는 관리 ID 액세스를 구성하기 전에 서비스 주체 인증을 사용하도록 설정합니다.

클라이언트 암호가 있는 서비스 주체를 만들려면 다음을 수행합니다.

  1. 다음 Azure CLI 명령을 사용하여 서비스 주체를 만듭니다.

    az ad sp create-for-rbac --name <YOUR_SP_NAME> 
    
  2. 이 명령의 출력에는 appId, displayName, password, tenant가 포함됩니다. Microsoft Fabric과 같은 클라우드 리소스에 대한 액세스를 구성하고 비밀을 만들고 파이프라인 대상을 구성할 때 사용할 값을 기록해 둡니다.

    {
        "appId": "<app-id>",
        "displayName": "<name>",
        "password": "<client-secret>",
        "tenant": "<tenant-id>"
    }
    

Microsoft Fabric 작업 영역에 서비스 주체를 추가하려면 다음을 수행합니다.

  1. 작업 영역 ID 및 레이크하우스 ID를 기록해 둡니다. 레이크하우스에 액세스하는 데 사용하는 URL에서 이러한 값을 찾을 수 있습니다.

    https://msit.powerbi.com/groups/<your workspace ID>/lakehouses/<your lakehouse ID>?experience=data-engineering

  2. 작업 영역에서 액세스 관리를 선택합니다.

    액세스 관리 링크를 찾는 방법을 보여 주는 스크린샷.

  3. 사람 또는 그룹 추가를 선택합니다.

    사용자를 추가하는 방법을 보여 주는 스크린샷.

  4. 이름으로 서비스 주체를 검색합니다. 입력을 시작하여 일치하는 서비스 주체 목록을 봅니다. 앞서 만든 서비스 주체를 선택합니다.

    서비스 주체를 추가하는 방법을 보여 주는 스크린샷.

  5. 서비스 주체 관리자에게 작업 영역에 대한 액세스 권한을 부여합니다.

비밀 구성

대상 스테이지에서 Microsoft Fabric에 연결하려면 인증 세부 정보를 포함하는 비밀에 액세스해야 합니다. 비밀을 만들려면:

  1. 다음 명령을 사용하여 서비스 주체를 만들 때, 적어 둔 클라이언트 비밀이 포함된 비밀을 Azure Key Vault에 추가합니다.

    az keyvault secret set --vault-name <your-key-vault-name> --name AccessFabricSecret --value <client-secret>
    
  2. Azure IoT 작업 미리 보기 배포에 대한 비밀 관리의 단계에 따라 비밀 참조를 Kubernetes 클러스터에 추가합니다.

대상 스테이지 구성

Fabric Lakehouse 대상 스테이지 JSON 구성은 스테이지의 세부 정보를 정의합니다. 스테이지를 작성하려면 양식 기반 UI와 상호 작용하거나 고급 탭에서 JSON 구성을 제공할 수 있습니다.

필드 형식 설명 필수 항목 기본값 예시
표시 이름 문자열 데이터 프로세서 UI에 표시할 이름입니다. - Azure IoT MQ output
설명 문자열 스테이지의 기능에 대한 사용자 친화적인 설명입니다. 아니요 Write to topic default/topic1
WorkspaceId 문자열 레이크하우스 작업 영역 ID입니다. -
LakehouseId 문자열 레이크하우스 ID입니다. -
테이블 문자열 쓸 테이블의 이름입니다. -
파일 경로1 템플릿 parquet 파일을 쓸 파일 경로입니다. 아니요 {{{instanceId}}}/{{{pipelineId}}}/{{{partitionId}}}/{{{YYYY}}}/{{{MM}}}/{{{DD}}}/{{{HH}}}/{{{mm}}}/{{{fileNumber}}}
일괄 처리2 Batch 데이터를 일괄 처리하는 방법입니다. 아니요 60s 10s
인증4 문자열 Azure Data Explorer에 연결할 인증 세부 정보입니다. Service principal 또는 Managed identity 서비스 사용자 -
재시도 재시도 사용할 재시도 정책입니다. 아니요 default fixed
열 > 이름 string 열의 이름입니다. temperature
열 > 형식3 문자열 열거형 델타 기본 형식 중 하나를 사용하여, 열에 저장되는 데이터 형식. integer
열 > 경로 Path 열 값을 읽을 데이터의 각 레코드 내의 위치입니다. 아니요 .{{name}} .temperature

1파일 경로: Microsoft Fabric에 파일을 쓰려면 파일 경로가 필요합니다. 템플릿을 사용하여 파일 경로를 구성할 수 있습니다. 파일 경로에는 다음 구성 요소가 요소에 관계 없이 포함되어야 합니다.

  • instanceId
  • pipelineId
  • partitionId
  • YYYY
  • MM
  • DD
  • HH
  • mm
  • fileNumber

파일 이름은 fileNumber으로 표시된 증분 정수 값입니다. 시스템에서 파일 형식을 인식하려면 파일 확장자를 포함해야 합니다.

2일괄 처리: Microsoft Fabric에 데이터를 쓸 때 일괄 처리는 필수입니다. 대상 스테이지는 구성 가능한 시간 간격 동안의 메시지를 일괄 처리합니다.

일괄 처리 간격을 구성하지 않으면 스테이지는 기본값으로 60초를 사용합니다.

3형식: 데이터 프로세서는 델타 형식을 사용하여 Microsoft Fabric에 씁니다. 데이터 프로세서는 decimaltimestamp without time zone을 제외한 모든 델타 기본 데이터 형식을 지원합니다.

모든 날짜와 시간이 Microsoft Fabric에서 올바르게 나타나도록 하려면 속성의 값이 유효한 RFC 3339 문자열이고 데이터 형식이 date 또는 timestamp인지 확인하세요.

1인증: 현재 대상 단계는 Microsoft Fabric에 연결할 때 서비스 주체 기반 인증 또는 관리 ID를 지원합니다.

서비스 주체 기반 인증

서비스 주체 기반 인증을 구성하려면 다음 값을 제공합니다. 서비스 주체를 만들고 클러스터에 비밀 참조를 추가했을 때 이러한 값을 기록해 두었습니다.

필드 설명 필수
TenantId 테넌트 ID입니다.
ClientId 데이터베이스에 액세스할 수 있는 서비스 주체를 만들 때 기록해 둔 앱 ID입니다.
암호 클러스터에서 만든 비밀 참조입니다.

샘플 구성

다음 JSON 예는 데이터베이스의 quickstart 테이블에 전체 메시지를 쓰는 완전한 Microsoft Fabric 레이크하우스 대상 스테이지 구성을 보여 줍니다.

{
    "displayName": "Fabric Lakehouse - 520f54",
    "type": "output/fabric@v1",
    "viewOptions": {
        "position": {
            "x": 0,
            "y": 784
        }
    },
    "workspace": "workspaceId",
    "lakehouse": "lakehouseId",
    "table": "quickstart",
    "columns": [
        {
            "name": "Timestamp",
            "type": "timestamp",
            "path": ".Timestamp"
        },
        {
            "name": "AssetName",
            "type": "string",
            "path": ".assetname"
        },
        {
            "name": "Customer",
            "type": "string",
            "path": ".Customer"
        },
        {
            "name": "Batch",
            "type": "integer",
            "path": ".Batch"
        },
        {
            "name": "CurrentTemperature",
            "type": "float",
            "path": ".CurrentTemperature"
        },
        {
            "name": "LastKnownTemperature",
            "type": "float",
            "path": ".LastKnownTemperature"
        },
        {
            "name": "Pressure",
            "type": "float",
            "path": ".Pressure"
        },
        {
            "name": "IsSpare",
            "type": "boolean",
            "path": ".IsSpare"
        }
    ],
    "authentication": {
        "type": "servicePrincipal",
        "tenantId": "tenantId",
        "clientId": "clientId",
        "clientSecret": "secretReference"
    },
    "batch": {
        "time": "5s",
        "path": ".payload"
    },
    "retry": {
        "type": "fixed",
        "interval": "20s",
        "maxRetries": 4
    }
}

구성은 다음을 정의합니다.

  • 메시지는 5초 동안 일괄 처리됩니다.
  • 일괄 처리 경로 .payload를 사용하여 열에 대한 데이터를 찾습니다.

예시

다음 예에서는 Microsoft Fabric 레이크하우스 대상 스테이지에 대한 샘플 입력 메시지를 보여줍니다.

{
  "payload": {
    "Batch": 102,
    "CurrentTemperature": 7109,
    "Customer": "Contoso",
    "Equipment": "Boiler",
    "IsSpare": true,
    "LastKnownTemperature": 7109,
    "Location": "Seattle",
    "Pressure": 7109,
    "Timestamp": "2023-08-10T00:54:58.6572007Z",
    "assetName": "oven"
  },
  "qos": 0,
  "systemProperties": {
    "partitionId": 0,
    "partitionKey": "quickstart",
    "timestamp": "2023-11-06T23:42:51.004Z"
  },
  "topic": "quickstart"
}