แชร์ผ่าน


แปลงข้อมูลโดยการเรียกใช้กิจกรรม Azure HDInsight

กิจกรรม Azure HDInsight ใน Data Factory สําหรับ Microsoft Fabric ช่วยให้คุณสามารถปรับประเภทของงาน Azure HDInsight ต่อไปนี้:

  • ใช้คิวรี Hive
  • เรียกใช้โปรแกรม MapReduce
  • ดําเนินการคิวรี Pig
  • ดําเนินการโปรแกรม Spark
  • ดําเนินการโปรแกรม Hadoop Stream

บทความนี้ให้คําแนะนําทีละขั้นตอนที่อธิบายวิธีการสร้างกิจกรรม Azure HDInsight โดยใช้อินเทอร์เฟซ Data Factory

ข้อกำหนดเบื้องต้น

เมื่อต้องการเริ่มต้นใช้งาน คุณต้องดําเนินการข้อกําหนดเบื้องต้นต่อไปนี้ให้เสร็จสมบูรณ์:

  • บัญชีผู้เช่าที่มีการสมัครใช้งานที่ใช้งานอยู่ สร้างบัญชีฟรี
  • พื้นที่ทํางานจะถูกสร้างขึ้น

เพิ่มกิจกรรม Azure HDInsight (HDI) ไปยังไปป์ไลน์ด้วย UI

  1. สร้างไปป์ไลน์ข้อมูลใหม่ในพื้นที่ทํางานของคุณ

  2. ค้นหา Azure HDInsight จากการ์ดหน้าจอหลัก และเลือกหรือเลือกกิจกรรมจากแถบกิจกรรมเพื่อเพิ่มไปยังพื้นที่ทํางานของไปป์ไลน์

    • การสร้างกิจกรรมจากการ์ดหน้าจอหลัก:

      สกรีนช็อตแสดงตําแหน่งที่จะสร้างกิจกรรม Azure HDInsight ใหม่

    • การสร้างกิจกรรมจากแถบกิจกรรม:

      สกรีนช็อตแสดงตําแหน่งที่จะสร้างกิจกรรม Azure HDInsight ใหม่จากแถบกิจกรรมในหน้าต่างตัวแก้ไขไปป์ไลน์

  3. เลือกกิจกรรม Azure HDInsight ใหม่บนพื้นที่ตัวแก้ไขไปป์ไลน์ถ้ายังไม่ได้เลือกไว้

    สกรีนช็อตแสดงกิจกรรม Azure HDInsight บนพื้นที่ตัวแก้ไขไปป์ไลน์

    โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าตัวเลือกที่พบในแท็บ การตั้งค่าทั่วไป

กําหนดค่าคลัสเตอร์ HDI

  1. เลือกแท็บคลัสเตอร์ HDI จากนั้นคุณสามารถเลือกการเชื่อมต่อ HDInsight ที่มีอยู่หรือสร้างใหม่

  2. สําหรับการเชื่อมต่อทรัพยากร เลือกที่เก็บข้อมูล Azure Blob ที่อ้างอิงคลัสเตอร์ Azure HDInsight ของคุณ คุณสามารถเลือกร้านค้า Blob ที่มีอยู่ หรือสร้างร้านค้าใหม่ได้

    สกรีนช็อตแสดงคุณสมบัติคลัสเตอร์ HDI สําหรับกิจกรรม Azure HDInsight

กําหนดค่าการตั้งค่า

เลือกแท็บการตั้งค่าเพื่อดูการตั้งค่าขั้นสูงสําหรับกิจกรรม

สกรีนช็อตแสดงแท็บการตั้งค่าของคุณสมบัติกิจกรรม Azure HDInsight ในหน้าต่างตัวแก้ไขไปป์ไลน์

ตอนนี้คุณสมบัติคลัสเตอร์ขั้นสูงและนิพจน์แบบไดนามิกทั้งหมดที่ได้รับการสนับสนุนใน Azure Data Factory และ Synapse Analytics HDInsight ที่เชื่อมโยงบริการ ยังได้รับการสนับสนุนในกิจกรรม Azure HDInsight สําหรับ Data Factory ใน Microsoft Fabric ภายใต้ ส่วน ขั้นสูง ใน UI คุณสมบัติเหล่านี้ทั้งหมดรองรับนิพจน์การกําหนดพารามิเตอร์ที่ใช้งานง่ายด้วยเนื้อหาแบบไดนามิก

ชนิดคลัสเตอร์

หากต้องการกําหนดค่าการตั้งค่าสําหรับคลัสเตอร์ HDInsight ของคุณ ก่อนอื่นให้เลือกประเภทจากตัวเลือกที่พร้อมใช้งาน รวมถึง Hive, Map Reduce, Pig, Spark และการสตรีม

ไฮฟ์

หากคุณเลือก Hive สําหรับ Type กิจกรรมจะดําเนินการคิวรี Hive คุณสามารถเลือกระบุ การเชื่อมต่อ สคริปต์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีประเภท Hive ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ใน แท็บคลัสเตอร์ HDI จะถูกนํามาใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือ คุณสามารถระบุการกําหนดค่าเพิ่มเติมในส่วนขั้นสูง ข้อมูลดีบัก การหมดเวลาของคิวรี อาร์กิวเมนต์ พารามิเตอร์ และตัวแปรได้

สกรีนช็อตที่แสดงประเภทของคลัสเตอร์ของ Hive

แผนที่ลด

ถ้าคุณเลือก แผนที่ลด สําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรมลดแผนที่ คุณสามารถเลือกที่จะระบุในการเชื่อมต่อ Jar ที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิดลดแผนที่ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุชื่อคลาสและเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุรายละเอียดการกําหนดค่าเพิ่มเติม เช่น การนําเข้าไลบรารี Jar ข้อมูลดีบัก อาร์กิวเมนต์ และพารามิเตอร์ภายใต้ส่วน ขั้นสูง

สกรีนช็อตแสดงการเลือกแผนที่ลดสําหรับชนิดคลัสเตอร์ HDInsight

หมู

หากคุณเลือก Pig สําหรับ Type กิจกรรมจะเรียกใช้คิวรี Pig คุณสามารถเลือกที่จะระบุ การตั้งค่าการเชื่อมต่อ สคริปต์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีประเภทหมูได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ข้อมูลดีบัก อาร์กิวเมนต์ พารามิเตอร์ และตัวแปรภายใต้ส่วน ขั้นสูง

สกรีนช็อตแสดงการเลือกประเภทหมูสําหรับคลัสเตอร์ HDInsight

Spark

ถ้าคุณเลือก Spark สําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรม Spark เลือกสคริปต์หรือ Jar สําหรับประเภท Spark คุณสามารถเลือกระบุ การเชื่อมต่อ งานที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิด Spark ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ชื่อคลาส ผู้ใช้พร็อกซี ข้อมูลดีบัก อาร์กิวเมนต์ และการกําหนดค่า spark ภายใต้ส่วน ขั้นสูง

สกรีนช็อตแสดงการเลือกชนิด Spark สําหรับคลัสเตอร์ HDInsight

สต รีม มิ่ง

ถ้าคุณเลือก การ สตรีมสําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรมการสตรีม ระบุชื่อ Mapper และ Reducer และคุณสามารถเลือกระบุ การเชื่อมต่อ ไฟล์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิดการสตรีมได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ สําหรับ Mapper และ เส้นทางไฟล์สําหรับ Reducer เพื่อดําเนินการบน Azure HDInsight รวมตัวเลือกอินพุตและเอาต์พุตสําหรับเส้นทาง WASB ด้วย ไม่บังคับ คุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ข้อมูลดีบัก อาร์กิวเมนต์ และพารามิเตอร์ภายใต้ส่วน ขั้นสูง

สกรีนช็อตแสดงการเลือกชนิดการสตรีมสําหรับคลัสเตอร์ HDInsight

การอ้างอิงคุณสมบัติ

คุณสมบัติ รายละเอียด ที่ต้องการ
ชนิด สําหรับกิจกรรมการสตรีม Hadoop ประเภทกิจกรรมคือ HDInsightStreaming ใช่
Mapper ระบุชื่อของการดําเนินการของตัวทําแผนที่ ใช่
ลด ระบุชื่อของตัวลดปฏิบัติการ ใช่
ตัวรวม ระบุชื่อของตัวดําเนินการรวม ไม่
การเชื่อมต่อไฟล์ การอ้างอิงถึงบริการ Azure Storage Linked ที่ใช้ในการจัดเก็บโปรแกรม Mapper, Combiner และ Reducer ที่จะดําเนินการ ไม่
เฉพาะการจัดเก็บข้อมูล Azure Blob และการเชื่อมต่อ ADLS Gen2 เท่านั้นที่ได้รับการสนับสนุนที่นี่ ถ้าคุณไม่ได้ระบุการเชื่อมต่อนี้ จะใช้การเชื่อมต่อพื้นที่จัดเก็บข้อมูลที่กําหนดไว้ในการเชื่อมต่อ HDInsight
filePath ใส่อาร์เรย์ของเส้นทางไปยัง Mapper, Combiner และโปรแกรม Reducer ที่จัดเก็บใน Azure Storage ที่อ้างอิงถึงโดยการเชื่อมต่อไฟล์ ใช่
input ระบุเส้นทาง WASB ไปยังแฟ้มอินพุตสําหรับ Mapper ใช่
output ระบุเส้นทาง WASB ไปยังแฟ้มเอาท์พุทสําหรับตัวลด ใช่
getDebugInfo ระบุเมื่อไฟล์บันทึกถูกคัดลอกไปยัง Azure Storage ที่ใช้โดยคลัสเตอร์ HDInsight (หรือ) ที่ระบุโดย scriptLinkedService ไม่
ค่าที่อนุญาต: None, Always หรือ Failure ค่าเริ่มต้น: ไม่มี
อาร์กิวเมนต์ ระบุอาร์เรย์ของอาร์กิวเมนต์สําหรับงาน Hadoop อาร์กิวเมนต์จะถูกส่งผ่านเป็นอาร์กิวเมนต์บรรทัดคําสั่งไปยังแต่ละงาน ไม่
กำหนด ระบุพารามิเตอร์เป็นคู่คีย์/ค่าสําหรับการอ้างอิงภายในสคริปต์ Hive ไม่

บันทึกและเรียกใช้หรือจัดกําหนดการไปป์ไลน์

หลังจากที่คุณกําหนดค่ากิจกรรมอื่น ๆ ที่จําเป็นสําหรับไปป์ไลน์ของคุณแล้ว ให้สลับไปยังแท็บ หน้าแรก ที่ด้านบนของตัวแก้ไขไปป์ไลน์และเลือกปุ่มบันทึกเพื่อบันทึกไปป์ไลน์ของคุณ เลือก เรียกใช้ เพื่อเรียกใช้โดยตรง หรือ กําหนดเวลา เพื่อกําหนดเวลา คุณยังสามารถดูประวัติการเรียกใช้ที่นี่ หรือกําหนดค่าการตั้งค่าอื่นๆ ได้

สกรีนช็อตแสดงแท็บหน้าแรกของตัวแก้ไขไปป์ไลน์โดยเน้นปุ่มบันทึกเรียกใช้และกําหนดเวลา

วิธีการตรวจสอบการเรียกใช้ไปป์ไลน์