แปลงข้อมูลโดยการเรียกใช้กิจกรรม Azure HDInsight
กิจกรรม Azure HDInsight ใน Data Factory สําหรับ Microsoft Fabric ช่วยให้คุณสามารถปรับประเภทของงาน Azure HDInsight ต่อไปนี้:
- ใช้คิวรี Hive
- เรียกใช้โปรแกรม MapReduce
- ดําเนินการคิวรี Pig
- ดําเนินการโปรแกรม Spark
- ดําเนินการโปรแกรม Hadoop Stream
บทความนี้ให้คําแนะนําทีละขั้นตอนที่อธิบายวิธีการสร้างกิจกรรม Azure HDInsight โดยใช้อินเทอร์เฟซ Data Factory
ข้อกำหนดเบื้องต้น
เมื่อต้องการเริ่มต้นใช้งาน คุณต้องดําเนินการข้อกําหนดเบื้องต้นต่อไปนี้ให้เสร็จสมบูรณ์:
- บัญชีผู้เช่าที่มีการสมัครใช้งานที่ใช้งานอยู่ สร้างบัญชีฟรี
- พื้นที่ทํางานจะถูกสร้างขึ้น
เพิ่มกิจกรรม Azure HDInsight (HDI) ไปยังไปป์ไลน์ด้วย UI
สร้างไปป์ไลน์ข้อมูลใหม่ในพื้นที่ทํางานของคุณ
ค้นหา Azure HDInsight จากการ์ดหน้าจอหลัก และเลือกหรือเลือกกิจกรรมจากแถบกิจกรรมเพื่อเพิ่มไปยังพื้นที่ทํางานของไปป์ไลน์
เลือกกิจกรรม Azure HDInsight ใหม่บนพื้นที่ตัวแก้ไขไปป์ไลน์ถ้ายังไม่ได้เลือกไว้
โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าตัวเลือกที่พบในแท็บ การตั้งค่าทั่วไป
กําหนดค่าคลัสเตอร์ HDI
เลือกแท็บคลัสเตอร์ HDI จากนั้นคุณสามารถเลือกการเชื่อมต่อ HDInsight ที่มีอยู่หรือสร้างใหม่
สําหรับการเชื่อมต่อทรัพยากร เลือกที่เก็บข้อมูล Azure Blob ที่อ้างอิงคลัสเตอร์ Azure HDInsight ของคุณ คุณสามารถเลือกร้านค้า Blob ที่มีอยู่ หรือสร้างร้านค้าใหม่ได้
กําหนดค่าการตั้งค่า
เลือกแท็บการตั้งค่าเพื่อดูการตั้งค่าขั้นสูงสําหรับกิจกรรม
ตอนนี้คุณสมบัติคลัสเตอร์ขั้นสูงและนิพจน์แบบไดนามิกทั้งหมดที่ได้รับการสนับสนุนใน Azure Data Factory และ Synapse Analytics HDInsight ที่เชื่อมโยงบริการ ยังได้รับการสนับสนุนในกิจกรรม Azure HDInsight สําหรับ Data Factory ใน Microsoft Fabric ภายใต้ ส่วน ขั้นสูง ใน UI คุณสมบัติเหล่านี้ทั้งหมดรองรับนิพจน์การกําหนดพารามิเตอร์ที่ใช้งานง่ายด้วยเนื้อหาแบบไดนามิก
ชนิดคลัสเตอร์
หากต้องการกําหนดค่าการตั้งค่าสําหรับคลัสเตอร์ HDInsight ของคุณ ก่อนอื่นให้เลือกประเภทจากตัวเลือกที่พร้อมใช้งาน รวมถึง Hive, Map Reduce, Pig, Spark และการสตรีม
ไฮฟ์
หากคุณเลือก Hive สําหรับ Type กิจกรรมจะดําเนินการคิวรี Hive คุณสามารถเลือกระบุ การเชื่อมต่อ สคริปต์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีประเภท Hive ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ใน แท็บคลัสเตอร์ HDI จะถูกนํามาใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือ คุณสามารถระบุการกําหนดค่าเพิ่มเติมในส่วนขั้นสูง ข้อมูลดีบัก การหมดเวลาของคิวรี อาร์กิวเมนต์ พารามิเตอร์ และตัวแปรได้
แผนที่ลด
ถ้าคุณเลือก แผนที่ลด สําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรมลดแผนที่ คุณสามารถเลือกที่จะระบุในการเชื่อมต่อ Jar ที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิดลดแผนที่ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุชื่อคลาสและเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุรายละเอียดการกําหนดค่าเพิ่มเติม เช่น การนําเข้าไลบรารี Jar ข้อมูลดีบัก อาร์กิวเมนต์ และพารามิเตอร์ภายใต้ส่วน ขั้นสูง
หมู
หากคุณเลือก Pig สําหรับ Type กิจกรรมจะเรียกใช้คิวรี Pig คุณสามารถเลือกที่จะระบุ การตั้งค่าการเชื่อมต่อ สคริปต์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีประเภทหมูได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ข้อมูลดีบัก อาร์กิวเมนต์ พารามิเตอร์ และตัวแปรภายใต้ส่วน ขั้นสูง
Spark
ถ้าคุณเลือก Spark สําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรม Spark เลือกสคริปต์หรือ Jar สําหรับประเภท Spark คุณสามารถเลือกระบุ การเชื่อมต่อ งานที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิด Spark ได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ที่จะดําเนินการบน Azure HDInsight อีกทางหนึ่งคือคุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ชื่อคลาส ผู้ใช้พร็อกซี ข้อมูลดีบัก อาร์กิวเมนต์ และการกําหนดค่า spark ภายใต้ส่วน ขั้นสูง
สต รีม มิ่ง
ถ้าคุณเลือก การ สตรีมสําหรับ ชนิด กิจกรรมจะเรียกใช้โปรแกรมการสตรีม ระบุชื่อ Mapper และ Reducer และคุณสามารถเลือกระบุ การเชื่อมต่อ ไฟล์ที่อ้างอิงบัญชีเก็บข้อมูลที่มีชนิดการสตรีมได้ ตามค่าเริ่มต้น การเชื่อมต่อการจัดเก็บข้อมูลที่คุณระบุไว้ในแท็บคลัสเตอร์ HDI ถูกใช้ คุณจําเป็นต้องระบุเส้นทางไฟล์ สําหรับ Mapper และ เส้นทางไฟล์สําหรับ Reducer เพื่อดําเนินการบน Azure HDInsight รวมตัวเลือกอินพุตและเอาต์พุตสําหรับเส้นทาง WASB ด้วย ไม่บังคับ คุณสามารถระบุการกําหนดค่าเพิ่มเติม เช่น ข้อมูลดีบัก อาร์กิวเมนต์ และพารามิเตอร์ภายใต้ส่วน ขั้นสูง
การอ้างอิงคุณสมบัติ
คุณสมบัติ | รายละเอียด | ที่ต้องการ |
---|---|---|
ชนิด | สําหรับกิจกรรมการสตรีม Hadoop ประเภทกิจกรรมคือ HDInsightStreaming | ใช่ |
Mapper | ระบุชื่อของการดําเนินการของตัวทําแผนที่ | ใช่ |
ลด | ระบุชื่อของตัวลดปฏิบัติการ | ใช่ |
ตัวรวม | ระบุชื่อของตัวดําเนินการรวม | ไม่ |
การเชื่อมต่อไฟล์ | การอ้างอิงถึงบริการ Azure Storage Linked ที่ใช้ในการจัดเก็บโปรแกรม Mapper, Combiner และ Reducer ที่จะดําเนินการ | ไม่ |
เฉพาะการจัดเก็บข้อมูล Azure Blob และการเชื่อมต่อ ADLS Gen2 เท่านั้นที่ได้รับการสนับสนุนที่นี่ ถ้าคุณไม่ได้ระบุการเชื่อมต่อนี้ จะใช้การเชื่อมต่อพื้นที่จัดเก็บข้อมูลที่กําหนดไว้ในการเชื่อมต่อ HDInsight | ||
filePath | ใส่อาร์เรย์ของเส้นทางไปยัง Mapper, Combiner และโปรแกรม Reducer ที่จัดเก็บใน Azure Storage ที่อ้างอิงถึงโดยการเชื่อมต่อไฟล์ | ใช่ |
input | ระบุเส้นทาง WASB ไปยังแฟ้มอินพุตสําหรับ Mapper | ใช่ |
output | ระบุเส้นทาง WASB ไปยังแฟ้มเอาท์พุทสําหรับตัวลด | ใช่ |
getDebugInfo | ระบุเมื่อไฟล์บันทึกถูกคัดลอกไปยัง Azure Storage ที่ใช้โดยคลัสเตอร์ HDInsight (หรือ) ที่ระบุโดย scriptLinkedService | ไม่ |
ค่าที่อนุญาต: None, Always หรือ Failure ค่าเริ่มต้น: ไม่มี | ||
อาร์กิวเมนต์ | ระบุอาร์เรย์ของอาร์กิวเมนต์สําหรับงาน Hadoop อาร์กิวเมนต์จะถูกส่งผ่านเป็นอาร์กิวเมนต์บรรทัดคําสั่งไปยังแต่ละงาน | ไม่ |
กำหนด | ระบุพารามิเตอร์เป็นคู่คีย์/ค่าสําหรับการอ้างอิงภายในสคริปต์ Hive | ไม่ |
บันทึกและเรียกใช้หรือจัดกําหนดการไปป์ไลน์
หลังจากที่คุณกําหนดค่ากิจกรรมอื่น ๆ ที่จําเป็นสําหรับไปป์ไลน์ของคุณแล้ว ให้สลับไปยังแท็บ หน้าแรก ที่ด้านบนของตัวแก้ไขไปป์ไลน์และเลือกปุ่มบันทึกเพื่อบันทึกไปป์ไลน์ของคุณ เลือก เรียกใช้ เพื่อเรียกใช้โดยตรง หรือ กําหนดเวลา เพื่อกําหนดเวลา คุณยังสามารถดูประวัติการเรียกใช้ที่นี่ หรือกําหนดค่าการตั้งค่าอื่นๆ ได้