รับและเตรียมข้อมูล

เสร็จสมบูรณ์เมื่อ

ข้อมูลเป็นรากฐานของการเรียนรู้ของเครื่อง ทั้งปริมาณข้อมูลและคุณภาพของข้อมูลจะส่งผลต่อความแม่นยําของแบบจําลอง

ในการฝึกแบบจําลองการเรียนรู้ของเครื่อง คุณจําเป็นต้อง:

  • ระบุแหล่งข้อมูลและรูปแบบ
  • เลือกวิธีการให้บริการข้อมูล
  • ออกแบบโซลูชันการนําเข้าข้อมูล

หากต้องการ รับและเตรียมข้อมูล ที่คุณใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่อง คุณต้องแยกข้อมูลจากแหล่งข้อมูลและทําให้พร้อมใช้งานสําหรับบริการ Azure ที่คุณต้องการใช้ในการฝึกแบบจําลองหรือทําการคาดการณ์

ระบุแหล่งข้อมูลและรูปแบบ

ก่อนอื่น คุณจําเป็นต้องระบุแหล่งข้อมูลของคุณและรูปแบบข้อมูลปัจจุบัน

ระบุ ตัวอย่าง
แหล่งข้อมูล ตัวอย่างเช่น ข้อมูลสามารถถูกจัดเก็บในระบบการจัดการความสัมพันธ์กับลูกค้า (CRM) ในฐานข้อมูลทางทรานแซคชันเช่นฐานข้อมูล SQL หรือสร้างขึ้นโดยอุปกรณ์ Internet of Things (IoT)
รูปแบบข้อมูล คุณจําเป็นต้องทําความเข้าใจรูปแบบปัจจุบันของข้อมูล ซึ่งสามารถเป็นข้อมูลแบบตารางหรือข้อมูลที่มีโครงสร้าง ข้อมูลแบบกึ่งมีโครงสร้าง หรือข้อมูลที่ไม่มีโครงสร้างได้

จากนั้น คุณจะต้องตัดสินใจว่าข้อมูลใดที่คุณต้องการฝึกแบบจําลองของคุณ และในรูปแบบใดที่คุณต้องการให้ข้อมูลนั้นถูกส่งไปยังแบบจําลอง

ออกแบบโซลูชันการนําเข้าข้อมูล

โดยทั่วไป การแยกข้อมูลจากแหล่งข้อมูลเป็นแนวทางปฏิบัติที่ดีที่สุดก่อนที่จะวิเคราะห์ ไม่ว่าคุณจะใช้ข้อมูลสําหรับวิศวกรรมข้อมูล การวิเคราะห์ข้อมูล หรือวิทยาศาสตร์ข้อมูล คุณต้องการแยกข้อมูลจากแหล่งที่มา แปลงและโหลดลงในเลเยอร์การให้บริการ กระบวนการดังกล่าวยังเรียกว่า แยกแปลง และ โหลด (ETL) หรือ แยกโหลด และ แปลง (ELT) เลเยอร์ที่ให้บริการจะทําให้ข้อมูลของคุณพร้อมใช้งานสําหรับบริการที่คุณใช้สําหรับการประมวลผลข้อมูลเพิ่มเติม เช่น แบบจําลองการเรียนรู้ของเครื่องฝึก

หากต้องการย้ายและแปลงข้อมูล คุณสามารถใช้ ไปป์ไลน์การนําเข้าข้อมูลได้ ไปป์ไลน์การนําเข้าข้อมูลเป็นลําดับของงานที่ย้ายและแปลงข้อมูล โดยการสร้างไปป์ไลน์ คุณสามารถเลือกที่จะทริกเกอร์งานด้วยตนเองหรือกําหนดตารางเวลาไปป์ไลน์เมื่อคุณต้องการให้งานเป็นอัตโนมัติ ไปป์ไลน์ดังกล่าวสามารถสร้างขึ้นด้วยบริการ Azure เช่น Azure Synapse Analytics, Azure Databricks และ Azure Machine Learning

วิธีการทั่วไปสําหรับโซลูชันการนําเข้าข้อมูลคือ:

  1. แยกข้อมูลดิบจากแหล่งข้อมูล (เช่น ระบบ CRM หรืออุปกรณ์ IoT)
  2. คัดลอกและแปลงข้อมูลด้วย Azure Synapse Analytics
  3. จัดเก็บข้อมูลที่จัดเตรียมไว้ใน Azure Blob Storage
  4. ฝึกแบบจําลองด้วย Azure Machine Learning

แผนภาพแสดงตัวอย่างของไปป์ไลน์การนําเข้าข้อมูล

สํารวจตัวอย่าง

ลองจินตนาการว่าคุณต้องการฝึกแบบจําลองการพยากรณ์อากาศ คุณต้องการหนึ่งตารางที่มีการวัดอุณหภูมิทั้งหมดของแต่ละนาทีรวมกัน คุณต้องการสร้างผลรวมของข้อมูลและมีตารางของอุณหภูมิเฉลี่ยต่อชั่วโมง หากต้องการสร้างตาราง คุณต้องแปลงข้อมูลแบบกึ่งมีโครงสร้างที่นําเข้าจากอุปกรณ์ IoT ที่วัดอุณหภูมิตามช่วงเวลาเป็นข้อมูลตาราง

แผนภาพแสดงตัวอย่างของข้อมูล JSON ที่แปลงเป็นตาราง

ตัวอย่างเช่น ในการสร้างชุดข้อมูลที่คุณสามารถใช้เพื่อฝึกแบบจําลองการคาดการณ์ คุณสามารถ:

  1. แยกการวัดข้อมูลเป็นวัตถุ JSON จากอุปกรณ์ IoT
  2. แปลงวัตถุ JSON เป็นตาราง
  3. แปลงข้อมูลเพื่อรับอุณหภูมิต่อเครื่องต่อนาที

ถัดไป เรามาสํารวจบริการที่เราสามารถใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่อง