รับและเตรียมข้อมูล
ข้อมูลเป็นรากฐานของการเรียนรู้ของเครื่อง ทั้งปริมาณข้อมูลและคุณภาพของข้อมูลจะส่งผลต่อความแม่นยําของแบบจําลอง
ในการฝึกแบบจําลองการเรียนรู้ของเครื่อง คุณจําเป็นต้อง:
- ระบุแหล่งข้อมูลและรูปแบบ
- เลือกวิธีการให้บริการข้อมูล
- ออกแบบโซลูชันการนําเข้าข้อมูล
หากต้องการ รับและเตรียมข้อมูล ที่คุณใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่อง คุณต้องแยกข้อมูลจากแหล่งข้อมูลและทําให้พร้อมใช้งานสําหรับบริการ Azure ที่คุณต้องการใช้ในการฝึกแบบจําลองหรือทําการคาดการณ์
ระบุแหล่งข้อมูลและรูปแบบ
ก่อนอื่น คุณจําเป็นต้องระบุแหล่งข้อมูลของคุณและรูปแบบข้อมูลปัจจุบัน
| ระบุ | ตัวอย่าง |
|---|---|
| แหล่งข้อมูล | ตัวอย่างเช่น ข้อมูลสามารถถูกจัดเก็บในระบบการจัดการความสัมพันธ์กับลูกค้า (CRM) ในฐานข้อมูลทางทรานแซคชันเช่นฐานข้อมูล SQL หรือสร้างขึ้นโดยอุปกรณ์ Internet of Things (IoT) |
| รูปแบบข้อมูล | คุณจําเป็นต้องทําความเข้าใจรูปแบบปัจจุบันของข้อมูล ซึ่งสามารถเป็นข้อมูลแบบตารางหรือข้อมูลที่มีโครงสร้าง ข้อมูลแบบกึ่งมีโครงสร้าง หรือข้อมูลที่ไม่มีโครงสร้างได้ |
จากนั้น คุณจะต้องตัดสินใจว่าข้อมูลใดที่คุณต้องการฝึกแบบจําลองของคุณ และในรูปแบบใดที่คุณต้องการให้ข้อมูลนั้นถูกส่งไปยังแบบจําลอง
ออกแบบโซลูชันการนําเข้าข้อมูล
โดยทั่วไป การแยกข้อมูลจากแหล่งข้อมูลเป็นแนวทางปฏิบัติที่ดีที่สุดก่อนที่จะวิเคราะห์ ไม่ว่าคุณจะใช้ข้อมูลสําหรับวิศวกรรมข้อมูล การวิเคราะห์ข้อมูล หรือวิทยาศาสตร์ข้อมูล คุณต้องการแยกข้อมูลจากแหล่งที่มา แปลงและโหลดลงในเลเยอร์การให้บริการ กระบวนการดังกล่าวยังเรียกว่า แยกแปลง และ โหลด (ETL) หรือ แยกโหลด และ แปลง (ELT) เลเยอร์ที่ให้บริการจะทําให้ข้อมูลของคุณพร้อมใช้งานสําหรับบริการที่คุณใช้สําหรับการประมวลผลข้อมูลเพิ่มเติม เช่น แบบจําลองการเรียนรู้ของเครื่องฝึก
หากต้องการย้ายและแปลงข้อมูล คุณสามารถใช้ ไปป์ไลน์การนําเข้าข้อมูลได้ ไปป์ไลน์การนําเข้าข้อมูลเป็นลําดับของงานที่ย้ายและแปลงข้อมูล โดยการสร้างไปป์ไลน์ คุณสามารถเลือกที่จะทริกเกอร์งานด้วยตนเองหรือกําหนดตารางเวลาไปป์ไลน์เมื่อคุณต้องการให้งานเป็นอัตโนมัติ ไปป์ไลน์ดังกล่าวสามารถสร้างขึ้นด้วยบริการ Azure เช่น Azure Synapse Analytics, Azure Databricks และ Azure Machine Learning
วิธีการทั่วไปสําหรับโซลูชันการนําเข้าข้อมูลคือ:
- แยกข้อมูลดิบจากแหล่งข้อมูล (เช่น ระบบ CRM หรืออุปกรณ์ IoT)
- คัดลอกและแปลงข้อมูลด้วย Azure Synapse Analytics
- จัดเก็บข้อมูลที่จัดเตรียมไว้ใน Azure Blob Storage
- ฝึกแบบจําลองด้วย Azure Machine Learning
สํารวจตัวอย่าง
ลองจินตนาการว่าคุณต้องการฝึกแบบจําลองการพยากรณ์อากาศ คุณต้องการหนึ่งตารางที่มีการวัดอุณหภูมิทั้งหมดของแต่ละนาทีรวมกัน คุณต้องการสร้างผลรวมของข้อมูลและมีตารางของอุณหภูมิเฉลี่ยต่อชั่วโมง หากต้องการสร้างตาราง คุณต้องแปลงข้อมูลแบบกึ่งมีโครงสร้างที่นําเข้าจากอุปกรณ์ IoT ที่วัดอุณหภูมิตามช่วงเวลาเป็นข้อมูลตาราง
ตัวอย่างเช่น ในการสร้างชุดข้อมูลที่คุณสามารถใช้เพื่อฝึกแบบจําลองการคาดการณ์ คุณสามารถ:
- แยกการวัดข้อมูลเป็นวัตถุ JSON จากอุปกรณ์ IoT
- แปลงวัตถุ JSON เป็นตาราง
- แปลงข้อมูลเพื่อรับอุณหภูมิต่อเครื่องต่อนาที
ถัดไป เรามาสํารวจบริการที่เราสามารถใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่อง