ทําความเข้าใจกระบวนการวิทยาศาสตร์ข้อมูล
วิธีทั่วไปในการดึงข้อมูลเชิงลึกจากข้อมูลคือการแสดงภาพ เมื่อใดก็ตามที่คุณมีชุดข้อมูลที่ซับซ้อน คุณอาจต้องการเจาะลึกลงไปและพยายามค้นหารูปแบบที่ซับซ้อนในข้อมูล
ในฐานะนักวิทยาศาสตร์ข้อมูล คุณสามารถฝึกโมเดลแมชชีนเลิร์นนิงเพื่อค้นหารูปแบบในข้อมูลของคุณได้ คุณสามารถใช้รูปแบบเหล่านั้นเพื่อสร้างข้อมูลเชิงลึกหรือการคาดการณ์ใหม่ๆ ได้ ตัวอย่างเช่น คุณสามารถคาดการณ์จํานวนสินค้าที่คาดว่าจะขายได้ในสัปดาห์หน้า
แม้ว่าการฝึกอบรมโมเดลจะมีความสําคัญ แต่ก็ไม่ใช่งานเดียวในโครงการวิทยาศาสตร์ข้อมูล ก่อนที่จะสํารวจกระบวนการวิทยาศาสตร์ข้อมูลทั่วไป มาสํารวจโมเดลแมชชีนเลิร์นนิงทั่วไปที่คุณสามารถฝึกฝนได้
สํารวจโมเดลแมชชีนเลิร์นนิ่งทั่วไป
จุดประสงค์ของแมชชีนเลิร์นนิงคือการฝึกโมเดลที่สามารถระบุรูปแบบในข้อมูลจํานวนมากได้ จากนั้นคุณสามารถใช้รูปแบบเพื่อคาดการณ์ที่ให้ข้อมูลเชิงลึกใหม่ๆ ที่คุณสามารถดําเนินการได้
ความเป็นไปได้ของแมชชีนเลิร์นนิงอาจดูเหมือนไม่มีที่สิ้นสุด ดังนั้นเรามาเริ่มกันด้วยการทําความเข้าใจโมเดลแมชชีนเลิร์นนิงทั่วไปสี่ประเภท:
- การจําแนกประเภท: คาดการณ์ค่าตามหมวดหมู่ เช่น ลูกค้าอาจเลิกใช้บริการหรือไม่
- การถดถอย: คาดการณ์ค่าตัวเลข เช่น ราคาของผลิตภัณฑ์
- การจัดกลุ่ม: จัดกลุ่มจุดข้อมูลที่คล้ายกันเป็นคลัสเตอร์หรือกลุ่ม
- การคาดการณ์: คาดการณ์ค่าตัวเลขในอนาคตตามข้อมูลอนุกรมเวลา เช่น ยอดขายที่คาดว่าจะเกิดขึ้นในเดือนหน้า
ในการตัดสินใจว่าคุณต้องฝึกโมเดลแมชชีนเลิร์นนิงประเภทใดก่อนอื่นคุณต้องเข้าใจปัญหาทางธุรกิจและข้อมูลที่มีให้คุณ
ทําความเข้าใจกระบวนการวิทยาศาสตร์ข้อมูล
ในการฝึกโมเดลแมชชีนเลิร์นนิง กระบวนการนี้มักเกี่ยวข้องกับขั้นตอนต่อไปนี้:
- กําหนดปัญหา: ร่วมกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ตัดสินใจว่าแบบจําลองควรคาดการณ์อย่างไรและประสบความสําเร็จเมื่อใด
- รับข้อมูล: ค้นหาแหล่งข้อมูลและเข้าถึงโดยจัดเก็บข้อมูลของคุณในเลคเฮ้าส์
- เตรียมข้อมูล: สํารวจข้อมูลโดยการอ่านจากเลคเฮ้าส์ลงในสมุดบันทึก ทําความสะอาดและแปลงข้อมูลตามความต้องการของแบบจําลอง
- ฝึกแบบจําลอง: เลือกอัลกอริทึมและค่า hyperparameter โดยยึดตามการทดลองใช้และข้อผิดพลาดโดยการติดตามการทดลองของคุณด้วย MLflow
- สร้างข้อมูลเชิงลึก: ใช้การให้คะแนนชุดแบบจําลองเพื่อสร้างการคาดการณ์ที่ร้องขอ
ในฐานะนักวิทยาศาสตร์ข้อมูล เวลาส่วนใหญ่ของคุณถูกใช้ไปกับการเตรียมข้อมูลและฝึกโมเดล วิธีที่คุณเตรียมข้อมูลและอัลกอริทึมที่คุณเลือกฝึกโมเดลอาจส่งผลต่อความสําเร็จของโมเดลของคุณ
คุณสามารถเตรียมและฝึกโมเดลได้โดยใช้ไลบรารีโอเพนซอร์สที่พร้อมใช้งานสําหรับภาษาที่คุณเลือก ตัวอย่างเช่น หากคุณทํางานกับ Python คุณสามารถเตรียมข้อมูลด้วย Pandas และ Numpy และฝึกโมเดลด้วยไลบรารี เช่น Scikit-Learn, PyTorch หรือ SynapseML
เมื่อทําการทดลอง คุณต้องการเก็บภาพรวมของโมเดลต่างๆ ทั้งหมดที่คุณได้ฝึกไว้ คุณต้องการทําความเข้าใจว่าตัวเลือกของคุณมีอิทธิพลต่อความสําเร็จของโมเดลอย่างไร การติดตามการทดลองของคุณด้วย MLflow ใน Microsoft Fabric คุณจะสามารถจัดการและปรับใช้โมเดลที่คุณได้ฝึกอบรมได้อย่างง่ายดาย