ทําความเข้าใจกระบวนการวิทยาศาสตร์ข้อมูล

6 นาที

วิธีทั่วไปในการดึงข้อมูลเชิงลึกจากข้อมูลคือการแสดงภาพ เมื่อใดก็ตามที่คุณมีชุดข้อมูลที่ซับซ้อน คุณอาจต้องการเจาะลึกลงไปและพยายามค้นหารูปแบบที่ซับซ้อนในข้อมูล

ในฐานะนักวิทยาศาสตร์ข้อมูล คุณสามารถฝึกโมเดลแมชชีนเลิร์นนิงเพื่อค้นหารูปแบบในข้อมูลของคุณได้ คุณสามารถใช้รูปแบบเหล่านั้นเพื่อสร้างข้อมูลเชิงลึกหรือการคาดการณ์ใหม่ๆ ได้ ตัวอย่างเช่น คุณสามารถคาดการณ์จํานวนสินค้าที่คาดว่าจะขายได้ในสัปดาห์หน้า

แม้ว่าการฝึกอบรมโมเดลจะมีความสําคัญ แต่ก็ไม่ใช่งานเดียวในโครงการวิทยาศาสตร์ข้อมูล ก่อนที่จะสํารวจกระบวนการวิทยาศาสตร์ข้อมูลทั่วไป มาสํารวจโมเดลแมชชีนเลิร์นนิงทั่วไปที่คุณสามารถฝึกฝนได้

สํารวจโมเดลแมชชีนเลิร์นนิ่งทั่วไป

จุดประสงค์ของแมชชีนเลิร์นนิงคือการฝึกโมเดลที่สามารถระบุรูปแบบในข้อมูลจํานวนมากได้ จากนั้นคุณสามารถใช้รูปแบบเพื่อคาดการณ์ที่ให้ข้อมูลเชิงลึกใหม่ๆ ที่คุณสามารถดําเนินการได้

ความเป็นไปได้ของแมชชีนเลิร์นนิงอาจดูเหมือนไม่มีที่สิ้นสุด ดังนั้นเรามาเริ่มกันด้วยการทําความเข้าใจโมเดลแมชชีนเลิร์นนิงทั่วไปสี่ประเภท:

แผนภาพของโมเดลแมชชีนเลิร์นนิงทั่วไปสี่ประเภท

การจําแนกประเภท: คาดการณ์ค่าตามหมวดหมู่ เช่น ลูกค้าอาจเลิกใช้บริการหรือไม่
การถดถอย: คาดการณ์ค่าตัวเลข เช่น ราคาของผลิตภัณฑ์
การจัดกลุ่ม: จัดกลุ่มจุดข้อมูลที่คล้ายกันเป็นคลัสเตอร์หรือกลุ่ม
การคาดการณ์: คาดการณ์ค่าตัวเลขในอนาคตตามข้อมูลอนุกรมเวลา เช่น ยอดขายที่คาดว่าจะเกิดขึ้นในเดือนหน้า

ในการตัดสินใจว่าคุณต้องฝึกโมเดลแมชชีนเลิร์นนิงประเภทใดก่อนอื่นคุณต้องเข้าใจปัญหาทางธุรกิจและข้อมูลที่มีให้คุณ

ทําความเข้าใจกระบวนการวิทยาศาสตร์ข้อมูล

ในการฝึกโมเดลแมชชีนเลิร์นนิง กระบวนการนี้มักเกี่ยวข้องกับขั้นตอนต่อไปนี้:

แผนผังของขั้นตอนตามลําดับในกระบวนการวิทยาศาสตร์ข้อมูล

กําหนดปัญหา: ร่วมกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ตัดสินใจว่าแบบจําลองควรคาดการณ์อย่างไรและประสบความสําเร็จเมื่อใด
รับข้อมูล: ค้นหาแหล่งข้อมูลและเข้าถึงโดยจัดเก็บข้อมูลของคุณในเลคเฮ้าส์
เตรียมข้อมูล: สํารวจข้อมูลโดยการอ่านจากเลคเฮ้าส์ลงในสมุดบันทึก ทําความสะอาดและแปลงข้อมูลตามความต้องการของแบบจําลอง
ฝึกแบบจําลอง: เลือกอัลกอริทึมและค่า hyperparameter โดยยึดตามการทดลองใช้และข้อผิดพลาดโดยการติดตามการทดลองของคุณด้วย MLflow
สร้างข้อมูลเชิงลึก: ใช้การให้คะแนนชุดแบบจําลองเพื่อสร้างการคาดการณ์ที่ร้องขอ

ในฐานะนักวิทยาศาสตร์ข้อมูล เวลาส่วนใหญ่ของคุณถูกใช้ไปกับการเตรียมข้อมูลและฝึกโมเดล วิธีที่คุณเตรียมข้อมูลและอัลกอริทึมที่คุณเลือกฝึกโมเดลอาจส่งผลต่อความสําเร็จของโมเดลของคุณ

คุณสามารถเตรียมและฝึกโมเดลได้โดยใช้ไลบรารีโอเพนซอร์สที่พร้อมใช้งานสําหรับภาษาที่คุณเลือก ตัวอย่างเช่น หากคุณทํางานกับ Python คุณสามารถเตรียมข้อมูลด้วย Pandas และ Numpy และฝึกโมเดลด้วยไลบรารี เช่น Scikit-Learn, PyTorch หรือ SynapseML

เมื่อทําการทดลอง คุณต้องการเก็บภาพรวมของโมเดลต่างๆ ทั้งหมดที่คุณได้ฝึกไว้ คุณต้องการทําความเข้าใจว่าตัวเลือกของคุณมีอิทธิพลต่อความสําเร็จของโมเดลอย่างไร การติดตามการทดลองของคุณด้วย MLflow ใน Microsoft Fabric คุณจะสามารถจัดการและปรับใช้โมเดลที่คุณได้ฝึกอบรมได้อย่างง่ายดาย

คำติชม

หน้านี้มีประโยชน์หรือไม่