แนะ นำ
ไม่น่าแปลกใจที่บทบาทของนักวิทยาศาสตร์ข้อมูลส่วนใหญ่เกี่ยวข้องกับการสํารวจและวิเคราะห์ข้อมูล แม้ว่าผลลัพธ์สุดท้ายของการวิเคราะห์ข้อมูลอาจเป็นรายงานหรือแบบจําลองการเรียนรู้ของเครื่อง แต่นักวิทยาศาสตร์ข้อมูลจะเริ่มทํางานกับข้อมูล โดย Python เป็นนักวิทยาศาสตร์ข้อมูลภาษาการเขียนโปรแกรมที่ได้รับความนิยมมากที่สุดสําหรับการทํางานกับข้อมูล
หลังจากการพัฒนาโอเพนซอร์สหลายทศวรรษ Python มีฟังก์ชันการทํางานที่ครอบคลุมพร้อมไลบรารีทางสถิติและตัวเลขที่มีประสิทธิภาพ:
- NumPy และ Pandas ทําให้การวิเคราะห์และการจัดการข้อมูลง่ายขึ้น
- Matplotlib ให้การแสดงภาพข้อมูลที่น่าดึงดูดใจ
- Scikit-learn นําเสนอการวิเคราะห์ข้อมูลเชิงทํานายที่เรียบง่ายและมีประสิทธิภาพ
- TensorFlow และ PyTorch ซัพพลายแมชชีนเลิร์นนิ่งและความสามารถในการเรียนรู้ลึก
สถานการณ์ตัวอย่าง
โดยปกติแล้ว โครงการการวิเคราะห์ข้อมูลได้รับการออกแบบมาเพื่อสร้างข้อมูลเชิงลึกเกี่ยวกับสถานการณ์เฉพาะหรือเพื่อทดสอบสมมติฐาน
ตัวอย่างเช่นสมมติว่าศาสตราจารย์มหาวิทยาลัยรวบรวมข้อมูลเกี่ยวกับนักเรียนของพวกเขารวมถึงจํานวนการบรรยายที่เข้าร่วมชั่วโมงที่ใช้ในการศึกษาและเกรดสุดท้ายที่ประสบความสําเร็จในตอนท้ายของการสอบ ศาสตราจารย์สามารถวิเคราะห์ข้อมูลเพื่อพิจารณาว่ามีความสัมพันธ์ระหว่างจํานวนการศึกษาที่นักเรียนศึกษาอยู่หรือไม่และได้เกรดสุดท้ายหรือไม่ ศาสตราจารย์อาจใช้ข้อมูลเพื่อทดสอบสมมติฐานว่านักเรียนเท่านั้นที่ศึกษาในจํานวนชั่วโมงขั้นต่ําที่สามารถคาดหวังว่าจะได้เกรดที่ผ่านไป
เราจะทําอะไรได้บ้าง
ในมอดูลการฝึกอบรมนี้ เราจะสํารวจและวิเคราะห์ข้อมูลเกรดสําหรับระดับมหาวิทยาลัยที่สมมุติขึ้นจากมุมมองของศาสตราจารย์ เราจะใช้ Jupyter notebooks และเครื่องมือ Python และไลบรารีหลายตัวเพื่อทําความสะอาดชุดข้อมูล ใช้เทคนิคทางสถิติเพื่อทดสอบสมมติฐานหลายอย่างเกี่ยวกับข้อมูล และแสดงข้อมูลเพื่อกําหนดความสัมพันธ์ระหว่างตัวแปร