บทนําสู่การประมวลผลภาษาธรรมชาติด้วย TensorFlow
ในโมดูลนี้เราจะสํารวจสถาปัตยกรรมเครือข่ายประสาทที่แตกต่างกันสําหรับการจัดการกับข้อความภาษาธรรมชาติ ในช่วงไม่กี่ปีที่ผ่านมา Natural Language Processing (NLP) มีการเติบโตอย่างรวดเร็วในฐานะเขตข้อมูล ทั้งนี้เนื่องจากการปรับปรุงสถาปัตยกรรมแบบจําลองภาษาและเนื่องจากพวกเขาได้รับการฝึกฝนเกี่ยวกับ corpora ข้อความจํานวนมาก ด้วยเหตุนี้ ความสามารถในการ "เข้าใจ" ข้อความจึงดีขึ้นอย่างมาก และแบบจําลองที่ได้รับการฝึกฝนมาล่วงหน้าขนาดใหญ่ เช่น BERT ได้ถูกใช้อย่างกว้างขวาง
เราจะมุ่งเน้นที่ปัจจัยพื้นฐานของการเป็นตัวแทน NLP ในฐานะผู้เช่าใน TensorFlow และบนสถาปัตยกรรม NLP แบบคลาสสิก เช่น การใช้ถุงคํา การฝังตัว และเครือข่ายประสาทซ้ํา
งานด้านภาษาธรรมชาติ
มีงาน NLP หลายอย่างที่เราสามารถแก้ไขได้โดยใช้เครือข่ายประสาท:
- ใช้ การจัดประเภทแบบข้อความเมื่อเราจําเป็นต้องจัดประเภทส่วนข้อความลงในหนึ่งในคลาสที่กําหนดไว้ล่วงหน้าหลายรายการ ตัวอย่างเช่น การตรวจหาสแปมทางอีเมล การจัดประเภทข่าวสาร การกําหนดคําขอการสนับสนุนในหมวดหมู่หนึ่ง และอื่น ๆ
- การจัดประเภทเจตนา เป็นกรณีเฉพาะของการจําแนกประเภทข้อความที่เราต้องการแมปคําพูดป้อนเข้าในระบบ AI การสนทนาลงในหนึ่งในเจตนาที่แสดงความหมายที่แท้จริงของวลีหรือเจตนาของผู้ใช้
- การวิเคราะห์ความคิดเห็นเป็นงานการถดถอย ซึ่งเราต้องการทําความเข้าใจระดับความไวของข้อความที่ระบุ เราอาจต้องป้ายชื่อข้อความในชุดข้อมูลจากค่าลบมากที่สุด (-1) เป็นบวกมากที่สุด (+1) และฝึกแบบจําลองที่จะแสดงผลตัวเลขที่แสดงถึงความเป็นไปได้ของข้อความที่ป้อนเข้า
- การจดจําเอนทิตีที่มีชื่อ (NER) เป็นงานของการแยกเอนทิตีจากข้อความ เช่น วันที่ ที่อยู่ ชื่อบุคคล และอื่น ๆ เมื่อรวมกับการจัดประเภทเจตนา NER มักใช้ในระบบโต้ตอบเพื่อแยกพารามิเตอร์ออกจากเปลวอดของผู้ใช้
- งานที่คล้ายกันของ การแยกคําสําคัญ สามารถใช้เพื่อค้นหาคําที่มีความหมายมากที่สุดภายในข้อความซึ่งสามารถใช้เป็นแท็กได้
- การสรุปข้อความ แยกข้อความที่มีความหมายมากที่สุด ให้ข้อความต้นฉบับเป็นเวอร์ชันบีบอัดแก่ผู้ใช้
- การตอบคําถามคืองานในการแยกคําตอบจากส่วนหนึ่งของข้อความ แบบจําลองนี้ใช้ส่วนย่อยของข้อความและคําถามเป็นข้อมูลป้อนเข้า และค้นหาตําแหน่งที่แน่นอนภายในข้อความที่มีคําตอบ ตัวอย่างเช่น ข้อความ "John เป็นนักเรียนอายุ 22 ปีที่รักใช้ Microsoft Learn" และคําถาม John อายุเท่าไหร่ ควรให้คําตอบ 22
ในโมดูลนี้ เราจะมุ่งเน้นไปที่งาน การจัดประเภทแบบข้อความ เป็นส่วนใหญ่ อย่างไรก็ตาม เราจะได้เรียนรู้แนวคิดที่สําคัญทั้งหมดที่เราต้องการจัดการงานที่ยากมากขึ้นในอนาคต
วัตถุประสงค์การเรียนรู้
- ทําความเข้าใจวิธีประมวลผลข้อความสําหรับงาน NLP
- เรียนรู้เกี่ยวกับเครือข่ายประสาทที่เกิดซ้ํา (RNNs) และเครือข่ายประสาทที่ก่อให้เกิดเหตุการณ์ (GNNs)
- เรียนรู้เกี่ยวกับกลไกการให้ความสนใจ
- เรียนรู้วิธีการสร้างแบบจําลองการจัดประเภทแบบข้อความ
ข้อกําหนดเบื้องต้น
- ความรู้เกี่ยวกับ Python
- ความเข้าใจพื้นฐานของการเรียนรู้ของเครื่อง