บทนําสู่การประมวลผลภาษาธรรมชาติด้วย TensorFlow

เสร็จสมบูรณ์เมื่อ

ในโมดูลนี้เราจะสํารวจสถาปัตยกรรมเครือข่ายประสาทที่แตกต่างกันสําหรับการจัดการกับข้อความภาษาธรรมชาติ ในช่วงไม่กี่ปีที่ผ่านมา Natural Language Processing (NLP) มีการเติบโตอย่างรวดเร็วในฐานะเขตข้อมูล ทั้งนี้เนื่องจากการปรับปรุงสถาปัตยกรรมแบบจําลองภาษาและเนื่องจากพวกเขาได้รับการฝึกฝนเกี่ยวกับ corpora ข้อความจํานวนมาก ด้วยเหตุนี้ ความสามารถในการ "เข้าใจ" ข้อความจึงดีขึ้นอย่างมาก และแบบจําลองที่ได้รับการฝึกฝนมาล่วงหน้าขนาดใหญ่ เช่น BERT ได้ถูกใช้อย่างกว้างขวาง

เราจะมุ่งเน้นที่ปัจจัยพื้นฐานของการเป็นตัวแทน NLP ในฐานะผู้เช่าใน TensorFlow และบนสถาปัตยกรรม NLP แบบคลาสสิก เช่น การใช้ถุงคํา การฝังตัว และเครือข่ายประสาทซ้ํา

งานด้านภาษาธรรมชาติ

มีงาน NLP หลายอย่างที่เราสามารถแก้ไขได้โดยใช้เครือข่ายประสาท:

  • ใช้ การจัดประเภทแบบข้อความเมื่อเราจําเป็นต้องจัดประเภทส่วนข้อความลงในหนึ่งในคลาสที่กําหนดไว้ล่วงหน้าหลายรายการ ตัวอย่างเช่น การตรวจหาสแปมทางอีเมล การจัดประเภทข่าวสาร การกําหนดคําขอการสนับสนุนในหมวดหมู่หนึ่ง และอื่น ๆ
  • การจัดประเภทเจตนา เป็นกรณีเฉพาะของการจําแนกประเภทข้อความที่เราต้องการแมปคําพูดป้อนเข้าในระบบ AI การสนทนาลงในหนึ่งในเจตนาที่แสดงความหมายที่แท้จริงของวลีหรือเจตนาของผู้ใช้
  • การวิเคราะห์ความคิดเห็นเป็นงานการถดถอย ซึ่งเราต้องการทําความเข้าใจระดับความไวของข้อความที่ระบุ เราอาจต้องป้ายชื่อข้อความในชุดข้อมูลจากค่าลบมากที่สุด (-1) เป็นบวกมากที่สุด (+1) และฝึกแบบจําลองที่จะแสดงผลตัวเลขที่แสดงถึงความเป็นไปได้ของข้อความที่ป้อนเข้า
  • การจดจําเอนทิตีที่มีชื่อ (NER) เป็นงานของการแยกเอนทิตีจากข้อความ เช่น วันที่ ที่อยู่ ชื่อบุคคล และอื่น ๆ เมื่อรวมกับการจัดประเภทเจตนา NER มักใช้ในระบบโต้ตอบเพื่อแยกพารามิเตอร์ออกจากเปลวอดของผู้ใช้
  • งานที่คล้ายกันของ การแยกคําสําคัญ สามารถใช้เพื่อค้นหาคําที่มีความหมายมากที่สุดภายในข้อความซึ่งสามารถใช้เป็นแท็กได้
  • การสรุปข้อความ แยกข้อความที่มีความหมายมากที่สุด ให้ข้อความต้นฉบับเป็นเวอร์ชันบีบอัดแก่ผู้ใช้
  • การตอบคําถามคืองานในการแยกคําตอบจากส่วนหนึ่งของข้อความ แบบจําลองนี้ใช้ส่วนย่อยของข้อความและคําถามเป็นข้อมูลป้อนเข้า และค้นหาตําแหน่งที่แน่นอนภายในข้อความที่มีคําตอบ ตัวอย่างเช่น ข้อความ "John เป็นนักเรียนอายุ 22 ปีที่รักใช้ Microsoft Learn" และคําถาม John อายุเท่าไหร่ ควรให้คําตอบ 22

ในโมดูลนี้ เราจะมุ่งเน้นไปที่งาน การจัดประเภทแบบข้อความ เป็นส่วนใหญ่ อย่างไรก็ตาม เราจะได้เรียนรู้แนวคิดที่สําคัญทั้งหมดที่เราต้องการจัดการงานที่ยากมากขึ้นในอนาคต

วัตถุประสงค์การเรียนรู้

  • ทําความเข้าใจวิธีประมวลผลข้อความสําหรับงาน NLP
  • เรียนรู้เกี่ยวกับเครือข่ายประสาทที่เกิดซ้ํา (RNNs) และเครือข่ายประสาทที่ก่อให้เกิดเหตุการณ์ (GNNs)
  • เรียนรู้เกี่ยวกับกลไกการให้ความสนใจ
  • เรียนรู้วิธีการสร้างแบบจําลองการจัดประเภทแบบข้อความ

ข้อกําหนดเบื้องต้น

  • ความรู้เกี่ยวกับ Python
  • ความเข้าใจพื้นฐานของการเรียนรู้ของเครื่อง