TensorFlow를 사용한 자연어 처리 소개

완료됨

이 모듈에서는 자연어 텍스트를 처리하는 다양한 신경망 아키텍처를 살펴봅니다. 최근 몇 년 동안 NLP( 자연어 처리)는 언어 모델 아키텍처의 개선과 점점 더 큰 텍스트 코퍼스에 대한 교육을 받았기 때문에 필드로 빠르게 성장했습니다. 그 결과 텍스트를 “이해”하는 능력이 크게 향상되었으며 BERT와 같은 대규모로 미리 학습된 모델이 널리 사용되고 있습니다.

TensorFlow에서 NLP를 텐서로 표현하는 기본적인 측면과 단어 모음, 임베딩, 반복 신경망 사용 같은 고전적인 NLP 아키텍처를 중점적으로 살펴봅니다.

자연어 태스크

신경망을 사용하여 해결할 수 있는 다양한 NLP 작업이 있습니다.

  • 텍스트 분류는 텍스트 조각을 미리 정의된 여러 클래스 중 하나로 분류할 때 사용합니다. 대표적인 예는 메일 스팸 검색, 뉴스 분류, 지원 요청을 특정 범주에 할당하기 등이 있습니다.
  • 의도 분류는 대화형 AI 시스템의 입력 발화를 문구의 실제 의미 또는 사용자의 의도를 나타내는 의도 중 하나에 매핑하는 텍스트 분류의 대표적인 사례입니다.
  • 감정 분석은 지정된 텍스트의 긍정성 정도를 이해하려는 회귀 작업입니다. 가장 부정적인 텍스트(-1)에서 가장 긍정적인 텍스트(+1)까지 데이터 세트의 텍스트를 레이블로 지정하고 입력 텍스트의 여러 긍정성을 나타내는 숫자를 출력하는 모델을 학습하려 합니다.
  • 명명된 엔터티 인식(NER)은 날짜, 주소, 사람 이름 등과 같은 텍스트에서 일부 엔터티를 추출하는 작업입니다. NER은 의도 분류와 함께 종종 대화 시스템에서 사용자의 발언에서 매개 변수를 추출하는 데 사용됩니다.
  • 키워드 추출이라는 유사한 태스크를 사용하여 텍스트 내에서 가장 의미 있는 단어를 찾은 다음 태그로 사용할 수 있습니다.
  • 텍스트 요약은 가장 의미 있는 텍스트를 추출하여 원본 텍스트의 압축된 버전을 사용자에게 제공합니다.
  • 질문 답변은 텍스트 조각에서 답변을 추출하는 작업입니다. 이 모델은 텍스트 조각과 질문을 입력으로 사용하여 답변이 포함된 텍스트 내에서 정확한 위치를 찾습니다. 예를 들어 "John은 Microsoft Learn을 즐겨 사용하는 22살 학생입니다"라는 텍스트와 John은 몇 살인가요라는 질문은 22라는 답변을 제공해야 합니다.

이 모듈에서는 주로 텍스트 분류 작업에 중점을 둡니다. 하지만 추후에 더 어려운 작업을 처리하는 데 필요한 중요 개념을 모두 알아봅니다.

학습 목표

  • NLP 작업에서 텍스트가 처리되는 방법 이해하기
  • RNN(순환 신경망) 및 GNN(생성적 신경망)에 대해 알아보기
  • 주의 메커니즘에 대해 알아보기
  • 텍스트 분류 모델을 빌드하는 방법 알아보기

사전 요구 사항

  • Python에 관한 지식
  • 기계 학습에 대한 기본적인 이해