다음을 통해 공유


텍스트에서 핵심 구 추출

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

지정된 텍스트에서 핵심 구를 추출합니다.

범주: Text Analytics

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 텍스트에서 핵심 구 추출 모듈을 사용하여 텍스트 열을 미리 처리하는 방법을 설명합니다. 자연어 텍스트 열이 제공되면 모듈은 하나 이상의 의미 있는 구를 추출합니다. 구는 한 단어, 복합 명사 또는 한정자와 명사일 수 있습니다.

이 모듈은 핵심 구 추출을 위한 자연어 처리 API에 대한 래퍼입니다. 구는 여러 가지 이유로 문장 컨텍스트에서 잠재적으로 의미 있는 것으로 분석됩니다.

  • 이 구문은 문장의 주제를 캡처합니다.
  • 이 구에는 감정을 나타내는 한정자와 명사 조합이 포함되어 있습니다.

예를 들어 분석된 문장은 "독특한 장식과 친절한 직원으로 머물 수있는 훌륭한 호텔이었다"고 가정합니다.

텍스트 모듈 에서 핵심 구 추출 은 다음 핵심 구를 반환할 수 있습니다.

  • 멋진 호텔
  • 친절한 직원
  • 독특한 장식

텍스트에서 핵심 구 추출을 구성하는 방법

핵심 구를 추출하려면 텍스트 열이 있는 데이터 세트를 연결해야 합니다.

  1. 텍스트 모듈에서 핵심 구 추출을 Machine Learning Studio(클래식)의 실험에 추가합니다. 그런 다음 하나 이상의 전체 텍스트 열이 있는 데이터 세트를 연결합니다.

  2. 열 선택기를 사용하여 키 구를 추출할 문자열 형식의 열을 선택합니다.

  3. 언어의 경우 구를 분석할 때 사용할 언어를 선택합니다. 언어를 지정하면 대상 언어의 구만 출력됩니다.

  4. 텍스트 열에 여러 언어의 구가 포함된 경우 열에서 식별되는 언어 옵션을 선택합니다. 언어 식별자가 포함된 데이터 집합의 열을 선택할 수 있는 새 열 선택기가 표시됩니다. 언어 식별자는 언어 이름 또는 Iso6391 문화권 식별자일 수 있습니다. 예를 들어 "영어" 또는 "en"은 허용됩니다.

    텍스트에서 핵심 구 추출을 실행하기 전에 언어 검색 모듈을 사용하여 각 행의 언어를 식별하고 식별자를 생성합니다. 언어 식별자 열에 텍스트에서 핵심 구 추출에서 지원되지 않는 언어가 포함되어 있으면 오류가 발생합니다.

결과

모듈의 출력은 쉼표로 구분된 핵심 구의 열을 포함하는 데이터 세트입니다.

예를 들어 다음 예제 결과는 여러 언어로 된 검토를 포함하는 입력 데이터 세트에 대한 것입니다.

핵심 구
소설, 핵 잠수함, 좋은 책, 모험 이야기, 이벤트의 눈사태, 좋은 문자
primer misterio,personajes,fan,aventura,isla
  • 모든 출력 구는 단일 열에 포함됩니다. 다른 열이 전달되지 않고 식별자가 추가되지 않습니다. 그러나 출력 구를 원본 텍스트에 맞추려면 열 추가 모듈을 사용하여 출력 구를 입력과 다시 결합할 수 있습니다.

  • 키 구 추출의 출력은 개별 구의 언어에 플래그를 지정하지 않습니다.

  • 핵심 구 추출 모듈에서 지원하지 않는 언어가 포함된 경우 오류가 발생합니다(0039). 오류를 방지하려면 호환되지 않는 언어 식별자가 있는 입력 텍스트를 필터링해야 합니다.

    다른 언어의 행이 거의 없는 경우 언어 식별자를 생략하고 단일 언어 선택을 사용하여 모든 텍스트를 분석하여 오류를 방지할 수도 있습니다. 그러나 이렇게 하면 다른 언어의 전체 문장이 단일 핵심 구로 출력될 수 있으므로 결과가 매우 나빠집니다.

다음 예제에서는 이 모듈을 사용하여 핵심 구를 추출한 다음 구문에서 단어 클라우드를 빌드하는 방법을 보여 줍니다. 핵심 구 추출 및 Word Cloud 표시

Machine Learning 사용하여 텍스트 처리에 대한 자세한 예제는 Azure AI 갤러리를 참조하세요.

기술 정보

이 모듈은 현재 다음 언어를 지원합니다.

  • 네덜란드어
  • 영어
  • 프랑스어
  • 독일어
  • 이탈리아어
  • 스페인어

추가 언어의 경우 Azure Cognitive Services에서 Text Analytics API를 사용하는 것이 좋습니다. 자세한 내용은 Text Analytics 핵심 구를 추출하는 방법을 참조하세요.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 처리할 텍스트가 포함된 테이블입니다.

모듈 매개 변수

Name Type 범위 Optional 기본값 설명
문화권-언어 열 ColumnSelection language:Column에 언어 포함 문화권 언어 정보를 포함하는 열의 이름 또는 1 기반 인덱스
텍스트 열 ColumnSelection 필수 텍스트 열의 이름 또는 하나의 기반 인덱스입니다.
Language T_Language 영어, 스페인어, 프랑스어, 네덜란드어, 독일어, 이탈리아어, 열에 언어가 포함됩니다. 필수 영어 처리할 텍스트의 언어를 선택합니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 추출된 핵심 구

예외

예외 설명
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0010 입력 데이터 세트에서 일치해야 할 열 이름이 일치하지 않을 경우, 예외가 발생합니다.
오류 0016 모듈에 전달된 입력 데이터 세트의 열 형식이 호환되어야 함에도 실제로 호환되지 않을 경우, 예외가 발생합니다.
오류 0008 매개 변수가 범위 내에 있지 않으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

Text Analytics
전체 모듈 목록