TextCatalog.TokenizeIntoWords 메서드
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
Create a WordTokenizingEstimator, which tokenizes input text using separators
as separators.
public static Microsoft.ML.Transforms.Text.WordTokenizingEstimator TokenizeIntoWords (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, char[] separators = default);
static member TokenizeIntoWords : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * char[] -> Microsoft.ML.Transforms.Text.WordTokenizingEstimator
<Extension()>
Public Function TokenizeIntoWords (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional separators As Char() = Nothing) As WordTokenizingEstimator
매개 변수
- catalog
- TransformsCatalog.TextTransforms
텍스트 관련 변환의 카탈로그입니다.
- outputColumnName
- String
의 변환에서 생성된 열의 inputColumnName
이름입니다.
이 열의 데이터 형식은 텍스트의 가변 크기 벡터입니다.
- inputColumnName
- String
변환할 열의 이름입니다. 이 값으로 null
설정하면 값이 outputColumnName
원본으로 사용됩니다.
이 추정기는 텍스트 데이터 형식의 텍스트 및 벡터 스칼라에서 작동합니다.
- separators
- Char[]
사용할 구분 기호입니다(기본적으로 공백 문자 사용).
반환
예제
using System;
using System.Collections.Generic;
using Microsoft.ML;
namespace Samples.Dynamic
{
public static class TokenizeIntoWords
{
public static void Example()
{
// Create a new ML context, for ML.NET operations. It can be used for
// exception tracking and logging, as well as the source of randomness.
var mlContext = new MLContext();
// Create an empty list as the dataset. The 'TokenizeIntoWords' does
// not require training data as the estimator
// ('WordTokenizingEstimator') created by 'TokenizeIntoWords' API is not
// a trainable estimator. The empty list is only needed to pass input
// schema to the pipeline.
var emptySamples = new List<TextData>();
// Convert sample list to an empty IDataView.
var emptyDataView = mlContext.Data.LoadFromEnumerable(emptySamples);
// A pipeline for converting text into vector of words.
// The following call to 'TokenizeIntoWords' tokenizes text/string into
// words using space as a separator. Space is also a default value for
// the 'separators' argument if it is not specified.
var textPipeline = mlContext.Transforms.Text.TokenizeIntoWords("Words",
"Text", separators: new[] { ' ' });
// Fit to data.
var textTransformer = textPipeline.Fit(emptyDataView);
// Create the prediction engine to get the word vector from the input
// text /string.
var predictionEngine = mlContext.Model.CreatePredictionEngine<TextData,
TransformedTextData>(textTransformer);
// Call the prediction API to convert the text into words.
var data = new TextData()
{
Text = "ML.NET's TokenizeIntoWords API " +
"splits text/string into words using the list of characters " +
"provided as separators."
};
var prediction = predictionEngine.Predict(data);
// Print the length of the word vector.
Console.WriteLine($"Number of words: {prediction.Words.Length}");
// Print the word vector.
Console.WriteLine($"\nWords: {string.Join(",", prediction.Words)}");
// Expected output:
// Number of words: 15
// Words: ML.NET's,TokenizeIntoWords,API,splits,text/string,into,words,using,the,list,of,characters,provided,as,separators.
}
private class TextData
{
public string Text { get; set; }
}
private class TransformedTextData : TextData
{
public string[] Words { get; set; }
}
}
}