ai.extract関数では、生成 AI を使用して入力テキストをスキャンし、選択したラベルによって指定された特定の種類の情報 (場所や名前など) を抽出します。 1 行のコードのみを使用します。
注
概要
ai.extract関数は Spark DataFrames で使用できます。 テキストの各行から抽出するエンティティ型の一覧と共に、既存の入力列の名前をパラメーターとして指定する必要があります。
この関数は、入力行ごとに抽出された値を含む、指定されたエンティティ型ごとに個別の列を持つ新しい DataFrame を返します。
構文
df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")
パラメーター
| 名前 | Description |
|---|---|
labels 必須 |
入力列のテキスト値から抽出するエンティティ型のセットを表す文字列の配列。 |
input_col 必須 |
カスタム エンティティをスキャンする入力テキスト値を持つ既存の列の名前を含む 文字列 。 |
aifunc.ExtractLabel オプション |
抽出するフィールドを記述する 1 つ以上のラベル定義。 詳細については、「ExtractLabel Parameters」テーブルを参照してください。 |
error_col オプション |
各入力テキスト行の処理に起因する OpenAI エラーを格納する新しい列の名前を含む 文字列 。 このパラメーターを設定しない場合は、エラー列の既定の名前が生成されます。 入力行にエラーがない場合、この列の値は null。 |
ExtractLabel パラメーター
| 名前 | Description |
|---|---|
label 必須 |
入力テキスト値から抽出するエンティティを表す 文字列 。 |
description オプション |
AI モデルの追加コンテキストを追加する 文字列 。 これには、抽出の実行中に AI が考慮する要件、コンテキスト、または指示が含まれる場合があります。 |
max_items オプション |
このラベルに対して抽出する項目の最大数を指定する int 。 |
type オプション |
抽出された値の JSON スキーマ型。 このクラスでサポートされている型には、 string、 number、 integer、 boolean、 object、および arrayがあります。 |
properties オプション |
ディクショナリとしての型のその他の JSON スキーマ プロパティ。 配列の "items"、オブジェクトの "プロパティ"、列挙型の "enum"など、サポートされているプロパティを含めることができます。 この記事の使用方法の例を参照してください。 |
raw_col オプション |
生の LLM 応答の列名を設定する 文字列 。 生の応答では、"reason" や "extraction_text" など、すべてのエンティティ ラベルのディクショナリ ペアの一覧が提供されます。 |
返品ポリシー
この関数は、指定されたエンティティ型ごとに新しい列を持つ Spark DataFrame を返します。 列には、入力テキストの各行に対して抽出されたエンティティが含まれます。 1 つのエンティティに対して複数の一致が識別された場合、関数はそれらの一致のいずれかを返します。 一致するものが見つからない場合、結果は null。
既定の戻り値の型は、各ラベルの文字列の一覧です。 ユーザーが "type=integer" などの aifunc.ExtractLabel 構成で別の型を指定することを選択した場合、出力は python int の一覧になります。ユーザーが aifunc.ExtractLabel 構成で "max_items=1" を指定すると、そのラベルに対して型の要素が 1 つだけ返されます。
Example
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
], ["descriptions"])
df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)
このコード セルの例では、次の出力が提供されます。
関連コンテンツ
ai.analyze_sentimentを使用してセンチメントを検出します。
ai.classify を使用してテキストを分類します。
ai.embed を使用してベクトル埋め込みを生成します。
ai.fix_grammarを使用して文法を修正します。
ai.generate_responseを使用してカスタム ユーザー プロンプトに応答します。
ai.similarity を使用して類似性を計算します。
ai.summarize を使用してテキストを集計します。
ai.translate を使用してテキストを翻訳します。
AI 関数の完全なセットの詳細を確認します。
必要な機能が見逃されましたか? ファブリックアイデアフォーラムでそれを提案.