将 ai.classify 与 PySpark 配合使用

ai.classify 函数使用生成 AI 根据所选的自定义标签对输入文本进行分类,只需一行代码。

注释

  • 本文介绍如何将 ai.classify 与 PySpark 配合使用。 若要将 ai.classify 与 pandas 配合使用,请参阅 本文
  • 请参阅 本概述文章中的其他 AI 函数。
  • 了解如何自定义 AI 函数的配置

概述

ai.classify 函数可用于 Spark 数据帧。 必须将现有输入列的名称指定为参数,以及分类标签的列表。

该函数返回一个新的数据帧,其中包含与每行输入文本匹配的标签,这些标签存储在输出列中。

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

参数

Name Description
labels
必选
一个字符串数组,表示要与输入列中的文本值匹配的分类标签集。
input_col
必选
一个 字符串 ,包含现有列的名称,其中包含输入文本值,以便根据自定义标签进行分类。
output_col
可选
一个 字符串 ,其中包含要为每个输入文本行存储分类标签的新列的名称。 如果未设置此参数,则会为输出列生成默认名称。
error_col
可选
一个包含新列名称的 字符串 。 新列存储因处理每行输入文本而导致的任何 OpenAI 错误。 如果未设置此参数,则会为错误列生成默认名称。 如果输入行没有错误,则此列中的值为 null

退货

该函数返回一个 Spark 数据帧 ,其中包含一个新列,其中包含与每个输入文本行匹配的分类标签。 如果无法对文本值进行分类,则对应的标签为 null

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

此示例代码单元提供以下输出:

数据帧的屏幕截图,其中包含“说明”和“类别”列。“category”列列出每个说明的类别名称。