Aracılığıyla paylaş


PySpark ile ai.extract kullanma

İşlev, ai.extract giriş metnini taramak ve seçtiğiniz etiketler (örneğin, konumlar veya adlar) tarafından belirlenen belirli bilgi türlerini ayıklamak için üretken yapay zeka kullanır. Yalnızca tek bir kod satırı kullanır.

Uyarı

Genel Bakış

ai.extract İşlev, Spark DataFrames için kullanılabilir. Var olan bir giriş sütununun adını parametre olarak ve her metin satırından ayıklanması gereken varlık türlerinin listesini belirtmelisiniz.

İşlev, her giriş satırı için ayıklanan değerleri içeren belirtilen her varlık türü için ayrı bir sütun içeren yeni bir DataFrame döndürür.

Sözdizimi

df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")

Parametreler

İsim Description
labels
Gerekli
Giriş sütunundaki metin değerlerinden ayıklanan varlık türleri kümesini temsil eden dize dizisi.
input_col
Gerekli
Özel varlıkları taramak için giriş metin değerlerine sahip mevcut bir sütunun adını içeren dize .
error_col
Opsiyonel
Her giriş metin satırının işlenmesinden kaynaklanan OpenAI hatalarını depolamak için yeni sütunun adını içeren bir dizesi. Bu parametreyi ayarlamazsanız hata sütunu için varsayılan bir ad oluşturur. Giriş satırında hata yoksa, bu sütundaki değer nullolur.

İade

İşlev, belirtilen her varlık türü için yeni bir sütun içeren bir Spark DataFrame döndürür. Sütun veya sütunlar, giriş metninin her satırı için ayıklanan varlıkları içerir. İşlev bir varlık için birden fazla eşleşme tanımlarsa, bu eşleşmelerden yalnızca birini döndürür. Eşleşme bulunmazsa, sonuç nullolur.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Microsoft.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

Özgün veri çerçevesinden ayıklanan verileri içeren 'name', 'profession' ve 'city' sütunlarını içeren yeni bir veri çerçevesini gösteren ekran görüntüsü.