PySpark ile ai.extract kullanma

İşlev, ai.extract giriş metnini taramak ve seçtiğiniz etiketler (örneğin, konumlar veya adlar) tarafından belirlenen belirli bilgi türlerini ayıklamak için üretken yapay zeka kullanır. Yalnızca tek bir kod satırı kullanır.

Uyarı

Bu makalede PySpark ile ai.extract kullanımı yer almaktadır. pandas ile ai.extract kullanmak için bu makaleye bakın.
Bu genel bakış makalesinde diğer yapay zeka işlevlerine bakın.
Yapay zeka işlevlerinin yapılandırmasını özelleştirmeyi öğrenin.

Genel Bakış

ai.extract İşlev, Spark DataFrames için kullanılabilir. Var olan bir giriş sütununun adını parametre olarak ve her metin satırından ayıklanması gereken varlık türlerinin listesini belirtmelisiniz.

İşlev, her giriş satırı için ayıklanan değerleri içeren belirtilen her varlık türü için ayrı bir sütun içeren yeni bir DataFrame döndürür.

Sözdizimi

df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")

Parametreler

İsim	Description
`labels` Gerekli	Giriş sütunundaki metin değerlerinden ayıklanan varlık türleri kümesini temsil eden dize dizisi.
`input_col` Gerekli	Özel varlıkları taramak için giriş metin değerlerine sahip mevcut bir sütunun adını içeren dize .
`aifunc.ExtractLabel` Opsiyonel	Ayıklanması gereken alanların tanımını içeren bir veya daha fazla etiket tanımı. Daha fazla bilgi için ExtractLabel Parametreleri tablosuna bakın.
`error_col` Opsiyonel	Her giriş metin satırının işlenmesinden kaynaklanan OpenAI hatalarını depolamak için yeni sütunun adını içeren bir dizesi. Bu parametreyi ayarlamazsanız hata sütunu için varsayılan bir ad oluşturur. Giriş satırında hata yoksa, bu sütundaki değer `null`olur.

ExtractLabel Parametreleri

İsim	Description
`label` Gerekli	Giriş metni değerlerinden ayıklanan varlığı temsil eden bir dize .
`description` Opsiyonel	Yapay zeka modeli için ek bağlam ekleyen bir dize . Yapay zekanın ayıklama sırasında dikkate alması gereken bağlamı, gereksinimleri veya yönergeleri içerebilir.
`max_items` Opsiyonel	Bu etiket için ayıklanması gereken en fazla öğe sayısını belirten bir int .
`type` Opsiyonel	Ayıklanan değer için JSON şema türü. Bu sınıf için desteklenen türler : `string`, `number`, `integer`, `boolean`, `object`ve `array`.
`properties` Opsiyonel	Sözlük olarak türü için daha fazla JSON şema özelliği. Diziler için "öğeler", nesneler için "özellikler", sabit listesi türleri için "numaralandırma" ve daha fazlası gibi desteklenen özellikleri içerebilir. Bu makaledeki örnek kullanıma bakın.
`raw_col` Opsiyonel	Ham LLM yanıtı için sütun adını ayarlayan dize . Ham yanıt, "reason" ve "extraction_text" dahil olmak üzere her varlık etiketi için sözlük çiftlerinin listesini sağlar.

İade

İşlev, belirtilen her varlık türü için yeni bir sütun içeren bir Spark DataFrame döndürür. Sütun veya sütunlar, giriş metninin her satırı için ayıklanan varlıkları içerir. İşlev bir varlık için birden fazla eşleşme tanımlarsa, bu eşleşmelerden yalnızca birini döndürür. Eşleşme bulunmazsa, sonuç nullolur.

Varsayılan dönüş türü, her etiket için bir dize listesidir. Kullanıcılar yapılandırmada aifunc.ExtractLabel "type=integer" gibi farklı bir tür belirtmeyi seçerse, çıkış python int listesi olur. Kullanıcılar yapılandırmada aifunc.ExtractLabel "max_items=1" belirtirse, bu etiket için türün yalnızca bir öğesi döndürülür.

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Alex Rivera, a 24-year-old midfielder from Barcelona, scored 12 goals last season, with an impressive 5 goals in one game.",),
        ("Jordan Smith, a 29-year-old striker from Manchester, scored exactly 1 goal in every game, for a total of 34 goals.",)
    ], ["bio"])

df = df.ai.extract(
        aifunc.ExtractLabel(
            label = "goals", 
            description = "total goals only", 
            max_items = 1, 
            type = "integer"
        ), 
        input_col="bio"
    )
display(df)

Bu örnek kod hücresi aşağıdaki çıkışı sağlar:

pandas ile ai.extract kullanın.
ai.analyze_sentiment ile duygu tespiti yapın.
Metni ai.classify ile kategorilere ayırın.
ai.embed ile vektör eklemeleri oluşturun.
dil bilgisini ai.fix_grammar ile düzeltin.
ai.generate_response ile özel kullanıcı istemlerini yanıtlayın.
ai.similarity ile benzerliği hesaplayın.
Metni ai.summarize ile özetleme.
Metni ai.translate ile çevirin.
Yapay zeka işlevlerinin tamamı hakkında daha fazla bilgi edinin.
Yapay zeka işlevlerinin yapılandırmasını özelleştirin.
İhtiyacınız olan bir özelliği kaçırdık mı? Fabric Fikirleri forumu'nda önerin.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-11-21