Udostępnij za pośrednictwem


ai_parse_document

Analizuje kolumnę zawierającą dane binarne (blob) i zwraca typ VariantType. Zgłasza wyjątek, jeśli wejściowy obiekt blob jest nieprawidłowy.

Składnia

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

Parametry

Parameter Typ Description
col pyspark.sql.Column lub dane binarne Nazwa kolumny lub kolumny zawierającej binarne obiekty blob do analizy.
options dict, fakultatywny Słownik opcji do kontrolowania zachowania analizowania.

Zwraca

pyspark.sql.Column: nowa kolumna VariantType zawierająca wynik analizy dokumentu. Wynik zawiera document obiekt z tablicami pages i elements oraz error_status .metadata Każdy element reprezentuje dyskretną jednostkę zawartości w przeanalizowanym dokumencie, na przykład akapit tekstowy, tabelę, rysunek lub znacznik układu. Aby uzyskać pełny schemat danych wyjściowych i szczegółowe informacje o elementach, zobacz ai_parse_document.