共用方式為


ai_parse_document

解析包含二進位資料(blob)的欄位,並回傳 VariantType。 如果輸入 blob 無效,會拋出例外。

語法

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

參數

參數 類型 Description
col pyspark.sql.Column 或二進位資料 一個包含要解析的二進位塊狀點的欄位名稱。
options dict可選的 一個控制解析行為選項的詞典。

退貨

pyspark.sql.Column: VariantType 的新欄位,包含文件解析結果。 結果包含 document 一個具有 pageselements 陣列的物件,以及 error_statusmetadata和 。 每個元素代表解析文件中的一個離散內容單元,例如文字段落、表格、圖表或版面標記。 完整輸出結構及元件細節請參見 ai_parse_document