解析包含二進位資料(blob)的欄位,並回傳 VariantType。 如果輸入 blob 無效,會拋出例外。
語法
from pyspark.databricks.sql import functions as dbf
dbf.ai_parse_document(col=<col>, options=<options>)
參數
| 參數 | 類型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或二進位資料 |
一個包含要解析的二進位塊狀點的欄位名稱。 |
options |
dict可選的 |
一個控制解析行為選項的詞典。 |
退貨
pyspark.sql.Column: VariantType 的新欄位,包含文件解析結果。 結果包含 document 一個具有 pages 和 elements 陣列的物件,以及 error_statusmetadata和 。 每個元素代表解析文件中的一個離散內容單元,例如文字段落、表格、圖表或版面標記。 完整輸出結構及元件細節請參見 ai_parse_document。