MiniSoup HTML 分析器 (独立发布者) (预览版)

由美丽的汤启发的轻型 HTML 分析库,为 HTML 元素分析和提取提供功能

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 政府区域
     - Azure 中国区域
     - 美国国防部(DoD)
Power Apps 高级 除以下各项外的所有 Power Apps 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
Power Automate 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
联系人​​
Name MiniSoup 支持
URL https://github.com/DEmodoriGatsuO/MiniSoup
Email demodori.gatsuo@gmail.com
连接器元数据
发布者 Shogo Shindo
网站 https://github.com/DEmodoriGatsuO/MiniSoup
隐私策略 https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md
类别 数据;网站

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

从 HTML 元素中提取值

从与提供的选择器匹配的 HTML 元素中提取特定属性值

分析 HTML 表

使用标头和行将 HTML 表分析为结构化数据

提取 HTML 内容

从指定的 URL 提取 HTML 内容

查找所有匹配元素

查找与指定标记名称和可选属性匹配的所有 HTML 元素

选择 HTML 元素

选择与提供的选择器匹配的 HTML 元素

从 HTML 元素中提取值

从与提供的选择器匹配的 HTML 元素中提取特定属性值

参数

名称 密钥 必需 类型 说明
html
html True string

要分析的 HTML 内容

选择器
selector True string

用于定位元素的 CSS 选择器或 XPath

属性
attribute True string

要从所选元素中提取的属性。 将“text”用于内部文本、内部 HTML 的“html”或特定属性名称

selector_type
selector_type string

要使用的选择器的类型

返回

名称 路径 类型 说明
success
success boolean

指示作是否成功

values
values array of string

从匹配元素中提取的值的数组

计数
count integer

提取的值数

分析 HTML 表

使用标头和行将 HTML 表分析为结构化数据

参数

名称 密钥 必需 类型 说明
html
html True string

包含表的 HTML 内容

table_selector
table_selector string

用于查找 HTML 表元素的 CSS 选择器

header_rows_exist
header_rows_exist boolean

表是否具有标题行

返回

名称 路径 类型 说明
success
success boolean

指示作是否成功

Headers
data.Headers array of string

从表中提取的列标题

Rows
data.Rows array of array

表行,每个行都包含单元格值的数组

items
data.Rows array of string

提取 HTML 内容

从指定的 URL 提取 HTML 内容

参数

名称 密钥 必需 类型 说明
网址
url True string

要从中提取 HTML 内容的 URL

返回

名称 路径 类型 说明
success
success boolean

指示作是否成功

html
html string

从指定 URL 检索的 HTML 内容

查找所有匹配元素

查找与指定标记名称和可选属性匹配的所有 HTML 元素

参数

名称 密钥 必需 类型 说明
html
html True string

要分析的 HTML 内容

tag_name
tag_name True string

要搜索的 HTML 标记名称

id
id string

按元素 ID 进行筛选

class string

按元素类筛选

返回

名称 路径 类型 说明
success
success boolean

指示作是否成功

元素
elements array of HtmlElement

与指定标记名称和属性匹配的 HTML 元素数组

计数
count integer

找到的元素数

选择 HTML 元素

选择与提供的选择器匹配的 HTML 元素

参数

名称 密钥 必需 类型 说明
html
html True string

要分析的 HTML 内容

选择器
selector True string

用于定位元素的 CSS 选择器或 XPath

selector_type
selector_type string

要使用的选择器的类型

返回

名称 路径 类型 说明
success
success boolean

指示作是否成功

元素
elements array of HtmlElement

与指定选择器匹配的 HTML 元素数组

计数
count integer

找到的元素数

定义

HtmlElement

表示具有其属性和属性的 HTML 元素

名称 路径 类型 说明
标签
tag string

元素的 HTML 标记名称(例如,“div”、“span”、“a”)

outerHtml
outerHtml string

元素的完整 HTML,包括元素本身

innerHtml
innerHtml string

元素内的 HTML 内容,其中可能包含其他元素

innerText
innerText string

删除了所有 HTML 标记的元素中的文本内容

attributes
attributes object

元素的所有属性作为名称值对

isSelfClosing
isSelfClosing boolean

指示元素是否为自结束标记(例如,
)