MiniSoup HTML 分析器 (独立发布者) (预览版)
由美丽的汤启发的轻型 HTML 分析库,为 HTML 元素分析和提取提供功能
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 政府区域 - Azure 中国区域 - 美国国防部(DoD) |
| Power Apps | 高级 | 除以下各项外的所有 Power Apps 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| Power Automate | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| Name | MiniSoup 支持 |
| URL | https://github.com/DEmodoriGatsuO/MiniSoup |
| demodori.gatsuo@gmail.com |
| 连接器元数据 | |
|---|---|
| 发布者 | Shogo Shindo |
| 网站 | https://github.com/DEmodoriGatsuO/MiniSoup |
| 隐私策略 | https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md |
| 类别 | 数据;网站 |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 从 HTML 元素中提取值 |
从与提供的选择器匹配的 HTML 元素中提取特定属性值 |
| 分析 HTML 表 |
使用标头和行将 HTML 表分析为结构化数据 |
| 提取 HTML 内容 |
从指定的 URL 提取 HTML 内容 |
| 查找所有匹配元素 |
查找与指定标记名称和可选属性匹配的所有 HTML 元素 |
| 选择 HTML 元素 |
选择与提供的选择器匹配的 HTML 元素 |
从 HTML 元素中提取值
从与提供的选择器匹配的 HTML 元素中提取特定属性值
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
html
|
html | True | string |
要分析的 HTML 内容 |
|
选择器
|
selector | True | string |
用于定位元素的 CSS 选择器或 XPath |
|
属性
|
attribute | True | string |
要从所选元素中提取的属性。 将“text”用于内部文本、内部 HTML 的“html”或特定属性名称 |
|
selector_type
|
selector_type | string |
要使用的选择器的类型 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
success
|
success | boolean |
指示作是否成功 |
|
values
|
values | array of string |
从匹配元素中提取的值的数组 |
|
计数
|
count | integer |
提取的值数 |
分析 HTML 表
使用标头和行将 HTML 表分析为结构化数据
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
html
|
html | True | string |
包含表的 HTML 内容 |
|
table_selector
|
table_selector | string |
用于查找 HTML 表元素的 CSS 选择器 |
|
|
header_rows_exist
|
header_rows_exist | boolean |
表是否具有标题行 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
success
|
success | boolean |
指示作是否成功 |
|
Headers
|
data.Headers | array of string |
从表中提取的列标题 |
|
Rows
|
data.Rows | array of array |
表行,每个行都包含单元格值的数组 |
|
items
|
data.Rows | array of string |
提取 HTML 内容
从指定的 URL 提取 HTML 内容
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
网址
|
url | True | string |
要从中提取 HTML 内容的 URL |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
success
|
success | boolean |
指示作是否成功 |
|
html
|
html | string |
从指定 URL 检索的 HTML 内容 |
查找所有匹配元素
查找与指定标记名称和可选属性匹配的所有 HTML 元素
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
html
|
html | True | string |
要分析的 HTML 内容 |
|
tag_name
|
tag_name | True | string |
要搜索的 HTML 标记名称 |
|
id
|
id | string |
按元素 ID 进行筛选 |
|
|
类
|
class | string |
按元素类筛选 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
success
|
success | boolean |
指示作是否成功 |
|
元素
|
elements | array of HtmlElement |
与指定标记名称和属性匹配的 HTML 元素数组 |
|
计数
|
count | integer |
找到的元素数 |
选择 HTML 元素
选择与提供的选择器匹配的 HTML 元素
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
html
|
html | True | string |
要分析的 HTML 内容 |
|
选择器
|
selector | True | string |
用于定位元素的 CSS 选择器或 XPath |
|
selector_type
|
selector_type | string |
要使用的选择器的类型 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
success
|
success | boolean |
指示作是否成功 |
|
元素
|
elements | array of HtmlElement |
与指定选择器匹配的 HTML 元素数组 |
|
计数
|
count | integer |
找到的元素数 |
定义
HtmlElement
表示具有其属性和属性的 HTML 元素
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
标签
|
tag | string |
元素的 HTML 标记名称(例如,“div”、“span”、“a”) |
|
outerHtml
|
outerHtml | string |
元素的完整 HTML,包括元素本身 |
|
innerHtml
|
innerHtml | string |
元素内的 HTML 内容,其中可能包含其他元素 |
|
innerText
|
innerText | string |
删除了所有 HTML 标记的元素中的文本内容 |
|
attributes
|
attributes | object |
元素的所有属性作为名称值对 |
|
isSelfClosing
|
isSelfClosing | boolean |
指示元素是否为自结束标记(例如, |