Средство синтаксического анализа HTML MiniSoup (независимый издатель) (предварительная версия)
Упрощенная библиотека синтаксического анализа HTML, вдохновленная красивым супом, предоставляющая возможности для анализа и извлечения элементов HTML
Этот соединитель доступен в следующих продуктах и регионах:
| Услуга | Class | Регионы |
|---|---|---|
| Copilot Studio | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Логические приложения | Стандарт | Все регионы Logic Apps , кроме следующих: — Регионы Azure для государственных организаций — Регионы Azure Для Китая - Министерство обороны США (DoD) |
| Power Apps | Премия | Все регионы Power Apps , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Power Automate | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Контакт | |
|---|---|
| Имя | Поддержка MiniSoup |
| URL | https://github.com/DEmodoriGatsuO/MiniSoup |
| Адрес электронной почты | demodori.gatsuo@gmail.com |
| Метаданные соединителя | |
|---|---|
| Publisher | Шого Синдо |
| Website | https://github.com/DEmodoriGatsuO/MiniSoup |
| Политика конфиденциальности | https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md |
| Категории | Данные; Сайт |
Ограничения регулирования
| Имя | Вызовы | Период обновления |
|---|---|---|
| Вызовы API для каждого подключения | 100 | 60 секунд |
Действия
| Анализ HTML-таблицы |
Анализ таблицы HTML в структурированные данные с заголовками и строками |
| Выбор ЭЛЕМЕНТОВ HTML |
Выбирает элементы HTML, соответствующие предоставленному селектору |
| Извлечение значений из ЭЛЕМЕНТОВ HTML |
Извлекает определенные значения атрибутов из элементов HTML, соответствующих предоставленному селектору |
| Поиск всех соответствующих элементов |
Находит все HTML-элементы, соответствующие указанному имени тега и необязательным атрибутам |
| Получение HTML-содержимого |
Получение HTML-содержимого из указанного URL-адреса |
Анализ HTML-таблицы
Анализ таблицы HTML в структурированные данные с заголовками и строками
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
HTML
|
html | True | string |
HTML-содержимое, содержащее таблицу |
|
table_selector
|
table_selector | string |
Селектор CSS для поиска элемента таблицы HTML |
|
|
header_rows_exist
|
header_rows_exist | boolean |
Имеет ли таблица строки заголовка |
Возвращаемое значение
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
success
|
success | boolean |
Указывает, выполнена ли операция успешно |
|
Headers
|
data.Headers | array of string |
Заголовки столбцов, извлеченные из таблицы |
|
Rows
|
data.Rows | array of array |
Строки таблицы, каждая из которых содержит массив значений ячеек |
|
items
|
data.Rows | array of string |
Выбор ЭЛЕМЕНТОВ HTML
Выбирает элементы HTML, соответствующие предоставленному селектору
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
HTML
|
html | True | string |
Анализ HTML-содержимого |
|
селектор
|
selector | True | string |
Селектор CSS или XPath для целевых элементов |
|
selector_type
|
selector_type | string |
Тип селектора для использования |
Возвращаемое значение
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
success
|
success | boolean |
Указывает, выполнена ли операция успешно |
|
азы
|
elements | array of HtmlElement |
Массив элементов HTML, соответствующих указанному селектору |
|
count
|
count | integer |
Количество найденных элементов |
Извлечение значений из ЭЛЕМЕНТОВ HTML
Извлекает определенные значения атрибутов из элементов HTML, соответствующих предоставленному селектору
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
HTML
|
html | True | string |
Анализ HTML-содержимого |
|
селектор
|
selector | True | string |
Селектор CSS или XPath для целевых элементов |
|
атрибут
|
attribute | True | string |
Атрибут для извлечения из выбранных элементов. Используйте "text" для внутреннего текста, "html" для внутреннего HTML-кода или конкретного имени атрибута |
|
selector_type
|
selector_type | string |
Тип селектора для использования |
Возвращаемое значение
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
success
|
success | boolean |
Указывает, выполнена ли операция успешно |
|
values
|
values | array of string |
Массив извлеченных значений из соответствующих элементов |
|
count
|
count | integer |
Количество извлеченных значений |
Поиск всех соответствующих элементов
Находит все HTML-элементы, соответствующие указанному имени тега и необязательным атрибутам
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
HTML
|
html | True | string |
Анализ HTML-содержимого |
|
tag_name
|
tag_name | True | string |
Имя тега HTML для поиска |
|
id
|
id | string |
Фильтрация по идентификатору элемента |
|
|
класс
|
class | string |
Фильтрация по классу элементов |
Возвращаемое значение
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
success
|
success | boolean |
Указывает, выполнена ли операция успешно |
|
азы
|
elements | array of HtmlElement |
Массив элементов HTML, которые соответствуют указанному имени тега и атрибутам |
|
count
|
count | integer |
Количество найденных элементов |
Получение HTML-содержимого
Получение HTML-содержимого из указанного URL-адреса
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
URL-адрес
|
url | True | string |
URL-адрес для получения HTML-содержимого из |
Возвращаемое значение
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
success
|
success | boolean |
Указывает, выполнена ли операция успешно |
|
HTML
|
html | string |
Содержимое HTML, полученное из указанного URL-адреса |
Определения
HtmlElement
Представляет HTML-элемент со своими свойствами и атрибутами
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
tag
|
tag | string |
Имя html-тега элемента (например, div, span, a) |
|
outerHtml
|
outerHtml | string |
Полный HTML-код элемента, включая сам элемент |
|
innerHtml
|
innerHtml | string |
HTML-содержимое внутри элемента, которое может включать другие элементы |
|
innerText
|
innerText | string |
Текстовое содержимое внутри элемента со всеми тегами HTML, удаленными |
|
attributes
|
attributes | object |
Все атрибуты элемента в виде пар "имя-значение" |
|
isSelfClosing
|
isSelfClosing | boolean |
Указывает, является ли элемент самозаключающим тегом (например, |