Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Функция ai.embed использует генерированный ИИ для преобразования текста в векторные внедрения. Эти векторы позволяют ИИ понимать связи между текстами, чтобы можно было искать, группировать и сравнивать содержимое на основе смысла, а не точного формулировки. С помощью одной строки кода можно создавать векторные представления из столбца в DataFrame.
Замечание
- В этой статье описывается использование ai.embed с PySpark. Сведения об использовании ai.embed с pandas см. в этой статье.
- См. другие функции ИИ в этой статье.
- Узнайте, как настроить конфигурацию функций ИИ.
Обзор
Функция ai.embed доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра.
Функция возвращает новый DataFrame, который включает векторные представления для каждой строки входного текста в выходном столбце.
Синтаксис
df.ai.embed(input_col="col1", output_col="embed")
Параметры
| Имя | Description |
|---|---|
input_col Обязательно |
Строка, содержащая имя существующего столбца с входными текстовыми значениями, используемыми для внедрения вычислений. |
output_col Необязательно |
Строка, содержащая имя нового столбца для хранения вычисленных вложений для каждой строки входного текста. Если этот параметр не задан, имя по умолчанию создается для выходного столбца. |
error_col Необязательно |
Строка, содержащая имя нового столбца, в котором хранятся ошибки OpenAI, возникающие в результате обработки каждой входной текстовой строки. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если входная строка не имеет ошибок, этот столбец имеет значение null. |
Возвраты
Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий созданные внедрения для каждой входной текстовой строки. Внедрения имеют тип [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Количество элементов в DenseVector зависит от измерений модели внедрения, которые можно настроить в функциях ИИ.
Example
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
В этом примере ячейка кода предоставляет следующие выходные данные:
Связанный контент
Используйте ai.embed с pandas.
Определите тональность, используя ai.analyze_sentiment.
Классифицируйте текст с помощью ai.classify.
Извлечение сущностей через ai_extract.
Исправляйте грамматику с помощью ai.fix_grammar.
Отвечайте на настраиваемые запросы пользователей с помощью ai.generate_response.
Вычислите сходство с ai.similarity.
Подведи итог текста с помощью ai.summarize.
Перевод текста с помощью ai.translate.
Дополнительные сведения о полном наборе функций ИИ.
Настройка конфигурации функций ИИ.
Мы упустили какую-то функцию, которая вам нужна? Предложите это на форуме "Фабрика идей".