Поделиться через


Используйте ai.similarity с pandas

Функция ai.similarity использует генерированный ИИ для сравнения двух строковых выражений, а затем вычисления семантической оценки сходства. Он использует только одну строку кода. Текстовые значения из одного столбца кадра данных можно сравнить с одним общим текстовым значением или с парными текстовыми значениями в другом столбце.

Замечание

Обзор

Функция ai.similarity расширяет класс серии pandas.

Чтобы вычислить семантику сходства каждой входной строки для одного общего текстового значения, вызовите функцию в текстовом столбце dataFrame pandas . Функция также может вычислить семантику подобия каждой строки для соответствующих парных значений в другом столбце с теми же измерениями, что и входной столбец.

Функция возвращает Series pandas, содержащую оценки сходства, которые могут храниться в новом столбце DataFrame.

Синтаксис

df["similarity"] = df["col1"].ai.similarity("value")

Параметры

Имя Description
other
Обязательно
Строка, содержащая либо:
— одно общее текстовое значение, которое используется для вычисления показателей сходства для каждой входной строки.
- Другая Серия Pandas с такими же размерами, что и входные данные. Он содержит текстовые значения, используемые для вычисления парных показателей сходства для каждой входной строки.

Возвраты

Функция возвращает ряд pandas, содержащий оценки сходства для каждой входной текстовой строки. Оценки сходства выходных данных являются относительными, и они лучше всего используются для ранжирования. Значения оценки могут варьироваться от -1 (противоположных) до 1* (идентичных). Значение 0 показывает, что эти величины не имеют взаимного смысла.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([ 
        ("Bill Gates"), 
        ("Satya Nadella"), 
        ("Joan of Arc")
    ], columns=["name"])
    
df["similarity"] = df["name"].ai.similarity("Microsoft")
display(df)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана: кадр данных с столбцами