Поделиться через


Параметры запроса для профиля функциональной зависимости (задача «Профилирование данных»)

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Для установки параметров варианта Запрос профиля функциональной зависимости , выделенного на панели запросов, используется панель Свойства запроса страницы Запросы профиля . Профиль функциональной зависимости показывает, в какой степени значения в одном столбце (зависимом) зависят от значений в другом столбце или наборе столбцов (определяющем). Этот профиль также поможет выявить проблемы в данных, например наличие недопустимых значений. Например, выполняется профилирование зависимости между столбцом почтовых индексов США и столбцом штатов США. В этом профиле один и тот же почтовый индекс всегда должен соответствовать одному и тому же штату, но профиль обнаруживает нарушения этой зависимости.

Примечание.

В этом разделе описываются параметры, расположенные на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения об этой странице редактора см. в разделе Редактор задачи "Профилирование данных" (страница запросов профиля).

Дополнительные сведения об использовании задачи "Профилирование данных" см. в разделе Установка задачи "Профилирование данных". Дополнительные сведения об использовании средства просмотра профиля данных для анализа результатов задачи "Профилирование данных" см. в разделе Средство просмотра профиля данных.

Основные сведения о выборе определяющих и зависимых столбцов

Запрос профиля функциональной зависимости вычисляет степень, в которой столбец или набор столбцов определяющей стороны (указанный в свойстве DeterminantColumns ) определяет значение столбца зависимой стороны (указанного в свойстве DependentColumn ). К примеру, столбец штатов США должен быть функционально зависимым от столбца почтовых индексов США. То есть, если значение почтового индекса (определяющий столбец) составляет 98052, значением штата (зависимого столбца) всегда будет Вашингтон.

Для определяющей стороны всегда можно указать столбец или набор столбцов в свойстве DeterminantColumns . Рассмотрим, к примеру, образец таблицы, содержащей столбцы A, B и С. Пользователь выбирает следующие элементы в свойстве DeterminantColumns .

  • Если вы выберете подстановочный знак (*), задача "Профилирование данных" будет проверять каждый столбец в качестве стороны определителя зависимости.

  • Если вы выберете подстановочный знак (*) и один или несколько других столбцов, задача "Профилирование данных" будет проверять каждое сочетание столбцов в качестве стороны определителя зависимости. Для примера предположим, что у вас есть таблица со столбцами A, B и С. Если вы укажете (*) и столбец C в качестве значения для свойства DeterminantColumns, то задача "Профилирование данных" будет проверять сочетания (A, C) и (B, C) в качестве стороны определителя зависимости.

Для зависимой стороны в свойстве DependentColumn можно указать один столбец или подстановочный знак (*). Если вы выберете подстановочный знак (*), задача "Профилирование данных" сверяет столбец или набор столбцов стороны определителя с каждым столбцом.

Примечание.

Если вы выберете подстановочный знак (*), может потребоваться значительный объем вычислений, что снизит производительность задачи. Однако если задача выявит подмножество, удовлетворяющее пороговому значению функциональной зависимости, эта задача не будет анализировать дополнительные сочетания. Например, если в описанном выше образце таблицы задача определяет, что столбец C является определяющим, задача не производит анализ составных кандидатов.

Параметры области «Свойства запроса»

Для варианта Запрос профиля функциональной зависимостина панели Свойства запроса отображаются следующие группы параметров.

  • Данные, куда входят параметры DeterminantColumns и DependentColumn

  • Общие сведения

  • Параметры

Параметры данных

ConnectionManager
Выберите существующий диспетчер соединений ADO.NET, который использует поставщика данных .NET для SQL Server (SqlClient) для подключения к базе данных SQL Server, содержащей таблицу или представление для профилирования.

TableOrView
Выберите существующую таблицу или представление для профилирования.

DeterminantColumns
Выберите определяющий столбец или набор столбцов. Иными словами, выберите столбец или набор столбцов, значения которых определяют значение зависимого столбца.

Дополнительные сведения см. в подразделах «Основные сведения о выборе определяющих и зависимых столбцов» и «Параметры DeterminantColumns и DependentColumn» в этом разделе.

DependentColumn
Выберите зависимый столбец. Иными словами, выберите столбец, значение которого определяется значением определяющего столбца или набора столбцов.

Дополнительные сведения см. в подразделах «Основные сведения о выборе определяющих и зависимых столбцов» и «Параметры DeterminantColumns и DependentColumn» в этом разделе.

Параметры DeterminantColumns и DependentColumn

Следующие параметры представлены для каждого столбца, выбранного для профилирования в параметрах DeterminantColumns и DependentColumn.

Дополнительные сведения см. в подразделе «Основные сведения о выборе определяющих и зависимых столбцов» выше в этом разделе.

IsWildCard
Указывает, выбран ли подстановочный знак (*). Этот параметр принимает значение True, если выбран подстановочный знак (*) для профилирования всех столбцов. Значение False показывает, что для профилирования выбран отдельный столбец. Этот параметр доступен только для чтения.

ColumnName
Отображает имя выбранного столбца. Этот параметр пуст, если выбран подстановочный знак (*) для профилирования всех столбцов. Этот параметр доступен только для чтения.

StringCompareOptions
Выберите параметры для сравнения строковых значений. Это свойство имеет параметры, указанные в следующей таблице. По умолчанию значение этого параметра равно Default.

Примечание.

Если для свойства ColumnName используется подстановочный знак (*), свойство CompareOptions доступно только для чтения и принимает значение по умолчанию.

значение Описание
По умолч. Сортирует и сравнивает данные на основе параметров сортировки столбца в исходной таблице.
BinarySort Сортирует и сравнивает данные на основе битовых шаблонов, определенных для каждого символа. Двоичный порядок сортировки учитывает регистр и диакритические знаки. Двоичный порядок сортировки является самым быстрым.
DictionarySort Сортирует и сравнивает данные в соответствии с правилами сортировки и сравнения, определенными в словарях для соответствующего языка или алфавита.

Если выбран вариант DictionarySort, можно дополнительно указать любое сочетание параметров, перечисленных в следующей таблице. По умолчанию эти дополнительные параметры не выбираются.

значение Описание
IgnoreCase Указывает, следует ли при сравнении различать символы в верхнем и нижнем регистре. Если параметр задан, то строковое сравнение игнорирует регистр. Например, «ABC» при сравнении не отличается от «abc».
IgnoreNonSpace Указывает, следует ли при сравнении различать обычные символы и символы с диакритическими знаками. Если параметр задан, то строковое сравнение не учитывает диакритические знаки. Например, "Ã¥" будет считаться обычным символом "a".
IgnoreKanaType Указывает, следует ли различать при сравнении два типа символов японской азбуки: хирагана и катакана. Если параметр задан, то строковое сравнение игнорирует тип японской азбуки.
IgnoreWidth Указывает, следует ли при сравнении различать однобайтовые символы или аналогичные двухбайтовые символы. Если параметр задан, то строковое сравнение рассматривает однобайтовое и двухбайтовое представления символа как один и тот же символ.

Общие параметры

RequestID
Введите описательное имя для этого запроса профиля. Обычно не нужно менять автоматически сформированное значение.

Параметры

ThresholdSetting
Укажите пороговое значение. Значение этого свойства по умолчанию равно Specified.

значение Описание
Не допускается Не задает пороговое значение. Степень функциональной зависимости указывается независимо от значения.
Specified Используется пороговое значение, указанное параметром FDStrengthThreshold. Степень функциональной зависимости указывается лишь в том случае, если она превышает пороговое значение.
Exact Не задает пороговое значение. Степень функциональной зависимости указывается лишь в том случае, если функциональная зависимость между выделенными столбцами является точной.

FDStrengthThreshold
Укажите пороговое значение (между 0 и 1), при превышении которого необходимо сообщать о степени функциональной зависимости. Значение по умолчанию этого свойства равно 0,95. Этот параметр будет включен только в случае выбора для свойства ThresholdSetting значения Определено.

MaxNumberOfViolations
Укажите максимальное число нарушений функциональных зависимостей для сообщения в выводе. Значение по умолчанию этого свойства равно 100. Этот параметр будет выключен только в случае выбора для свойства ThresholdSetting значения Точно.

См. также

Редактор задачи «Профилирование данных» (страница «Общие»)
Форма быстрого профиля одной таблицы (задача «Профилирование данных»)