Вопросы международного использования служб Integration Services
Службы Microsoft SQL Server 2005 Integration Services поддерживают синтаксический анализ и обработку многоязыковых данных, настройки языковых стандартов Windows, а также предоставляют специальные режимы сравнения для сортировки и сравнения строковых данных.
Преобразования служб Integration Services для анализа текста и установления нечеткого соответствия могут работать с другими языками хуже, чем с английским. Однако преобразования как анализа текста, так и нечеткого соответствия могут давать полезные результаты при работе со многими языками.
Синтаксический анализ, не зависящий от локалей
Службы Integration Services включает процедуры синтаксического анализа, не зависящего от локалей, которые можно использовать для данных в определенных форматах. Эти процедуры синтаксического анализа, совокупно называемые «Быстрый синтаксический анализ», поддерживают только наиболее часто используемые представления даты, не выполняют зависящий от локалей синтаксический анализ, не распознают специальные символы валюты и не могут преобразовывать шестнадцатеричные и научные представления целых чисел. Быстрый синтаксический анализ может заметно повысить производительность пакетов служб Integration Services, не зависящих от локалей. Дополнительные сведения см. в разделе Анализ данных.
Настройки локалей
Службы Integration Services поддерживают настройки локалей на уровне компонентов объекта, контейнера, задачи и потока данных пакета. Можно также задать локали для обработчиков событий.
Пакет может использовать несколько различных локалей. Например, пакет может использовать локаль «Русский (Россия)», в то время как одна из задач потока использует локаль «Немецкий (Германия)», а другая задача — локаль «Японский (Япония)».
В пакете служб Integration Services могут использоваться любые локали, поддерживаемые Windows. Локаль может быть выбран при создании пакета, и пока пакет не будет перенастроен на использование другого локаля, он будет одинаково функционировать при развертывании на других компьютерах, которые могут использовать региональные или языковые параметры, отличающиеся от настроек среды разработки.
Но если пакет должен использовать разные локали при развертывании на разных серверах, можно создать конфигурации, предоставляющие возможность обновлять локали при выполнении пакета. Дополнительные сведения см. в разделах Установка свойств пакета и Конфигурации пакета служб SSIS.
Параметры сравнения
Локаль предоставляет основные правила сравнения строковых данных в потоке данных. Например, локаль определяет положение сортировки каждой буквы в алфавите. Однако этих правил может оказаться недостаточно для сравнения, которое необходимо провести, и службы Integration Services поддерживают набор дополнительных параметров сравнения, выходящих за рамки правил сравнения, определяемых локалем. Например, если не учитывать непробельные символы, то символы «a» и «á» при сравнении будут эквивалентны. Дополнительные сведения см. в разделе Сравнение строковых данных.
Интеллектуальный анализ текста
Преобразования для интеллектуального анализа текста — «Извлечение терминов» и «Уточняющий запрос термина» — используют собственный словарь. Этот словарь доступен только для английского языка, и результаты использования преобразований интеллектуального анализа текста с другими языками могут быть ограниченными. Майкрософт поддерживает использование этих преобразований только при работе с английским языком.
Однако в зависимости от лингвистического сходства между английским и другим языком может оказаться, что преобразование «Извлечение терминов» извлекает неанглийские термины, а преобразование «Уточняющий запрос термина» можно использовать для поиска терминов и вычисления частоты их использования. Чем больше сходство между языками, тем более успешным окажется анализ терминов. Например, использование преобразования «Извлечение терминов» может оказаться эффективным для анализа шведского текста, так как шведский язык использует разделители слов и предложений, схожие с английскими. С другой стороны, вряд ли преобразование «Извлечение терминов» окажется успешным при работе с японским текстом. Дополнительные сведения см. в разделах Преобразование «Извлечение терминов» и Преобразование «Уточняющий запрос термина».
Нечеткое соответствие
Два преобразования, «Нечеткое группирование» и «Нечеткий уточняющий запрос», используют методы нечеткого соответствия для группирования похожих записей в наборе данных или поиска в ссылочной таблице. Оба преобразования производят сопоставление наиболее эффективно, если текстовые данные содержат большое количество длинных слов, разделенных пробелами или другими разделителями. Эти преобразования могут оказаться не столь достоверными в логографических языках, таких как китайский, в которых слова часто состоят всего из нескольких символов и могут не разделяться пробелами. В целом в логографических языках эти преобразования будут менее полезны для поиска ошибок правописания, а также лишних и пропущенных слов. Дополнительные сведения см. в разделах Преобразование «Нечеткое группирование» и Преобразование «Нечеткий уточняющий запрос».
|