Синтаксический анализ текстовых файлов нестандартного формата в компоненте скрипта

Мақала
05/23/2023

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Если исходные данные упорядочивается в формате, отличном от стандартного формата, вы можете упростить консолидацию всей логики синтаксического анализа в одном скрипте, чем объединить несколько преобразований Служб Integration Services для достижения одного результата.

Пример 1. Синтаксический анализ записей, разделенных на строки

Пример 2. Разделение родительских и дочерних записей

Примечание.

Если нужно создать компонент, который будет полезен в нескольких задачах потока данных и нескольких пакетах, рекомендуется в качестве основы использовать этот образец компонента скрипта. Дополнительные сведения см. в разделе Разработка пользовательского компонента потока данных.

Пример 1. Синтаксический анализ записей, разделенных на строки

В этом примере берется текстовый файл, в котором каждый столбец данных размещается на новой строке, и с помощью синтаксического анализа, реализованного в компоненте скрипта, преобразуется в целевую таблицу.

Дополнительные сведения о том, как настроить компонент скрипта для использования в качестве преобразования в потоке данных см. в разделах Создание синхронного преобразования с помощью компонента скрипта и Создание асинхронного преобразования с помощью компонента скрипта.

Настройка этого примера компонента скрипта

Создайте и сохраните под именем rowdelimiteddata.txt текстовый файл, содержащий следующие исходные данные:

FirstName: Nancy  
LastName: Davolio  
Title: Sales Representative  
City: Seattle  
StateProvince: WA  

FirstName: Andrew  
LastName: Fuller  
Title: Vice President, Sales  
City: Tacoma  
StateProvince: WA  

FirstName: Steven  
LastName: Buchanan  
Title: Sales Manager  
City: London  
StateProvince:

Откройте Management Studio и подключитесь к экземпляру SQL Server.
Выберите целевую базу данных и откройте окно нового запроса. Чтобы создать целевую таблицу, выполните в окне запросов следующий скрипт.
```
create table RowDelimitedData  
(  
FirstName varchar(32),  
LastName varchar(32),  
Title varchar(32),  
City varchar(32),  
StateProvince varchar(32)  
)  
```
Откройте SQL Server Data Tools и создайте новый пакет служб Integration Services с именем ParseRowDelim.dtsx.
Добавьте в пакет диспетчер соединений с неструктурированными файлами, назовите этот диспетчер «RowDelimitedData» и настройте на соединение с файлом rowdelimiteddata.txt, созданным на предыдущем шаге.
Добавьте диспетчер соединений OLE DB в пакет и настройте его для подключения к экземпляру SQL Server и базе данных, в которой была создана целевая таблица.
Добавьте в пакет задачу потока данных и щелкните вкладку Поток данных конструктора служб SSIS.
Добавьте к потоку данных источник «Неструктурированный файл» и настройте его на использование диспетчера соединений RowDelimitedData. На странице Столбцы в редакторе источника Неструктурированный файл выберите единственный доступный внешний столбец.
Добавьте в поток данных компонент скрипта и настройте его в качестве преобразования. Соедините выход источника «Неструктурированный файл» с компонентом скрипта.
Дважды щелкните компонент скрипта, чтобы открыть редактор преобразования "Скрипт".
На странице Входные столбцы в редакторе преобразования "Скрипт" выберите единственный доступный входной столбец.
На странице Входы и выходыредактора преобразования "Скрипт" выберите выход 0 и задайте для его свойства SynchronousInputID значение "Нет". Создайте 5 выходных столбцов со строковым типом [DT_STR] и длиной 32:
- FirstName
- LastName
- Заголовок
- Город
- StateProvince
На странице Скриптредактора преобразования "Скрипт" нажмите кнопку Изменить скрипт и введите код, указанный в классе ScriptMain примера. Закройте среду разработки скриптов и редактор преобразования "Скрипт".
Добавьте в поток данных назначение «SQL Server». Настройте его на использование диспетчера соединений OLE DB и таблицы RowDelimitedData. Настройте выход компонента скрипта на это назначение.
Запустите пакет. После завершения пакета изучите записи в целевой таблице SQL Server.

Public Overrides Sub Input0_ProcessInputRow(ByVal Row As Input0Buffer)  
  
    Dim columnName As String  
    Dim columnValue As String  
  
    ' Check for an empty row.  
    If Row.Column0.Trim.Length > 0 Then  
        columnName = Row.Column0.Substring(0, Row.Column0.IndexOf(":"))  
        ' Check for an empty value after the colon.  
        If Row.Column0.Substring(Row.Column0.IndexOf(":")).TrimEnd.Length > 1 Then  
            ' Extract the column value from after the colon and space.  
            columnValue = Row.Column0.Substring(Row.Column0.IndexOf(":") + 2)  
            Select Case columnName  
                Case "FirstName"  
                    ' The FirstName value indicates a new record.  
                    Me.Output0Buffer.AddRow()  
                    Me.Output0Buffer.FirstName = columnValue  
                Case "LastName"  
                    Me.Output0Buffer.LastName = columnValue  
                Case "Title"  
                    Me.Output0Buffer.Title = columnValue  
                Case "City"  
                    Me.Output0Buffer.City = columnValue  
                Case "StateProvince"  
                    Me.Output0Buffer.StateProvince = columnValue  
            End Select  
        End If  
    End If  
  
End Sub

public override void Input0_ProcessInputRow(Input0Buffer Row)  
    {  
  
        string columnName;  
        string columnValue;  
  
        // Check for an empty row.  
        if (Row.Column0.Trim().Length > 0)  
        {  
            columnName = Row.Column0.Substring(0, Row.Column0.IndexOf(":"));  
            // Check for an empty value after the colon.  
            if (Row.Column0.Substring(Row.Column0.IndexOf(":")).TrimEnd().Length > 1)  
            // Extract the column value from after the colon and space.  
            {  
                columnValue = Row.Column0.Substring(Row.Column0.IndexOf(":") + 2);  
                switch (columnName)  
                {  
                    case "FirstName":  
                        // The FirstName value indicates a new record.  
                        this.Output0Buffer.AddRow();  
                        this.Output0Buffer.FirstName = columnValue;  
                        break;  
                    case "LastName":  
                        this.Output0Buffer.LastName = columnValue;  
                        break;  
                    case "Title":  
                        this.Output0Buffer.Title = columnValue;  
                        break;  
                    case "City":  
                        this.Output0Buffer.City = columnValue;  
                        break;  
                    case "StateProvince":  
                        this.Output0Buffer.StateProvince = columnValue;  
                        break;  
                }  
            }  
        }  
  
    }

Пример 2. Разделение родительских и дочерних записей

В этом примере берется текстовый файл, в котором за строкой-разделителем следует родительская строка, а за ней — неопределенное количество дочерних строк, и с помощью синтаксического анализа, реализованного в компоненте скрипта, преобразуется в две правильным образом нормализованные целевые таблицы — родительскую и дочернюю. Этот простой пример легко адаптировать для исходных файлов, использующих несколько строк или столбцов для каждой родительской и дочерней записи: главное, чтобы начало и конец каждой записи были как-то обозначены.

Внимание

Данный образец предназначен только для демонстрационных целей. Если запустить образец несколько раз, он вставит в целевую таблицу повторяющиеся ключевые значения.

Настройка этого примера компонента скрипта

Создайте и сохраните под именем parentchilddata.txt текстовый файл, содержащий следующие исходные данные:

**********  
PARENT 1 DATA  
child 1 data  
child 2 data  
child 3 data  
child 4 data  
**********  
PARENT 2 DATA  
child 5 data  
child 6 data  
child 7 data  
child 8 data  
**********

Откройте СРЕДУ SQL Server Management Studio и подключитесь к экземпляру SQL Server.

Выберите целевую базу данных и откройте окно нового запроса. Чтобы создать целевые таблицы, выполните в окне запросов следующий скрипт.

CREATE TABLE [dbo].[Parents]([ParentID] [int] NOT NULL,  
[ParentRecord] [varchar](32) NOT NULL,  
 CONSTRAINT [PK_Parents] PRIMARY KEY CLUSTERED   
([ParentID] ASC))  
GO  
CREATE TABLE [dbo].[Children]([ChildID] [int] NOT NULL,  
[ParentID] [int] NOT NULL,  
[ChildRecord] [varchar](32) NOT NULL,  
 CONSTRAINT [PK_Children] PRIMARY KEY CLUSTERED   
([ChildID] ASC))  
GO  
ALTER TABLE [dbo].[Children] ADD CONSTRAINT [FK_Children_Parents] FOREIGN KEY([ParentID])  
REFERENCES [dbo].[Parents] ([ParentID])

Откройте SQL Server Data Tools (SSDT) и создайте новый пакет служб Integration Services с именем SplitParentChild.dtsx.
Добавьте в пакет диспетчер соединений с неструктурированными файлами, назовите этот диспетчер «ParentChildData» и настройте на соединение с файлом parentchilddata.txt, созданным на предыдущем шаге.
Добавьте диспетчер соединений OLE DB в пакет и настройте его для подключения к экземпляру SQL Server и базе данных, в которой были созданы целевые таблицы.
Добавьте в пакет задачу потока данных и щелкните вкладку Поток данных конструктора служб SSIS.
Добавьте к потоку данных источник «Неструктурированный файл» и настройте его на использование диспетчера соединений ParentChildData. На странице Столбцы в редакторе источника Неструктурированный файл выберите единственный доступный внешний столбец.
Добавьте в поток данных компонент скрипта и настройте его в качестве преобразования. Соедините выход источника «Неструктурированный файл» с компонентом скрипта.
Дважды щелкните компонент скрипта, чтобы открыть редактор преобразования "Скрипт".
На странице Входные столбцы в редакторе преобразования "Скрипт" выберите единственный доступный входной столбец.
На странице Входы и выходыредактора преобразования "Скрипт" выберите выход 0, переименуйте его в ParentRecords и задайте для его свойства SynchronousInputID значение "Нет". Создайте 2 выходных столбца.
- ParentID (первичный ключ), имеющий тип четырехбайтового целого числа со знаком [DT_I4].
- ParentRecord, строкового типа [DT_STR], длиной 32 символа.
Создайте второй вывод и установите для него имя ChildRecords. Параметр SynchronousInputID для нового вывода уже установлен в значение "Нет". Создайте 3 выходных столбца.
- ChildID (первичный ключ), имеющий тип четырехбайтового целого числа со знаком [DT_I4].
- ParentID (внешний ключ), также типа «четырехбайтовое целое число со знаком» [DT_I4].
- ChildRecord, строкового типа [DT_STR], длиной 50 символов.
На странице Скриптредактора преобразования "Скрипт" нажмите кнопку Изменить скрипт. Вставьте код, приведенный в примере, в класс ScriptMain. Закройте среду разработки скриптов и редактор преобразования "Скрипт".
Добавьте в поток данных назначение «SQL Server». Подключите выход ParentRecords компонента скрипта к этому назначению. Настройте его на использование диспетчера соединений OLE DB и таблицы Parents.
Добавьте к потоку данных еще одно назначение «SQL Server». Настройте выход ChildRecords компонента скрипта на это назначение. Настройте его на использование диспетчера соединений OLE DB и таблицы Children.
Запустите пакет. После завершения пакета просмотрите родительские и дочерние записи в двух целевых таблицах SQL Server.

Public Overrides Sub Input0_ProcessInputRow(ByVal Row As Input0Buffer)  
  
    Static nextRowIsParent As Boolean = False  
    Static parentCounter As Integer = 0  
    Static childCounter As Integer = 0  
  
    ' If current row starts with separator characters,  
    '  then following row contains new parent record.  
    If Row.Column0.StartsWith("***") Then  
        nextRowIsParent = True  
    Else  
        If nextRowIsParent Then  
            ' Current row contains parent record.  
            parentCounter += 1  
            Me.ParentRecordsBuffer.AddRow()  
            Me.ParentRecordsBuffer.ParentID = parentCounter  
            Me.ParentRecordsBuffer.ParentRecord = Row.Column0  
            nextRowIsParent = False  
        Else  
            ' Current row contains child record.  
            childCounter += 1  
            Me.ChildRecordsBuffer.AddRow()  
            Me.ChildRecordsBuffer.ChildID = childCounter  
            Me.ChildRecordsBuffer.ParentID = parentCounter  
            Me.ChildRecordsBuffer.ChildRecord = Row.Column0  
        End If  
    End If  
  
End Sub

public override void Input0_ProcessInputRow(Input0Buffer Row)  
    {  
  
    int static_Input0_ProcessInputRow_childCounter = 0;  
    int static_Input0_ProcessInputRow_parentCounter = 0;  
    bool static_Input0_ProcessInputRow_nextRowIsParent = false;  
  
        // If current row starts with separator characters,   
        // then following row contains new parent record.   
        if (Row.Column0.StartsWith("***"))  
        {  
            static_Input0_ProcessInputRow_nextRowIsParent = true;  
        }  
        else  
        {  
            if (static_Input0_ProcessInputRow_nextRowIsParent)  
            {  
                // Current row contains parent record.   
                static_Input0_ProcessInputRow_parentCounter += 1;  
                this.ParentRecordsBuffer.AddRow();  
                this.ParentRecordsBuffer.ParentID = static_Input0_ProcessInputRow_parentCounter;  
                this.ParentRecordsBuffer.ParentRecord = Row.Column0;  
                static_Input0_ProcessInputRow_nextRowIsParent = false;  
            }  
            else  
            {  
                // Current row contains child record.   
                static_Input0_ProcessInputRow_childCounter += 1;  
                this.ChildRecordsBuffer.AddRow();  
                this.ChildRecordsBuffer.ChildID = static_Input0_ProcessInputRow_childCounter;  
                this.ChildRecordsBuffer.ParentID = static_Input0_ProcessInputRow_parentCounter;  
                this.ChildRecordsBuffer.ChildRecord = Row.Column0;  
            }  
        }  
  
    }

См. также

Создание синхронного преобразования с помощью компонента скрипта
Создание асинхронного преобразования с помощью компонента скрипта

Бөлісу құралы:

Синтаксический анализ текстовых файлов нестандартного формата в компоненте скрипта

Пример 1. Синтаксический анализ записей, разделенных на строки

Настройка этого примера компонента скрипта

Пример 2. Разделение родительских и дочерних записей

Настройка этого примера компонента скрипта

См. также

Кері байланыс

Кері байланыс

Қосымша ресурстар