データ マイニングでの Integration Services の使用
データ マイニングとは、"大規模なデータベースから有効で実用的な情報を抽出するプロセスである" と表現されるのが一般的です。つまり、データ マイニングは、データに内在するパターンおよび傾向を検出するのに役立ちます。Microsoft SQL ServerAnalysis Services には、これらのパターンを抽出および分析するための強力なデータ マイニング用の機能とツールが備えられています。Integration Services には、これらのデータ マイニング モデルの管理や照会を支援するさまざまなコンポーネントが用意されています。
SQL ServerAnalysis Services のデータ マイニング機能の詳細については、「概要 (Analysis Services - データ マイニング)」および「データ マイニング プロジェクト (Analysis Services - データ マイニング)」を参照してください。
注意 |
---|
このトピックで説明する Integration Services のコンポーネントの一部は、SQL Server の Enterprise Edition および Developer Edition でのみ使用できます。 |
接続マネージャ
接続マネージャとは、データ ソースへの接続を論理的に表したものです。Analysis Services 接続マネージャを使用すると、マイニング構造およびマイニング モデルが格納された Analysis Services データベースに接続できます。このトピックで説明するすべてのタスクとデータ フロー コンポーネントには、Analysis Services 接続マネージャが必要です。
Analysis Services 接続マネージャ
Analysis Services 接続マネージャを使用すると、パッケージから、Analysis Services データベースを実行するサーバー、またはマイニング構造やマイニング モデルにアクセスできる Analysis Services プロジェクトに接続できます。Business Intelligence Development Studio でのパッケージ開発中に接続できるのは、Analysis Services プロジェクトのみです。実行時には、パッケージは Analysis Services を配置したサーバーおよびデータベースに接続されます。
詳細については、「Analysis Services 接続マネージャ」を参照してください。
タスク
タスクとは、パッケージで実行される作業の単位を定義する、制御フローの要素のことです。以下のタスクを使用して、データ マイニングの構造やモデルの作成または変更、およびモデルの処理またはクエリを行うことができます。
Analysis Services DDL 実行タスク
Analysis Services DDL 実行タスクは、データ定義言語 (DDL) ステートメントを実行します。DDL ステートメントを使用すると、マイニング構造やマイニング モデルを作成、削除、または変更できます。DDL ステートメントは、Analysis Services スクリプト言語 (ASSL) のステートメントとして表され、XML for Analysis (XMLA) コマンドで構成されます。
このタスクの詳細については、「Analysis Services DDL 実行タスク」を参照してください。XMLA を使用した Analysis Services オブジェクトの作成および変更の詳細については、「オブジェクトの作成と変更 (XMLA)」を参照してください。
Analysis Services 処理タスク
Analysis Services 処理タスクは、マイニング モデルなどの Analysis Services オブジェクトの処理を自動化します。
このタスクの詳細については、「Analysis Services 処理タスク」を参照してください。Analysis Services オブジェクトの処理の詳細については、「Analysis Services オブジェクトの処理」を参照してください。
データ マイニング クエリ タスク
データ マイニング クエリ タスクは、Analysis Services に構築されたデータ マイニング モデルに基づいて、予測クエリを実行します。予測クエリは、マイニング モデルを使用して新しいデータの予測を作成し、その出力をテーブルに保存します。
このタスクの詳細については、「データ マイニング クエリ タスク」を参照してください。DMX を使用したデータ マイニング モデルのクエリの詳細については、「DMX 予測クエリの作成」を参照してください。
データ フロー変換
変換とは、パッケージのデータ フロー内にある、データを集計、マージ、配信、および変更するコンポーネントのことです。
データ マイニング クエリ変換
データ マイニング クエリ変換は、データ マイニング モデルに対して予測クエリを実行します。この変換には、データ マイニング拡張機能 (DMX) クエリを作成するためのクエリ ビルダが含まれています。このクエリ ビルダを使用すると、DMX 言語を使用して、既存のマイニング モデルに対して変換入力データを評価するカスタム ステートメントを作成できます。出力を直接テーブルに保存するデータ マイニング クエリ タスクとは異なり、データ マイニング クエリ変換では、パッケージのデータ フローの下流コンポーネントで出力を使用できます。
この変換の詳細については、「データ マイニング クエリ変換」を参照してください。DMX を使用したデータ マイニング モデルのクエリの詳細については、「DMX 予測クエリの作成」を参照してください。
データ フローの変換先
変換先とは、データ フローの出力を別の種類のデータ ソースに読み込んだり、メモリ内のデータセットを作成する、データ フロー コンポーネントのことです。
データ マイニング モデル トレーニング変換先
データ マイニング モデル トレーニング変換先は、変換先が受け取るデータをデータ マイニング モデル アルゴリズムに渡すことにより、データ マイニング モデルのトレーニングを行います。トレーニング処理の間、アルゴリズムに基づいてデータの要素間のパターンおよびリレーションシップが計算されます。新しいマイニング モデルのトレーニングが完了したら、そのモデルを使用して予測クエリを実行できます。
詳細については、「データ マイニング モデル トレーニング変換先」を参照してください。
データ マイニングのためのその他の Integration Services コンポーネント
Integration Services には、他にもデータ マイニング ソリューションの一部として使用できる便利なコンポーネントが多数あります。
データのサブセットを使用してデータ マイニング モデルをトレーニングまたはテストするには、次の変換を使用できます。
**行サンプリング変換 **指定された数に基づいて、行のサブセットのみをコピーします。詳細については、「行サンプリング変換」を参照してください。
**比率サンプリング変換 **指定された比率に基づいて、行のサブセットのみをコピーします。詳細については、「比率サンプリング変換」を参照してください。
重複の削除および値の標準化によりデータを最適化するには、次の変換を使用できます。
**並べ替え変換 **データの並べ替え時に重複行を削除します。詳細については、「並べ替え変換」を参照してください。
**あいまいグループ化変換 **完全一致ではなく類似性に基づいて行をグループ化します。詳細については、「あいまいグループ化変換」および「あいまいグループ化変換を使用して、類似のデータ行を識別する方法」を参照してください。
**あいまい参照変換 **完全一致ではなく類似性に基づいて参照テーブル内の一致を検出します。詳細については、「あいまい参照変換」を参照してください。
テキスト マイニングを実行するには、次の変換を使用できます。
|