質問応答の書式ガイドライン
コンテンツに最適な結果を得るには、以下の書式設定ガイドラインを確認してください。
書式設定の考慮事項
ファイルまたは URL をインポートすると、質問応答によってコンテンツがマークダウン形式に変換されて、保存されます。 変換プロセスによって、テキストに \n\n
などの新しい行が追加されます。 マークダウン形式の知識があると、変換されたコンテンツを理解し、ナレッジ ベース コンテンツを管理するために役立ちます。
ナレッジ ベースのコンテンツを直接追加または編集する場合は、マークダウンの書式設定を使用してリッチ テキスト コンテンツを作成するか、既に回答に含まれているマークダウン形式コンテンツを変更します。 質問応答はマークダウン形式の多くをサポートしているため、コンテンツにリッチ テキスト機能を取り込むことができます。 ただし、チャット ボットなどのクライアント アプリケーションは、同じマークダウン形式のセットをサポートしていない場合があります。 クライアント アプリケーションの回答の表示をテストすることが重要です。
基本的なドキュメントの書式設定
質問応答では、次のような視覚的な手がかりに基づいて、ファイル内のセクション、サブセクション、関係が識別されます。
- フォント サイズ
- フォント スタイル
- 番号付け
- 色
Note
現在、アップロードされたドキュメントからの画像の抽出はサポートされていません。
製品マニュアル
一般にマニュアルは、製品に付属するガイダンス資料です。 ユーザーにとっては、製品のセットアップ、使用、保守、トラブルシューティングにあたっての貴重な情報源となります。 質問応答で、マニュアルが処理される際、見出しと小見出しが質問として抽出され、質問に続くコンテンツが回答として抽出されます。 こちらの例を参照してください。
次に示すのは、索引ページと階層的なコンテンツを持ったマニュアルの例です
Note
抽出の対象として最も適しているのは、目次やインデックス ページがあり、階層化された見出しから成る明確な構造を持ったマニュアルです。
パンフレット、ガイドライン、論文、およびその他のファイル
明確な構造とレイアウトがあれば、他の多くの種類のドキュメントも処理して質問と応答のペアを生成することができます。 これには以下が含まれます。パンフレット、ガイドライン、レポート、ホワイト ペーパー、科学論文、ポリシー、書籍などが含まれます。こちらの例を参照してください。
次に示すのは、索引のない半構造化ドキュメントの例です。
非構造化ドキュメントのサポート
カスタム質問と回答で、非構造化ドキュメントがサポートされるようになりました。 コンテンツが十分に定義された階層的な方法で整理されていない、設定された構造が欠落している、またはコンテンツが自由に流れるドキュメントは、非構造化ドキュメントと見なされます。
非構造化 PDF ドキュメントの例を下に示します。
Note
非構造化ソースの [ソースの編集] タブでは、QnA ペアは抽出されません。
重要
非構造化ファイルまたはコンテンツのサポートは、質問応答でのみご利用いただけます。
構造化された質問応答ドキュメント
次に示すように、DOC ファイルでの構造化された質問応答の形式は、質問と応答を 1 行ずつ交互に並べる、つまり、1 行に 1 つの質問があり、次の行にその答えが続く形式です。
Question1
Answer1
Question2
Answer2
構造化された質問応答の単語のドキュメントの例を次に示します。
構造化 TXT、TSV、および XLS ファイル
質問応答は構造化された .txt、.tsv、.xls ファイルも、質問応答にアップロードして、ナレッジ ベースを作成または増強することができます。 これらはプレーン テキストでも、RTF または HTML のコンテンツが含まれていても構いません。 質問応答ペアには、質問応答ペアをカテゴリにグループ化するために使用できる省略可能なメタデータ フィールドがあります。
Question | Answer | メタデータ (1 つのキー: 1 つの値) |
---|---|---|
質問 1 | 回答 1 | Key1:Value1 | Key2:Value2 |
質問 2 | 回答 2 | Key:Value |
これより後の列は、ソース ファイルに含まれていても無視されます。
インポートでの構造化データ形式
ナレッジ ベースをインポートすると、既にあるナレッジ ベースの内容が置き換えられます。 インポートでは、データ ソース情報を含んだ .tsv 形式の構造化ファイルが必要となります。 この情報によって質問と応答のペアをグループ化し、それらを特定のデータ ソースに帰属させるのに役立ちます。 質問応答ペアには、質問応答ペアをカテゴリにグループ化するために使用できる省略可能なメタデータ フィールドがあります。 インポート形式は、エクスポートされたナレッジ ベース形式に類似している必要があります。
Question | Answer | source | メタデータ (1 つのキー: 1 つの値) | QnaId |
---|---|---|---|---|
質問 1 | 回答 1 | URL 1 | Key1:Value1 | Key2:Value2 |
QnaId 1 |
質問 2 | 回答 2 | 編集 | Key:Value |
QnaId 2 |
複数ターンのドキュメントの書式設定
- 階層を示すには、見出しと小見出しを使用します。 たとえば、h1 を使用して親の質問の応答を示し、h2 により、プロンプトとして表示する必要がある質問の応答を示します。 後続の階層を示すには、小さい見出しサイズを使用する。 スタイル、色、その他のメカニズムを、ドキュメント内の構造を暗黙に示すために使用しないでください。質問応答では複数ターンのプロンプトは抽出されません。
- 見出しの最初の文字は大文字にしなくてはなりません。
- 見出しの末尾に疑問符
?
を付けないでください。
サンプル ドキュメント:
Surface Pro (docx)
Contoso Benefits (docx)
Contoso Benefits (pdf)
FAQ URL
質問応答では、次の 3 つの異なる形式で FAQ の Web ページをサポートできます。
- 基本的な FAQ ページ
- リンク付き FAQ ページ
- トピック ホームページがある FAQ ページ
基本的な FAQ ページ
これは最も一般的なタイプの FAQ ページです。質問と回答が同じページにあり、質問のすぐ下に回答が記載されます。
リンク付き FAQ ページ
このタイプの FAQ ページでは、質問が 1 か所に集約され、同じページ上の別のセクションまたは別のページのどちらかにある回答にリンクされます。
次に示すのは、同じページ上のセクションへのリンクがある FAQ ページの例です。
親トピック ページの子回答ページへのリンク
この種類の FAQ にはトピック ページがあり、各トピックが別ページの対応する質問と回答のセットにリンクされています。 質問応答は、リンクされているすべてのページをクロールして、対応する質問と回答を抽出します。
次に、別ページの FAQ セクションへのリンクがあるトピック ページの例を示します。
サポート URL
質問応答では、特定のタスクを実行する方法、特定の問題を診断および解決する方法、特定のプロセスに対するベスト プラクティスについて説明する Web の記事などの半構造化サポート Web ページを処理できます。 抽出が最もうまくいくのは、階層的な見出しのある明確な構造を持ったコンテンツです。
Note
サポートの記事の抽出は新機能であり、初期段階にあります。 適切に構造化された、複雑なヘッダー/フッターが含まれていないシンプルなページで最適に動作します。
ナレッジ ベースのインポートとエクスポート
エクスポートされたナレッジ ベースからの TSV および XLS ファイルは、Language Studio の [設定] ページからファイルをインポートすることによってのみ使用できます。 ナレッジベースの作成中に、または設定ページの + ファイルの追加または + URL の追加 機能から、それらをデータ ソースとして使用することはできません。
これらの TSV および XLS ファイルを通じてナレッジ ベースをインポートする場合、質問応答ペアは、エクスポートされたナレッジ ベースでの質問と応答の抽出元のソースではなく、編集ソースに追加されます。