エピソード
R を使用したテキスト分析とテキスト マイニング
代入 Kenneth Benoit
useR!2017: R を使用したテキスト分析とテキスト マイニング
キーワード: テキスト分析、テキスト マイニング、機械学習、ソーシャル メディア
概要 A useR! R を使用したテキスト分析とテキスト マイニングについて説明します。私はRパッケージ quantedaに重点を置いて、Rのテキスト分析と自然言語処理のための幅広いツールセットを取り上げるだけでなく テキスト分析のためのRエコシステムの他の主要なツール(例: stringi)をカバーします。
この講演では、R を使用して一般的なテキスト分析と自然言語処理タスクを実行する方法について説明します。一部のデータ サイエンティストに人気のある信念とは対照的に、R は非常に大きなテキスト分析タスクを管理するための高速で強力なツールです。 私の講演では、使用可能な多くのオプションを紹介し、これらの機能が大きなデータで動作することを示し、これらのタスクの R の機能と Python の一般的なオプションを比較します。
具体的には、ソース テキストを書式設定および入力する方法、メタデータを構造化する方法、および分析用に準備する方法を示します。 これには、ngram や "skip-grams" の構築、ストップワードの削除、ステミング ワード、その他の形式の特徴選択など、トークン化などの一般的なタスクが含まれます。 また、音声の一部にタグを付け、テキストの構造上の依存関係を解析する方法についても説明します。 統計分析では、R を使用して、テキストからの要約統計の取得、キーワードとフレーズの検索と分析、字句の多様性と読みやすさのテキストの分析、コロケーションの検出、辞書の適用、距離メジャーを使用した用語とドキュメントの関連付けの測定を行う方法について説明します。 この分析では、R 基本言語での基本的なテキスト関連データ処理について説明しますが、ほとんどの場合、テキスト データの定量分析には quanteda パッケージ (https://github.com/kbenoit/quanteda) に依存しています。 また、トピック モデリング、潜在的なセマンティック分析、回帰モデル、およびその他の形式の機械学習を実行するために、quanteda から他のテキスト分析パッケージに構造化オブジェクトを渡す方法についても説明します。
クネス・ベノワについてロンドン経済政治学部の定量的社会研究法の教授です。 現在の研究では、政治テキストやソーシャルメディアを中心に、大量のテキストデータを処理するための自動化された定量的な方法に焦点を当てています。 現在の関心は、ソーシャル メディアを含むビッグ データの分析とテキスト マイニングの方法に及びます。 過去5年間、彼は欧州研究理事会の許可ERC-2011-StG 283794-QUANTESSの一環として、テキスト分析、 quantedaのための主要なRパッケージを開発してきました。
useR!2017: R を使用したテキスト分析とテキスト マイニング
キーワード: テキスト分析、テキスト マイニング、機械学習、ソーシャル メディア
概要 A useR! R を使用したテキスト分析とテキスト マイニングについて説明します。私はRパッケージ quantedaに重点を置いて、Rのテキスト分析と自然言語処理のための幅広いツールセットを取り上げるだけでなく テキスト分析のためのRエコシステムの他の主要なツール(例: stringi)をカバーします。
この講演では、R を使用して一般的なテキスト分析と自然言語処理タスクを実行する方法について説明します。一部のデータ サイエンティストに人気のある信念とは対照的に、R は非常に大きなテキスト分析タスクを管理するための高速で強力なツールです。 私の講演では、使用可能な多くのオプションを紹介し、これらの機能が大きなデータで動作することを示し、これらのタスクの R の機能と Python の一般的なオプションを比較します。
具体的には、ソース テキストを書式設定および入力する方法、メタデータを構造化する方法、および分析用に準備する方法を示します。 これには、ngram や "skip-grams" の構築、ストップワードの削除、ステミング ワード、その他の形式の特徴選択など、トークン化などの一般的なタスクが含まれます。 また、音声の一部にタグを付け、テキストの構造上の依存関係を解析する方法についても説明します。 統計分析では、R を使用して、テキストからの要約統計の取得、キーワードとフレーズの検索と分析、字句の多様性と読みやすさのテキストの分析、コロケーションの検出、辞書の適用、距離メジャーを使用した用語とドキュメントの関連付けの測定を行う方法について説明します。 この分析では、R 基本言語での基本的なテキスト関連データ処理について説明しますが、ほとんどの場合、テキスト データの定量分析には quanteda パッケージ (https://github.com/kbenoit/quanteda) に依存しています。 また、トピック モデリング、潜在的なセマンティック分析、回帰モデル、およびその他の形式の機械学習を実行するために、quanteda から他のテキスト分析パッケージに構造化オブジェクトを渡す方法についても説明します。
クネス・ベノワについてロンドン経済政治学部の定量的社会研究法の教授です。 現在の研究では、政治テキストやソーシャルメディアを中心に、大量のテキストデータを処理するための自動化された定量的な方法に焦点を当てています。 現在の関心は、ソーシャル メディアを含むビッグ データの分析とテキスト マイニングの方法に及びます。 過去5年間、彼は欧州研究理事会の許可ERC-2011-StG 283794-QUANTESSの一環として、テキスト分析、 quantedaのための主要なRパッケージを開発してきました。
ご意見およびご提案がある場合は、 こちらから問題を送信してください。