エピソード

codebookr: *R* のコードブック

代入 Peter Baker

useR!2017: codebookr: *R* のコードブック

キーワード: コード ブック、データ ディクショナリ、データ クリーニング、検証、自動化
Web ページ: https://github.com/petebaker/codebookrhttps://github.com/ropensci/auunconf/issues/46
codebookr は、コードブックまたはデータ ディクショナリのメタデータを使用してデータのクリーニング、チェック、書式設定を自動化するための開発中の R パッケージです。 これは主に臨床研究と医学研究を目的としていますが、他の研究分野で簡単に使用できます。
多くの場合、RCT または政府および病院の管理システムからプライマリ、セカンダリ、または第 3 のデータを収集する研究者は、Web からデータを収集したり、ビジネス分析のために社内データを収集したりするデータ ドキュメントやデータ クリーニングのニーズが異なります。 ただし、すべてのスタディは、派生変数を含むすべてのスタディ変数を包括的に文書化するコードブックを使用することでメリットを得られます。 コードブックには、データ形式、変数名、変数ラベル、因子レベル、連続変数の有効範囲、計測機器の詳細などが記載されています。
統計コンサルタントの場合、新しいデータ セットごとに新しいコードブックが作成されます。 統計学者は写真付きのコードブックまたは pdf を取得できますが、メタデータを直接使用できるように、私の好みはスプレッドシートです。 多くのデータ アナリストは、このメタデータを使用して、データの読み取り、クリーンアップ、およびチェックを行う構文をコーディングすることを喜んで受け入れている。 私は、コードブックを R に読み取り、データチェック、クリーニング、因子レベル定義に直接メタデータを使用して、このプロセスを自動化することを好みます。
データラングリングとクリーニングにはかなりの関心がありますが(チョンとLoo 2013;Wickham 2014;Fischetti 2017) では、コードブックを読み取るために使用できるツールが少なく ( http://jason.bryer.org/posts/2013-01-10/Function%5Ffor%5FReading%5FCodebooks%5Fin%5FR.html参照)、メタデータをデータセットに自動的に適用するツールも少なくなっています。
ここでは、 codebookrの基礎を概説し その活用を、オンタリオ大学の公衆衛生大学院で行われた研究プロジェクトの例に示します。
Fischetti、Tony を参照します。 2017。 Assertr: R 分析パイプラインのアサート プログラミングhttps://CRAN.R-project.org/package=assertr.

Edwin de、Mark van der Loo。 説明されています。 "R を使用したデータ クリーニングの概要"テクニカル レポートの201313。 統計 オランダ。 http://cran.vinastat.com/doc/contrib/de%5FJonge+van%5Fder%5FLoo-Introduction%5Fto%5Fdata%5Fcleaning%5Fwith%5FR.pdf.

ウィッカム、ハドリー。 を参照してください。 "データの整理" 統計ソフトウェアジャーナル 59 (10)。 http://www.jstatsoft.org/v59/i10/.