Winodws Azure HDInsight パブリック プレビュー開始!
Azure で Hadoop
“HDInsight”. 耳慣れない名前かもしれませんが、あれです、"Hadoop on Windows" のことです。Windows Azure (クラウド)版と Windows Server (オンプレミス)版があるのですが、そのうち Windows Azure 版がこのたび、「パブリックプレビュー」の段階へ進みました。今までと大きく変わった点は、
- Azure をお使いの方ならどなたでも、HDInsight をお試しいただけます。
- 今までのプレビューは招待制でした。
- Windows Azure 管理ポータルから、「自分のサブスクリプションで」 40 ノードまでの Hadoop クラスタを作れます。
- 今までのプレビューは、 www.hadooponazure.com という専用ポータルサイトを通じて、3 ノードだけの小さなクラスタが提供されていました。
- クラスタ存続期間の制限もなくなりました
- 今までのプレビューでは、Hadoop クラスタが無償提供される代わりに、5 日間経つとクラスタが消えてしまいました。
といったところです。これからは自分の Azure 環境で自由に試せるようになります。
詳しくはこちらにアナウンスが。
Crunch Big Data in the Cloud with Windows Azure HDInsight Service
とはいえ英語ブログのリンクを張りっぱなしというのも何なので、このブログに関連情報をまとめようと思います。が、その前に、
まずは申し込んでください
『Web サイト』や『仮想マシン』といった他のプレビュー機能と同様に、 HDInsight も『プレビュー機能を有効化する』手続きが必要です。有効化のリクエストをしてから、実際に使えるまで多少時間がかかるかもしれませんので、まずはお申し込みをお願いします。簡単です。
あ、そもそも Windows Azure のサブスクリプションをお持ちでない、しかしこれを機に試してみたい、という方はこちらを是非→ Windows Azure の 90 日間無料評価版
そして、 HDInsight サービスの有効化リクエストはこちらから→ Azure HDInsight Preview
こんな画面が出てきますので、 “Azure HDInsight Preview” の “try it now” をクリックしてください。
申し込むと、こんな状態になります。
そして困ったことに、現時点では私自身もこの状態で、まだ新しい HDInsight を使うことができていません・・・
仕方ない。待っている間に HDInsight に関する情報でも集めますか。
Azure HDInsight 関連情報集
まず、こちらをご覧ください。よくまとまっています。
https://www.windowsazure.com/en-us/manage/services/hdinsight/?fb=ja-jp
この中から、役に立ちそうな情報をピックアップしてみます。
基本情報
まず、 HDInsight に含まれている Hadoop とその関連モジュールのバージョンは?
What version of Hadoop is in Windows Azure HDInsight?
使ってみよう
- クラスター作成から、簡単なジョブの実行までをまとめた「最初の一歩」はこちら。
Getting Started with Windows Azure HDInsight Service - HDInsight の特徴である JavaScript コンソールと Hive コンソールの使い方。
HDInsight Service Interactive JavaScript and Hive Consoles - Java で簡単な WordCount プログラムを書いて実行してみよう!
Using MapReduce with HDInsight
(メモ帳で Java ソースを書いて javac でコンパイル、 JAR ファイルにまとめて HDInsight に投入するというプリミティブなもの。) - Hive だって使える。ブラウザ上の Hive コンソールを利用する例。
Using Hive with HDInsight - もちろん Pig も OK! これはヘッドノードに RDP でログオンして試す例。
Using Pig with HDInsight
分析系
- Excel から HDInsight へアクセス (Hive ODBC ドライバを使います)
How to Connect Excel to Windows Azure HDInsight via HiveODBC - Mahout でリコメンデーションエンジンを作っちゃう。
Simple recommendation engine using Apache Mahout - Twitter のデータを取り込んで Hive で分析。
Analyzing Twitter Data with Hive - Blob ストレージのデータを Hive で分析し、結果を SQL Server へ格納する (Sqoop を使います)
Using HDInsight to process Blob Storage data and write the results to a SQL Database
Hadoop クラスタの管理
基本的な管理ツールの使い方。
How to Administer HDInsight ServiceHDInsight クラスタをプログラムから生成(REST API を直接利用するプリミティブな方法)
Deploying an HDInsight Service Cluster ProgrammaticallyHDInsight クラスタに対してリモートからジョブを投入 Executing Remote Jobs on Your HDInsight Cluster Programmatically
これに関しては、.NET 版の HDInsight クライアントライブラリが開発されています。
Microsoft .NET API For Hadoop WebClient
いろいろできそうで楽しみですね。私もクラスタが使えるようになったら順次検証してみようと思います。
※ 補足
大事なことを書き忘れました・・・ HDInsight のクラスタは、 Windows Azure の『クラウドサービス』上に構築されます。ヘッドノート(ネームノード)として XL サイズが 1 台、計算ノード(データノード)は L サイズが指定した台数分(40 ノードまで)デプロイされるので、その分のコンピューティング インスタンス料金が発生します。
ただし、
プレビュー期間中は、インスタンス代半額
です。 Enjoy!
__END__