2010年8月18日水曜日

Top 10 Cloud Players-その9 
       -HadoopをサポートするCloudera-        

「米国クラウド十傑(Top 10 Cloud Players)」の9回目。
今回は並列処理のHadoopをサポートするClouderaを取り上げる。

◆ Hadoopをサポートするクラウデラ(Cloudera)

グリッドコンピューティングにとって並列処理は欠かせない。
グー グルで稼動する巨大な検索エンジンはまさに並列処理の塊だと言っていいだろう。基本となるGFSは高信頼分ディスクシステムであり、それの上で効果的に並列処理するのはMapReduceだ。そしてこのオープンソースクローンと してYahoo! Labが開発したのがHadoopである。その後HadoopはApache財団に寄贈されてプロジェクトとなり、2008年10月にはそのHadoopを商用でサポートするClouderaが動き出した。立ち上げたのはGoogle、Yahoo!、Facebookのシリコンバレー3人組である。そしてその3人を束ねてCEOとなったのはMichael Olsen氏 だ。Berkeley DBの組込み版SleepyCatのCEOだった人物である。

さて
HadoopではGoogleのGFSが「Hadoop Distributed File System」に置き換わり、その上に「Hadoop MapReduce」とGoolgeのデータ処理Big Tableに相当する「hBase」がある。また大規模データセットの並列処理言語にはこれもヤフーラボが開発したPigHiveがある。どうやってYahoo!がHadoopの開発に至ったか、このあたりの事情は以下のようである。

従来型のデータ処理では膨大か
つ多様な処理体系をもつバックエンドのデータを取り上げて順次処理する。この方式の効率改善のために処理系を並列化したコンピュートグリッドが考え出された。この時期"Nutch"と呼ばれるウェブ検索エンジンを開発していたDoug CuttingとMike Cafarellaの2人組みのエンジニアがいた。彼らはGoogleがちょうど発表したGFSとMapReduceの論文を目にし、早速飛びついて開発に没した。一方Yahoo!内部でも検索エンジンの効率化のためのプロジェクトがあり、このメンバーも論文を読んだ。選択は自力開発か外部から探すかだった。こうしてDoug (現Cloudera Architect)がYahoo!にスカウトされてHadoop開発が本格化した。

ClouderaのビジネスモデルはHadoopを普及させるコンサルテーションである。
中核となるのは分散処理を受け持つHadoop MapReduceだが、入力されたデータから最終的な結
果を得るには必要な情報を抽出する"Map"、抽出データを結合して並び替える"Shuffle"、それらをまとめて結果を出力する"Reduce"のステップがある。これらをどのように扱うかで処理効率は大きく違う。全てはエンジニアの腕前次第である。このために同社が提供するのがSoftware SetとSupport & Professional Service、そしてTraining & Certified Programだ。Clouderaの提供するSoftware SetはCloudera Distributionと呼ばれ、Hadoopに加えてCoordination Serviceの"Zookeeper"やData Integrationの"Sqoop"、Data Flow Languageの"Pig"、SQL風のQuerryの”Hive"、高速リードライトの"hBase"、Work Flowの"0ozie"、それに関連SDKとUser Interfaceを提供する"Hue"などが含まれている。

このCloudera DistributionはLinuxで普及しているRPM形式で配布されるので容易にインストールできる。さらにこの上位に、実行時のProvisioningやConfigurationなどのManagement Toolを付加したものをCloudera Enterpriseという。次にProfessional Serviceではこれらのツールを用いて企業ユーザーのデータセンターやAmazon、Rackspace、VMwareのvCloudなどへの適用を支援する。トレーニングはデベロッパーとアドミニストレータ向けがあり、資格認定制度がある。

Hadoopを使いこなすには相当のスキルがいる。
この難しさを解きほぐすのがClouderaのビジネスだ。しかしこれらのコンサルテーションサービスをこなすのは彼ら自身だけでは十分ではない。そのためのパートナープログラムがあり、主にビジネスインテリジェンスやデータハウジングを手がけているベンダーたちが多い。PentahoMicrostrategyJasperSoftGreenplumなどだ。データインテグレーションではTalendVerticaなども参加している。