昨年11月始めHPCを使ったクラウド-Magellanプロジェクトについて紹介した。
このプロジェクトは米エネ ルギー省(DOE-Department of Energy)傘下の国立研究所にあるHPC(High Performance Computing)を用いてクラウドコンピューティングの実証実験を行うものである。資金はObama政権下で昨年2月に成立した米経済再生法 American Recovery and Reinvestment Act から充当される。計画推進の中心となるのは国立アルゴンヌ研究所(Argonne National Laboratory)のArgonne Leadership Computing Facility (ALCF)とローレンス・バークレイー研究所(Lawrence Berkeley National Laboratory)のNational Energy Research Scientific Computing Center (NERSC)。目指すはスーパーコンピュータを用いた科学計算データ分析用クラウドコンピューティング(Nationwide Scientific Mid-Range Distributed Computing and Data Analysis Testbed)だ。
3 月23日、アルゴンヌ研究所でシステムのスタートを記念した"Magellan Workshop 2010”が開かれ、その概要が説明された。プロジェクトのターゲットは、中規模スーパーコンピューティング環境をHPCクラウドとして提供することだ。 このための事前作業が昨年10月21-22日の“Mid-Range Computing Workshop”だった。膨大な計算能力を要する仕事はオンサイトのHPCで行い、最も需要の多い中規模計算能力のタスクをクラウドで実行させようとい う判断である。機器構成は3段階に分けてスケールアップする。完成した第1段階の構成(2010 Spring)にはIntel製Nehalem Dual Quad-Core (2.66GHz)、つまり8コア換算のコンピュータノードが504基搭載される。各ノードは24GBのメモリーと500GBのディスクを持ち、ノード間 はQuadData Rate(QDR)のInfiniBand接続だ。システム全体で見れば、4032コアで40TFの計算能力、12TBのRAMメモリー、250TB のディスクを持つ。さらにQDR IBスイッチには160TBのストレージを持つ8台のFile Server、4台の管理ノード(Management Node)が接続、このFile Serverと管理ノードは10GbpsのESNet(Energy Sciences Network)にスイッチ経由で接続されている。このDOE構築のネットワークは、全ての国立研究所や主要大学、研究機関を網羅しており、外部からもこ のクラウドが利用できる仕組みとなっている。
続く第2段階は 今年の9月(Late Summer)、リリースの予定だ。
大きな変更は“ストレージ強化”と"外部ネットワーク接続”である。まず、ストレージ は"Active Storage”として、最大500TBのディスク、高速処理用にも最大10TBのSSDが追加され、これらインテリジェントなストレージノード用に最大 100のコンピュートノードも導入される。外部ネットワークは最大20台のゲートウェイノードが設置されて効率的な体制となる。その上で、最終構成が来年 初め(January 2011)に出来上がる。ここではANI(Advanced Network Initiative)の100Gbpsネットワーク対応がテーマだ。このANIプロジェクトは、ローレンス・バークレイー研究所が中心となって、複数の 国立研究所 (Sandia、Lawrence Livermore、Lawrence Berkeley、Oak Ridge、Los Alamos、Brookhaven、Argonne、Pacific Northwest)とシリコンバレーにあるNASA Ames Research Centerが結ばれる予定だ。
こうして実行段 階となったHPCクラウドは、ソフトウェア構成から見ると以下のようになる。
幾つかの利用法に対応するため、ハードウェア上に3層のレイヤーがあ る。1層目はHPCそのものをプロビジョニングする“Argonne breadboard Toolkit”、2層目はAmazon EC2/S3互換をオープンソースで実現するEucalyptus、最上位の3層 目はHPC Linux VMやHadoop/MapReduce(PVFS・・・Parallel Virtual File System)などだ。
利用方法を紹介し よう。
3層目の利用法は2つ。ひとつはHPC Linux VMを用いて、HPCをLinux上の標準仮想マシン(Standard Cloud Virtual Machines)として利用することが出来る。もうひとつは大規模データ解析(Data Intensive Applications )を行うものだ。ここではGoogleのインフラとしてお馴染となったオープンソースHadoop/MapReduce、さらに並列処理のクラスタリング PVFSが提供される。そして2層目にはEucalyptus環境があって、EC2/S3をベースとしたソフトウェアスタックを自由に組むことができる。 最後に、1層目のツールはHPCそのものがプロビジョニングできるので、今後、想定外の利用方法が出てきたときには、対応可能となっている。
このよ うにDOEのHPCクラウドは決して科学計算だけに特化したものではない。
オープンソースのEucryptusやHadoop、PVFSなどを採 用し、十分な汎用性を確保した試みである。注目は、現在普及しているブレードサーバーをHPCに置き換えて高速なInterconnectを活用し、他シ ステムとの接続にはInfiniBandを用いたことである。これらがどの程度、効率向上に寄与するのか楽しみだ。結果によっては、大規模プライベートク ラウド構築の指針になるだろう。