2009年11月18日水曜日

HPCなど大型クラウドをサポートするベンダー (1)

今回は、HPCなどの大型クラウドをサポートするベンダーを紹介しよう。
この領域には、幾つものベンダーやオープンソースプロジェクトが存在する。ここで取りあげたベンダーの多くは、HPCやMulti-Clusterなど(以下、HPCと記す)のリソース管理などに傾注しているが、中には仮想化技術の適用手法などに工夫を凝らしているものもある。

◆ Moab Adaptive HPC プラットフォーム(Adaptive Computing)

Adaptive Computing (旧Cluster Resources)はデータセンターの自動化ソフトウェアを手掛け、とりわけ、HPCなど大型サーバーを得意としている。フラッグシップのMoabには、Moab Adaptive HPCとMoab Cluster、Moab Gridのバリエーションがある。
これらはGrid Computingの技術を基本的にクラウドに適用したもので、LinuxとWindowsが混在したクラウド環境を提供する。Moabの機能を大別すると ①自動リソース管理(Automatically Acquire Cloud Resources)、②プロビジョニング(Provisioning Cloud Resources on the Fly)、③リソース維持制御(Maintain Resource Control)の3つだ。リソース管理では、ユーザーの要求するワークフローに沿って必要なリソースをアロケーションし、プロビジョニングで、OSなど 必要なソフトウェアスタックをダイナミックにレイアウトして実行、これらリソースはオートマテック・ロードバランシングによって全体の維持制御が行われる。もし、OSやハードウェアなどに障害が起こると、Moabは別なノードをアロケートすることが出来るし、全体ノードのLinuxやWindowsの初期設定から、状況に応じて、バランスよく再アロケーションすることも可能だ。また、優先順位の高いジョブが投入されると、他のジョブのスワップアウトなどを行い、それにあったリソースを作り出して実行したり、時間的に急ぐジョブはスケジュールキューの順位を入れ替えることも出来る。












Moab Gridの場合(左図)は、通常、ユーザーはローカルクラスターにアクセスして必要なサイズを要求する。Moabは全体のリソース管理から、ローカルリソースを含めて要求の適正化を図る。これらいずれの場合も、全体リソースの稼動状況(右図)をシステム管理者は詳細に見ることが出来る。ローカルな管理者は、自分の領域内の管理、ユーザーはポータルを介して同様に自分の利用域内をみることができる。Adaptive ComputingのMoabは、これまでLinuxだけで利用されることが一般的であったHPCをWindows OSにも開放し、バランスよく実行する世界を開いている。

◆ Penguin on Demandクラウドサービス(Penguin Computing)

Penguin Computingの場合はユニークだ。
1998年の設立以来、同社はLinuxに傾注し続け、HPCに行き着いたと言ってよい。
そして今年8月、HPCを使ったクラウドPenguin on Demand (PoD)を発表。PoDでは、Amazonに代表される通常のクラウドサービスでは得られない高性能な並列コンピュータサービスを提供する。
このため、同社に設置された高性能マルチクラスターに高速ストレージを搭載、それらをInfiniBandで接続してHPCを構成する。また、超高速グラフィック処理にはスーパーGPUのNVIDIA Teslaが利用できる。さて、クラウドというとすぐ仮想化技術との関連が気になるが、PoDには、所謂、通常の仮想化技術は使われていない。同社では、クラウドとはインターネット越しに動的かつ拡張的にリソースを提供する利用形態であり、細分化された仮想マシンを提供する一般のIaaSはそのひとつで、PoDは高性能な並列処理を提供するため、より大きなコンピューティングの塊を提供するものだと説明する。

同社は設立以来、大型Linuxサーバーのハードウェアとソフトウェアの提供をビジネスとしていた。そして、2003年、NASAでLinuxサーバーを用いてスーパーコンピューターを開発するBeowulfプロジェクトでクラスタリングを手掛けていたScyld Computingを買収。これが同社のクラスタリング技術の中核Scyld Clusterwareとなっている。HPCを用いたPoDサービスは、このクラスタリングソリューションを複数台のLinuxサーバーに適用、その上に並列処理プログラミングの標準規格MPI (Message Passing Interface)ライブラリー、並列ファイル処理としてLustrePanasas PanFSPVFS2、さらに各種ツール、リソース管理、スケジューラーなどを組み入れて仕上げたものである。

◆ Platform LSF HPCプラットフォーム(Platform Computing)

Platform Computingは、この分野の老舗だ。
同社は1980年代後半、UC Berkeleyで次世代コンピューティングを予見し、無数のノードに分散されて実行するグリッドシステムの負荷分散を研究していたSongnian Zhou 博士によって始まった。主力となるLSF(Load Sharing Function)はバッチ型のワークロードが基本となり、Linux、Solaris、Windowsなどの各種OS、ハードウェアでは通常のサーバーだけでなく、クラスターやHPCなど多面的な適用が可能となっている。












現在、最も興味を引くのは、多様なシステムを総合的に管理するPlatform Enterprise Grid Orchestrator(左図-EGO)である。このEGOの利用でマルチOS対応のGrid Computingシステムを構成することが出来、さらにPlatform VM Orchestrator(右図)を用いて、VMware ESXやXen、Microsoft Hyper-Vで仮想化することも可能となっている。