シリーズ1回目はGPUやHPCなどを仮想マシンに連携する方法、2回目は外部プロセス連携について述べた。今回はクラウド型ユニバーサルデータベースについて話そう。
◆ 連邦政府が始めた情報公開サイト (Data.gov)
Data.govは連邦政府CIOのVivek Kundra氏が就任後、実行した3つ(Apps.gov、Data.gov、 Federal TI Dashboard)のうちの1つだ。目的は連邦政府や州政府などが持つ膨大な情報を多面的に開示して利用してもらうこと。Data.govの構成は、①生データカタログ(Raw Data Catalog)、②分析ツールカタログ(Tool Catalog)、③地域別データカタログ(Geo Data Catalog)からなる。ユーザーとなる市民や団体は、目的のデータをカタログから探し出し、インタラクティブでサーチ/ソート/フィルタリング/アナライズなどを施して、データをグラフ化したり、地図とマッピングして、より直截的に見ることができる。
次にデベロッパー向けの対応では、多様なフォーマットへのデータダウンロードが出来るし、提供されるAPIを使い、システムの一部として組み込むことが可能だ。こうして出来上がったアプリケーションは多くの人に使ってもらうためData.gov上に登録できる。現在、政府内部で作られたものが900個以上、民間が開発したものが200個以上利用可能だ。下図の事例FlyOnTime.usは、旅行者向けの航空機発着情報サイトである。このサイトで利用されているデータには ①運輸統計局のAirline Performance 、②連邦航空局のAirport Conditions、③ 国立海洋大気圏局のHistorical Weather Reports、④ナショナルウェザーサービスのCurrent Weather Conditions、さらに ⑤サイト利用者から飛行場セキュリティーでの所用時間をスマートフォンやtwitterで知らせてもらうAirport Security Line Wait Timesなどがある。
Data.gov には現在40万件近いデータが登録されている。
これには連邦政府の全省庁の172部局からデータが提供され、州では初期のワシントンDCやカリフォルニア州、ユタ州などから段階的に広がり、現在では29 州、都市ではニューヨーク、シカゴ、サンフランシスコ、ボストン、アトランタなど11都市、国際間ではイギリス、ドイツ、カナダ、オーストラリア、 ニュージーランド、ノルウェイーなど16ヵ国、さらに国連が参加各国の協力のもとに集めた総合データサイトundataや、欧州連合のEuropean Environmental Agencyも参加している。参考のために連邦政府の主だったデータは以下のようなものがある。
• Airline Performance(航空)
• National Weather Services(気象)
• Patent Grant Bibliographic Data(特許)
• Residential Energy Consumption(エネルギー消費)
• Census Data(国勢調査)
• Toxics Release Inventory(有毒排出)
• U.S.A. Spending Contracts and Purchases(政府購買)
• U.S. Geographic Data(地理)
• Crime in the U.S.(犯罪)
• Medicare Medicaid Statistical Supplement(医療)
• Census of Agriculture(農業)
• Open Government Datasets(オープンガバメント)など
◆ Windows Azureのデータマーケットプレイス (DataMarket)
MicrosoftからもWindows AzureのサービスとしてDataMarketが提供されている。
しかし、こちらはパブリックな公開データもあるが、民間企業の持つデータベー スも提供され、それらの多くは有償である。DBカテゴリーには ①ビジネス&ファイナンス、② 人口統計、③エンターテイメント&メディア、④ヘルス関連、⑤位置情報サービス、⑥ニュース&イベント、⑦不動産、⑧小売業、⑨気象などがある。ユーザーは必要とするデータベースを探し出し、それをMicrosoft OfficeやPowerPivotに展開して、より効果的に加工処理することが出来る。さらにVisual Studioにダウンロードすれば、C#によるアプリケーションに組み上げたり、Windows Phone 7対応にすることも可能だ。以下はデータの一部である。
• Axiom InfoBase X-Geo(地理)
•CCH CorpSystem(売上税)
• Digital Map(地理)
• Dun & Bradstreet(企業情報)
• Energy Statistic Database UN(国連エネルギー統計)
• European Greenhouse Gas Emissions(欧州温室ガス)
•StockViz(インド金融市場)
•CCH CorpSystem(売上税)
•Practice Fusion(メディカル)
•Super MicroCast(気象情報)
•Zillow(不動産)など
◆ アマゾンのパブリックデータセット (Public Data Sets on AWS)
Amazonの場合は、公に供する詳細なデータベー スを無償で提供している。特に有名なのはヒトゲノム・データベースEnsemblプロジェクトのミラーリングだ。もうひとつバイオ関連では、遺伝子や発現配列標識で有名なUniGeneも提供されている。また、米国勢調査ではCensus 2000など過去の調査も含めた詳細なデータベースが利用できるし、世界最大の無償利用のデータベースFreebaseもある。これらのデータベースは提供側の維持管理もさりながら、膨大なアクセスに耐えるシステム提供が大変だ。研究者やデベロッパーは、これらホスティングデーターベースのスナップショットをAWSに取り込んで利用する。利用可能なDBは以下の通り。
• Freebase Data Dump(オープンDB)
• Human Genome(ヒトゲノム)
• Census(国勢調査)
• UniGene(バイオテック)
◆ 飛び立つユニバーサルDB
ここで紹介した3つは、単なるデータベースの公開とは違う。
これらのデータベースはユーザーがインタラクティブで活用したり、デベロッパーのプログラムに組み込むことが前提だ。そのためのダウンロード手順やツール、APIなどが整備されている。Data.govでは連邦や州政府、地方自治体、さらに多様な公益団体の データベースを開放し、Amazonではパブリックドメインのデータベースを手がける。これらを利用すれば、これまでにないアプリケーションが出来上がる。
さらに注目すべきはMicrosoftのDataMarketだ。
民間データベースを有償で提供する試みは素晴らしい。データベースの営利サービスはもとより、一般企業においても社内利用のデータを公共の益に照らし合わせて、積極的に公開する時代が来るだろう。プログラムのオープンソース化で時代が変わったように、データベースのオープン化は分析業務の性能を格段に向上させる。
こうして、クラウド型データベースはユニバーサルな世界に飛びたった。