2.「Apache Hadoop」で解決できるビッグデータ活用に関する課題

hadoop_bigdata.jpg



"ビッグデータ"時代とも称されるように、さまざまな経路から集積される大量の情報を企業経営において活用することはこの数年での大きなトレンドとなっています。

一方でビッグデータの活用を進める中では、増える一方となるデータの管理や収集したデータの活用にかかわる課題に直面します。そしてこうした課題は、分散処理ソフトウェアである「Apache Hadoop」を活用することによって解決できる可能性が高いのです。



ビッグデータの活用にかかわる課題

多くの企業を悩ませている4つの壁

ビッグデータに関する課題の中でも特に下記で取り上げる4つの課題は、多くの企業を悩ませています。

1.データ量の増加に対応する場合、多額の費用が必要となる

ビッグデータの活用を進める場合、大量のデータを管理するデータウェアハウスを設置するのが一般的です。そしてデータウェアハウスには、日々大量のデータが蓄積されていきます。

加えてビッグデータは、原則として取捨選択されることがありません。そのため、データウェアハウスで保管されるデータ量はひたすら増加し続けることとなります。

そしてデータ量の増加に対応する手段としては、よりハイスペックなハードウェアへのリプレイスを行うのが一般的。しかしながらデータ量の増加に対してこのようなスケールアップで対処する場合には、多額のコストが発生することとなってしまうのです。

2.非構造化データを取り扱うことは困難

従来、企業で利用されるデータの多くはRDBMSで管理されてきました。そしてRDBMSでの情報管理では、非構造化データの取り扱いに関する課題に直面します。非構造化データは、従来のRDBMSでは原則として取り扱えないのです。

一方で、ビッグデータのおよそ8割は非構造化データであるとも言われています。そのため、ビッグデータを従来型のRDBMSで管理することは困難を極めるのです。

3.データ量の増加とともに、分析ロジックの実装に要する時間も長くなる

ビッグデータは、ただ単に蓄積していくだけでは意味がありません。蓄積したデータを分析してこそ、自社にとって有益な情報を獲得できるのです。

しかし、蓄積されるデータ量が多くなればなるほど、またデータの形式などが多岐になればなるほど、複雑なロジックが必要となるため実装に時間がかかるようになってしまいます。そのためデータ量の増加とともに、分析ロジックの実装に要する時間も長くなってしまうのです。

4.分析を外注すると、多額の費用が発生してしまう

前述の通り、データ量が多くなると分析ロジックの実装に費やされる時間的コストも増大します。したがって、ビッグデータの分析を他社へアウトソーシングする企業もあります。

一方でビッグデータは、顧客情報を含め自社に関係するあらゆる情報が集積された情報資産。したがって、非常に高度な情報セキュリティが求められます。故に情報漏えいなどのリスクを懸念して、ビッグデータ分析のアウトソーシングに踏み切れない企業も少なくないのです。



課題の解決に貢献する「Apache Hadoop」

RDBMSには無い機能・性質を有する「Apache Hadoop」

しかし、今回ご紹介した4つの課題は「Apache Hadoop」を活用することによって解決できる可能性があります。なぜなら「Apache Hadoop」は、従来型のRDBMSには無い機能や性質を有しているからです。

1.データ量の増加に低コストで対処できる

「Apache Hadoop」を活用すれば、大量のデータをブロック化して複数のサーバで分散して保管することができます。つまり、データの増加に対してスケールアウトで対処できるのです。そのため「Apache Hadoop」の導入によって、データ量の増加に伴うコストの増大を最小限にとどめることができるのです。

2.非構造化データも蓄積できる

「Apache Hadoop」では非構造化データを取り扱うこともできます。そのため、ログデータ、文書データや音声データなどを構造化せずに蓄積することが可能です。したがって「Apache Hadoop」を導入することによって、非構造化データも含めて幅広いデータをビッグデータの一部として活用することができるのです。

3.「Hadoop MapReduce」で短期間でのロジック実装が可能

「Apache Hadoop」には、「Hadoop MapReduce」というモジュールが搭載されています。「Hadoop MapReduce」は、複数のデバイスによる分散処理を目的として開発されたフレームワーク。そのため「Apache Hadoop」のユーザーは、ごく限られたロジックを実装するだけでビッグデータ分析に必要な処理を実行することができるのです。

4.ユーザー自身でデータ分析を実行できる可能性が大きい

「Apache Hadoop」には、「Apache Hive」というラッパーが実装されています。「Apache Hive」は、データウェアハウスを構築する基盤ソフトウェアとしてFacebook社が開発。「HiveQL」というSQLライクな言語を用いることでファイルシステムに格納されているデータを分析することができます。そのため「Apache Hadoop」のユーザーは、RDBMSと同様の手順で、ビッグデータを分析することができるのです。

また「HiveQL」はSQLライクな言語であるため、高度な知識の無いユーザーであってもさまざまな分析を実行できます。そのためデータ量が増加した後も、ビッグデータ分析を自社内で行うことが可能。ビッグデータ分析をアウトソーシングする必要もなく、情報漏えいのリスクを回避できます。

このように「Apache Hadoop」を導入することで、ビッグデータの活用に関する課題を解決することができるのです。



関連記事