じじぃの「ストリームデータ処理・3つのV・ビッグデータとは?ビッグデータの衝撃」

セミナー】ビッグデータ時代の新マーケティング思考 動画 YouTube
http://www.youtube.com/watch?v=DXPpmRCL9Vc
モバイル&クラウドコンピューティングが拓く未来 動画 YouTube
http://www.youtube.com/watch?v=_FbXbY3Jnp0
ビッグデータ Google 検索
http://www.google.co.jp/images?hl=ja&rlz=1T4GZAZ_jaJP276JP276&sa=X&oi=image_result_group&q=%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%20%E7%94%BB%E5%83%8F&tbm=isch
今さら聞けないHadoopビッグデータ(Zabbix SIA協賛)  動画 YouTube
http://www.youtube.com/watch?v=Q4lZPDYB1y0
スーパープレゼンテーション 「アルゴリズムは人間たちの仕事を奪うのか?」 (追加) 2013年11月18日 NHK Eテレ
【プレゼンター】ケビン・スレイビン(MITメディアラボ助教授)
マイケル・ナジャーの写真は、自然の山の輪郭と、ダウジョーンズのグラフを組み合わせたアート作品。この作品が比喩するものが今日のテーマである。混沌の中から何かを導き出すための手法が、私たちの世界を形づくるものに変化してきている。それは具体的には「アルゴリズム」のことです。
市場のデータからアルゴリズムを見つけ出して蝶の標本みたいに張り付ける会社がある。ナイフ、カーニバル、ボストンシャフラー、トワイライトといったアルゴリズムが存在する。
地球上の形は自然と人間とが作り上げてきたものだが、現代ではそれにアルゴリズムが加わって、3つが共同して進化していくだろう。
http://www.nhk.or.jp/superpresentation/backnumber/131118.html
未来世紀ジパング 「日本の“最新コンビニ”がアジアで沸騰!」 2013年8月19日 テレビ東京
【司会】SHELLY、大浜平太郎 【ゲスト】夏野剛宮崎美子坂下千里子 【ナビゲーター】田中陽(日本経済新聞社 編集委員
●日本がアジアのビッグデータを握る!
コンビニは高度なPOSシステムで商品を管理し発注を効率化しているだけではなく、購入した人の性別や年齢層、よく売れる時間帯などの細かな消費情報を集めている。
日本に5万店以上あるコンビニで長年に渡って蓄積された膨大なデータ=ビッグデータと、消費者の心理をつかむことで、数多くのヒット商品が生み出されてきた。
文化や好みの違う海外の消費情報を把握するのは容易なことではない。しかし、日本のコンビニがインドネシアをはじめとするアジアで増えていけば、このPOSシステムによって詳細な消費情報を大量に集められるのだ。
そうして集めたアジアのビッグデータを把握し、日本メーカーが商品開発に生かすことで、ビジネスチャンスが広がるだろうと田中は予測する。
http://www.tv-tokyo.co.jp/zipangu/backnumber/20130819/
〈be report〉IT新潮流「ビッグデータ 2012年5月26日 朝日新聞デジタル
大容量のデジタルデータを効率的に解析することで、そこから利用者やビジネスに役立つ情報を引き出す。これが「ビッグデータ」と呼ばれるトレンドだ。
ビッグデータ」という言葉は、数年前から様々な場面で取り上げられ、英科学誌ネイチャーは08年9月に「ビッグデータ ペタバイト時代の科学」という特集を組んでいる。
ヒッグス粒子探索を行う欧州合同原子核研究機関(CERN)の巨大粒子加速器LHC)では、年間15ペタバイト以上という大量のデータが蓄積され、世界140ヵ所を超すデータセンターによって分散処理しているという。
http://digital.asahi.com/articles/TKY201205230168.html
SQL vs NoSQL──どんな機能差がある?どう使い分けるべき? Google I/O 2012 2012年7月17日 ソフトバンク ビジネス+IT
SQLとNoSQLではどちらが優れているのか? グーグルの担当者がディベート(というより小芝居:-)を行ったセッション「Google I/O 2012 - SQL vs NoSQL: Battle of the Backends - YouTube」が公開されています。このセッションは、先日開催されたGoogle I/O 2012で行われたもの。SQLとNoSQLには機能的にどのような違いがあり、どう使い分けるべきなのか、明確な説明が参考になります。ハイライトを紹介しましょう。
http://www.sbbit.jp/article/cont1/25157
クローズアップ現代 「ヒッグス粒子発見 巨大実験の舞台裏」 2012年7月19日 NHK
【キャスター】国谷裕子 【ゲスト】村山斉(東京大学数物連携宇宙研究機構長)
宇宙の成り立ちに欠かせないものとして、半世紀近く前にその存在が予言されながら、見つけることができなかった謎の素粒子ヒッグス粒子」。日米欧などの国際的な研究グループが、巨大な「加速器」と呼ばれる実験装置を使って探し続けた結果、ついに、そのヒッグス粒子と見られる素粒子が見つかった。世界各国の科学者6千人の力を結集した巨大実験は、どのように行われたのか。日本の科学者を中心に取材し、“世紀の発見”までの知られざる舞台裏に迫る。
http://www.nhk.or.jp/gendai/kiroku/detail02_3231_all.html
クローズアップ現代 「社会を変える“ビッグデータ”革命 」 2012年5月28日 NHK
【キャスター】国谷裕子 【出演者】鈴木良介(野村総合研究所主任コンサルタント
スマートフォンICカードなど身近な電子機器から、私たちは膨大な情報を発信している。インターネットで検索した内容、買い物をした商品や価格、駅の改札を通った移動、さらには病院で受けた検査結果まで、あらゆる情報がデジタル化され記録される時代。生まれるデータの量は、この数年で飛躍的に増え、“ビッグデータ”と呼ばれている。解析不可能だったビッグデータを技術の発達で分析できるようになったことで、生活や社会が劇的に変わりつつある。コンビニでは、購買行動をリアルタイムで捕捉しパターンを発見、利用者が買う商品を事前に予測する。カーナビを使って100万台の自動車の位置情報をつかむことで急ブレーキ地点を地図化、“未来の事故現場”を見つけて事前に事故対策をする。アメリカでは医療分野でビッグデータを活用した“先読み”をする医療が加速している。一方で個人の情報が膨大に広がっていくことを懸念する声も。“ビッグデータ”時代の最前線を見ていく。
http://www.nhk.or.jp/gendai/kiroku/detail02_3204_all.html
大量データや新社会インフラを支える注目の技術「ストリームデータ処理」とは? 2011年3月28日 EnterpriseZine (EZ)
次々と入力される大量のデータをリアルタイムに処理することで、いち早く変化の兆候を察知する。アルゴリズムトレードや新社会インフラなど、先進的な取り組みの基盤を支える技術としてストリームデータ処理、もしくはCEPと呼ばれる技術に注目が集まっています。今回は、10年近くにわたって研究開発を続ける日立製作所の製品担当チームを先生役として編集部に迎え、その技術的な概要をレクチャーしていただきました。
http://enterprisezine.jp/iti/detail/2999/
クラウドコンピューティング ウィキペディアWikipedia)より
クラウドコンピューティング(英: cloud computing)とは、ネットワーク、特にインターネットをベースとしたコンピュータの利用形態である。ユーザーはコンピュータ処理をネットワーク経由で、サービスとして利用する。
【利用技術】
クラウドコンピューティングはネットワーク・コンピューティング、ユーティリティコンピューティング、SaaSなどの要素を含み、それをさらに発展させたものと考えることができる。
クラウド・コンピューティング・サービスを提供する側のデータセンターでは通常、ユーザー数やデータ数の変動を吸収できる仮想化技術を使用し、インターネットを通じて世界中のどこからでも・誰でも利用できるようにしている。商業利用に際してはQoSを利用することもできる。
これらの技術・サービスを支えているのは公開された標準規格とオープンソース系のソフトウェアであるが、データセンター内部では独自技術を使う事もある。たとえば、Googleの大規模分散データベースであるBigTableは独自のファイルシステムDBMSにより構成されている。
クラウドの本体・部品・素材の技術開発及び生産はすべて欧州と北米で行われているともいわれたが、現在では主要プロバイダーのセンターや開発拠点は世界各国(中国、インド等)に展開されている。
なおプライベートクラウドの場合は、イントラネットと同様にインターネット上で一般公開はされず、企業内(企業グループ内)のセキュアなネットワーク内にクラウドサービスの技術を活用する。実際には各種のWeb(Web 2.0)技術、仮想化、プロビジョニング、サービスレベル管理、課金などの技術が使用される。
Hadoop ウィキペディアWikipedia)より
Apache Hadoopは大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopGoogleMapReduceおよびGoogle File System(GFS)論文に触発されたものである。
HadoopApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。
NoSQL ウィキペディアWikipedia)より
NoSQLとは、リレーショナルデータベース管理システム(RDBMS)以外のデータベース管理システムを指し、リレーショナルデータベースの長い歴史を打破するものとして、広い意味での関係モデル以外に属するデータベースの発展を促進させようとする運動である。関係モデルではないデータストアの特徴として、固定されたスキーマに縛られないこと、関係モデルの結合操作を利用しないこと(場合によっては単にそのような機能が欠落しているだけ)、水平スケーラビリティが確保しやすい事が多い、トランザクションを利用できないものが多いことなどが挙げられる。学術論文や正式な文書ではこの種のデータベースのことを構造型ストレージ (英: structured storage) と呼ぶことが多い。
産業界での有名な実装として、GoogleBigTable、アマゾンのAmazon DynamoDBなどがある。オープンソースの実装も数多く存在し、MongoDB、Apache HBase、Apache Cassandraなどがある。

                                • -

ビッグデータの衝撃――巨大なデータが戦略を決める』 城田真琴/著 東洋経済新報社 2012年発行
ビッグデータを支える技術 (一部抜粋しています)
●ストリームデータ処理(リアルタイムデータ処理)
ビッグデータの特性を示す3つのVのうち、ボリューム(量)とバラエティ(多様性)については、ハドゥープやNoSQLデータベース、アナリティックデータベースなどでカバーできるものの、残るもう1つのVであるベロシティ(発生頻度、更新頻度)については、これらの技術でカバーするのは難しい。
そこで必要となるのが、次々と流れてくる大量のデータ(ストリームデータ)をリアルタイムに処理するストリームデータ処理技術である。ストリームデータ処理技術は別名、リアルタイムデータ処理技術、イベントストリーム処理技術、または、CEP(Complex Event Processing:複合イベント処理)とも呼ばれ、リレーショナル・データベースとは根本的に異なるデータ処理技術である。
リレーショナル・データベースでは、いったん、ハードディスク内のテーブルに書き込まれる。そして、アプリケーションがクエリを発行したタイミングで、全データを一括で処理し、結果をメモリ上に抽出する。このような検索・演算処理はクエリを発行するたびに発行されるため、データ量が増加するにつれてパフォーマンスの悪化を招く。またデータの書き込みや読み込み時には、低速なハードディスクへのアクセスを伴うため、クエリの実行時にタイムラグが生じ、リアルタイム処理ができない。
これに対し、ストリームデータ処理では、データが入力されるとハードディスクにデータが書き込まれるのではなく、メモリ上でデータ処理が実行されるため、高速処理が可能だ。また、前回処理した結果を中間データとして保持しておくため、データをすべて処理する必要はなく、メモリ上を流れるデータから中間データとの差分だけを処理すればよい。これにより、入力から結果の出力までのレイテンシ(遅延)を100万分の1レベルにまで抑え込み、1秒あたり数十万件から数百万件といった高速処理を実現する。
ストリームデータ処理は、特段、新しい技術というわけでなない。IBMの「IBM InfoSphere Streams」やオラクルの「Oracle CEP」、サーベース(現SAP)の「Sybase Aleri Streaming Platform」、国産ベンダーでは、日立製作所の「uCosminexus Stream Data Platform」など、従来から製品は存在し、主として金融業界、特に証券業界で多く利用されてきた。具体的には、大量に流れ続ける株価や出来高などの市況データをリアルタイムに分析し、一定のルールに基づき、コンピュータシステムが株式を自動売買する「アルゴリズムトレード」と呼ばれる株式取引で重宝されてきた。
一方で金融業界以外への導入がなかなか進まず、製品としてはややニッチな存在であったことも事実である。ベンダーとしては、このビッグデータブームにうまく乗せて、ブレークさせる機会をうかがっているところだといえよう。具体的な活用シーンとしては、渋滞情報や事故情報などの交通状況をリアルタイムにモニタリングするといったスマートシティ分野、製造業のMES(製造実行システム)、小売業であれば、POSデータのリアルタイム収集・分析、ECサイトにおけるクリックストリームデータに応じた商品のレコメンデーションなどが提案されている。

                                • -

どうでもいい、じじぃの日記。
図書館の中で新刊書コーナーを覗いてみたら、『ビッグデータの衝撃――巨大なデータが戦略を決める』という本があった。
巨大データであるビッグデータには特性を表す3つのVがある。ボリューム(量)とバラエティ(多様性)とベロシティ(発生頻度、更新頻度)だ。
アマゾンの閲覧ページで、買おうと思った商品のページに「よく一緒に購入されている商品 」が出てくる。これはビッグデータから有用な関連商品を抽出したものだ。
7月に、NHKクローズアップ現代』で「ヒッグス粒子発見 巨大実験の舞台裏」を観た。
ゲストの村山斉さんがこんなことを言っていた。
国谷 浅井先生のグラフを見て、ほんのちょっとだけ黒い点が飛び上がっているのを見て、誤差の範囲じゃないかと見えるのですが。
村山 文字通りゴミの中から、欲しいものを探し出す大変な作業なんです。ですから慎重に慎重を重ねて、粒子にはいろんな壊れ方があるのが分かっているので。それとこの実験には2つのグループがあって、全く独自に解析していて、同じ結果が得られているんです。
まさに、ヒッグス粒子の発見は膨大なゴミの山(ビッグデータ)から、小さな宝石を探すような作業だった。
ビッグデータはあらゆるジャンルに存在する。多くはゴミデータだが、そこから、いかに高速に、有用な情報を引き出すかだ。
ビッグデータ処理に必要なのは高性能のスーパーコンピューターと、ストリームデータ処理だ。このビッグデータ処理で先行している企業がグーグルとアマゾンらしい。
5月に、NHKクローズアップ現代』で「社会を変える“ビッグデータ”革命」を観た。
コンビニのローソンが出ていた。
ローソンの「ポイントカード」は4000万人が利用しているのだそうだ。このポイントカードから店の商品を誰が買ったが分かり、客の購買履歴から店の陳列棚の商品を変えているのだという。
日本発のビジネスモデルが生まれているのだ。