講演内容
みなさんは、SQLを使ってデータの加工や分析をする際、
「計算途中のデータを確認しながらクエリを書けたら良いのに・・・」
「同じようなコードが何度も出てきている箇所を一つにまとめたい・・・」
などと思ったことはありませんか?
今回紹介するSparkSQLは、SQLとSparkの機能を統合させることで、
これらの悩みを解決してくれます。
Spark(Apache Spark)とは、HadoopのMapReduceに続く
オープンソースの分散処理フレームワークです。
これまでのオープンソースのプロダクトと比べても、
非常に早いスピードで開発が進んでいるプロダクトであり、
機械学習やグラフ処理、リアルタイムストリーミング処理など、
さまざまな処理を手軽に分散処理できる機能を提供しています。
今回の発表では、スタンドアロンモードでのSparkのインストールから、
SparkSQLの概要紹介、実務で活用するためのノウハウまでを紹介します。
実務的なデータ活用のデモとして、ECサイトにおけるABC分析、
サイト検索機能のログ分析などを扱います。
まだSparkに触れたことのない人から、
Sparkの活用方法がいまいちピンとこない人、
現状のデータ分析環境に不満を持っている人まで、
今回の発表でSparkSQLの魅力に触れていただければと思います。
講演者プロフィール
加嵜 長門 氏
株式会社DMM.comラボに所属。
大学院やスタートアップ企業で、
マルチメディアデータベースを対象とした検索や
レコメンドアルゴリズムの研究を行う。
現在はDMM.comラボにおいて、
Sparkを用いた行動解析やレコメンド基盤の研究開発を行う。
共著に『詳解Apache Spark』(技術評論社)、
『ビッグデータ分析・活用のためのSQLレシピ』
※ 内容は変更になる可能性があります。