Apache Sparkのチュートリアル

検索で見つけたので、とりあえず試す。 Mac環境で。

How to kick-start Spark development on IntelliJ IDEA in 4 steps — Large-scale Data Processing — Medium

IntelliJ

IntelliJのダウンロード

Community Edition FREEにしてみる。
チュートリアルの実行にはFREE版で問題なかった)

IntelliJ IDEA Editions Comparison Matrix

ファイル名は、
ideaIC-14.1.4.dmg
だった。
ファイルをダブルクリック、ドラッグ&ドロップでインストール完了。

最初に起動したら初期セットアップ的なものになった。
テーマを「darcula」
Featured pluginsで、Scalaをインストール

Scala Spark skeletonのcheckout

今回の記事用のディレクトリを作ってgit clone
git clone https://gist.github.com/9f8ac25d2b4f94d07c99.git

IntelliJ
New Project > Java
Additional Libraries and Framework Frameworks:
Scalaをチェック。
Error:library is not specified
と出てたので、Create.. > OK
Use Library: がscala-sdk-2.10.4
になった。

Project SDK:は、New.. > JDK
で、ディレクトリを選ぶダイアログが出て、
/Library/Java/JavaVirtualMachines/jdk1.7.0_75.jdk/Contents/Home
が自動で選ばれていたので、そのままOK

Project Nameは
sparkkickstart
にした。

Run Configurationを適当に設定して、Runをしたら、
コンパイルエラー。
org.apache.spark.SparkContext が無いというようなエラーだった、気がする。

Sparkのjarファイルの準備

sbtというビルドツールを入れて、 IntelliJの設定ファイルを生成してくれる、sbt-ideaというプラグインを設定すると、
Sparkのサンプルコードが動くようになる。

macにsbtをインストール

sbtというものを入れる。
始める sbt — Mac への sbt のインストール
brew install sbt

sbt
と打ったら、
Getting org.scala-sbt sbt 0.13.7 ...
と出て数分間応答がなかったけど、しばらくしたら、
downloading https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt/0.13.7/jars/sbt.jar ...
[SUCCESSFUL ] org.scala-sbt#sbt;0.13.7!sbt.jar (8829ms)
というような出力があった。

sbt-ideaのインストール

http://danielnee.com/2015/01/setting-up-intellij-for-spark/ を試した。
この記事に書かれている内容だけだと、インストールできなかった。

sbt-ideaの設定は別記事にした。
scalaのsbtメモ - kubotti’s blog

https://github.com/mpeltonen/sbt-idea
が動くようになってから、プロジェクトホームで、 sbt gen-idea と打ったら、必要なjarがダウンロードされた。