Windowsでapache spark その2

http://kubotti.hatenablog.com/entry/2015/09/06/180052
でインストールは成功したので、
3日前に買った『はじめてのSpark』の第2章を試してみる。

PySpark Shellを実行

「Windowsキー」+「R」を押下する。
「cmd /c c:\spark\bin\pyspark.cmd 2> nul」と入力する。
をやったら、何も出力されない。

コマンドプロンプトで、
cd c:\spark\bin へ移動して、
pyspark
と打ったら、

c:\spark\bin>pyspark
Python 2.7.6 (default, Nov 10 2013, 19:24:18) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
'"java"' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。
Traceback (most recent call last):
  File "c:\spark\bin\..\python\pyspark\shell.py", line 43, in <module>
    sc = SparkContext(appName="PySparkShell", pyFiles=add_files)

というエラー。

Python 2.7は元から入っていた。Javaも入っていたけど、環境変数にパスがなかったので追加してみた。
ユーザー環境変数に、
C:\Program Files\Java\jdk1.7.0_25\bin
を追加。

コマンドプロンプトで、
cd c:\spark\bin へ移動して、
pyspark
うまくいった。

サンプルの実行

lines = sc.textFile("README.md")
と打ったら、INFOメッセージがたくさん出た。
lines.count() でそんなファイルありませんエラー。
: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/c:/spark/bin/README.md

いったんコマンドプロンプトを終了して、
c:\spark
で
bin\pyspark

lines = sc.textFile("README.md")
lines.count()
lines.first()

がうまくいった。
これから2章の残りを試してみる。