- dockerでやるのが、環境構築コストが下がってよい
- https://qiita.com/kshigeru/items/ea174d6bcacc474f2a51 JupyterのDockerイメージまとめ
- によると、...そもそもpysparkが何なのかわからないが、とりあえず datascience-notebook を使えば良い...と思う
- docker入れる、macなら公式からDLしてどうのこうの
- docker pull jupyter/datascience-notebook
- とりあえず起動(ctrl-cで止めるとデータも消える)
docker run --rm -p 8888:8888 jupyter/datascience-notebook
- コマンドラインに出てくるtokenを使ってログインする
- ブラウザで動く
- 作成したファイルはVM内に書き出される。なのでhostをmountすると便利になる
- python3, R, ... 等で記述できるが、出力はJSONになる
- ファイル永続化
- docker run時に、-v /path/to/host/machine:/home/jovyan/work を起動オプションに渡せばhost側がmountされる
- パスワード設定
- docker run時に、start-notebook.sh --NotebookApp.password=‘sha1:....’ すればpasswordが固定される
- passwordの生成は、Jupyter内で、以下のコマンドを打てばsha1文字列を作ることができる
- from notebook.auth import passwd passwd()