#Redshift Seminar
#aws
-
事例
- netflix
- aws
- 20億行のデータをemrからredshiftに置き換え
- 10x以上クエリー速度が向上した例も
-
spec
-
xl <= 32 nodes
- 2TB x 32 = 64TB
-
8xl <= 100 nodes
- 16TB x 100 = 1.6PB
#リクルート事例
-
ビッグデータ基盤
- ~2009
- 3~4 nodes
- ~2010
- ~20 nodes
- ~2011(事業活用開始)
- ~100 nodes
- 2012~
- 50 nodes
- Hadoop + DWH/BI
- public cloud
- ~2009
-
TotalDB
- オンプレ
- logs
- Hadoop Clusters(MapR / Hive / HBase/ Mahout)
- DWH (puredata / informatica)
- クラウド(AWS)
- 外部公開データや行動ログのログ解析の結果をオンプレのDWHに?
- オンプレ
-
redshift
- virginia and oregon
- 2013/02 ~ ondemand(@verginia)
- 2013/05 ~ reserved instance(@oregon)
- 利用用途
- 主に前処理(非構造データの構造化)に使用
- 前処理以外にもデータチェックや簡単なreportingなどにも使用
- use case
- 行動ログ(1.8億レコード/month)をS3に保存
- データをEMRで読み込み加工
- 加工済みデータとマスターを付きあわせ
- 加工済みの構造データをredshiftに保存
- virginia and oregon
#Jasper soft
- 価格
- on aws
- 年間2 core 120万円 + aws使用料 + サポート料金
- 最短3日
- on aws
- open source版
#Tableau
- 価格
- desktop
- $999 ~ $1999 (per user ?)
- 現在はwindowsのみ
- server
- 要問い合わせ
- desktop
- sample
#WingArc
- 国内シェアNo.1のBIツールベンダー
- 事例
- あきんどスシロー
- DWH:SQL Serverを使用
#Appresso
- data integration tool
- web上のguiベースでdata source -> redshiftへのデータ投入が可能
#NRI
- 性能比較
- 8xl 8 nodesでoracleのexadata(quarter)よりも速いらしい。
- 小さなテーブルに関してはexadataの方が速い事がある(キャッシュ機構の差が影響?)
- redshiftは日付処理が弱い
- 日付関数が無いため
- EMRで置き換えることで多少は改善させることができる
- 8xl 8 nodesでoracleのexadata(quarter)よりも速いらしい。