Skip to content

Instantly share code, notes, and snippets.

@moaikids
Created June 21, 2013 08:27
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save moaikids/5829738 to your computer and use it in GitHub Desktop.
Save moaikids/5829738 to your computer and use it in GitHub Desktop.

#Redshift Seminar


#aws

  • 事例

    • netflix
    • aws
      • 20億行のデータをemrからredshiftに置き換え
      • 10x以上クエリー速度が向上した例も
  • spec

  • xl <= 32 nodes

    • 2TB x 32 = 64TB
  • 8xl <= 100 nodes

    • 16TB x 100 = 1.6PB

#リクルート事例

  • ビッグデータ基盤

    • ~2009
      • 3~4 nodes
    • ~2010
      • ~20 nodes
    • ~2011(事業活用開始)
      • ~100 nodes
    • 2012~
      • 50 nodes
      • Hadoop + DWH/BI
      • public cloud
  • TotalDB

    • オンプレ
      • logs
      • Hadoop Clusters(MapR / Hive / HBase/ Mahout)
      • DWH (puredata / informatica)
    • クラウド(AWS)
      • 外部公開データや行動ログのログ解析の結果をオンプレのDWHに?
  • redshift

    • virginia and oregon
      • 2013/02 ~ ondemand(@verginia)
      • 2013/05 ~ reserved instance(@oregon)
    • 利用用途
      • 主に前処理(非構造データの構造化)に使用
      • 前処理以外にもデータチェックや簡単なreportingなどにも使用
    • use case
      • 行動ログ(1.8億レコード/month)をS3に保存
      • データをEMRで読み込み加工
      • 加工済みデータとマスターを付きあわせ
      • 加工済みの構造データをredshiftに保存

#Jasper soft

#Tableau

#WingArc

  • 国内シェアNo.1のBIツールベンダー
  • 事例
    • あきんどスシロー
    • DWH:SQL Serverを使用

#Appresso

  • data integration tool
    • web上のguiベースでdata source -> redshiftへのデータ投入が可能

#NRI

  • 性能比較
    • 8xl 8 nodesでoracleのexadata(quarter)よりも速いらしい。
      • 小さなテーブルに関してはexadataの方が速い事がある(キャッシュ機構の差が影響?)
    • redshiftは日付処理が弱い
      • 日付関数が無いため
      • EMRで置き換えることで多少は改善させることができる
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment