Skip to content

Instantly share code, notes, and snippets.

@AKB428
Created January 26, 2015 08:29
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save AKB428/42fe15f99ddcbf302d2b to your computer and use it in GitHub Desktop.
Save AKB428/42fe15f99ddcbf302d2b to your computer and use it in GitHub Desktop.
hadoop2.6 YARN
YARN
Haoopは大規模データに対するバッチ処理の道具としては十分な機能を持っている
ただしエンタープライズ用途で利用するときの課題が残っていた
処理性能
可能性
運用
セキュリティ
--------
処理性能
スループットはじゅうぶん、ただしレスポンスは遅い
MapReduce時代の起動に数十秒〜数分かかる
-即座に結果を返してほしい場合にむかない
-MRジョブを何度も繰り返すことが必要な処理に向かない(機械学習にある反復法)
可用性:
スレーブサーバーはSPOFではない
・スレーブに障害が発生した場合は自動で縮退される
マスターサーバーはSPOF
・バージョンアップはクラスタの全停止が必須
セキュリティ:データ暗号化が未着手
1系のHadoopでは課題が残されていた
---------------
2系
YARNの登場でレイテンシの低い処理も可能になった
YARNとはリソース管理層を切り出したもの
生まれた理由
・スケーラビリティを向上させる
・MR以外の分散処理を実行する
<YARNになって、サービス名と役割が変化>
MRv2(MapReduce on YARN)
hadoopはバッチ処理だけではなくなった
----
スナップショット
手軽に「今の」データを保持
コマンド一つで即時に過去のデータを保持できる
ディレクトリ探知で取得
データコピーが発生しない(Copy on Write)
定期的にスナップショットをとることでオペミスデータ改ざんの対策が可能
-----------------
セキュリティ:暗号化にも対応
hdfsコマンドに暗号化のしくみがはいっている(クライアントコマンドに暗号化のしくみが入っている
HTraceによるトレーサビリティの追求
HBaseで利用されているプロファイリングツール
分散環境のトラブルシューティングのために便利な機能
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment