Skip to content

Instantly share code, notes, and snippets.

@ruyaoyao
Forked from qrtt1/Hadoop.Quick.Note.md
Created August 1, 2014 08:50
Show Gist options
  • Save ruyaoyao/4212a3ae325f8f91e7d6 to your computer and use it in GitHub Desktop.
Save ruyaoyao/4212a3ae325f8f91e7d6 to your computer and use it in GitHub Desktop.

hadoop 入門速記

  1. 用 Hadoop MapReduce Framework 寫程式出來跑得動,跟你想的結果一樣 https://github.com/popcornylu/hadoop-wordcount
  2. Map Reduce 演算法概念
  3. 弄懂 Map Reduce 演算法各資料處理階段對應至 Hadoop MapReduce Framework 上的 Job Template (之後最佳化會用到)
  4. Hadoop 整組怎麼架。Single Mode 架來自己玩,Cluster Mode 架來體驗 (maintain 不一定要學,因為有財力架的公司不太多)

hadoop 在門邊的階段

  1. Hadoop 專案核心 component: HDFS, YARN 內的各 component 功能、用途
  2. 各子專案設定檔的共通格式,學習查詢設定方法與實驗參數的影響
  3. MapReduce Framework API 的使用,著重在由外部吃 Configuration 與 FileSystem 操作

hadoop 在門裡之後

  1. Hadoop 各子專案的功用 (HBase, Hive, ...)
  2. 學習、體驗各種 hadoop distribution 安裝與使用
  3. http://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support
  4. Cloudera, Hortonworks, MapR 看起來是比較有前途一點的
  5. API: 配合 3rd-party JARs 的使用方法
  6. MapReduce Algorithm Design
  7. http://lintool.github.io/MapReduceAlgorithms/

big data service

各家雲端廠商的 Hadoop Service,執行方式略有不同。由於大部分情況不會自己架設,學習一下現有的服務是必要的。

hadoop 之外

仍有許多與 Hadoop MapReduce Framework 競爭的專案,例如 Impala, Spark 或 Storm 等,建構在 HDFS 之上取代 Hadoop MapReduce 的位階試著提供更有效率的 Map Reduce 引擎,可以多看看不同的方式。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment