ゴール ExportSnapshot+CopyTableの組み合わせでHBaseのMigrationをやってみる 環境 コピー元 CDH5.15.1 HBase1.2.0 コピー先 CDH6.0.1 HBase2.0.0
ゴール 同じテーブルの複数Snapshotに対し、ExportSnapshotの実行は初回以降の所要時間が短縮される(初回以降の実行が差分更新になるため)ことを確認 環境 コピー元 CDH5.15.1 HBase1.2.0 コピー先 CDH6.0.1 HBase2.0.0
Flumeでjson形式のデータをHBaseに流す ゴール Flumeでkafkaからtweetデータ(フラットなjson形式)を取得 HBaseにtweetデータを流す ※tweetデータの取得はここを参照
StreamSetsでTweet(json)をフイルタリング ゴール kafkaに流れているjson形式のtweetから、独断の判断で必要なものをフィルタリング ※StreamSets以外の部分はここで説明する。
FlumeでTwitterを取得してKafkaに流す ゴール Flumeでtwitterからデータ(tweet)をリアルタイム取得 Downstreamが使えるように、取得したtweetをKafkaに流す ※StreamSetsでoriginalのtweet項目をフィルタリングする手順は別で説明する