Skip to content

Instantly share code, notes, and snippets.

@kimutansk
kimutansk / td-agent.log
Created April 2, 2018 14:45
FluentdLog
[warn]: failed to write data into buffer by buffer overflow action=:throw_exception
[warn]: emit transaction failed: error_class=Fluent::Plugin::Buffer::BufferOverflowError error="can't create buffer file for /var/log/td-agent/buffer/fluentd_aggregation.*.log. Stop creating buffer files: error = Too many open files @ rb_sysopen - /var/log/td-agent/buffer/fluentd_aggregation.b56728fb51b72e0f474b7ef5160ca6f5e.log" location="/opt/td-agent/embedded/lib/ruby/gems/2.4.0/gems/fluentd-1.0.2/lib/fluent/plugin/buffer/file_chunk.rb:281:in `rescue in create_new_chunk'" tag="httpd.001"
[warn]: /opt/td-agent/embedded/lib/ruby/gems/2.4.0/gems/fluentd-1.0.2/lib/fluent/plugin/buffer/file_chunk.rb:281:in `rescue in create_new_chunk'
[warn]: /opt/td-agent/embedded/lib/ruby/gems/2.4.0/gems/fluentd-1.0.2/lib/fluent/plugin/buffer/file_chunk.rb:273:in `create_new_chunk'
[warn]: /opt/td-agent/embedded/lib/ruby/gems/2.4.0/gems/fluentd-1.0.2/lib/fluent/plugin/buffer/file_chunk.rb:50:in `initialize'
[warn]: /opt/td-agent/em
@kimutansk
kimutansk / result.md
Last active March 14, 2018 11:30
Fluentd does not send fluentd.** events from a part of plugin_id configured plugins.

Occured fact

  • A part of plugin_id configured plugins do not send fluentd.** events

Confirm environment

  • OS: CentOS Linux release 7.3.1611
  • Fluentd: v1.0.2(From td-agent 3.1.1)

Confirm Pattern

@kimutansk
kimutansk / td-agent.conf
Last active January 19, 2017 02:19
td-agentで時刻カラムを別カラムに移した上でkinesis-streamに投入する設定サンプル。Kinesis Analyticsではtime等のカラムが予約語となっており使用できないため、退避が必要。
<source>
@type tail
path /tmp/output.log
pos_file /tmp/output.log.pos
format ltsv
time_key time
time_format %Y-%m-%dT%H:%M:%S%z
tag tail.test
</source>
@kimutansk
kimutansk / Streaming102.md
Last active August 8, 2016 15:06
The world beyond batch: Streaming 102

The world beyond batch: Streaming 102

導入

もし前の記事(Streaming 101)を読んでいないなら、まず読むことをお勧めする。 以後の内容を論じる上での前提事項を説明しているし、そこで述べられた内容について相応に理解していることを前提として、本記事は書かれているから。

また、本記事の一部ではアニメーションを使用しているため、もし印刷して読もうと考えている場合にはそれについて留意いただきたい。

でははじめよう。

@kimutansk
kimutansk / Streaming101.md
Last active July 19, 2016 07:38
The world beyond batch: Streaming 101

少し前の記事になりますが、オライリーにGoogleのTyler Akidau氏がストリーム処理についての記事を投稿していたので要約してみました。

とはいえ、一気に読んで訳したものですので、相応に粗く、用語の統一も多分ずれがあり、流れがわかればいい内容となっていますので、その前提で。 ただ、コメントは歓迎します。ここにまとめた私自身も理解できていない点が多々あると思いますので。

以後の内容はオライリーの記事のライセンスより、CC BY-NC-SA 1.0になります。


The world beyond batch: Streaming 101

@kimutansk
kimutansk / AWSAntipattern_2016.md
Created June 14, 2016 04:09
失敗例を成功に変える AWSアンチパターンのご紹介 2016

失敗例を成功に変える AWSアンチパターンのご紹介 2016

  • アンチパターン
    • 失敗パターン類型化
      • 最初は妥当であったのに、最後は悪い結果になるパターン
      • リファクタのための方法が存在するパターン
  • DBの使い分け
    • 原因
      • パフォーマンスが高いDBということでOLTPにRedshift(DWH用途)適用
    • 症状
  • 全く性能でない。
@kimutansk
kimutansk / ApacheBookKeeperatTwitter.md
Created June 13, 2016 09:42
Building Durable Real-time Data Pipeline:Apache BookKeeper at Twitter

Building Durable Real-time Data Pipeline:Apache BookKeeper at Twitter

  • Background
    • Twitterでは2012年の時点でKestrel、BookKeeper、Kafka、DBをメッセージキューとして使用
    • Kestrel
      • 特徴
        • シンプル
        • メモリ上にキューが収まる限り、高性能
        • Fanout用にSubscriber毎にキューを作成
        • アイテムレベルのトランザクション管理可能
  • DC間のレプリケーション
@kimutansk
kimutansk / ApacheGearpump.md
Created June 12, 2016 12:05
Apache Gearpump - Lightweight Real-time Streaming Engine

Apache Gearpump - Lightweight Real-time Streaming Engine

  • データ処理のトレードオフ
    • 正しさ
    • 低レイテンシ
    • 低コスト
  • トレードオフの事例
    • Billing
      • 正しさ++
    • 高速コスト見積もり
  • 正しさ+
@kimutansk
kimutansk / StreamPipeline_Watermark_abst.md
Created June 9, 2016 08:16
ストリーム処理パイプラインのWatermark

ストリーム処理の"Watermark"についての話

  • Watermarkとは?
    • 「どこまで処理したか?」を示す区切り
    • ストリームパイプライン上の各オペレータが保持
  • どのような利点があるか?
    • 「ここまでは処理した」ということが明確になる
    • 結果、障害発生時にどこから再実行すればいいかも明確になる
    • 上記の性質を基に、多様なスライディングウィンドウを定義利用可能
  • どう扱うか?
  • 各オペレータごとにInputWatermarkとOutputWatermarkを保持
@kimutansk
kimutansk / ApacheGeode_abst.md
Created June 8, 2016 09:39
Apache Geodeとは?(メモ

Apache Geodeとは?

  • スケールアウト可能なインメモリ分散データグリッド
    • 一貫性調整可能
    • パーティション分割
    • 分散Query、分散Function実行可能
    • トリガや通知機能、Continuous Query保持
    • データに対するMapReduce分散実行可能で、Sliding Window機構も保持
    • 性能のチューニングのため階層構造のデータ保持が可能
    • データセンター間同期可能
  • 性能が高い要因は?