Skip to content

Instantly share code, notes, and snippets.

Embed
What would you like to do?
Qiita スパム記事パターン

以下のチェック事項をフラグとして、フラグの組み合わせでスパム検知するためのメモです。

true(yes) の場合がスパムに含まれたフラグになります。

記事内文字列・チェック

  • すべて半角英数字記号である
  • (???-???-???? | ???_???_????) フォーマットの数値が含まれている
  • 同一内容の行が3行以上繰り返される
  • 'ğşöÜ'などの文字が含まれる
  • ひらがな、カタカナは含まれない
  • 記事内に ('tv' | 'ntv' | 'tvshow') という単語が含まれる
  • 見出し行がない(^#がない)
  • 記事のタイトルに URL が含まれている
  • タイトルと同じ文字列を含むリンクが記事内で2回以上使われている
  • 記事にトルコ語で ('maçı')=('試合') が3回以上含まれている(トルコ語)
  • 文字列 callと同一行に[\+ 0-9]+[0-9]{10}が存在する(例: +91 8725088250)
  • 同じ著者の記事に ('buy' | 'sell') のいずれかが必ず含まれている
  • IT 用語が使われていない
  • 同一著者の記事の <>{}[]/(),=_!.* をスペースに置換すると同じ内容の記事が2つ以上投稿されている
    • cat $path_doc_qiita | sed -E 's/([,=_!|\.\*\<\>\/\(\)\{\}\[\]]*)/ /g' | sed -E 's/([\ ]+)/ /g'
  • 他のスパム(と判断された)記事内で使われていたリンクのドメインが使われている

記事内リンクや URL

  • 記事内の URL のドメインに共通のホスト名が使われている( ex: hogege.wordpress.com, hogehoge.com)
  • 記事が同じリンク先のリンクだけで構成されている
  • 記事内に同じリンク先のリンクが2つ以上あり、それが2リンク以上ある
  • 記事がリンクだけで構成されている
  • 記事内初出のリンクに ('live'|'nrl'|'tv'|'watch'|'vs'|'free') のいずれか2つ以上が含まれている
  • 記事内リンクに ('live'|'nrl'|'tv'|'watch'|'vs'|'free') が2回以上が含まれている
  • 記事内のリンクが、著者のユーザ・プロフィールの URL のドメインと同じものしか存在しない

記事のタグ・チェック

  • 記事のタグが1つの場合にタグ一覧で同著者の記事しかヒットしない
  • 記事のタグが1つの場合にタグ一覧で該当記事の著者の記事しかヒットしない
  • タグに ('support'|'sports'|'boxing'|'cupport') が含まれている
  • タグに HTTP バージョンに : および / が各々 1 つ以上含まれている
    • これはタグに http://hogehoge.com/fugafuga/ などが含まれていることによる

著者アカウント・チェック

  • プロフィールの URL に記事内のドメインが含まれている

  • 著者がどの記事にも「いいね」していない

  • 著者がどの記事も「ストック」していない

  • 同じ著者が同日に3件以上のリンクのみの記事を投稿している

  • 記事タイトルが有効な(200)ステータスを返す URL である

  • 記事内のリンクが記事タイトルと同一のリンクのみである

  • 1行内に ('technical'|'customer'|'tech'|'free') && ('support'|'number') が2つ以上ある

  • 記事に「いいね」している人と著者のプロフィールのドメインが同じ

  • タグに ('kelamin'|'pen!s') が含まれている(インドネシア語)

  • プロフィールの URL ドメインと同じドメインがタイトルにある

  • 記事に ('call girl'|'escort'|'hot'|'erotic') が含まれている

  • 2、3日内にサスペンドされたユーザーとユーザー名の類似度が80%もしくは、文字の組み合わせが 80% 同じである

    • 80% の根拠は? 自動的 or 測定により閾値をみつけるべき
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.