Skip to content

Instantly share code, notes, and snippets.

@manji602
Created June 6, 2015 14:10
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save manji602/5e5d0cd4cf4f0d97ef07 to your computer and use it in GitHub Desktop.
Save manji602/5e5d0cd4cf4f0d97ef07 to your computer and use it in GitHub Desktop.

TA-12 新サービス解説セッション 〜Amazon Elastic File SystemとAmazon Machine Learning〜

Elastic File System

  • ストレージのポートフォリオ

    • S3

      • オブジェクトストレージ
      • HTTPベースのAPI経由でアクセス
    • EBS

      • SANのようなブロックストレージ。ディスクボリュームとして扱う
      • 1台のEC2インスタンスから低遅延でアクセス
    • Glacier

      • アーカイブストレージ
    • Elastic File System

      • NASのようなサービス
      • NFSを使ってネットワーク経由でアクセス
      • EFSへのアクセスはファイル単位
  • NFSとは

    • Network File System
    • Unix Linuxでネットワーク経由でストレージにアクセスするためのシステム
  • EFSにはマウントターゲットを通じてアクセス

    • VPC内のマウントターゲットがNFSの接続先
  • 幅広いユースケース

    • コンテンツのレポジトリ
      • AutoScalingするサーバ群でユーザがアップロードしたデータを全サーバで共有
    • ビックデータ / HPC
      • 大量のサーバに分散して分析する際に分析データの共有
  • 特徴

    • フルマネージド型
    • NFSなので既存のツールやアプリとシームレスに連携できる
    • 容量だけの課金
    • 容量は自動的に拡張 / 縮小
      • ペタバイトまでいける
    • 性能は容量に応じてスケール
      • スループットは容量に応じて性能アップ
      • SSDベースでファイルの応答は1桁ミリ
    • 数千のNFS同時接続をサポート
    • 複数AZに複製されて保存される
      • 複数AZから同時に読み書き可能
  • 使い方

    • どのVPCに配置するか
    • タグを付けて完了
  • パフォーマンス

    • 1TB以上では毎日の12時間、倍にバースト可能
  • 料金

    • $0.30 / GB・月
  • セキュリティ

    • EFS APIの保護はAPIで
    • NFSアクセスの保護は、マウントポイント毎に設定できるセキュリティグループで
    • ファイルへのアクセス保護は、パーミッション、オーナでできる
  • プロトコル : NFSv4.0

  • 推奨クライアント : Linux NFSv4クライアント

Amazon Machine Learning

機械学習とは

  • 3種類のデータ駆動型アプリケーション

    • 遡及的分析とレポーティング
    • 即時の判断 リアルタイム処理とダッシュボード
    • 予測 スマホアプリを作成可能にする
  • 機械学習の例

    • メールがスパムメールかどうか
      • 判定済みのデータを教師データとして学習させる
    • この商品は、本・日用品・食品のいずれなのか
      • 多くの商品データを元に商品のカテゴリを予測する
    • 明日の売上はどのくらいになるか
      • 過去の売上データを元に明日の売上を予測
  • スマホアプリを作るには

    • 機械学習に強くて
    • RやPython、場合によってはHadoop, Sparkに明るくて
    • 特定のビジネス分野の経験が深い

Amazon Machine Learning

  • 使いやすく、マネージド

  • 開発者のための機械学習サービス

  • Amazonが提供するアルゴリズム

    • 利用者はアルゴリズムの実装、詳細なチューニングをする必要はない
    • 必要なワークフローは予め提供されている
  • できること

    • 二項分類
    • 多クラス分類
    • 回帰分析
  • 予測手法

    • バッチ予測
      • S3にアップロードされた予測対象データに対して、まとめて予測を実施
    • リアルタイム予測
      • データを1件ずつAPIを使って予測を実施する
  • 使い方

    • 教師用・評価用データの準備
      • S3, RedShift, RDS上のMySQLに格納されたデータを指定し、教師データ・評価データとして利用する
    • 教師データからモデルを作成
      • 教師データを元にAmazon Machine Learningが自動的にモデルを選択する。予測対象のカラムが二値型であれば二値分類が自動的に選択される
    • モデルの品質評価
      • 作成されたモデルに対して評価を実施する
      • 3割の答え合わせ用のデータを利用して、精度を確認する
    • 実際の予測の実施
      • バッチ予測
      • リアルタイム予測
  • 料金

    • データ分析、モデルトレーニング、評価 -> $0.42 / インスタンス・時間
    • バッチ予測 : $0.10 / 1000件
    • リアルタイム予測 : $0.10 / 1000件
  • リージョン

    • us-east-1のみ
    • 他のリージョンのS3も利用可能
  • デモグラ推定

    • 教師データ
    • 問題の分類
    • 予測
  • 問題をどうモデルに落としこむのかが大事

アーキテクチャへの組み込み

  • EMRを使用したバッチ予測

    • csvであればそのまま利用できる
  • Redshiftを利用したバッチ予測

    • 特定のテーブルを教師データとして扱うことができる
  • インタラクティブアプリケーション用のリアルタイム予測

    • 予測のAPIをコールしていただく

まとめ

  • 機械学習の導入を容易にしてくれる
  • S3やRedshiftにデータが有ればいつでも使いはじめることができる
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment