-
ストレージのポートフォリオ
-
S3
- オブジェクトストレージ
- HTTPベースのAPI経由でアクセス
-
EBS
- SANのようなブロックストレージ。ディスクボリュームとして扱う
- 1台のEC2インスタンスから低遅延でアクセス
-
Glacier
- アーカイブストレージ
-
Elastic File System
- NASのようなサービス
- NFSを使ってネットワーク経由でアクセス
- EFSへのアクセスはファイル単位
-
-
NFSとは
- Network File System
- Unix Linuxでネットワーク経由でストレージにアクセスするためのシステム
-
EFSにはマウントターゲットを通じてアクセス
- VPC内のマウントターゲットがNFSの接続先
-
幅広いユースケース
- コンテンツのレポジトリ
- AutoScalingするサーバ群でユーザがアップロードしたデータを全サーバで共有
- ビックデータ / HPC
- 大量のサーバに分散して分析する際に分析データの共有
- コンテンツのレポジトリ
-
特徴
- フルマネージド型
- NFSなので既存のツールやアプリとシームレスに連携できる
- 容量だけの課金
- 容量は自動的に拡張 / 縮小
- ペタバイトまでいける
- 性能は容量に応じてスケール
- スループットは容量に応じて性能アップ
- SSDベースでファイルの応答は1桁ミリ
- 数千のNFS同時接続をサポート
- 複数AZに複製されて保存される
- 複数AZから同時に読み書き可能
-
使い方
- どのVPCに配置するか
- タグを付けて完了
-
パフォーマンス
- 1TB以上では毎日の12時間、倍にバースト可能
-
料金
- $0.30 / GB・月
-
セキュリティ
- EFS APIの保護はAPIで
- NFSアクセスの保護は、マウントポイント毎に設定できるセキュリティグループで
- ファイルへのアクセス保護は、パーミッション、オーナでできる
-
プロトコル : NFSv4.0
-
推奨クライアント : Linux NFSv4クライアント
-
3種類のデータ駆動型アプリケーション
- 遡及的分析とレポーティング
- 即時の判断 リアルタイム処理とダッシュボード
- 予測 スマホアプリを作成可能にする
-
機械学習の例
- メールがスパムメールかどうか
- 判定済みのデータを教師データとして学習させる
- この商品は、本・日用品・食品のいずれなのか
- 多くの商品データを元に商品のカテゴリを予測する
- 明日の売上はどのくらいになるか
- 過去の売上データを元に明日の売上を予測
- メールがスパムメールかどうか
-
スマホアプリを作るには
- 機械学習に強くて
- RやPython、場合によってはHadoop, Sparkに明るくて
- 特定のビジネス分野の経験が深い
-
使いやすく、マネージド
-
開発者のための機械学習サービス
-
Amazonが提供するアルゴリズム
- 利用者はアルゴリズムの実装、詳細なチューニングをする必要はない
- 必要なワークフローは予め提供されている
-
できること
- 二項分類
- 多クラス分類
- 回帰分析
-
予測手法
- バッチ予測
- S3にアップロードされた予測対象データに対して、まとめて予測を実施
- リアルタイム予測
- データを1件ずつAPIを使って予測を実施する
- バッチ予測
-
使い方
- 教師用・評価用データの準備
- S3, RedShift, RDS上のMySQLに格納されたデータを指定し、教師データ・評価データとして利用する
- 教師データからモデルを作成
- 教師データを元にAmazon Machine Learningが自動的にモデルを選択する。予測対象のカラムが二値型であれば二値分類が自動的に選択される
- モデルの品質評価
- 作成されたモデルに対して評価を実施する
- 3割の答え合わせ用のデータを利用して、精度を確認する
- 実際の予測の実施
- バッチ予測
- リアルタイム予測
- 教師用・評価用データの準備
-
料金
- データ分析、モデルトレーニング、評価 -> $0.42 / インスタンス・時間
- バッチ予測 : $0.10 / 1000件
- リアルタイム予測 : $0.10 / 1000件
-
リージョン
- us-east-1のみ
- 他のリージョンのS3も利用可能
-
デモグラ推定
- 教師データ
- 問題の分類
- 予測
-
問題をどうモデルに落としこむのかが大事
-
EMRを使用したバッチ予測
- csvであればそのまま利用できる
-
Redshiftを利用したバッチ予測
- 特定のテーブルを教師データとして扱うことができる
-
インタラクティブアプリケーション用のリアルタイム予測
- 予測のAPIをコールしていただく
- 機械学習の導入を容易にしてくれる
- S3やRedshiftにデータが有ればいつでも使いはじめることができる