Skip to content

Instantly share code, notes, and snippets.

@xav-b
Last active August 29, 2015 14:26
Show Gist options
  • Save xav-b/c2d5a9dbd621d4d17fe1 to your computer and use it in GitHub Desktop.
Save xav-b/c2d5a9dbd621d4d17fe1 to your computer and use it in GitHub Desktop.
data-science-platform
# The Brain
Compilation de services permettant de mettre en place des algorithmes de recommendation et, plus largement, de machine learning et d'analyse de data.
L'idée principale est de pouvoir considérer la partie machine learning comme un service brique lego : des requêtes pour trainer les modèles et récupérer les predictions. Une plateforme/des outils pour manipuler les données ou développer les modèles serait un + pour anticiper les besoins à venir.
## [Prediciton.io](https://prediction.io/)
> Build and Deploy Machine Intelligence in a fraction of the time
![prediction.io arch](https://docs.prediction.io/images/overview-multiengines-b703caac.png)
![engine arch](https://docs.prediction.io/images/engine-query-8d7311ff.png)
### Awesomeness Factors
- Orienté service avec une interface RESTful pour training et prediction
- Vagrant / docker images pour prototypage local
- AWS deployment
- Continuous data digestion
- [Templates](https://templates.prediction.io/) customisables prêt à l'emploi
- Fututre-proof techs : [Spark](http://spark.apache.org/), [HBase](http://hbase.apache.org/), [Elasticsearch](https://www.elastic.co/fr/), [Spray](http://spray.io/) and Scala
- Intégration Ipython (i.e. Jarvis) pour analyse
- [Open-source](https://github.com/PredictionIO/PredictionIO) et [actif](https://github.com/PredictionIO/PredictionIO/commits/develop)
### Not So Cool
- Modèles développés en Scala. un choix intéressant pour les plateformes de traitements intensifs temps réels mais ne s'intègre pas bien avec notre environnement python
- Lourd à utiliser en local
### [Pricing](https://aws.amazon.com/marketplace/pp/B00ECGJYGE)
__AWS hosting__
| Instance Type | Usage ($) | Software | Total |
| ---------------- | --------:| -------:| ----:|
| m1.medium | 0.087/hr | 0.00/hr | 0.087/hr
| m1.large | 0.175/hr | 0.00/hr | 0.175/hr
| m1.xlarge | 0.35/hr | 0.00/hr | 0.35/hr
| m2.xlarge | 0.245/hr | 0.00/hr | 0.245/hr
| m2.2xlarge | 0.49/hr | 0.00/hr | 0.49/hr
| m2.4xlarge | 0.98/hr | 0.00/hr | 0.98/hr
| c1.xlarge | 0.52/hr | 0.00/hr | 0.52/hr
| hi1.4xlarge | 3.10/hr | 0.00/hr | 3.10/hr
| hs1.8xlarge | 4.60/hr | 0.00/hr | 4.60/hr
| m3.medium | 0.067/hr | 0.00/hr | 0.067/hr
| m3.large | 0.133/hr | 0.00/hr | 0.133/hr
| m3.xlarge | 0.266/hr | 0.00/hr | 0.266/hr
| m3.2xlarge | 0.532/hr | 0.00/hr | 0.532/hr
| c3.large | 0.105/hr | 0.00/hr | 0.105/hr
| c3.xlarge | 0.21/hr | 0.00/hr | 0.21/hr
| c3.2xlarge | 0.42/hr | 0.00/hr | 0.42/hr
| c3.4xlarge | 0.84/hr | 0.00/hr | 0.84/hr
| c3.8xlarge | 1.68/hr | 0.00/hr | 1.68/hr
---
## [Yhathq](https://yhathq.com/)
> Solutions for all aspects of Enterprise Data Science
The tools data science teams need to quickly transform new ideas into data-driven products
- [Science Ops](https://www.yhathq.com/products/scienceops) - _A simple deployment & API integration platform for data scientists and application developers._
![scienceops arch](https://www.yhathq.com/img/ops-overview.png)
- [Science Cluster](https://www.yhathq.com/products/sciencecluster) - _A collaborative hub for developing data science projects, communicating insights, automating processes, and reproducing work._
![sciencebox arch](https://www.yhathq.com/img/project-overview.png)
### Awesomeness Factors
- [Articles de référence](http://blog.yhathq.com/)
- S’intègre avec les applications par REST, utilise les librairies R et Python de référence. Ecosystème cohérent avec leur offre ScienceBox.
- Auto deploy / scaling
- Se connecte à des bases de données externes (MongoDB supporté, sur demande sinon)
- Neat interface
- Testing built-in avec benchmarking, model switching, ...
- Très bon contact avec leur équipe
- Récente refonte, projet très actif
### Not So Cool
- Assez nouveau, pas de pricing
- Encore quelques étapes de gestion manuelles
- Pas de modèles initiaux à déployer (à ma connaissance, sujet de discussion mercredi prochain)
### Pricing
- Inconnu, il a fallu demander une démo
- Pricing sur les ressources utilisées
- Tous les membres de l'équipe ont accès aux résultats
---
## [Sense.io](https://sense.io/)
![sense ide](https://d3coq8uky60tin.cloudfront.net/img/screenshot-workbench.a79df96c.png)
### Awesomeness Factors
- Full data pipeline creation and management
- Workflow connu et productif : intégration des outils habituels (python, R, Julia) dans un environnement type notebook (dynamique, intègre des visualisation, ...)
- Auto scaling, dynamic resizing
- Collaboratif, alertes
- Super design et ergonomie. Reste focus en terme de fonctionnalités et est donc productif à utiliser
### Not So Cool
- Très nouveau, j'ai eu mon accès en beta fin mai
- Assez cher
- Mon compte en trial ne m'a presque rien laissé faire
- Essentiellement axé sur l'exploration
### [Pricing](https://sense.io/plans)
- Free plan strictement inutile
- Disponible on-premise
- 14 days trial
- $250 per month for each contributor that runs analysis and free for anybody that views the results.
- Plan spécial data scientist / student : en contact pour précision
---
## [Dataiku](http://www.dataiku.com/)
> Build end-to-end data workflows with Data Science Studio
![dataiku desktop](https://www.dataiku.com/static/img/tmp/home-screen0.png)
### Awesomeness Factors
- Community edition locale et gratuite
- Full data pipeline, avec de nombreuses possibilités pour charger des données externes
- Support pour la plupart des frameworks populaire en data science pour développer des modèles (pandas, R, hadoop, ...)
### Not So Cool
- Intégration avec des applications externes complexe
- Toute la plateforme est très orientée et complètement graphique, il faut aller all-in dessus
- Pricing inconnu
- Documentation incomplète
----------
## Other Players
Service | Description | Commentaire
--------|------------
[Dato](https://dato.com/) | Large-scale data transformations and feature engineering are easy now | Beaucoup plus cher que les autres
[Databricks](https://databricks.com/) | Data Science made easy, from ingest to production. Powered by Apache Spark™ | Exploration avec de l'analytics. L'intégration semble difficile, sinon impossible
[BigML](http://bigml.com/) | Start making Data-driven Decisions today! No more wildly expensive or painful solutions | A peu près les mêmes services que sense, en moins bien
[DataRobot](http://www.datarobot.com/) | Better predictions. Faster. | Peu de visibilité sur features et pricing
[NuPIC](http://numenta.org/) | Open Source Platform and Community for Machine Intelligence based on HTM Theory | Experimental
[Domino](https://www.dominodatalab.com/) | makes data scientists more productive and facilitates collaborative, reproducible, reusable analysis. | Idem BigML
[Terminal](https://www.terminal.com/) | The Fastest Linux Cloud | Trop généraliste
[Google ML API]() | Use Google’s machine learning algorithms to analyze data and predict future outcomes using a familiar RESTful interface | Blackbox étroitement intégrée à Google
[AWS Machine Learning](http://aws.amazon.com/fr/machine-learning/details/) | Service géré de conception de modèles d'apprentissage-machine et de génération de prédictions, permettant de développer des applications robustes, évolutives et intelligentes | Idem Google
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment