Warsaw Scala Enthusiasts meetup about Apache Spark themed Let's Scala few Apache Spark apps together! and the follow-up Let's Scala few Apache Spark apps together - part 2!.
Many, many people answered the question:
EN: What and how would you like to learn at the meetup (about Apache Spark)?
The answers are as follows (and are going to be the foundation for the agenda):
- Set up a cluster using many laptops and see how much it could handle.
- MLlib with a simple classification like logistic regression.
- How to develop Spark/Scala/Play Framework application - environment, configuration, networking
- Uruchamianie przekształceń na różnych datasetach
- podłączanie się do różnych źródeł danych
- może jakieś testy wydajnościowe w klastrze, i.e. demo, że można przyspieszyć obliczenia
- Data transformations
- Getting started using Spark Core and SQL, e.g. import JSON, CSV, JDBC files and combining them all. GraphX and MLlib. How to use Spark with
play deploy
.
- Zadania dla początkujących z spark core + spark sql, np. import json, csv, jdbc + składanie tego w jedną całość i wyciąganie danych GraphX, MLlib jak łączyć sparka z innymi aplikacjami np.z
playem deploy
- Basics - no earlier experience with Spark and would like to learn a little
- Podstawy? :) (Szczerze nie mialem kontaktu ze sparkiem wiec chcialem sie czegos dowiedziec)
- Jak aplikacja w Scali komunikuje się ze klastrem sparkowym: zleca zadania, monitoruje ich stan i pobiera wyniki.
- What is important in development environment
- How to set up development environment (remote debugging, deployment) + Spark and Spark Streaming use cases, pros and cons developing apps in Scala vs Java/Python. Can be presentation.
- jak ustawic srodowisko do developmentu (remote debugging. deploying), use casey zastosowania sparka i spark streamingu, zalety pisania w sparku w scali zamiast w javie/pythonie. Odpowiada mi forma prezentacji
- How to develop Spark apps in Scala
- programowanie w Scali, dowiedzieć się, jak pracować ze Sparkiem
- MLlib & real-life use case. No more word counts or power of vector of ints. Show me Spark to conquer the world!
- MLlib plus jakiś konkret z życia wzięty. Rzygam przykładami jak zliczyć liczbę słów w tekście albo podnieść wektor liczb do potęgi. Chcę zobaczyć jak zawojować świat Sparkiem, a nie jakieś tam takie okruchy.
- Introductory example. Companies and Spark - where and how
- Prosty, działający przykład. Jakie firmy używają i do czego.
- Going to do the workshop https://github.com/deanwampler/spark-workshop. Hope it sparks some idea!
- Planuję przed spotkaniem porobić sobie workshop https://github.com/deanwampler/spark-workshop, który kiedyś zacząłem. Może wtedy coś mi przyjdzie do głowy.
- MLlib
- MLlib. Jak będziemy robić, to nie będzie nudy
- How to manage resources for Spark apps on Yarn vs Mesos
- Jak zarządzać zasobami dla spark-aplikacji, Yarn vs. Mesos
- Spark Workshop
- workshop formula with prepared data sets and problems like in school
- how to join jdbc data source and json or csv file
- How to group, get top rated, most popular things etc.
Ad. 3 & 6)
Z MLlib-a można by zrobić osobną prezentację (podobnie jak ze Spark SQL-a).
Fajny przykład to rekomendacja filmów z ćwiczeniami na amplab.berkley.edu (pierwszy wynik via Google na zapytanie ze słowami: amplab spark movielens).
Zbiór/zbiory movielens zawierają ratingi filmów dok.przez użytkowników (21M ratingów, 30k filmów, 230k użytkowników, ost. update w sierpniu 2015)
Następny krok to kolejne alg, ale też ML Pipes, etc.
Ad.2.
Scala/Java są lepsze: API PySparkowe jest podzbiorem API Sparkowego (Scala/Java) - patrz ParamGridSearch oraz rejestrowanie UDFów będących funkcją zdefiniowaną w kodzie Sparkowym.
Niemniej jednak API Pythonowe jest bogate i dla mocnych Pythonostów będzie w pełni wystarczające.