Skip to content

Instantly share code, notes, and snippets.

Embed
What would you like to do?
notes-datenanalyse-19.1.2017

Introduction to Open Data

Previously...

Gemeinden in der Schweiz - ersten Überblick zu den Daten - Fragen: Hat mit dem Einlesen alles geklappt wie erwartet? Sind die Daten so kodiert, wie Sie es erwarten? Stimmen die Datenformate der Variablen? Gibt es fehlende Werte und wie sind diese kodiert?

define: loleg

define: data

Data as concept

  • da•ta (dāˈtə, dătˈə, däˈtə)
  • n. Factual information, especially information organized for analysis or used to reason or make decisions.
  • n. Computer Science Numerical or other information represented in a form suitable for processing by computer.
  • n. Values derived from scientific experiments.

Everyday data manipulation and analysis

  • We want to see facts (decisive statements) backed up with data (empirical evidence)
    • Data as raw material of information - the building blocks of an Information Society
    • The Web of Data helps to put relevant information at the center of the lives of billions.
  • Data literacy is a critical skill that all people have - to some extent.
    • "Good data" helps us to make informed, consistent decisions - from everyday lives to work and politics.
    • It is, in part, the ability to make the most of the available resources to find, retrieve and republish such data sources, combined with the ability to critically discern accuracy, applicability and quality.

What is Open Data?

The following is an excerpt from the Open Data Handbook, which defines Open data by the Open Definition:

Open data is data that can be freely used, re-used and redistributed by anyone - subject only, at most, to the requirement to attribute and sharealike.

The full Open Definition gives precise details as to what this means. To summarize the most important:

  • Availability and Access: the data must be available as a whole and at no more than a reasonable reproduction cost, preferably by downloading over the internet. The data must also be available in a convenient and modifiable form.
  • Re-use and Redistribution: the data must be provided under terms that permit re-use and redistribution including the intermixing with other datasets.
  • Universal Participation: everyone must be able to use, re-use and redistribute - there should be no discrimination against fields of endeavour or against persons or groups. For example, 'non-commercial' restrictions that would prevent 'commercial' use, or restrictions of use for certain purposes (e.g. only in education), are not allowed.

If you're wondering why it is so important to be clear about what open means and why this definition is used, there's a simple answer: interoperability. Continue reading in the Open Data Handbook - What is Open Data? for more details on interoperability.

Open data licenses have parallels - compare:

Open data is integral to open technologies

Further links

Perspectives

"Das Thema Open Data bewegt eine grosse Vielfalt von Akteuren in Behörden, Medien, Firmen und der wachsenden Schweizer Community einzelner Entwickler, Designer und Aktivisten. Die Dynamik ist da, der politische Wille entsteht, Austausch findet statt." http://make.opendata.ch

"Nach wie vor sind auf allen Seiten Unsicherheiten vorhanden – ganz ähnlich wie am Anfang anderer grosser Entwicklungen zwischen Gesellschaft und Technologie – aber auch grosser Elan, und die Chance für einen echten Innovationsimpuls und einen bleibenden Kulturwandel." http://theodi.org/culture

"Open source is describing the free exchange of ideas in any atmosphere." (Forbes 2014)

Open data is the raw material of a new industrial revolution - “Open data has the potential to radically change the way organisations value data” (The Guardian 2014)

Who's downloading pirated papers? Everyone. Elbakyan A, Bohannon J 2016

"This data set is messy. There are many known problems, both with the format and the contents. Here's what you should know." (Reclaim the Records NYC)

"Die intelligente Nutzung von offenen Daten [kann] einen großen Mehrwert für die eigene Arbeit generieren. Diese Beispiele setzen folglich die richtigen Anreize, um verwaltungsintern Fürsprecher für Open Data zu gewinnen." -Niels Reinhard, idalab

Species of open data

How open data is used

Finanzen

Umwelt

Öffentliche Verkehr

Further reading

Hands-on

What are hackathons for?

  • Focusing on topics of interest
  • Working in teams, mixing roles
  • Finding and creating data sources

What tools do we use? What is a good tool for open data?

  • Open source, multiplatform, community supported
  • Source control (attribution, change history)
  • Supports open standards, attention to metadata
  • Spreadsheets and beyond...

Example: OpenRefine

What tools support data analysis?

For next week

Go over our group brainstorm (snapshot here), choose a topic and share any further thoughts/ ideas/ datasetes on January 26. Topics preview:

Food trucks: where do they come from, where do they go?
* http://food.opendata.ch
* http://www.streatfood.ch/
Wie wichtig sind Youtube Tutorials als Bildungshilfe beim Grundschulunterricht?
* welche Schule...? https://www.google.ch/maps/search/grundschule/
* welche Daten..? https://developers.google.com/youtube/documentation/
* öffene Daten..? http://piwik.org - "open analytics"
Wie verhindern wir Fehlinformationen durch Datenmissbrauch?
* was meinen wir mit Datenmissbrauch..:
* Internetsicherheit und Datenschutz?
* https://www.ch.ch/de/gefahren-internet/
* https://www.eff.org/wp/effs-top-12-ways-protect-your-online-privacy
* www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-hacks/
* oder Fehldarstellung und Manipulation
* (sehe unten...)
"Wir dürsten nach Erkenntnis und ertrinken in Daten." Stimmt's? (und von wem stammt dieses Zitat?)
* John Naisbitt hat in dieser Richtung eine Berühmte Aussage gemacht
* http://www.artm-friends.at/am/km/basics/wissen-d.html
* Fragen wir mal die Soziologe? > http://openresearchdata.ch/
* Vielleicht gibt es so was in der Schweiz > http://www.pewinternet.org/2016/12/07/information-overload/
Wie können wir schnell+effizient Muster erkennnen (Übersicht über Auswertungs-tools?), z.B. wenn Journalisten grosse Steuer-Datenmengen auswerten.
* Wie haben OpenRefine demonstriert, ein beliebtes Tool von einige Journalisten http://openrefine.org/
* Im http://forum.schoolofdata.ch können wir uns um Werkzeuge und Leitfaden gerne tauschen.
* Mustererkennung kann gewisses Software und Kunstliches Intelligenz besonders gut machen:
* https://www.amazon.com/Machine-Learning-R-Brett-Lantz/dp/1782162143
* https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/lecture-notes/MIT15_097S12_lec02.pdf
* https://en.wikipedia.org/wiki/Artificial_neural_network
* http://scikit-learn.org/stable/
"Sogar SVP Wähler wollen keinen Atomstrom" Otto Mohl fühlt sich unwohl am Pol ohne Atomstrom (Loriot).
* http://make.opendata.ch/wiki/event:2015-09
* https://opendata.swiss/de/group/politics
* https://www.bfs.admin.ch/bfs/de/home/statistiken/politik.assetdetail.1363952.html
* https://www.bfs.admin.ch/bfs/de/home/statistiken/politik.assetdetail.1363950.html
* Detaillierter als Open Data noch nicht erhaltbar.. aber vor Volksabstimmungs-Studien und Parteien erhaltbar (und wäre gut zu eröffnen!)
Weiss der SVP Wähler überhaupt was Atomstrom ist??? Ist SVP-Wähler = Pro-Atomstrom?Ev je nach Grafik?
* http://energieproduktion-schweiz.opendata.iwi.unibe.ch/vis2.php
* http://opendata.iwi.unibe.ch/
* https://energy.opendata.ch/
Sind Daten immer auch Informationen? Nein... :-)
* http://refine.soda.camp
* http://www.beobachter.ch/wirtschaft/artikel/pharmagelder_138-millionen-franken-fuer-spitaeler-und-aerzte/
* https://correctiv.org/recherchen/euros-fuer-aerzte/datenbank/
Was ist die nächste grosse (=Big Data) Plattform und welche Daten geben dazu Auskunft? Bsp. Uber, AirBnB, etc.
* https://www.programmableweb.com/api/uber
* http://ubermovement.com/momentum
* http://nerds.airbnb.com/ <3
* Geschichte der öffentliche Verkehr und Open Data in der Schweiz
* http://make.opendata.ch/wiki/project:fahrplan.py (API > DATA > APP)
* http://transport.opendata.ch (API > API > APP)
* https://data.sbb.ch/explore/?sort=modified (API > APP)
* https://en.wikipedia.org/wiki/Information_broker
Werden wir mit Daten manipuliert? Wie merken wir, dass wir manipuliert werden? Was ist Manipulation? Wenn wir nicht wissen, was unsere Entscheidung beeinflusst hat (= Problem).
* http://www.ardmediathek.de/tv/Reportage-Dokumentation/Die-Story-im-Ersten-Im-Land-der-L%C3%BCgen/Das-Erste/Video?bcastId=799280&documentId=34622130
* https://de.wikipedia.org/wiki/Quantified_Self
Wie und wann wissen die Stromversorger, wenn der Strom für den Winter nicht reichen wird?
Welche Standards / Anforderungen sollte ein Publisher von "Open Data" einhalten, um zu vermeiden, dass er "Open Chunk" produziert?
Wie steht der Bund / Kantone zum Thema Open Data? (Steuerdaten, Budget, Ausgaben (ÖV, Strasse, Gesundheit, Asylausgaben))?
Was ist die Definition von "Big Data"?
Wie findet man die beste Datenquelle? Wie vergleicht man Sie?
Die Antwort ist 42. Wie war die Frage? ;-)
Was wird heute am WEF besprochen?
Ist die Unternehmenssteuerreform II sinnvoll?Für wen?
Wie erlangen wir dank Daten die Weltherrschaft?
Gibt es Leben im All?
Kann man die Daten aus dem Netz benutzen, um ein Business aufzubauen?
Die Daten haben scheinbar keinen Wert mehr - man kann keine Daten mehr verkaufen???
Stehen irgendwo real-time Finanzdaten (day-trading) frei zur Verfügung?
Wo ist der Unterschied zwischen OpenSource und Free Software?
Wie hoch ist die Nutzung von Koordinaten für den normal Nutzer oder haben System wie w3w einen höhren Nutzen?
Wie müssen wir die Daten für Industrie 4.0 nutzbar machen.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.