ThiefMaster/hska-ws1213-datamining-aufgaben.txt

## hska-ws1213-datamining-aufgaben.txt
1. Was zeichnet Data Mining gegenüber Mustererkennung aus? !!!
DM ist die Analyse von großen Datenbeständen nach neuem, nützlichen Wissen.


2. Abgrenzung DM / Information Retrieval
- "Googlesuche nach Stichwort": IR
- "Gruppierung der Resultate nach Sprache": DM
- Klickpfadanalyse: DM
- Bildersuche in Personendatenbank: IR


3. Welche Rolle spielt DM im KDD-Prozess?
Mustererkennung


4. Welche Arten von mangelnder Datenqualität gibt es? (so nicht in der Klausur)
Siehe Kap. 2, Folie 21


5. Welche Mängel erwarten Sie bei den folgenden DBen? Beispiel!
a) Thermometer: systematische Fehler (falsch kalibriert)
b) Datenbanken von Versandhäusern: Duplikate
b) Erhebung mit Fragebögen: Fehlende Werte


6. Nennen Sie zwei Vorgehensweisen bei fehlenden Werten.
- Standardwerte, Interpolieren
- Objekt verwerfen
- Merkmal verwerfen


7. Systematische Störungen beheben?
Datenspezifische Korrektur


# Im August 2008 gab es laut ADAC in Deutschland 14506 Tankstellen, davon 11166 von bekannten Marken.
# Die meisten gehören zu Aral (2330), die wenigsten zu Baywa (108). Einem Teil der Tankstellen ist ein
# Shop angeschlossen; davon liegen 83% in den alten Bundesländern. Von allen Tankstellen haben sie folgende
# Datensätze zur Verfügung, wobei einige der DAe durch nicht vorhandene Information das Merkmal "Benzinpreis"
# auf 0.00 gesetzt haben.

8- Welche Merkmalstypen liegen hier vor?

Merkmal                            qualitativ                   quantitativ
                              nominal      ordinal          Intervall    Ratio
------------------------------------------------------------------------------
Längengrad              |                                        *        (*)
Breitengrad             |                                        *        (*)
Marke                   |        *
#Zapfsäulen             |                                                  *
Jahresumsatz            |                                                  *
Lage (ländlich, etc.)   |       (*)           *
Shop Ja/Nein            |        *
Benzinpreis am 1.8.     |                                                  *
------------------------------------------------------------------------------


9. Der Umfang des Datenbestands soll durch Aggregation reduziert werden. Dabei wird nach der Marke
   zusammengefasst. Wie behandeln sie das Merkmal a) Lage, b) Jahresumsatz, c) Benzinpreis

a) Verwerfen / 3 Merkmale rel. Häufigkeiten
b) Summe, Mittelwert?
c) Median (robust ggü Ausreißern)


10. Alternativ zur Aggregation kann der Umfang durch gleichverteiltes Abtasten reduziert werden.
    Für welche zwei Merkmale sehen Sie das Risiko des Strukturverlusts am größten?

- Marke: ungleiche Verteilung (108, 2330)
- Shop: 83% in alten Bundesländern


11. Nun betrachten sie den DB ohne die Merkmale "Marke, "Lage" und "Shop".
    a) Nennen Sie zwei Merkmale von denen Sie lineare Abhängigkeiten erwarten.
    b) Skizzieren Sie die Abhängigkeiten und geben Sie an, ob Sie eine positive oder negative Kovarianz erwarten.

a) #Zapfsäulen und Jahresumsatz
b) y:#Zapfsäulen, x:Umsatz
   cov > 0


12. Nun betrachten Sie nur noch die Merkmale "Längen-" und "Breitengrad" und "Benzinpreis".
    a) Welche Schwierigkeiten erwarten Sie bei der Anwendung eine PCA?
    b) Welches Distanzmaß verwenden Sie für einen Clusteralgorithmus auf diesen Merkmalen?

a) unterschiedliche Skalenniveaus
b) Mahalanobis-Distanz


13. SMC = (f00 + f11) / (f00 + f11 + f10 + f01)
    JSC = f11 / (f11 + f10 + f01)

a) Für welche Daten ist der SMC definiert?
b) Für welche Daten ist der JSC besonders geeignet?
c) Berechnen Sie SMC und JSC für x = (0 0 1 0 0 0 1)^T und
                                 y = (0 1 1 0 0 1 0)^T

a) Binäre Daten
b) Binäre dünnbesetzte Daten
c) f00 = 3, f11 = 1, f01 = 2, f10 = 1
   SMC = (3+1)+(3+1+2+1) = 4/7
   JSC = 1 / (1+2+1) = 1/4


14. a) Welches Maß wird i.d.R. für Textdokumente eingesetzt?
    b) Skizzieren Sie das Maß für folgende Objekte
    c) Was ist bei diesem Maß der entscheidende Unterschied gegenüber der euklidischen Distanz?
       Skizze mit Beispiel.

a) Cosinus-Ähnlichkeit
b) Objekte als Vektoren betrachten (0,0 => x,y). Maß ist cos des Winkels zwischen den Vektoren.
c) Toleranz gegenüber Änderungen der Häufigkeit der Schlüsselwörter insb. relative Änderungen.


15. Die PCA liefert auf einem Datenbestand folgende Eigenwerte: lambda1 = 117, lambda2 = 82, lambda3 = 74, lambda4 = 23, lambda5 = 8
a) Wieviele Merkmale verwenden Sie (ohne weiteres Vorwissen)?
b) Skizzieren Sie MW und die sortierten EVen

a) Faustregel: lambda1 / 10 als Schranke => Alle Eigenvektoren mit EW > 11.7 => 4


16. Sie suchen in einem Datenbestand mit vorgegebener Clusteranzahl jeweils einen typischen Vertreter. Welchn Algorithmus verwenden Sie (nicht)?

Ja: PAM, CLARA, CLARANS
Nein: K-means


17. Sie vergleichen die Leistung zweier exklusiver Clusteralgorithmen die die Anzahl der Cluster automatisch bestimmen.
a) Welches Maß verwenden Sie? Begründung!
b) Ist ihr Maß auch für Fuzzy-basierte Algorithmen geeignet?

a) Silhouettenkoeffizient, gilt als weitgehend unabhängig bzgl Anzahl Cluster
b) Nein, nach Definition des Silhouettenkoeffizienten ist eindeutige Zuordnung Objekt<=>Cluster erforderlich.


18) a) Wie unterscheiden sich die typische Zielfunktionen von K-means und C-means?
    b) Welche Nebenbedingung wird bei der (Neu-)Berechnung der Zugehörigkeiten beim C-means berücksichtigt?
    c) Typischerweise wird C-means mit einem fuzzier p=2 berechnet. Was ändert sich, wenn p nur wenig größer als 1 gewählt ist?

a)
K-means: SSE = sum(k=1..K) sum(x in Ck) d²(x, zk)
C-means: WSSE = sum(k=1..K) sum(x in DB) (w[kx]^p * d²(x, zk))

Bei C-means werden die Summanden durch den Grad der Zugehörigkeit (potenziert mit fuzzier p) gewichtet.

b) Summe über den Grad der Zugehörigkeiten muss für jedes Objekt 1 sein. sum(k=1..K) w[k,x] = 1
c) Cluster werden schärfer


19. Welchen Clusteralgorithmus verwenden Sie bei folgendem Datenbestand?
a) /` /
b) Runde Cluster, kleine Ausreißer
c) Halbkreise, verschränkt

a) GK (GG)
b) DBscan (wegen Ausreißern
c) DBscan


20. Ester et al haben in ihrer Veröffentlichung die Begriffe Erreichbarkeit, direkte Erreichbarkeit und Verbundenheit definiert.
    In welcher Reihenfolge bauen die Definitionen aufeinander auf?

2-1-3
	1. Was zeichnet Data Mining gegenüber Mustererkennung aus? !!!
	DM ist die Analyse von großen Datenbeständen nach neuem, nützlichen Wissen.



	2. Abgrenzung DM / Information Retrieval
	- "Googlesuche nach Stichwort": IR
	- "Gruppierung der Resultate nach Sprache": DM
	- Klickpfadanalyse: DM
	- Bildersuche in Personendatenbank: IR



	3. Welche Rolle spielt DM im KDD-Prozess?
	Mustererkennung



	4. Welche Arten von mangelnder Datenqualität gibt es? (so nicht in der Klausur)
	Siehe Kap. 2, Folie 21



	5. Welche Mängel erwarten Sie bei den folgenden DBen? Beispiel!
	a) Thermometer: systematische Fehler (falsch kalibriert)
	b) Datenbanken von Versandhäusern: Duplikate
	b) Erhebung mit Fragebögen: Fehlende Werte



	6. Nennen Sie zwei Vorgehensweisen bei fehlenden Werten.
	- Standardwerte, Interpolieren
	- Objekt verwerfen
	- Merkmal verwerfen



	7. Systematische Störungen beheben?
	Datenspezifische Korrektur



	# Im August 2008 gab es laut ADAC in Deutschland 14506 Tankstellen, davon 11166 von bekannten Marken.
	# Die meisten gehören zu Aral (2330), die wenigsten zu Baywa (108). Einem Teil der Tankstellen ist ein
	# Shop angeschlossen; davon liegen 83% in den alten Bundesländern. Von allen Tankstellen haben sie folgende
	# Datensätze zur Verfügung, wobei einige der DAe durch nicht vorhandene Information das Merkmal "Benzinpreis"
	# auf 0.00 gesetzt haben.

	8- Welche Merkmalstypen liegen hier vor?

	Merkmal qualitativ quantitativ
	nominal ordinal Intervall Ratio
	------------------------------------------------------------------------------
	Längengrad \| * (*)
	Breitengrad \| * (*)
	Marke \| *
	#Zapfsäulen \| *
	Jahresumsatz \| *
	Lage (ländlich, etc.) \| ()
	Shop Ja/Nein \| *
	Benzinpreis am 1.8. \| *
	------------------------------------------------------------------------------


	9. Der Umfang des Datenbestands soll durch Aggregation reduziert werden. Dabei wird nach der Marke
	zusammengefasst. Wie behandeln sie das Merkmal a) Lage, b) Jahresumsatz, c) Benzinpreis

	a) Verwerfen / 3 Merkmale rel. Häufigkeiten
	b) Summe, Mittelwert?
	c) Median (robust ggü Ausreißern)



	10. Alternativ zur Aggregation kann der Umfang durch gleichverteiltes Abtasten reduziert werden.
	Für welche zwei Merkmale sehen Sie das Risiko des Strukturverlusts am größten?

	- Marke: ungleiche Verteilung (108, 2330)
	- Shop: 83% in alten Bundesländern



	11. Nun betrachten sie den DB ohne die Merkmale "Marke, "Lage" und "Shop".
	a) Nennen Sie zwei Merkmale von denen Sie lineare Abhängigkeiten erwarten.
	b) Skizzieren Sie die Abhängigkeiten und geben Sie an, ob Sie eine positive oder negative Kovarianz erwarten.

	a) #Zapfsäulen und Jahresumsatz
	b) y:#Zapfsäulen, x:Umsatz
	cov > 0



	12. Nun betrachten Sie nur noch die Merkmale "Längen-" und "Breitengrad" und "Benzinpreis".
	a) Welche Schwierigkeiten erwarten Sie bei der Anwendung eine PCA?
	b) Welches Distanzmaß verwenden Sie für einen Clusteralgorithmus auf diesen Merkmalen?

	a) unterschiedliche Skalenniveaus
	b) Mahalanobis-Distanz



	13. SMC = (f00 + f11) / (f00 + f11 + f10 + f01)
	JSC = f11 / (f11 + f10 + f01)

	a) Für welche Daten ist der SMC definiert?
	b) Für welche Daten ist der JSC besonders geeignet?
	c) Berechnen Sie SMC und JSC für x = (0 0 1 0 0 0 1)^T und
	y = (0 1 1 0 0 1 0)^T

	a) Binäre Daten
	b) Binäre dünnbesetzte Daten
	c) f00 = 3, f11 = 1, f01 = 2, f10 = 1
	SMC = (3+1)+(3+1+2+1) = 4/7
	JSC = 1 / (1+2+1) = 1/4



	14. a) Welches Maß wird i.d.R. für Textdokumente eingesetzt?
	b) Skizzieren Sie das Maß für folgende Objekte
	c) Was ist bei diesem Maß der entscheidende Unterschied gegenüber der euklidischen Distanz?
	Skizze mit Beispiel.

	a) Cosinus-Ähnlichkeit
	b) Objekte als Vektoren betrachten (0,0 => x,y). Maß ist cos des Winkels zwischen den Vektoren.
	c) Toleranz gegenüber Änderungen der Häufigkeit der Schlüsselwörter insb. relative Änderungen.



	15. Die PCA liefert auf einem Datenbestand folgende Eigenwerte: lambda1 = 117, lambda2 = 82, lambda3 = 74, lambda4 = 23, lambda5 = 8
	a) Wieviele Merkmale verwenden Sie (ohne weiteres Vorwissen)?
	b) Skizzieren Sie MW und die sortierten EVen

	a) Faustregel: lambda1 / 10 als Schranke => Alle Eigenvektoren mit EW > 11.7 => 4



	16. Sie suchen in einem Datenbestand mit vorgegebener Clusteranzahl jeweils einen typischen Vertreter. Welchn Algorithmus verwenden Sie (nicht)?

	Ja: PAM, CLARA, CLARANS
	Nein: K-means



	17. Sie vergleichen die Leistung zweier exklusiver Clusteralgorithmen die die Anzahl der Cluster automatisch bestimmen.
	a) Welches Maß verwenden Sie? Begründung!
	b) Ist ihr Maß auch für Fuzzy-basierte Algorithmen geeignet?

	a) Silhouettenkoeffizient, gilt als weitgehend unabhängig bzgl Anzahl Cluster
	b) Nein, nach Definition des Silhouettenkoeffizienten ist eindeutige Zuordnung Objekt<=>Cluster erforderlich.



	18) a) Wie unterscheiden sich die typische Zielfunktionen von K-means und C-means?
	b) Welche Nebenbedingung wird bei der (Neu-)Berechnung der Zugehörigkeiten beim C-means berücksichtigt?
	c) Typischerweise wird C-means mit einem fuzzier p=2 berechnet. Was ändert sich, wenn p nur wenig größer als 1 gewählt ist?

	a)
	K-means: SSE = sum(k=1..K) sum(x in Ck) d²(x, zk)
	C-means: WSSE = sum(k=1..K) sum(x in DB) (w[kx]^p * d²(x, zk))

	Bei C-means werden die Summanden durch den Grad der Zugehörigkeit (potenziert mit fuzzier p) gewichtet.

	b) Summe über den Grad der Zugehörigkeiten muss für jedes Objekt 1 sein. sum(k=1..K) w[k,x] = 1
	c) Cluster werden schärfer



	19. Welchen Clusteralgorithmus verwenden Sie bei folgendem Datenbestand?
	a) /` /
	b) Runde Cluster, kleine Ausreißer
	c) Halbkreise, verschränkt

	a) GK (GG)
	b) DBscan (wegen Ausreißern
	c) DBscan



	20. Ester et al haben in ihrer Veröffentlichung die Begriffe Erreichbarkeit, direkte Erreichbarkeit und Verbundenheit definiert.
	In welcher Reihenfolge bauen die Definitionen aufeinander auf?

	2-1-3