mateuszbaran/projekt1.md

## projekt1.md

      
    Raw
  

              projekt1.md
            
          
    Projekt 1

Projekty można realizować w parach lub samodzielnie. Każda para musi mieć unikalny w obrębie roku zestaw (zestaw danych, algorytm, optymalizowany parametr). Proszę o przesłanie list z wybranymi tematami najpóźniej do 8 marca, w przeciwnym razie 9 marca przygotuję losowy przydział tematów.
Projekty należy oddawać na własnych zajęciach 17 lub 19 marca. Nieusprawiedliwiona nieobecność będzie musiała być odrobiona przez realizację projektu poprawkowego (będzie inny temat), oddawanego pod koniec semestru.

Jeden z zestawów danych:


https://archive.ics.uci.edu/ml/datasets/Breast+Cancer (klasyfikacja, brakujące dane)
https://archive.ics.uci.edu/ml/datasets/Car+Evaluation (klasyfikacja)
https://archive.ics.uci.edu/ml/datasets/Echocardiogram (klasyfikacja, brakujące dane)
https://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival (klasyfikacja, brakujące dane)
https://archive.ics.uci.edu/ml/datasets/Census+Income (klasyfikacja, brakujące dane, dość duży zbiór)
https://archive.ics.uci.edu/ml/datasets/Mechanical+Analysis (klasyfikacja)
https://archive.ics.uci.edu/ml/datasets/Acute+Inflammations (klasyfikacja)
https://archive.ics.uci.edu/ml/datasets/Automobile (regresja)
https://archive.ics.uci.edu/ml/datasets/Bias+correction+of+numerical+prediction+model+temperature+forecast (regresja, brakujace dane)
https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset (regresja)
https://archive.ics.uci.edu/ml/datasets/Optical+Interconnection+Network+ (regresja
Inne z repozytorium UCI: https://archive.ics.uci.edu/ml/datasets.php (należy unikać zbiorów z cechami typu tekstowego czy szeregów czasowych, zbyt dużych zbiorów (>50 000 próbek), zbyt małych zbiorów (<100 próbek) oraz zbiorów gdzie liczba próbek jest mniejsza niż liczba cech)


Algorytm uczenia maszynowego:


Klasyfikacja:

SVM,
Lasy drzew decyzyjnych (RandomForestClassifier).
C4.5
Regresja logistyczna.


Regresja:

Drzewa regresji (DecisionTreeRegressor).
ElasticNet.
Regresja wielomianowa


Sposób walidacji: 10-krotna walidacja krzyżowa
Optymalizowany parametr:

klasyfikacja:

Accuracy,
Sensitivity (czułość) -- średnia dla poszczególnych klas,
Precision -- średnia dla poszczególnych klas.
AUC -- dla klasyfikacji binarnej.


Regresja:

Błąd średniokwadratowy
Średni błąd bezwzględny
Ułamek wyjaśnianej wariancji (explained_variance_score)


Brakujące dane: wystarczy SimpleImputer.
W raporcie należy zamieścić:

Krótki opis zestawu danych: liczba cech i ich typy, czy występują brakujące dane, rodzaj problemu (klasyfikacja, regresja), liczba instancji (próbek).
Krótki opis wybranej metody uczenia maszynowego (około 2-3 zdania) + opis parametrów.
Sposób wyboru zbioru testowego.
(Na >= 4.0): opis działania metody wyboru hiperparametrów

Szacowana długość raportu: od 1 do 3 stron A4.
Ocena:

Na 3.0: działający model uczenia maszynowego, przetestowano i porównano kilka hiperparametrów; policzenie wybranego optymalizowanego parametru. Dla klasyfikacji narysowanie macierzy pomyłek a dla regresji krzywej uczenia: https://scikit-learn.org/stable/auto_examples/model_selection/plot_learning_curve.html#sphx-glr-auto-examples-model-selection-plot-learning-curve-py
Na 4.0: zastosowano prawidłowo walidację krzyżową do znalezienia optymalnych hiperparametrów (wybrać 2) na siatce (grid search). Policzone wybranego optymalizowanego parametru na zbiorze testowym dla optymalnego klasyfikatora i narysowanie dla niego macierzy pomyłek lub krzywej uczenia.
Na 5.0: Zbadanie wpływu normalizacji, standaryzacji i PCA (na cechach będących liczbami rzeczywistymi) na proces uczenia (dodanie ich jako trzeci optymalizowany hiperparametr o pięciu wartościach: brak normalizacji czy standaryzacji, normalizacja, standaryzacja, dwa warianty PCA z różnymi wyborami liczby głównych składowych).