Skip to content

Instantly share code, notes, and snippets.

@mateuszbaran
Last active March 23, 2020 10:02
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save mateuszbaran/07b1a0c20778aeed3670aab0e1af6bb1 to your computer and use it in GitHub Desktop.
Save mateuszbaran/07b1a0c20778aeed3670aab0e1af6bb1 to your computer and use it in GitHub Desktop.
Inteligencja obliczeniowa projekt 1

Projekt 1

Projekty można realizować w parach lub samodzielnie. Każda para musi mieć unikalny w obrębie roku zestaw (zestaw danych, algorytm, optymalizowany parametr). Proszę o przesłanie list z wybranymi tematami najpóźniej do 8 marca, w przeciwnym razie 9 marca przygotuję losowy przydział tematów.

Projekty należy oddawać na własnych zajęciach 17 lub 19 marca. Nieusprawiedliwiona nieobecność będzie musiała być odrobiona przez realizację projektu poprawkowego (będzie inny temat), oddawanego pod koniec semestru.

  1. Jeden z zestawów danych:
  1. Algorytm uczenia maszynowego:
    1. Klasyfikacja:

      • SVM,
      • Lasy drzew decyzyjnych (RandomForestClassifier).
      • C4.5
      • Regresja logistyczna.
    2. Regresja:

      • Drzewa regresji (DecisionTreeRegressor).
      • ElasticNet.
      • Regresja wielomianowa
  2. Sposób walidacji: 10-krotna walidacja krzyżowa
  3. Optymalizowany parametr:
    1. klasyfikacja:
      • Accuracy,
      • Sensitivity (czułość) -- średnia dla poszczególnych klas,
      • Precision -- średnia dla poszczególnych klas.
      • AUC -- dla klasyfikacji binarnej.
    2. Regresja:
      • Błąd średniokwadratowy
      • Średni błąd bezwzględny
      • Ułamek wyjaśnianej wariancji (explained_variance_score)

Brakujące dane: wystarczy SimpleImputer.

W raporcie należy zamieścić:

  • Krótki opis zestawu danych: liczba cech i ich typy, czy występują brakujące dane, rodzaj problemu (klasyfikacja, regresja), liczba instancji (próbek).
  • Krótki opis wybranej metody uczenia maszynowego (około 2-3 zdania) + opis parametrów.
  • Sposób wyboru zbioru testowego.
  • (Na >= 4.0): opis działania metody wyboru hiperparametrów

Szacowana długość raportu: od 1 do 3 stron A4.

Ocena:

  • Na 3.0: działający model uczenia maszynowego, przetestowano i porównano kilka hiperparametrów; policzenie wybranego optymalizowanego parametru. Dla klasyfikacji narysowanie macierzy pomyłek a dla regresji krzywej uczenia: https://scikit-learn.org/stable/auto_examples/model_selection/plot_learning_curve.html#sphx-glr-auto-examples-model-selection-plot-learning-curve-py
  • Na 4.0: zastosowano prawidłowo walidację krzyżową do znalezienia optymalnych hiperparametrów (wybrać 2) na siatce (grid search). Policzone wybranego optymalizowanego parametru na zbiorze testowym dla optymalnego klasyfikatora i narysowanie dla niego macierzy pomyłek lub krzywej uczenia.
  • Na 5.0: Zbadanie wpływu normalizacji, standaryzacji i PCA (na cechach będących liczbami rzeczywistymi) na proces uczenia (dodanie ich jako trzeci optymalizowany hiperparametr o pięciu wartościach: brak normalizacji czy standaryzacji, normalizacja, standaryzacja, dwa warianty PCA z różnymi wyborami liczby głównych składowych).
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment