Übersicht

Autor:in

Klaus Rheinberger

Veröffentlichungsdatum

7. Februar 2023

Eckdaten

  • Studiengang: Nachhaltige Energiesysteme, Master, MSc
  • Sommersemester 2023
  • Umfang: 3 ECTS, 1 Semesterwochenstunde Vorlesung, 1 Semesterwochenstunde Übungen in 1 Gruppe, 30 Lehreinheiten insgesamt
  • Die Studierenden sind aufgefordert, ihre Laptops zum Unterricht mitzubringen.

Lehrbeauftragte

Nicos sechs Doppelstunden Übung vom 24.2. bis 14.4.2023 sind dazu da, um die Studierenden in Python zu unterstützen. Dieses Angebot ist freiwillig für die Studierenden. Bitte um direkte Meldung an Nico via Email oder Teams, welche Themen und Probleme er mit euch, den Studierenden, bearbeiten soll. Das Angebot ist nicht nur für den Bereich Data Science da, sondern kann auch z. B. für die Vertiefung Effiziente Systeme genutzt werden.

Lernergebnisse

Die Studierenden erwerben grundlegende Kenntnisse und Anwendungskompetenz in den klassischen Tools der Datenanalyse. Die Studierenden

  • können zwischen statistischem Zusammenhang und Kausalität unterscheiden.
  • sind in der Lage, Zusammenhänge in Daten zu finden, grafisch darzustellen und quantitativ zu bewerten. Sie können Fits und Prognosen auf Basis verschiedener Modelle erstellen.
  • verstehen die lineare Regression und sind fähig mehrdimensionale Regressionen durchzuführen und die Ergebnisse korrekt zu interpretieren.
  • verstehen weitere klassische Tools wie k-Nearest Neighbors, Clustering und Decision Trees. Sie können diese anwenden und deren Ergebnisse interpretieren.
  • können mittels Cross Validation die Güte und Robustheit ihrer Modellaussagen bewerten.

Lehrinhalte

Die Lehrveranstaltung vermittelt die klassischen Tools der Datenanalyse. Es werden die statistischen und methodischen Grundlagen erläutert, sowie die Tools in einer Programmierumgebung an Beispielen angewandt.

  • Datenstrukturen: Samples, Features, Target
  • Statistische Grundlagen: (Co-)Varianz, Korrelation, statistischer Zusammenhang vs. Kausalität
  • Cross Validation: Lern- und Testdatensätze, Fit und Prognose
  • Supervised Learning: Regression vs. Klassifikation, k-Nearest Neighbors, Lineare und Logistische Regression, Linear Support Vector Machines, (Ensembles von) Decision Trees
  • Unsupervised Learning: Clustering, Principal Component Analysis Tools: Datentransformationen, Dummies, Feature Selection, Regularisierung, Grid Search

Literatur

Empfohlene Fachliteratur und weitere Lernressourcen und Hilfsmittel:

  • Guido, Sarah; Müller, Andreas C. (2016): Introduction to Machine Learning with Python: A Guide for Data Scientists. Sebastopol, CA: O’Reilly UK Ltd.
  • VanderPlas, Jake (2016): Python Data Science Handbook: Essential Tools for working with Data. Sebastopol, CA: O’Reilly UK Ltd.
  • Géron, Aurélien (2019): Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. 2nd ed. O’Reilly UK Ltd.
  • McKinney, Wes (2017): Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. 2nd edition. Sebastopol, California: O’Reilly UK Ltd.
  • Provost, Foster; Fawcett, Tom (2013): Data Science for Business: What you need to know about data mining and data-analytic thinking. O’Reilly and Associates.

Siehe Literatur für mehr.

Methodik

  • Vorlesungen
  • Programmierübungen, Programmierprojekt
  • Coaching

Benotung

  1. Antritt: Projektarbeit und Abschlussprüfungen

    • Abgabe des schriftlichen Projektberichts als pdf-Datei sowie lauffähigem Jupyter Notebook und Rohdaten in ILIAS bis spätestens 2023-06-04, 23:55 Uhr
    • schriftliche Abschlussprüfung am 2023-05-19 (30 %): Dauer 45 Minuten, Verständnisfragen, Fragen zu konkreten Beispielsituationen. Die Bewertung muss positiv sein, damit die Gesamtnote positiv ist.
    • mündliche Abschlussprüfung am 2023-06-09 und Bewertung der Projektarbeit (70 %) mit Fragen zur Projektarbeit: Zeiteinteilung wird in ILIAS davor bekannt gegeben. Die Bewertung muss positiv sein, damit die Gesamtnote positiv ist.
  2. Antritt: Wiederholung der negativen Benotungsteile. Ggf. Abgabe einer Projektarbeit (zu einem evtl. neuen Thema) und mündliche Prüfung mit Fragen zur Projektarbeit

  3. Antritt: Abgabe einer Projektarbeit (zu einem evtl. neuen Thema) und mündliche kommissionelle Prüfung zur Projektarbeit und zu den Lerninhalten

Die wissenschaftliche Projektarbeit zu einem selbstgewählten Thema muss mindestens folgende Bereiche enthalten:

  1. Einleitung: Ausgangslage, Fragestellung, Ziel der Analyse, Literaturreferenzen
  2. Daten: Quellen, Qualität, evtl. Alternativen, Begründung der Datenwahl
  3. Methoden: Begründung der verwendeten Annahmen, Modelle und Methoden; Beschreibung möglicher Defizite
  4. Resultate: Beschreibung in Worten, Zahlen und Grafiken
  5. Diskussion: Wurde das gesteckte Ziel erreicht? Defizite, Verbesserungsmöglichkeiten, kritische Reflexion, Vergleich mit Resultaten aus der Literatur

Die Projektarbeit soll an einem selber gewählten Datensatz eine dazupassende Auswahl an Methoden der Lehrveranstaltung anwenden. Hier drei Projektberichte aus dem Jahr 2017, ohne Code und Rohdaten aber inkl. Feedback des Lehrbeauftragten:

  • Data_Science_Projektarbeit_Gstrein_Michael.pdf: einige Tippfehler und wenige Beistriche; Beschreibung der Daten OK, aber Einheiten der Features fehlen; Korrelationsrechnung nicht sinnvoll; Scaling, Grid Search, Cross Val. und PCA gut; viele Methoden verwendet, insbesondere SGDC, Kernel-Approx und Monte Carlo Sim.; Vergleich mit Literatur gut
  • Projektarbeit_Michael_Poelz.pdf: Verwendung autoregressiver Terme gut; Feature-Reduktionen und GridSearchCV gut; nicht immer klare Formulierungen im Text; y-Achsenbeschriftung bei Scatterplots fehlt; viele Methoden verwendet
  • RogenMario_ProjektDokumentation.pdf: Datenauswahl und Preprocessing gut; Verwendung von TimeSeriesSplit gut; y-Achsenbeschriftung und Legende bei Abbildung 5 fehlen; Abbildungen ansonsten sehr gut; Verwendung von autoregressiven Termen und Dummies gut; Code und Diskussion sehr gut
  • DC_Projektbericht_Schatzmann Kilian_.pdf: Beschreibung der Daten und Diskussion gut; viele Methoden verwendet; nicht-lineare Regression leider nicht verwendet; Legende in Abbildung 10 falsch; Code sehr ausführlich und vielfältig

Die Notengebung erfolgt aus den Prozentpunkten der Leistungsbeurteilung nach der Österreichischen Notenskala, siehe Prüfungsordnung:

Note (Zahl, Worte) Prozentpunkte
1, Sehr Gut 87,5 - 100
2, Gut 75 - 87,5
3, Befriedigend 62,5 - 75
4, Genügend 50 - 62,5
5, Nicht Genügend < 50

Anwesenheitsvorgaben

Anwesenheitspflicht herrscht nur bei der Prüfung.

Evaluation

Die Evaluation der Lehrveranstaltung (studentische Lehrveranstaltungsbewertung) erfolgt via ILIAS-Fragebogen. Das Feedback des Lehrbeauftragten an die Studierenden findet in der letzten Lehrveranstaltung oder via Email statt.

Notation

Als Dezimaltrennzeichen wird der englische Punkt statt dem deutschen Komma verwendet, da dies auch in der verwendeten Programmiersprache der Fall ist und zu keinen Verwechslungen mit Kommas bei der Angabe von Vektoren und Intervallen führt.

Impressum

Siehe das Impressum der FH Vorarlberg