Re­gressions­ana­ly­se

Unter dem Oberbegriff Regressionsanalyse sammeln sich statistische Analyseverfahren, die den Zusammenhang zwischen einer abhängigen (auch: endogene Variable, erklärte Variable, Prognosevariable, Regressand oder Label) und einer oder mehreren unabhängigen Variablen (auch: exogene Variablen, erklärende Variablen, Prädikatorvariablen, Regressoren oder Features) untersuchen. Die beiden Hauptanwendungsgebiete einer Regressionsanalyse sind zum einen die Kausalanalyse - quantitative Beschreibung von Zusammenhängen - und zum anderen die Prognose von Werten der abhängigen Variablen. Hierbei kommen auch häufig Verfahren des maschinellen Lernens (Machine Learning; ML) zum Einsatz.

Nachfolgend kann eine eindimensionale Regressionsanalyse mit unterschiedlichen Verfahren - zum Beispiel eine lineare oder quadratische Regression, aber auch Machine Learning Varianten wie z.B. Fast forest oder Fast tree - auf Basis von x-y-Datenpaaren durchgeführt werden. Dabei ist der x-Wert die unabhängige Variable und der y-Wert die abhängige Variable. Im voreingestellten Beispiel wird ein Modell dazu trainiert, den Preis einer Taxifahrt (y-Wert) anhand der zu fahrenden Meilen (x-Wert) vorherzusagen.

Beachte: Nicht jedes Regressionsmodell liefert immer ein zufriedenstellendes Ergebnis. Insbesondere für das maschinelle Lernen sind im Allgemeinen viele Datenpaare empfohlen, da es ansonsten sein kann, dass kein oder nur ein unzureichendes Vorhersagemodell erstellt werden kann. Auch in dem angegebenen Beispiel passen nicht alle Regressionsmodelle gut zu den Trainingsdaten, die ohnehin nur einen (willkürlichen) Auszug aus den Millionen Datensätze New Yorker Taxifahrer darstellen und hier lediglich das Grundprinzip verdeutlichen sollen.


Eingabedaten


Regressionsalgorithmus:


Trainingsdaten (x-y-Wertepaare):

(x1,y1),...,(xn,yn) =
/

Testpunkt:

xTest =
/
yTest =
/


Quellen & weiterführende Literatur:
  1. Data set: New York City TLC Taxi Trip Record Data
  2. Microsoft Documentation: ML.NET
  3. Basler, D.: Neuronale Netze mit C# programmieren. 1. München: Carl Hanser Verlag, 2021
  4. Rashid, T.: Neuronale Netze selbst programmieren. 1. Heidelberg: O'Reilly Verlag, 2017
  5. Universität Leipzig (Studienkolleg Sachsen): Lehrmaterial Informatik (Regressionsanalyse)
Updated: 16.07.2021