Schließlich werden wir zwei weitere Modelle anschauen, die häufig für Klassifikationsaufgaben eingesetzt werden: die logistische Regression und die Softmax-Regression.
|
Dieses Kapitel enthält einige mathematische Formeln, die Begriffe aus der linearen Algebra und Analysis verwenden. Um diese Formeln zu verstehen, müssen Sie wissen, was Vektoren und Matrizen sind, wie sich diese transponieren und multiplizieren lassen, wie man sie invertiert und was partielle Ableitungen sind. Wenn Sie mit diesen Begriffen nicht vertraut sind, gehen Sie bitte die als Jupyter-Notebooks verfügbaren einführenden Tutorials zu linearer Algebra und Analysis in den Onlinematerialien (https://github.com/ageron/handson-ml2) durch. Diejenigen unter Ihnen mit einer ausgeprägten Mathe-Allergie sollten dieses Kapitel dennoch durchgehen und die Formeln überspringen; ich hoffe, der Text hilft Ihnen, einen Großteil der Begriffe zu verstehen. |
Lineare Regression
In Kapitel 1, haben wir ein einfaches Regressionsmodell der Zufriedenheit mit dem Leben betrachtet: Zufriedenheit = θ0 + θ1 × BIP_pro_Kopf.
Dieses Modell ist nichts weiter als eine lineare Funktion des Eingabewerts BIP_pro_Kopf. θ0 und θ1 sind die Parameter des Modells.
Allgemeiner formuliert, trifft ein lineares Modell eine Vorhersage, indem es eine gewichtete Summe der Eingabemerkmale berechnet und eine Konstante namens Bias-Term (oder Achsenabschnitt) hinzuaddiert, wie in Formel 4-1 zu sehen ist.
Formel 4-1: Lineares Regressionsmodell zur Vorhersage
ŷ = θ0 + θ1x1 + θ2x2 + … + θnxn
ŷ ist der vorhergesagte Wert.
n ist die Anzahl Merkmale.
xi ist der i. Wert des Merkmals.
θj ist der j. Modellparameter (inklusive des Bias-Terms θ0 und der Gewichte der Merkmale θ1, θ2, …, θn).
In Vektorschreibweise lässt sich dies deutlich kompakter ausdrücken, wie Sie in Formel 4-2 sehen.
Formel 4-2: Lineares Regressionsmodell zur Vorhersage (Vektorschreibweise)
ŷ = hθ(X) = θ·x
θ ist der Parametervektor des Modells mit Bias-Term θ0und den Gewichten der Merkmale θ1 bis θn.
x ist der Merkmalsvektor eines Datenpunkts mit den Werten x0 bis xn, wobei x0 stets 1 beträgt.
θ · x ist das Skalarprodukt der Vektoren θ und x, was natürlich θ0x0 + θ1x1 + θ2x2 + … + θnxn entspricht.
hθ ist die Hypothesenfunktion unter Verwendung der Modellparameter θ.
|
Beim Machine Learning werden Vektoren oft als Spaltenvektoren repräsentiert, also als zweidimensionale Arrays mit einer einzelnen Spalte. Handelt es sich bei θ und x um Spaltenvektoren, ist die Vorhersage |
Dies ist also ein lineares Regressionsmodell. Wie sollen wir dieses trainieren? Wir erinnern uns, dass wir beim Trainieren eines Modells dessen Parameter so einstellen, dass das Modell so gut wie möglich an die Trainingsdaten angepasst ist. Dazu benötigen wir zuerst ein Qualitätsmaß für die Anpassung des Modells an die Trainingsdaten. In Kapitel 2 haben wir gesehen, dass das häufigste Gütekriterium bei einem Regressionsmodell die Wurzel der mittleren quadratischen Abweichung oder der Root Mean Square Error (RMSE) (Formel 2-1) ist. Um ein lineares Regressionsmodell zu trainieren, müssen wir daher den Wert für θ finden, für den der RMSE minimal wird. In der Praxis ist es einfacher, die mittlere quadratische Abweichung anstelle des RMSE zu berechnen. Dabei erhalten wir das gleiche Ergebnis (weil ein Wert, der eine Funktion minimiert, auch dessen Quadratwurzel minimiert).1
Der mittlere quadratische Fehler (MSE) der Hypothese einer linearen Regression hθ lässt sich auf dem Trainingsdatensatz X mithilfe von Formel 4-3 berechnen.
Formel 4-3: MSE-basierte Kostenfunktion für ein lineares Regressionsmodell
Ein Großteil der Notation wurde bereits in Kapitel 2 vorgestellt (siehe »Schreibweisen« auf Seite 42). Der einzige Unterschied ist, dass wir hθ anstelle von h schreiben, um deutlich zu machen, dass das Modell durch den Vektor θ parametrisiert wird. Um die Notation zu vereinfachen, werden wir im Folgenden einfach nur MSE(θ) anstelle von MSE(X, hθ) schreiben.
Die Normalengleichung
Um einen Wert für θ zu finden, der die Kostenfunktion minimiert, gibt es eine Lösung mit geschlossener Form – anders ausgedrückt, eine mathematische Gleichung, die uns das Ergebnis direkt liefert. Diese wird auch als die Normalengleichung bezeichnet (Formel 4-4).
Formel 4-4: Normalengleichung