Baseline
Der Accuracy-Score mit den voreingestellten Hyperparametern (Defaults) liegt bei 77%. Mit Grid Search wird versucht, die besten Hyperparameter für dieses Model zu finden, in dem alle Kombinationen der gegebenen Hyperparameter getestet werden. Der Test wird als Kreuzvalidierung durchgeführt, als Metrik wird der Accuracy-Score verwendet.
Beste Hyperparameter:
- learning_rate: 0.05
- max_depth: 8
- max_features: ’sqrt‘
- n_estimators: 200
- subsample: 0.5
Der Accuracy_Score auf dem Testset liefert mit diesen Hyperparametern einen Wert von 0.88!
Test mit dem Polynomial Feature Set
Das Model mit den Polynomial und Interaction Features performt mit den default Hyperparametern besser, mit den optimalen Hyperparametern schlechter als der Original Datensatz.
Fazit
Das Hyperparameter Tuning und Feature Engineering konnten in Einzelfällen Verbesserungen des Accuracy-Scores zeigen, jedoch nicht in Kombination miteinander. Hier wären weitere Experimente notwendig, um die beste Kombination aus Features und Hyperparametern zu finden. Beim Recall performt das Model mit Gradient Boosting schlechter als mit Logistic Regression, daher wird das Model nicht weiter untersucht.