Welche Faktoren beeinflussen den Preis eines Diamanten? Welche der vier C, Clarity, Carat, Cut und Color hat den stärksten Einfluss auf seinen Wert? Kann der Preis eines Diamanten überhaupt über diese ‚harten‘ Fakten festgelegt werden oder gibt es noch andere Faktoren, die nicht meßbar sind? Dies versucht dieses Projekt zu klären.
Methode
Datensatz bereinigen
Einen Überblick über die Verteilung der Variablen gewinnen
Visualisierungen
Korrelationen der Variablen untereinander
Korrelationen der Variablen mit der Zielvariablen
Feature Engineering
Algorithmus Linear Regression testen
Algorithmus mit Regularisierung testen
Komplexeren Algorithmus testen
Zusammenfassung
Cleaning, Exploration und Feature Engineering
Modeling
Zusammenfassung
Es wurden in diesem Projekt mehrere Herangehensweisen getestet. Das Model wurde mit verschiedenen Feature-Sets und verschiedenen Algorithmen aufgebaut. Linear Regression performte am besten mit dem Polynomial Feature Set, was darauf schließen läßt, dass es nicht-lineare Zusammenhänge zwischen Variablen und Ziel gibt. Daher konnte der komplexere Algorithmus die Vorhersage nochmal bedeutend verbessern. Perfekt ist sie allerdings noch nicht. Dies könnte darauf hinweisen, dass es, außer den bekannten Variablen doch noch weitere Aspekte geben muss, die nicht erfasst wurden oder auch nicht erfasst werden können. Dies könnte in einem neuen Projekt mit neuen Daten getestet werden. Man könnte Händler und Käufer fragen, wie attraktiv sie den Stein finden und diese Aussage versuchen, numerisch zu fassen und in den Datensatz aufzunehmen.