Der Preis für eine Taxifahrt in New York City

Photo by Ivan Olenkevich on Unsplash

Der Preis für eine Taxifahrt in New York City

Hintergrund und Ziel

Welche Faktoren beeinflussen den Preis für eine Fahrt in New York? Ist es die Uhrzeit oder die Anzahl der Passagiere? Oder doch einfach nur die Strecke, die gefahren wurde? Dies versucht dieses Projekt zu klären.

Methode

  • Datensatz verkleinern und bereinigen
  • Einen Überblick über die Verteilung der Variablen gewinnen
  • Visualisierungen
  • Korrelationen der Variablen untereinander
  • Korrelationen der Variablen mit der Zielvariablen
  • Feature Engineering
  • Algorithmus Linear Regression testen
  • Komplexeren Algorithmus testen

Tools

Den Datensatz verkleinern

Der ursprüngliche Datensatz besteht aus 55 Millionen Observationen, um die Rechenzeit zu verkürzen, werden hier nur 5 Millionen Instanzen verwendet. 

Cleaning

Daten bereinigen und sicherstellen, dass die Daten konsistent und korrekt dargestellt sind, damit die Models eine gute Grundlage haben. 

Exploration und Feature Engineering

Den Datensatz kennen lernen und erste Erkenntnisse über wesentliche Variablen gewinnen. Im Feature Engineering Variablen zerlegen und neue Variablen einführen. 

Modeling

Zusammenfassung

In diesem Projekt wurden Preise für Taxifahren in New York vorhergesagt. Es hat sich gezeigt, dass Machine Learning für diese Art der Problemstellung gut geeignet ist. Der Datensatz wurde, um kürzere Rechenzeiten zu haben, von 55 Millionen Observationen auf 5 Millionen Observationen verkleinert. Danach wurde er bereinigt und erforscht. Ein neues Feature, das sich als der beste Prädiktor herausstellte, wurde erschaffen, die relative Strecke, die gefahren wurde. Dann wurden zwei Algorithmen, Linear Regression und Random Forest Regressor, auf dem Datensatz trainiert und getestet. 

Ergebnisse

Die Vorhersage des Preises war mit Linear Regression gut, jedoch war Random Forest der Algorithmus mit der besseren Performance. Beide Algorithmen haben Distance (dist) als mit Abstand wichtigstes Feature erkannt. Auch das Jahr rangiert, zusammen mit Pickup und Dropoff, weit oben. 

Mögliche Verbesserungen der Vorhersage

  • Mehr Daten aus dem Datensatz verwenden. Für eine schnelle Rechenzeit wurden hier nur fünf Millionen der insgesamt 55 Millionen Observationen verwendet. Hier könnte in der Cloud gearbeitet werden, um beste Ergebnisse zu erzielen, oder es könnte Dask verwendet werden.
  • Weitere Daten hinzufügen: Feiertage in den USA, Rushhour in New York und weitere Faktoren, die den Preis einer Fahrt beeinflussen könnten. Wie verändern sich die Preise unter Konkurrenz von Uber und Co?
  • Genauere Distanzen verwenden. Anstatt die Haversine Distance zu verwenden, den Weg, der tatsächlich gefahren wurde, messen.

Weitere Erkenntnisse

Auf der Seite NYC Taxi& Limousine Commission finden sich weitere Informationen, die für ein zukünftiges Projekt verwendet werden können, um detailliertere Vorhersagen zu machen. 

Comments are closed.