# Pandas und Numpy importieren
import pandas as pd
import numpy as np
# Random Seed
RSEED = 100
# Visualisierungen
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
palette = sns.color_palette('Paired', 10)
plt.style.use('Solarize_Light2')
plt.rcParams['font.size'] = 18
import folium
# Interface zum System
import os
os.chdir('D:\Data\Projects\Taxi Fare Prediction')
# Datum und Zeit
import datetime as dt
from datetime import datetime
# Pandas display options
# Formatierte Ausgabe als float mit drei Dezimalstellen
pd.set_option('display.float_format', lambda x: '%.3f' % x)
# train.CSV einlesen, da es sehr groß ist, beschränke ich mich auf 5 Millionen Beobachtungen
data = pd.read_csv('train.csv', nrows = 5_000_000 )
print(data.shape)
data.head()
# Spalte key bringt keine wesentliche Information und kann so entfernt werden
data = data.drop('key', axis= 1)
# pickup_datetime in datetime umwandeln
data['pickup_datetime']= pd.to_datetime(data.pickup_datetime)
data.dtypes
# Datensatz speichern
#data.to_csv('train_dt.csv', index= False)