Im Datensatz finden sich die Daten aus zwei Wetterstationen:
Station 1: CHICAGO O’HARE INTERNATIONAL AIRPORT Lat: 41.995 Lon: -87.933 Elev: 662 ft. above sea level
Station 2: CHICAGO MIDWAY INTL ARPT Lat: 41.786 Lon: -87.752 Elev: 612 ft. above sea level
Folgende Variablen sind im Datensatz enthalten:
‚Station‘, ‚Date‘, ‚Tmax‘, ‚Tmin‘, ‚Tavg‘, ‚Depart‘, ‚DewPoint‘, ‚WetBulb‘, ‚Heat‘, ‚Cool‘, ‚Sunrise‘, ‚Sunset‘, ‚CodeSum‘, ‚Depth‘,’Water1′, ‚SnowFall‘, ‚PrecipTotal‘, ‚StnPressure‘, ‚SeaLevel‘, ‚ResultSpeed‘, ‚ResultDir‘, ‚AvgSpeed‘
Datentypen und fehlende Werte:
Viele der Spalten haben unpassende Datentypen. Sie sollten keine ‚object‘ sein, sondern numerisch. Object wurde automatisch zugewiesen, da sich nicht nur Zahlen in den Spalten befinden. Fehlenden Werte wurden hier durch verschiedene Strings dargestellt sind (M, T…). Um die richtigen Datentypen zuweisen zu können, müssen zuerst die Strings umgewandelt werden.
Bei den Features Sunrise, Sunset und Depart fehlen die Hälfte der Werte, dies liegt daran, dass sie nur in einer der beiden Station dokumentiert wurden. Diese Werte können einfach übertragen werden.
Die fehlenden Werte für Tavg, der mittleren Temperatur, können aus den Temperaturen berechnet werden.
SnowFall, Depth, CodeSum und Water1 fügen dem Datensatz keine relevanten Informationen hinzu und werden entfernt.