Boekendata, deel 1

Data visualiseren is niet moeilijk, maar de aangeleverde data kan dat wel zijn. Wat leesbaar is in Excel voor de gemiddelde mens is voor een computer abracadabra. Mensen lezen graag met witregels, kleuraanduidingen en andere elementen om een tabel ‘logisch’ te maken. Zoals in het onderstaande voorbeeldje te zien is het lastig voor een computer om te begrijpen wat de witregels, uitgeschreven datum, kladjes en ‘vage’ kolomnamen betekenen. Hierom is het handig om te weten hoe data te bewerken en importeren valt zonder al te veel moeite.

Voorbeeld Excel-matrix, in het kader van data bewerken.

Data opschonen

Voor dit blog is gebruik gemaakt van een dataset van Make over Monday. Het gebruikte dataset bevat informatie over de prijsontwikkeling van boeken in verschillende landen. Een ideaal voorbeeld om te zien hoe men data kan importeren en opschonen zonder al te veel moeite. In de onderstaande afbeelding is al te zien dat in het data-set de eerste regels witregels waren en dat de kolomnaam verderop in het bestand voorkomt. Tableau laadt de data eerst ‘rauw’ in, en ziet zo niet wat voor informatie er in de kolom staat. Zo is de kolom met tekst bij de dimensions ingedeeld en de kolom met getallen bij measures, maar F2 en F3 zijn nog onleesbaar.

Tableau Data Source, data inladen.

Gelukkig hoeven we niet terug naar het oerbestand om de data te prepareren. Tableau heeft (sinds versie 9.2) een handige tool om dit op te lossen, linksboven onder het kopje ‘Sheets’ kan de optie ‘Use Data Interpreter’ aangeklikt worden.

Tableau Data Source, Use Data interpreter

Vervolgens interpreteert Tableau de eerste regel correct als header of titelregel, tegelijk leest Tableau de meeste data goed. Een probleem blijft de vreemde datering, in het bronbestand is de datum weergegeven als “jaar-letter-maand”. De kolom splitsen zou een oplossing zijn.

Tableau Data Source, Data Interpreter toegepast

Data bewerken

Wederom is het binnen het tabblad ‘Data Source’ mogelijk om data te bewerken. De kolom ‘F3’ bevat een soort datum, maar Tableau herkent het in eerste instantie niet als zodanig, het is een tekst (string). Dit valt op te lossen door het datatype aan te passen:

  • Klik op het icoon linksboven in de header of kopregel;
  • Er verschijnt een drop-down-menu, hier kun je het datatype aanpassen;
  • Kies ‘Date’ ;

Tableau herkent de notering ‘jaar-M-maand’ als een datum en vertaalt de informatie correct. De maanden staan nu voor het jaartal en de ‘M’ is verdwenen.

Data importeren en opschonen is, kortom, een peulenschil geworden met Tableau Desktop.

Conclusie

Bij éénvoudige of overzichtelijke bestanden is dit vrij vlot op te lossen met de bovenstaande methode. Mocht er meer data-preparatie bij komen kijken, dan is software van Alteryx geschikter. Hierover heeft Gaia Pometto een blog geschreven , daar valt te lezen dat het ook geen hogere wiskunde is om data te prepareren en splitsen.

Bron data: https://data.world/makeovermonday/2020w38