- 4 april 2022
- Léon Hekkert
- 0
Het komt voor dat je met data moet werken waarvan de kwaliteit niet goed genoeg is om direct te starten met de analyse. Het beste is om dit gelijk aan het begin van je workflow aan te pakken. Gelukkig heeft Alteryx je daar in de vorm van de data cleansing tool een hele handige tool voor gegeven. De tool is makkelijk in gebruik én kan je veel werk uit handen nemen! In dit blog vertel ik je wat de tool kan, hoe je hem instelt en geef ik je een voorbeeld in het gebruik van de tool.
Configuratie
Hieronder vind je het configuratiescherm van de data cleansing tool:
Als eerst kun je ervoor kiezen om rijen danwel kolommen die geheel uit null waarden bestaan te verwijderen.
Vervolgens selecteer je alle kolommen waar je de tool voor wilt gebruiken.
Bij ‘replace nulls’ kies je of je null waarden wilt veranderen in lege velden (in het geval van kolommen die text bevatten) of een 0 (in het geval van numerieke kolommen)
Hierna sta je voor een belangrijke keuze: wat wil je allemaal opschonen aan de data? Selecteer hier al de opties die je nodig hebt.
Onder punctuatie worden de volgende karakters verstaan: ! ” # $ % & ‘ ( ) * + , \ – . / : ; < = > ? @ [ ] ^ _ { }
Voorbeeld
Nu je weet hoe je de tool instelt is het tijd voor een voorbeeld. Onderstaande dataset willen we graag opschonen met de data cleansing tool:
Zoals je kunt zien zitten er ongewenste spaties in de kolom ‘City’. Daarnaast bevatten de waarden in de kolom ‘Sales’ een dollarteken wat ervoor zorgt dat dit een string datatype is waar niet mee te rekenen valt. Ook bevat deze kolom null waarden.
Via onderstaande configuratie kunnen we deze problemen oplossen:
Alle kolommen behalve ‘Date’ zijn geselecteerd, null waarden dienen vervangen te worden en alle whitespace én punctatie wordt aangemerkt als ongewenst. De kolom ‘Date’ is gedeselecteerd omdat het verwijderen van punctuatie ervoor zou zorgen dat we het ‘-‘ tussen dag, maand en jaar zouden kwijtraken. Het resultaat zie je hieronder:
De spaties zijn verwijderd uit kolom ‘City’ en de kolom ‘Sales’ kan gebruikt gaan worden voor berekenen (nadat de kolom is omgezet in een numeriek datatype met bijvoorbeeld een select tool).
Tot slot
Ik hoop dat je na het lezen van deze blog net zo overtuigd bent van het nut van de data cleansing tool in Alteryx. Mocht je meer willen weten over andere preparation tools: deze blog is onderdeel van een serie die je hier kunt vinden!
Ben je op zoek naar andere manieren om over Alteryx te leren? Neem deel aan onze events en trainingen of huur een van onze consultants in!