Het kan voorkomen dat je in een Alteryx work flow dubbele records opbouwt. Of dit nu is door verschillende aggregaties, transformaties of joins/unions, op een zeker moment kan het zo zijn dat je enkel met unieke records wil werken. Dan is het zaak om de unieke records te scheiden van de duplicaten. Dit gaat het best met de Alteryx Unique Tool.
Voorbeelden van use cases
- Enkel de eerste transactie van een klant is belangrijk, uit een lange lijst van transacties.
- Je hebt een of meerdere appends gedaan, en nu wil je daar zekere overtolligheid reduceren.
- Je wil controleren of de lijst met klanten of facturen duplicaten bevat.
De Unique Tool, een overzicht
De Unique Tool…
- heeft 1 input anker en 2 output ankers: U (uniek) en D (duplicate).
- is hoofdlettergevoelig.
- scant van boven naar bedenen door de data heen.
- bestempelt in geval van duplicatie de eerste record als uniek en alle volgende identieke records als duplicate.
Op basis van bovenstaande laatste 3 punten, doe je er goed aan een combinatie van de Unique Tool met de Data Cleansing en of Sort te overwegen. Zeker wanneer de data al enige tools heeft gezien.
Een voorbeeld use case
Hiervoor gebruik ik de dataset uit de voorbeeld work flow van de Alteryx Unique Tool. Hier gaat het om een klantenlijst. Ik wil weten of klanten meer dan eens voorkomen in de lijst. Het gaat in totaal om 96 records.
Ik sleep de Unique Tool nu in mijn work flow en verbind hem met de Data Input Tool. In het configuratie window zien we een lijst van te selecteren velden. Laten we in eerste instantie kijken of er duplicaten zijn op de combinatie van FirstName en LastName. Ik selecteer die twee velden en run de work flow.
Nu blijkt dat er 6 records duplicaten zijn (op basis van de combinatie voor- en achternaam.) Dit vraagt om verder onderzoek; hebben we het hier over duplicaten, of zijn er klanten met dezelfde naam? Wanneer we de flow opnieuw draaien met ook Address in de combinatie, blijven er 5 records over als duplicates. Het is nu wel erg waarschijnlijk geworden dat er 5 personen meer dan eens als klant zijn geregistreerd.
Aandachtpunten
Hoewel de Unique Tool een zeer gebruiksvriendelijke tool is, zitten er toch wat addertjes onder gras. Het is belangrijk die te benoemen. Wanneer de geselecteerde kolommen onzuiverheden of inconsistenties bevatten (ik noemde al de hoofdlettergevoeligheid) is het essentieel ze eerst op te schonen. Dat kan bijvoorbeeld met een Data Cleansing Tool.
Daarnaast is het zaak te beoordelen inhoeverre de volgorde van de records van belang is. In geval van de eerste use case uit het lijstje bovenaan bijvoorbeeld (de eerste transactie per klant), is een sortering op datum aan te bevelen.
Afsluitend
Unieke records en duplicaten scheiden in Alteryx met de Unique Tool, zo doe je dat dus. Hopelijk hebben deze tips je geholpen. Check ook onze andere blogs over Alteryx Tools. Heb je meer hulp of uitleg nodig? Aarzel dan niet om contact met ons op te nemen voor onze workshops en trainingen of huur een consultant in.
Wil je nog meer leren over Alteryx of The Information Lab, check dan ons blog of onze website.