28/07/09
Vijf tips om word clouds nuttiger te maken
In een vorige post schreven we over het gebruik van word clouds om teksten te analyseren. Word clouds hebben zeker en vast beperkingen, maar met deze vijf tips worden ze al een stuk nuttiger.
1. Tel de juiste woorden
Vervoegde werkwoorden, verwijzende voornaamwoorden en verbogen bijvoeglijke naamwoorden zorgen ervoor dat het aantal woorden toeneemt, zonder dat het aantal betekenissen stijgt. Bestudeer je tekst vooraf goed. Het kan zinvol zijn om van werkwoorden steeds de infinitief te tellen, voornaamwoorden te vervangen door een uniforme referent en adjectieven te wijzigen in de grondvorm. Op die manier beperk je het aantal waarden en hou je de word cloud overzichtelijk.
2. Tel woordgroepen in plaats van woorden
Als de auteur een combinatie van woorden meermaals gebruikt, beschouw en tel je die combinatie best als een aparte waarde. Mocht Kris Peeters herhaaldelijk spreken over daadkrachtig beleid dan moet dat ook uit de word cloud blijken. Uiteraard ga je de andere plaatsen waar daadkrachtig en beleid staan ook nog apart gaan tellen. De elementen van de woordgroep kunnen dus ook als aparte waarden voorkomen.
Woordgroepen tellen kan je ook helpen om verkeerde conclusies te vermijden. De word cloud van de toespraak van Albert II op 21 juli 2009 lijkt te suggereren dat hij vooral over de financiële crisis en de economische crisis sprak. Nochtans komen die combinaties respectievelijk twee en één keer voor in de tekst.
3. Sluit de juiste woorden uit
Woorden die veel voorkomen en geen echte inhoudelijke betekenis hebben, kan je uitsluiten van de analyse. Zo beperk je het aantal waarden en blijft de cloud overzichtelijk. Maar hou er rekening mee dat sommige op het eerste gezicht betekenisloze woorden toch betekenis kunnen hebben. Die woorden kunnen bijvoorbeeld deel uitmaken van een woordgroep of een afkorting of letterwoord zijn. Negeer woorden van 3 letters en minder dus nooit zonder meer.
Het kan nuttig zijn om woorden die overduidelijk wel betekenis hebben, maar om evidente redenen vaak in een tekst staan, uit te sluiten. Dat deed De Standaard in tweede instantie met de regeerverklaring van Peeters II. In een eerste versie stonden ook Vlaanderen, Vlaamse, Vlaamse en regering in de word cloud. Die verwachte woorden schrappen maakte het resultaat een stuk relevanter.

Word clouds van de regeerverklaring van Peeters II in De Standaard op 13/07/2009
4. Analyseer niet de volledige tekst
Word clouds hoeven niet noodzakelijk gebaseerd te zijn op de analyse van de volledige tekst. Als je brontekst erg lang is, kan het verstandig zijn om het onderwerp van je analyse te beperken. Waarom niet enkel de werkwoorden of de adjectieven tellen en weergeven. Dat kan vaak al de teneur van een tekst duidelijk maken.
Een analyse en visualisatie van verwante termen of synoniemen kan ook zeer nuttig zijn. Tel bijvoorbeeld hoe vaak de auteur naar de inwoners van Vlaanderen verwijst op verschillende manieren (mensen, burgers, Vlamingen, consumenten…) en geef de verhouding weer in een cloud.
5. Vergelijk word couds
Een goede manier om de beperkingen van word clouds te omzeilen, is het vergelijken van een reeks teksten. Op die manier introduceer je in de analyse een stuk van de context die anders ontbreekt.
Je kunt teksten vergelijken die elkaar opeenvolgen in tijd. Een voorbeeld is de analyse van documenten van Microsoft tussen 1975 en 2007 door de Seattle Post-Intelligencer.
Ook verwante teksten uit dezelfde periode analyseren en vergelijken is mogelijk. Zo kan je de verkiezingsprogramma’s van de verschillende partijen op deze manier naast elkaar leggen. Tijdens de campagne van de Amerikaanse presidentsverkiezingen maakte The Boston Globe een vergelijking tussen de blogs van Obama en McCain.
Uiteraard hoef je ook niet de volledige teksten te vergelijken. Je kunt je ook beperken tot bijvoorbeeld de vergelijking van de werkwoorden in de verkiezingsprogramma’s van de verschillende partijen of in de opeenvolgende verkiezingsprogramma’s van één partij. Let wel goed op de lay-out van de word clouds in een vergelijkende analyse: als in de verschillende visualisaties eenzelfde woord telkens op een andere plaats staat, zal dat afbreuk doen aan het resultaat.
Tot slot
Een word cloud maken lijkt een snelle manier om een tekst te analyseren. De kwaliteit van de word cloud zal echter aanzienlijk verbeteren als je tekst vooraf zorgvuldig bestudeerd en de analyse grondig voorbereidt. Als je tijdens die voorbereiding beslist dat het zinvol is om het bronmateriaal te bewerken, geef dit dan duidelijk aan bij het eindresultaat.
[...] In een volgende post geven we een aantal tips om je word clouds nuttiger te maken. Update: Lees ook ‘Vijf tips om word clouds nuttiger te maken’. [...]