dinsdag 22 april 2014

Vijf redenen om R te gebruiken in datajournalistiek


Datajournalistiek, zei Stephen Doig onlangs, is zoiets als “social science done on deadline”. Niet ten onrechte, immers het aantal sociale en economische data dat zich voor die vorm van journalistiek leent neemt exponentieel toe. Bovendien is het gereedschap nodig voor analyse en visualisaties ruim voor handen. Een spreadsheetprogramma als Microsoft Excel is een van de standaarden. Dat ligt voor de hand. Je hoeft niets te installeren want Office staat meestal toch wel op je machine, omdat Word de meest gebruikte tekstverwerker is. Het werkt ook wel handig; een toptien, percentageverschil of een(draai)tabel zijn met enige moeite te maken. En als je wat dieper in je data wilt duiken is er altijd nog SPSS(Statistical Package Social Sciences). Toch denk ik dat er vijf goede redenen zijn om te besluiten R-project te gebruiken voor datajournalistiek. Gregor Aisch, Open Knowledge Foundation, zegt in het Data Journalism Handbook: “It is hard to find any visualization method or data wrangling technique that is not already built into R. R is a universe in its own, the mecca of visual data analysis. …Trained data journalists can use R to analyze huge dataset which extends the limits of Excel”.


Voordelen

1. R is vrij en het is 'open source'. Dat betekent dat je het gratis kunt donwloaden, installeren en gebruiken. Voor Microsoft Office daarentegen en ook voor SPSS moet betaald worden. Bovendien wordt R voortdurend door de gebruikers zelf verder ontwikkeld. Specialisten die zelf programmeren stellen hun eigen paketten ter beschikking en dat opent nieuwe terreinen en instrumenten voor analyse.

2. R is beschikbaar voor alle verschillende platformen: Windows, Apple en Linux. Je downloadt het R basispakket voor jouw operating system en je kunt aan de slag. Handig, want ik raakte lichtelijk in paniek tijdens een analyse met een groep journalisten die twee verschillende versies van Excel gebruikten(2003 en 2007 ) en een Excel versie van Apple en nog een versie van Open Office. Hoorndol word je van de verschillende menu's, ribbons en contekst afhankelijke opties.

3. R is niet zoals Excel een eenvoudig software programma voor het maken van berekenen, maar een taal die gebruikt wordt in combinatie met verschillende paketten om een specifieke analyse of berekening uit te voeren. Wanneer R is gedownload zijn al een aantal standaardpaketten geinstalleerd, ruim voldoende voor eenvoudige statistische berekeningen en grafieken. Wil je wat verder? Bijvoorbeeld sociale netwerk analyse, scraping data, of betere grafieken, dan moeten extra paketten worden gedownload van de zgn CRAN servers . Nederland heeft er twee in Utrecht en Amsterdam, en op deze mirrors zijn alle R packages (5449) beschikbaar.
Dat klinkt ingewikkeld. Inderdaad, R is een omgeving die begint met een terminal en een kale prompt. Maar gelukkig er zijn ook grafische interfaces(GUI) voor R die het een stuk makkelijker maken. R Commander, is een complete GUI voor gedetailleerde statistische analyse. En R Studio werkt heel aardig voor het laden van paketten, exporteren van grafieken en het werken op een terminal. En de resultaten, kunnen die ook online? Niet met de bekende 'embedded link, maar met Shiny. Hiermee maak je interactieve webpagina's van je data en grafieken uit R Studio.

4. Als gebruiker van R sta je er niet alleen voor. R kent een uitgebreide community, die de software onderhoudt, de handleidingen maakt of voorbeelden van analyse publiceert. Er zijn ook online trainingen, bijvoorbeeld van Johns Hopkins University's Coursera course R Programming. Een belangrijke bron om te volgen is R-Bloggers, met kantenklare voorbeelden over scrapen, twitter of een mooi scatterplot.

5. De belangstelling voor het gebruik van R groeit. Angela Hay van de Mountain View Voice, een weekly uit Silicon Valley omschrijft R als "a fast growing language for statistics, forecasting and graphs"
Kijken we bijvoorbeeld naar het aantal downloads van R, dan ligt dat rond 20-30 per week. Of naar het aantal Wikipedia pagina's over R dat wordt bekeken; totaal zo'n 1000 per dag . Ook de ontwikkeling op de banenmarkt is interessant. De vraag naar dataspecialisten met kennis van R overtreft de vraag naar SPSS experts. Ben je als journalist je baan kwijt en je hebt belangstelling voor data en data journalistiek, dan liggen hier zeker mogelijkheden.

Moeilijkheid
Met al die voordelen is er natuurlijk ook een nadeel. Gregor Aisch: ” One drawback is that you need to learn (yet another) programming language as R has it’s own language. But once you have taken the initial climb on the learning curve, there’s no tool more powerful than R”. R is zeker geen programma waar je wat rond clickt in menu's in afwachting van de tovenarij. Je moet zelf opdrachten geven van af de prompt in de terminal; van het importeren van je data, het maken van tabel, het berekenen van randtotalen, tot het tekenen van een histogram, een kaart of een regressielijn, het is allemaal 'command driven'. Dat moet je leren, maar dat geldt ook voor Excel. Swirl is daarvoor een goed, interactief instructieprogramma. Voor de (beginnende) gebruiker is R-Studio een fantastische omgeving, die precies bijhoudt welke berekeningen of opdrachten je hebt uitgevoerd(bij Excel weet je dat nooit!). Ook is het eenvoudig om een serie bewerkingen om te zetten in een script, om dat later nog eens te gebruiken.

R leert je geen statistiek, scrappen of netwerkanalyse. Het past berekeningen toe op data en je moet zelf besluiten welke dat zijn. Maar ja, dat moet je ook in Excel. Een goede online training in statistiek is bijvoorbeeld Stat Trek. Natuurlijk, je kunt beide tegelijk doen, je statistische kennis ophalen en oefenen met R, daar zijn heel aardige boeken voor bij Amazon.

Ik begon heel lang geleden met data analyse, eerst gewoon rekenen met pen en papier, daarna kwam SPSS(op een mainframe) en later kwamen de spreadsheets. Ik geef les in Excel en ontsluier in trainingen voor (data) journalisten de geheimen van rijen en kolommen. Dat is zeker een goed begin. Maar ik denk ook dat het leren van R de moeite waard is voor datajournalisten. R biedt meer controle, is flexibeler en biedt meer mogelijkheden.

Geen opmerkingen:

Een reactie plaatsen

Opmerking: alleen leden van deze blog kunnen een reactie plaatsen.