Vorige week besteedde ik een avond aan de statistische analyse van worpgrootte van boommarters, muizen en mast, voor een van de leden van de boommarterwerkgroep (artikel verschijnt volgend jaar in Lutra). In het begin van mijn carriere deed ik dat met SPSS, daarna met SAS, maar ik ben al een jaar of 5 fanatiek gebruiker van statistiekpakket R. Waarom R?
R is om een paar redenen fantastischer dan alle andere statistiekpakketten van dit moment: het is open source, iedereen kan uitbreidingen programmeren en toevoegen, het is grafisch erg handig en het werkt met scripts.
Dat iedereen uitbreidingen kan programmeren en aanbieden heeft er toe gelijk dat het een enorm veelzijdig statistiek- en programmeeromgeving is geworden. Standaard zitten ANOVAs, regressie, correlaties enzo erin. Maar er zijn plugins voor merk-terugvang berekeningen, generalized lineair models, geostatistiek, tijdserie-analyse, home range bepaling, enzovoorts, enzovoorts. Je kunt er zelfs populatiemodellen in maken.
Ook voor grafieken is R geweldig, zeker als je snel een hoop grafieken wilt bekijken om inzicht te krijgen in complexe datasets. Een voorbeeld: je hebt een dataset hebt met aantallen konijnen en hazen, geteld in 10 plots per habitat, in drie habitats. Je kunt met 1 commando voor elk gebied een boxplot maken met aantallen hazen versus konijnen per gebied, zoals hieronder met fictieve data.
Met een tweede regel gooi je de boel om en maak je een grafiek van aantallen per habitat voor konijn en voor haas apart:
Scripts zijn prettig, omdat je met een beetje discipline al je analyses, met bijbehorende beslissingsproces kunt documenteren en het over een maand of over een jaar weer kan oppikken.
Een nadeel kan zijn dat het allemaal werkt met commando’s. Maar niet getreurd: als dat je afschrikt, is er een Grafische schil down te loaden, die werk zoals SPSS: drop down menutjes met de meer algemene statistische toetsen.
Mijn advies: probeer het eens uit, het kost alleen tijd!
Lees meer en download op de website van R of op wikipedia.