Psychologie & Statistik mit R

Statistik ist das Handwerkszeug eines Psychologen. Da die meisten Psychologen noch eine Therapeutenausbildung an das fertige Studium anhängen, müssen sie keinen großen Gebrauch mehr von diesem Wissen machen. Nichtsdestotrotz, ohne Statistik wäre die Psychologie keine Naturwissenschaft sondern eine Geisteswissenschaft (bei Wikipedia gibt es zurecht eine Kritik, dass es für Wissenschaft nur einen Satz an Methoden gibt und die Geisteswissenschaften dort keinen methodologischen Autonomieanspruch haben).

Alle Psychologen, die nach dem Studium noch ihren Doktor machen, müssen ihre statistischen Fertigkeiten ausbauen und anwenden, um valide und reliable Forschung zu betreiben. Anderenfalls könnte ich mir einfach irgendetwas ausdenken und es so lange und oft wiederholen, bis mir genug Menschen glauben. Vielleicht ein Buch im Eigenverlag produzieren, Inserate in verschiedene Zeitschriften setzen und alle möglichen sozialen Medien im Internet damit zupflastern.
Ich würde mich nicht als jemanden bezeichnen, der wirklich gut in Statistik ist aber ich bin jemand, der sich schnell die nötigen Mittel aneignen kann um ein entsprechendes Problem zu lösen. Das mir der Umgang mit digitalen Technologien nach vielen Jahren der Erfahrung sehr leicht fällt, hilft dabei sehr, denn die statistische Programmiersprache R habe ich mir autodidaktisch beigebracht. Zu meiner Zeit wurden Psychologen groß mit der Statistiksoftware SPSS, mittlerweile wird diese an den Universitäten aber auch endlich von R abgelöst.

R gewinnt  rapide an Popularität da es reichlich Vorteile hat. Aber natürlich gibt es auch hier ein paar Schattenseiten.

Populariät

In einer aktuellen Umfrage mit 2895 Teilnehmern, darüber, welche Software für „Analytics, Data Mining, Data Science, Machine Learning“ Projekte in den letzten 12 Monaten genutzt wurde, war R die Nummer 1.

Ein Artikel von 2014 fasst zahlreiche Quellen zusammen (unter anderem die Vorjahresversion der eben genannte Umfrage aber auch den von mir erwähnten Gartner’s Magic Quadrant zu Business Intelligence). Auch hier schneidet R sehr gut ab.

Vorteile

Der größte Vorteil von R liegt darin, dass es open source Software ist: R ist für alle Menschen frei zugänglich und modifizierbar. Es ist interoperabel und nicht-proprietär d. h. ich kann es auf verschiedenen Betriebssystemen (Windows, OS X/iOS und Linux) nutzen, mit anderer Software verbinden und dessen Existenz und Verfügbarkeit ist nicht an ein Unternehmen gekoppelt.

Schreibe ich eine Analyse zur Auswertung meiner Daten, kann ich diese mit anderen Wissenschaftlern teilen und mir sicher sein, dass sie genau das selbe Ergebnis heraus bekommen wie ich. Zudem können sie überprüfen, ob ich richtig gearbeitet habe. … Die Wissenschaft ist nichts für Zartbesaitete, die eine permanente Evaluierung ihrer Selbst nicht aushalten.

In diesem Augenblick gibt es 8702 frei verfügbare Zusatzpakete für R, die die Funktionalität für spezifische Aufgaben erweitern. Davon wurden 6378 Pakete in den letzten zwei Jahren hinzugefügt oder aktualisiert. Hier ist Hadley Wickham zu nennen, der wie kein Zweiter wirklich mächtige Pakete beigetragen hat. An vorderster Stelle ist „ggplot2“ zu nennen, die Software zur Visualisierung von Daten. Eine kurze Bildersuche nach „ggplot2“ genügt um sich einen Eindruck vom Funktionsumfang zu machen.

Ebenfalls von Hadley Wickham stammt R-Studio, das de facto standard R GUI („graphical user interface“). R-Studio vereinfacht deutlich die Arbeit mit R.

Nachteile

Anfangs erwähnte ich, das R eine statistische Programmiersprache sei und genau das ist sie auch. Selbst mit R-Studio bleibt R keine Software wo man einfach auf Knöpfe drückt und dann werden auf magische Art und Weise allerlei Daten statistisch ausgewertet. Das funktioniert so bei SPSS und für R gibt es „JGR“ und das Paket „Rcmdr“ (R commander), welche eine ähnliche Funktionalität anbieten. Ansonsten bleibt R eine Programmiersprache und man muss zwangsläufig Code schreiben und folglich genau wissen, was man wie analysieren will. Die Aufbereitung der Rohdaten meiner ersten Publikation ist alleine 2791 Zeilen lang, die Auswertung dann nochmal 2524 Zeilen. … Es ist nicht der schönste Code.

Diese Natur von R ist sehr abschreckend für Neulinge. Die Hürde, R zu verwenden, ist hoch. Viele „ausgewachsene“ Psychologen werden daher eher SPSS als Analysesoftware kennen und weiterhin nutzen. Die meisten Menschen, die in einem Unternehmen mit Zahlen jonglieren müssen, werden dies mit Microsoft Excel machen. Sie kennen meist keine andere Software und diese reicht auch in der Regel völlig aus. Dennoch ist R mehr als geeignet für die Wirtschaft. Eine kurze Suche nach „econometrics r“ oder „economics r“ macht deutlich, wie viele Publikationen und zusätzliche Pakete es zu dem Thema gibt. Auch hier haben sich Anwender aus der Wirtschaft zu Wort gemeldet, welche R benutzen um mit Millionenbeträgen zu arbeiten.

 

Wenn ich mir R autodidaktisch beibringen kann, dann können das die meisten anderen auch. Hat man einmal die Vorteile davon erkannt und sich einen Vorrat an Code erarbeitet, den man recyclen kann ohne ihn sich komplett neu auszudenken, dann ist R unglaublich nützlich. Ganz zu schweigen davon, dass es nichts kostet und es jeder Mensch problemfrei installieren kann.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s