Politikwissenschaft

 

Webseite durchsuchen

Methoden & R
quantitative Methoden (10)
R GNU (27)

Multinomiale Logistische Regression

9. Mai 2016

Die multinomiale logistische Regression wird verwendet, wenn die abhängige Variable nominalskaliert ist. Um eine multinomiale Regression zu schätzen, muss zuerst eine Referenzkategorie gebildet werden. Für alle anderen Fälle wird dann eine logistische Regression vom Modell geschätzt.

Grundsätzlich kann jede Kategorie als Ausprägung verwendet werden. Kommen in der Referenzkategorie jedoch nur wenige Fälle vor, wird der Standardfehler grösser. Deshalb ist es ratsam, eine Kategorie zu wählen, die viele Fälle enthält. Ein zweites Kriterium für die Wahl der Referenzkategorie ist die Distanz zu den anderen Parteien. Je grösser die Distanz, desto besser.

Panelregression mit R - Teil 1

9. Februar 2017

In diesem Artikel wird erklärt, wie man ein lineares Panelmodell in R schätzen kann. Dazu wird der Datensatz "eidgenössische Abstimmungen auf Gemeindeebene" verwendet, welcher unter Data heruntergeladen werden kann.

Zuerst wird der Datensatz eingelesen und in ein data.table Objekt umgewandelt. Anschliessend werden die Anzahl Abstimmungen jedes Abstimmungstermins eruiert. Nach dem aggregieren wird die neu gewonnene Information wieder in den ursprünglichen Datensatz überführt.

Diskrete Änderung eines Logit rechnen und plotten

7. November 2016

In diesem Artikel wird erklärt, wie man in R diskrete Änderungen mit der Bibliothek glm.predict rechnen kann und die Resultate anschliessend graphisch darstellen kann. Das Ganze wird mit einer logistischen Regression als Beispiel gezeigt. Es funktioniert aber ähnlich für anderen Modelle. In diesem Beispiel wird ein kontinuierlicher Plot gezeigt. Für ein Beispiel mit einem diskreten Plot kann der Artikel Count Modelle - diskrete Änderungen darstellen in R konsultiert werden.

Lagemasse und Streuung

7. März 2016

Lagemasse sagen etwas über die Lage und das Zentrum der Daten aus, Streuungsmasse, wie die Daten um dieses Zentrum gestreut sind.

lineare Regression: Diagnose in R - Homoskedastizität

7. Juli 2016

Um die Annahme der Homoskedastizität zu prüfen gibt es mehrere Möglichkeiten. In diesem Artikel werden drei Tests vorgestellt. Eine allgemeine theoretische Erklärung der verschiedenen Diagnosemöglichkeiten zeigt der Artikel lineare Regression: Diagnose.

lineare Regression: Diagnose

5. Juni 2016

Bei einer linearen Regression können mehrere Probleme auftreten. Man kann prüfen, ob die Beziehung zwischen den Paramtern linear ist, ob die Fehler normalverteilt sind, ob die Varianz konstant ist (Homoskedastizität), ob Multikollinearität herrscht oder ob Extremfälle Probleme verursachen.

lineare Regression mit diskreten und nicht-linearen Prädiktoren

4. April 2016

Neben linearen kontinuierlichen Prädiktoren kann eine lineare Regression auch mit diskreten und nicht-linearen Prädiktoren gerechnet werden. Die Grundlagen der linearen Regression werden im Artikel lineare Regression erklärt. Dieser Artikel wird vorausgesetzt.

Diskrete Prädiktoren

Der einfachste Fall eines diskreten Prädiktors ist eine dichotome Variable. Diese trifft entweder zu oder nicht. Die lineare Regression rechnet für diesen Prädiktor einen Wert aus wie er es auch bei kontinuierlichen Variablen macht. Im Gegensatz zu kontinuierlichen Variablen stellt dieser Wert jedoch keine Steigung dar, da es nur "trifft zu" / "trifft nicht zu" gibt, sondern eine Veränderung des Achsenabschnitts.

Interaktives Sankey-Diagramm mit R

31. Oktober 2016

In R gibt es mehrere Möglichkeiten ein Sankey-Diagramm zu erstellen. Unter anderem mit rCharts und googleVis. In diesem Artikel wird ein Beispiel mit googleVis gezeigt.

Als erstes muss der Datensatz eingelesen werden. Der Datensatz "National- vs. Ständeratswahlen 2015" kann unter Data heruntergeladen werden. Anschliessend kann er mit read.csv eingelesen werden. Nach dem einlesen werden noch die Variablennamen gerändert und bei der Variable sr ein Leerschlag hinzugefügt, damit es zu keiner Schlaufe beim Sankey-Diagramm kommt.

Lineare Regression mit Logratio in R

30. Mai 2016

Bei zusammengesetzten Daten (compositional data) sind die Werte eine Variable abhängig. Um dieses Problem zu lösen, kann eine lineare Regression mit logratio berechnet werden.

lineare Regression mit R

29. März 2016

Ein lineares Modell kann in R mit dem Befehl lm() gerechnet werden. Was eine lineare Regression ist, kann im Artikel lineare Regression nachgelesen werden.

In diesem Artikel wird die lineare Regression in R anhand eines Beispiels mit dem Datensatz world_data.csv gezeigt. Der Datensatz kann unter Daten heruntergeladen werden.

Grafiken in R mit ggplot2

29. Februar 2016

ggplot2 ist eine mächtige Bibliothek zum Erstellen von Grafiken in R. Dieser Artikel gibt eine Einführung in ggplot2. Er deckt aber bei weitem nicht alle Möglichkeiten dieser Bibliothek ab. Der Artikel setzt voraus, dass man die wichtigsten Elemente von R schon beherrscht. Wer noch nie mit R gearbeitet hat, kann zuerst den Artikel R Grundlagen lesen.

Aggregieren mit data.table in R

28. November 2016

In diesem Artikel wird erklärt, wie man mit Hilfe der Bibliothek data.table schnell und einfach aggregieren kann. Als Beispiel werden Daten der Mondial Datenbank verwendet. Die Daten wurden 1998 generiert.

In einem ersten Schritt werden die Daten aus der MySQL Datenbank dieses Servers heruntergeladen. Eine Erklärung des folgendes Codes würde den Rahmen dieses Artikel sprengen und nichts zum Verstehen von data.table beitragen.

Text → Sätze in R

27. September 2017

Dieser Beitrag erklärt, wie man einen Text in seine Sätze aufspalten kann in R. Der hier angegebene Code funktioniert in vielen Fällen recht gut, ist aber bei weitem noch nicht perfekt.

lineare Regression: Diagnose in R - Normalverteilte Fehler

27. Juni 2016

Um die Annahme der normalverteilten Fehler zu prüfen eignen sich Grafiken. In diesem Artikel werden zwei verschiedenen graphische Methoden vorgestellt. Eine allgemeine theoretische Erklärung der verschiedenen Diagnosemöglichkeiten zeigt der Artikel lineare Regression: Diagnose.

Ordinal Logit

25. April 2016

Die ordinale logistische Regression wird verwendet, wenn die abhängige Variable ordinalskaliert ist. Da die Abstände zwischen den einzelnen Ausprägungen nicht gleich sein müssen, kann eine lineare Regression nicht verwendet werden. Hat die ordinale Variable jedoch viele Ausprägungen (ca. neun oder mehr), kann auch eine lineare Regression verwendet werden. Die Ergebnisse der beiden Regressionen unterscheiden sich dann kaum.

Multikollinearität

24. Oktober 2016

Dieser Artikel erklärt, wie die Regression auf Multikollinearität geprüft werden kann. Eine allgemeine theoretische Erklärung der verschiedenen Diagnosemöglichkeiten zeigt der Artikel lineare Regression: Diagnose.

Als ersten wird der Datensatz World UNDP Data 2014 eingelesen, welcher unter Data heruntergeladen werden kann. Der Datensatz erhält unter anderem Daten zum Bruttonationaleinkommen pro Kopf (gnipc) und Human Development Index (hdi) für jedes Land.

Ordinal Logit in R

23. Mai 2017

Eine ordinale logistische Regression kann in R mit der Funktion polr() aus der Bibliothek MASS gerechnet werden. Doch bevor ein Modell gerechnet werden kann, müssen die Daten vorbereitet werden. Zuerst wird der Datensatz eingelesen und anschliessend die abhängige Variable recodiert. Der London Data Datensatz kann unter Data heruntergeladen werden.

Zusammengesetzte Daten (compositional data)

23. Mai 2016

Zusammengesetzte Daten sind Daten, bei denen der Anteil des einen vom Anteil eines oder mehreren anderen abhängt.

Ein einfaches Beispiel (von John Aitchison) ist folgendes: Ich habe einen Topf mit Wasser, Erde und Samen auf der Terrasse. Am Abend messe ich den Anteil dieser drei Stoffe. Am nächsten Morgen messe ich nochmals und stelle fest, dass sich der Anteil Wasser im Topf erhöht hat. Was bedeutet das nun? Eine Möglichkeit wäre, dass es in der Nacht geregnet hat und es damit mehr Wasser im Topf hat. Es könnte aber ebenso gut sein, dass es in der Nacht stark gewindet hat und der Wind Erde und Samen aus dem Topf fortgeblasen hat. Wir können es nicht wissen. Die Daten sind voneinander abhängig.

lineare Regression: Diagnose in R - Linearität

23. Juni 2016

In diesem Artikel wird erklärt, wie die Linearität der Parameter in R überprüft werden kann. Ein theoretischen Überblick wird im Artikel lineare Regression: Diagnose gegeben.

R Grundlagen

22. Februar 2016

R ist eine Software zur statistischen Datenverarbeitung und Visualisierung. Im Gegensatz zu anderen Statistikprogrammen wie Stata oder SPSS ist R kostenlos und open source. R kann von cran.rstudio.com heruntergeladen werden. Zusätzlich gibt es eine benutzerfreundlichere Version R Studio, welche von www.rstudio.com/products/rstudio/download heruntergeladen werden kann.

Methoden Grundlagen

22. Februar 2016

Dieser Artikel gibt eine kurze Einführung in die Methoden. Es gibt eine Vielzahl von Methoden. Je nach Anwendungsfall ist die eine oder andere besser geeignet.

Wichtige Begriffe

Bei der explorativen Forschung wird ein Thema erkundet. Das Ziel ist Vorwissen zu generieren. Bei der deskriptiven Forschung wird nur beschrieben; das Ziel ist die Diagnose und nicht die Ursachenidentifikation. Bei Hypothesentests werden vermutete Zusammenhänge, welche aus der Theorie abgeleitet werden, empirisch überprüft. Bei der Evaluation wird die Wirksamkeit von Massnahmen überprüft. Bei der Überprüfung der Kausalität wird untersucht, ob ein Ereignis oder Zustand die Ursache einer Wirkung ist.

Verteilungen

22. Februar 2016

Verteilungen geben an, wie wahrscheinlich die möglichen Zufallswerte zutreffen. So sind z.B. bei einem Würfel alle Seiten eine Wahrscheinlichkeit von 1/6.

Einführung in R - Videos

22. Februar 2016

Diese drei Videos geben eine Einführung in R GNU. Die Videos sind auf English.

Interaktive Karte mit googleVis in R

21. November 2016

In diesem Artikel wird erklärt, wie man eine interaktive Karte in R erstellen kann mit Hilfe der Bibliothek googleVis. Als Beispiel wird eine Karte erstellt der Schweiz und darauf die Abstimmungsergebnisse der Initiative Grüne Wirtschaft dargestellt. Dazu kann der Datensatz zur Grünen Wirtschaft unter Data verwendet werden.

lineare Regression

21. März 2016

Mit einer Regressionsanalyse wird versucht, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Mit einer linearen Regression wird eine lineare Abhängigkeit angenommen, welche mit einer Geraden gezeichnet werden kann. Die lineare Regression sollte nur verwendet werden, wenn die abhängige Variable intervallskaliert oder ratioskaliert ist.

Lineare Multilevel Regression in R - Teil 2

19. Dezember 2016

Dieser Artikel ist eine Forsetzung des Artikels Lineare Multilevel Regression in R - Teil 1. Darin wurden die Daten vorbereitet und gezeigt, wie ein Anova Modell gerechnet und daraus die Intraclass Korrelation berechnet werden kann.

Im diesem Artikel wird darauf aufgebaut und gezeigt, wie man fixed und random Effekte spezifizieren kann.

Logistische Regression in R

18. April 2016

Eine logistische Regression kann in R mit der Funktion glm() gerechnet werden. Wichtig dabei ist, dass als Familie binomial angegeben wird. Doch vor dem rechnen einen Regression muss zuerst der Datensatz eingelesen werden und rekodiert werde.

Count Modelle - diskrete Änderungen darstellen in R

17. Oktober 2016

In diesem Artikel wird erklärt, wie man diskrete Änderungen (discrete changes) für Count Modelle (Poisson, Quasi Poisson Negativ Binomial) berechnet und diese anschliessend darstellen kann.

Im Artikel Poisson, Qusi Poisson oder Negativ Binomial? wird erklärt, wie man die drei Modelle schätzt und anschliessend entscheiden kann, welchem dieser drei Modelle den Vorzug gegeben werden soll. Dieser Artikel baut auf diesem auf und verwendet deshalb das Quasi Poisson Modell.

Multinomiale Logistische Regression in R

16. Mai 2016

Eine multinomiale Regression kann in R mit der Funktion mutinom() aus der Bibliothek nnet geschätzt werden. Doch bevor ein Modell geschätzt werden kann, müssen die Daten vorbereitet werden und eine Referenzkategorie definiert werden. Es soll überprüft werden, ob die Anzahl Autos einen Indikator ist, welche Ethnie eine Person hat. Der London Data Datensatz kann unter Data heruntergeladen werden.

Panelregression mit R - Teil 3

16. Februar 2017

Dieser Artikel ist eine Fortsetzung von Teil 1 und Teil 2. Hier wird erklärt, wie mit R Heteroskedastizität bei Panelmodellen identifiziert werden können und wie bei Heteroskedastizität robuste Standardfehler berechnet werden können. Anschliessend werden weitere Tests vorgestellt ohne jedoch auf die Lösung dieser Probleme einzugehen.

Simulation in R für eine logistische Regression

14. November 2016

In diesem Artikel wird gezeigt, wie man in R simulieren kann, ohne die Bibliothek glm.predict zu verwenden. Der Artikel geht davon aus, dass man schon weiss, was eine logistische Regression ist. Die Simulation ist eine Möglichkeit, um von vorausgesagten Wahrscheinlichkeiten und diskreten Änderungen Konfidenzintervalle zu berechnen. Die Simulation beruht darauf, dass die Fehler asymtotisch normalverteilt sind. Asymptotisch bedeutet, dass es unendlich viele Fälle gibt. In der Realität ist dies natürlich nie der Fall. Bei steigender Fallzahl gleichen sich die Fehler jedoch der Normalverteilung an, weshalb die Simulation bei einer hohen Fallzahl verwendet werden kann.

Lagemasse und Streuung in R

14. März 2016

Mit R können mit mehr oder weniger Aufwand die verschiedenen Lagemasse und Streuungen berechnet werden. Einige der Funktionen sind standardmässig verfügbar. Für andere müssen Bibliotheken geladen werden. Und für ein paar wenige muss selber ein Funktion in R geschrieben werden.

Panelregression mit R - Teil 2

14. Februar 2017

Dieser Artikel baut auf dem ersten Teil auf. Dort wird gezeigt, wie die vier verschiedenen lineare Panelmodelle geschätzt werden können. In diesem Artikel werden Tests vorgestellt, mit denen man herausfinden kann, welches Modell besser ist.

Als erstes wird der fixed effects (Within) mit dem OLS-Modell (Pooling) verglichen. Dazu kann die Funktion pFtest verwendet werden. Die Funktion testet auf individuelle oder Zeit Effekte.

Wordcloud in R

13. Juni 2016

Um eine Wordcloud zu erstellen, wird zuerst ein Text benötigt, von dem die Wordcloud erstellt werden soll. In diesem Beispiel wird dazu der Bericht des Bundesrates zur Modernisierung des Familienrechts verwendet.

Mithilfe von Word 2016 kann das PDF in ein Word Dokument verwandelt werden. Anschliessend kann der Text in einen Editor kopiert und als Text-Datei gespeichert werden. Zum Schluss werden § und Umbrüche entfernt, bevor der Text in R eingelesen wird.

Lineare Multilevel Regression in R - Teil 1

12. Dezember 2016

In diesem Artikel wird erklärt, wie man ein lineares Mehrebenenmodell in R rechnen kann. Dazu wird der Datensatz "eidgenössische Abstimmungen auf Gemeindeebene" verwendet, welcher unter Data heruntergeladen werden kann.

Zuerst wird der Datensatz eingelesen und in ein data.table Objekt umgewandelt. Anschliessend werden die Anzahl Abstimmungen jedes Abstimmungstermins eruiert. Nach dem aggregieren wird die neu gewonnene Information wieder in den ursprünglichen Datensatz überführt.

Logistische Regression

11. April 2016

Die logistische Regression kann verwendet werden, wenn die abhängige Variable dichotom ist. Dichotom bedeutet, dass die Variable nur zwei Ausprägungen hat: 0 und 1 (z.B. Mann/Frau; ja/nein). Eine dichotome Variable unterliegt der Bernoulli-Verteilung.

Poisson, Quasi Poisson oder Negativ Binomial?

10. Oktober 2016

Dieser Artikel zeigt, wie man in R herausfinden kann, ob ein Poisson, Quasi Poisson oder Negativ Binomial Modell das geeignetste ist.

Zuerst werden die Daten aus der Bibliothek COUNT und anschliessend recodiert.