Liebe Leute,
ich habe früher recht viel mit SPSS programmiert und jetzt auf Stata umgestiegen.
Mit den Optionen für Grafiken in Stata kann man ja jede Menge anfangen, nur das meinige Problem lässt sich irgendwie nicht (bzw. nur sehr umständlich) lösen.
Ich habe mehrere Variablen x (x1, x2, x3, x4 und x5), die nominaler Ausprägung sind - also die Variablen weisen jeweils verschiedene Werte, in meinem Fall Zustandbeschreibungen, auf. Dabei stellen die Variablen diese Zustände in zeitlicher Reihenfolge dar - also x1 der Zustand des Individuums zu Zeitpunkt 1, x2 der Zustand des Individuums zu Zeitpunkt 2 und so weiter...
Was ich hierfür dringend brauche ist eine (möglichst einfache) Lösung, die Häufigkeiten eines bestimmten Zustandes via Liniendiagramm zu verschiedenen Zeitpunkten darzustellen. Also ich suche ein Liniendiagramm mit 5 Punkten: auf der x-Achse die Häufigkeit einer bestimmten Ausprägung zu Zeitpunkt 1 bis 5 (x1, x2, x3, x4, x5) und auf der y-Achse jeweils die relativen Häufigkeiten . Also hätte ich eine Linie mit 5 Datenpunkten, die mir jeweils (anhand der y-Achse) anzeigen, wieviele Beobachtungen die Ausprägung 1 (also den Zustand) zum jeweiligen Zeitpunkt (Variable x1, x2, x3, x4, x5) haben. Also beispielsweise 70 von hundert Leuten haben die Ausprägung 1 in Variable x1, 50 von hundert Leuten hätten die Ausprägung 1 in Variable x2 et...
Dann wäre mein erster Datenpunkt bei 70% auf der y-Achse, mein zweiter Datenpunkt bei 50% etc.
Zu dem ganzen gibt es noch eine Variable a, die angibt, in welcher Gruppe die Beobachtung ist (es sind insgesamt 4 Gruppen). Also müsste die Grafik nach Gruppen dargestellt werden, so dass ich dann praktisch nicht eine Linie (für gesamt), sondern vier Linien (eine für jede Subgruppe) habe.
Das Problem ist, dass ich mit den twoway graphs nicht zurecht komme, da ich ja keine Variable für die y-Achse habe (sondern eben nur die darstellung der relativen Häufigkeit). Ich finde einfach nix brauchbares hierzu, was nicht über tausend verschiedene Hintertürchen geregelt werden muss. Dabei ist das an sich ja keine große Sache.
Mein Ansatz ist über das Longformat zu gehen, also dass ich für jeden Fall 5 Beobachtungen (x1, x2, x3, x4, x5) habe (und demnach nach meinem Beispiel also nicht mehr 100 Zeilen, sondern 500 Zeilen). Arg viel weiter bin ich nicht, denn mit dem collapse Befehl kann ich die Gruppen nicht berücksichtigen (Variable a). Die Lösung, neue Variablen xx (für jede x eine Variable) zu bilden, die immer dann den Wert 1 aufweisen wenn die x Variable 1 ist und ansonsten missing und diese neuen Variablen als Summenwerte xxx ins Longformat zu bringen um mir anschließend eine Darstellung von total liefern zu lassen, erscheint mir viel zu umständlich (so muss jedesmal jede Menge angepasst werden, wenn ein neues x hinzukommt). Der zweite Fall sähe dann in etwa so aus:
egen xxx1 = total(xx1), by(a)
egen xxx2 = total(xx2), by(a)
egen xxx3 = total(xx3), by(a)
egen xxx4 = total(xx4), by(a)
egen xxx5 = total(xx5), by(a)
line xxx group if a==1, sort || ///
line xxx group if a==2, sort || ///
line xxx group if a==3, sort || ///
line xxx group if a==4, sort
Das muss doch auch irgendwie viel viel einfacher gehen oder?
Ansonsten kann Stata die kompliziertesten Grafiken abbilden, aber so ein im Prinzip einfaches Problem kann ich einfach nciht lösen. Bitte helft mir heraus aus meiner geistigen Umnachtung!
Viele Grüße,
Lia