Variablenbildung mit Paneldaten

Statistische Auswertung von Longitudinal- und Panel-Daten mit Stata.

Variablenbildung mit Paneldaten

Beitragvon Heike » Mi 23. Mär 2016, 16:53

Liebes STATA-forum!!

Ich schreibe eine Arbeit über das Nachholen von Schulabschlüssen und möchte nun eine Variable bilden, die den ersten Schulabschluss einer Person wiedergibt.
Bei der Erhebung wurde jede Schulepisode eines Befragten mit dem jeweiligen Abschluss erhoben.
Es gibt nun u. a. zwei Möglichkeiten:
1. die erste Schulepisode ist eine weiterführende Schulform (Sekundarschule, Gesamtschule, Gymnasium)
2. die erste Schulepisode ist die Grundschule
Damit keine Fälle ausgeschlossen werden bzw. nicht berücksichtigt werden, will ich diesen Sachverhalt berücksichtigen:
Ich bilde daraus also zwei Variablen (abschluss_1 und abschluss_2).

Nun habe ich aber folgendes Problem bei der Variablenbildung mit Paneldaten:

Hier zuerst ein Ausschnitt aus dem Datensatz, um meine Fragen besser zu verstehen
(Es tut mir sehr leid, dass die Tabellen nicht besser aussehen - ich hoffe, ihr könnt meine Gedanken trotzdem nachvollziehen!)

+-----------------------------------------------------------------------------------------+
| ID_t number abschluss_1 abschluss_2 erster_abschluss |
|-----------------------------------------------------------------------------------------|
| 8000215 1 . . . |
| 8000215 2 . Hauptschulabschluss Hauptschulabschluss |
| 8000215 3 . . . |
| 8000215 4 . . . |
|-----------------------------------------------------------------------------------------|
| 8000278 1 Realschulabschluss . Realschulabschluss |
| 8000278 2 . . . |
|-----------------------------------------------------------------------------------------|
| 8000334 1 . . . |
| 8000334 2 . Realschulabschluss Realschulabschluss |
| 8000334 3 . . . |
|-----------------------------------------------------------------------------------------|
| 8000335 1 Hauptschulabschluss . Hauptschulabschluss |
| 8000335 2 . Realschulabschluss Realschulabschluss |
| 8000335 3 . . . |
+----------------------------------------------------------------------------------------+

Das eigentliche Problem findet sich bei ID 8000335 - hier sollte bei der Variable 'erster_abschluss' nur der Hauptschulabschluss aufgeführt werden und nicht auch der Realschulabschluss. Jedoch habe ich keine Möglichkeit gefunden, dass die Variable 'erster_abschluss' nur den Wert der Variable 'abschluss_1' annimmt, falls ein Wert bei der Variable 'abschluss_2' hinterlegt ist.
Ich denke, das Problem besteht darin, dass die beiden Werte nicht in einer Zeile sind, sondern der Wert in der Zeile von 'number = 1' bzw. 'number = 2' steht.
Meine Idee ist nun, dass die Werte der Variablen 'abschluss_1' und 'abschluss_2' nicht nur in der jeweiligen Zeile (also 'number = 1' bzw. 'number = 2') stehen, sondern in allen Zeilen, die die ID betreffen.

hier das Beispiel zu meiner Idee:

+-----------------------------------------------------------------------------------------+
| ID_t number abschluss_1 abschluss_2 erster_abschluss |
|-------------------------------------------------------------------------------------------------|
| 8000215 1 . Hauptschulabschluss Hauptschulabschluss |
| 8000215 2 . Hauptschulabschluss Hauptschulabschluss |
| 8000215 3 . Hauptschulabschluss Hauptschulabschluss |
| 8000215 4 . Hauptschulabschluss Hauptschulabschluss |
|-------------------------------------------------------------------------------------------------|
| 8000278 1 Realschulabschluss . Realschulabschluss |
| 8000278 2 Realschulabschluss . Realschulabschluss |
|-------------------------------------------------------------------------------------------------|
| 8000334 1 . Realschulabschluss Realschulabschluss |
| 8000334 2 . Realschulabschluss Realschulabschluss |
|-------------------------------------------------------------------------------------------------|
| 8000335 1 Hauptschulabschluss Realschulabschluss Hauptschulabschluss |
| 8000335 2 Hauptschulabschluss Realschulabschluss Hauptschulabschluss |
| 8000335 3 Hauptschulabschluss Realschulabschluss Hauptschulabschluss |
+-------------------------------------------------------------------------------------------------+

Wie kann ich das umsetzen??

Für eure Hilfe bedanke ich mich schon im Voraus!!!! :D

Viele Grüße
Heike
Heike
 
Beiträge: 2
Registriert: Mi 23. Mär 2016, 16:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Variablenbildung mit Paneldaten

Beitragvon mango » So 27. Mär 2016, 01:21

Hallo, ich verstehe die Lage leider noch nicht richtig. Wofür stehen denn die einzelnen Zeilen, also was repräsentiert ID_t und was ist number?
mango
 
Beiträge: 9
Registriert: Fr 2. Mai 2014, 16:55
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Variablenbildung mit Paneldaten

Beitragvon Heike » So 27. Mär 2016, 13:01

Hallo Mango,

danke für deine Antwort.

ID_t = die Identifikationsnummer der Befragten
number = gibt die Anzahl der Schulepisoden an, die ein Befragter durchlaufen hat
(Beispiel: Grundschule - ohne Abschluss (1) - Sekundarschule mit Realschulabschluss (2) - abgeschlossene Ausbildung (3) - Abendgymnasium mit Hochschulreife (4) - Hochschulstudium mit Abschluss (5) )
Im Editor würde das wie folgt aussehen:

ID number
1 -- 1
1 -- 2
1 -- 3
1 -- 4
1 -- 5
2 -- 1
2 -- 2
3 -- 1
3 -- 2
3 -- 3
usw.

Da ich das Nachholen von Schulabschlüssen untersuche, benötige ich nun eine Variable, die den 'ersten Schulabschluss' (in dem Beispiel: Realschulabschluss) wiedergibt und einen eine Variable, die den 'letzten höchsten Schulabschluss' (in dem Beispiel: Hochschulreife) wiedergibt. Jedoch fangen nicht alle Schulepisoden mit der Grundschule an, sondern mit einer weiterführenden Schule, so dass ich die Variable 'erster Schulabschluss' nicht einfach mit der zweiten Schulepsiode bilden kann. Also muss ich, um die Variable 'erster Schulabschluss' bilden zu können, zuerst zwei Variablen bilden. Die erste (abschluss_1) beinhaltet die Abschlüsse der Schulepisode 1, wenn diese nicht mit der Grundschule beginnen und die zweite (abschluss_2) beinhaltet die Abschlüsse der Schulepisode 2, wenn abschluss_1 = missing (.) .
Das Problem war nun Folgendes:

ID number Schulform abschluss_1 abschluss_2 erster Schulabschluss
1 --- 1 --- Grundschule --- . --- . --- .
1 --- 2 --- Realschule --- . --- real --- real
1 --- 3 --- Berufschule --- . --- . --- .
1 --- 4 --- Abendgym. --- . --- . --- .
1 --- 5 --- Hochschule --- . --- . --- .
2 --- 1 --- Hauptschule --- haupt --- . --- haupt
2 --- 2 --- Realschule --- . --- real --- real
3 --- 1 --- Grundschule --- . --- . --- .
3 --- 2 --- Gymnasium --- . --- abitur --- abitur
3 --- 3 --- Hochschule --- . --- . --- .
(. = missing value)
Dadurch funktioniert die Variablenbildung für 'erster Schulabschluss' nicht wie gewünscht. Bei ID 2 ist zu sehen, dass die Variable 'erster Schulabschluss' nicht eine, sondern zwei Ausprägungen hat. Ich will nun bei der Variable 'abschluss_2' ein missing setzen, wenn bei 'abschluss_1' bereits ein Wert hinterlegt ist. Mit dieser Datenstruktur konnte ich jedoch keine Fälle ausschließen, da in der Zeile von number = 2 immer ein missing steht und Stata sich wahrscheinlich nur auf diese Zeilen bezieht. Ich benötige nun also einen Befehl, der die Zeilen der weiteren Schulepisoden mit dem Wert der ersten Schulepisode füllt.

Aber ich habe mich die Tage noch mal damit beschäftigt und eine Lösung für das Problem gefunden. Der Befehl 'carryforward' erzeugt genau mein erwünschtes Ergebnis und ich konnte die Variable 'erster Schulabschluss' genauer bilden.
(hier der Link zur Seite, auf der ich eine nähere Beschreibung zu dem Befehl gefunden habe: http://www.ats.ucla.edu/stat/stata/faq/fill_down.htm)

Falls du noch ein paar Anmerkungen hast, würde ich mich darüber freuen.
Viele Grüße
Heike :)
Heike
 
Beiträge: 2
Registriert: Mi 23. Mär 2016, 16:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Longitudianal und Panel-Analyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 8 Gäste

cron