Missings aus Datensatz entfernen?

Allgemeine Fragen rund um Statistik mit Stata.

Missings aus Datensatz entfernen?

Beitragvon Susi » Sa 10. Nov 2012, 11:35

Hallo ihr Lieben

Ich habe einen Paneldatensatz mit unterschiedlichen Quartalen und befragten Personen. Jetzt sind bei einigen Variablen sehr viele Missings enthalten. Macht es für meine Regressionsanalyse einen Unterschied, ob die Missings enthalten sind oder nicht?
Ich brauche nämlich für meine Forschungsarbeit eine finale Observationszahl bzw. die Anzahl für die unterschiedlichen Personen (ID). Da ich zwei Regressionsgleichungen mit unterschiedlichen Variablen habe, kommen auch unterschiedliche Observationszahlen raus. Wenn ich die Missings nun entferne (Wie?), bekomme ich dann einheitliche Observationszahlen?

Vielen Dank

Susi
Susi
 
Beiträge: 7
Registriert: Do 1. Nov 2012, 11:18
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Missings aus Datensatz entfernen?

Beitragvon daniel » Sa 10. Nov 2012, 12:59

Ich gehe an dieser Stelle nicht näher auf verschiedenen Strategien des Umgangs mit fehlenden Werten ein. Stata "entfernt" fehlende Werte (listwise deletion/complete cases) automatisch für Dich, wenn Du nichts anderes spezifizierst.

Du schreibst lediglich, dass sich Deine beiden Modelle in den betrachteten Variablen unterscheiden, nicht ob die Modelle genestet sind. Ich werde auch nicht näher darauf eingehen, unter welchen Umständen es mehr oder weniger sinnvoll ist, das sample in welchem Fall konstant zu halten.

Ein einfacher Weg das Analysesample konstant zu halten, führt über e(sample). Stata speichert in dieser "Variablen" die Fälle, die für die Regression verwendet wurden. Bei genesteten Modellen, sagen wir <full_model> und <reduced_model>, wobei letzteres in erstem genestet, ist kannst Du mittels

Code: Alles auswählen
xtreg <full_model>
xtreg <reduced_model> if e(sample)


in der zweiten Regression nur die Fälle verwenden, die in der ersten Regression verwendet wurden. Sollten die Modelle nicht genestet sein, könntest Du etwas in der Richtung

Code: Alles auswählen
xtreg <full_model>
g byte sample1 = e(sample)
xtreg <reduced_model>
g  byte sample2 = e(sample)
kepp if (sample1) | (sample2)


versuchen. Achtung! Hier werden tatsächlich alle Fälle, die fehlende Werte auf einer der Analysevariablen (in einem der beiden Modelle) haben, komplett aus dem Datensatz gelöscht.

Bei Interesse kannst Du mal in -help mark- nachschlagen, um die Lösung für "Programmierer" kennenzulernen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 11 Gäste

cron