Analyse über mehrere Datensätze

Fragen zu Stata Syntax und Do-Files.

Analyse über mehrere Datensätze

Beitragvon KollegeSchnürschuh » Sa 17. Jun 2023, 17:25

Hallo liebes Stata-Forum,

erstmal eine kurze Erläuterung zu meinem Datensatz bzw. meinen Datensätzen:
Ich nutze einen SHARE-Datensatz beidem mehrere Imputationen (Anzahl 5) vorliegen. Es liegen also für bestimmte Variablen mehrere Werte pro Befragten vor.
Um den gewünschten Effekt zu untersuchen möchte ich diese Imputationen berücksichtigen. Dabei möchte ich die Analyse (Mittelwerte u andere deskriptive Statistik / Regressionen / Standardfehler) für mit jedem Datensatz durchführen und die Ergebnisse aus der Analyse dann kombinieren.
Ich erhalte somit beispielsweise bei einer Regression 5 Outputs. Dieser 5 Outputs möchte ich zu einem Output zusammenfügen. Dabei Berechne ich den Koeffizienten als Mittelwert der 5 Outputs.
Ich hoffe das ist soweit verständlich.

Nun frage ich mich wie ich so etwas in einem Befehl umsetzen kann. Die Berechnung der Ergebnisse soll vollständig in Stata erfolgen, also ich möchte den Mittelwert etc. nicht in Excel oder so berechnen.
Durch die Imputationen habe ich aber 5 Datensätze. Wenn ich nun beispielsweise den Mittelwert einer Variable berechnen möchte, würde ich wie folgt vorgehen:

Code: Alles auswählen
use "$datafolder/working_file_1.dta"
mean var1
use "$datafolder/working_file_2.dta"
mean var1
use "$datafolder/working_file_3.dta"
mean var1
use "$datafolder/working_file_4.dta"
mean var1
use "$datafolder/working_file_5.dta"
mean var1


Diese 5 Ergebnisse müsste ich nun irgendwie speichern oder ähnliches um dann anschließend den Mittelwert aus diesen 5 Ergebnissen zu berechnen.
Bei dem Mittelwert ist das ja vielleicht noch relativ einfach machbar. Da ich das aber auch mit gesamten Regressionen machen muss brauche ich eure Hilfe. Habt ihr Ideen?
KollegeSchnürschuh
 
Beiträge: 2
Registriert: Mi 31. Mai 2023, 14:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Analyse über mehrere Datensätze

Beitragvon Staxa » Sa 17. Jun 2023, 18:30

Du solltest die Datensätze vor der Analyse zusammenführen. Ich würde den Originaldatensatz mit Missing values zuerst öffnen.


Code: Alles auswählen
clear all
append using working_file_1.dta working_file_2.dta working_file_3.dta working_file_4.dta working_file_5.dta, gen(_mi_m)


und dann einfach deinen Wunschbefehl ausführen, bzw. collapse nutzen. Du könntest es auch dann ganz in die MI syntax bringen, aber da musst du in die Dokumentation schauen, zb. mi set.
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 685
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Analyse über mehrere Datensätze

Beitragvon KollegeSchnürschuh » So 18. Jun 2023, 13:37

Danke für die Antwort.

Ich glaube das ist nicht sinnvoll. Denn ich habe nur bei einem kleinen Teil der Variablen imputierte Daten. Somit würde ich wenn ich alles zu einem Datensatz merge viel mehr Beobachtungen haben als vorher. Dazu kommt, dass dann vier der fünf Beobachtungen, nicht direkt der beobachteten Person zugeordnet werden können.
KollegeSchnürschuh
 
Beiträge: 2
Registriert: Mi 31. Mai 2023, 14:49
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Analyse über mehrere Datensätze

Beitragvon Staxa » Mo 19. Jun 2023, 19:50

Ich muss zugeben, dass ich nicht wirklich verstehe, wie die Daten hier vorliegen, aber natürlich kannst du auch eine Schleife schreiben, etwa:



Code: Alles auswählen
tempfile file
tempname name
postfile `name' res using `file'
forvalues i = 1/5 {
    use working_file_`i'.dta, clear
    reg x y
    post `name'  (e(b)[1,1])
}
postclose `name'

use `file', clear
Stata für Anfänger: www.statabook.com
Staxa
 
Beiträge: 685
Registriert: Di 27. Feb 2018, 12:56
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Stata Syntax

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron