Hallo zusammen,
ich möchte anhand eines Datensatzes Arbeitsbelastungsindizes berechnen um diese dann anhand verschiedener x-Variablen (Geschlecht, Berufsgruppe..) an einen anderen Datensatz ranzuspielen, um dann die eigentlichen Analysen machen zu können, da dieser Datensatz mehr Beobachtungen und meine interessierenden Responsevariablen enthält.
In der Literatur habe ich einen Aufsatz gefunden, der genau solche Indices via Mehrebenenregression (Random-Intercept) berechnet, in dem er über ein ein Random-Intercept-Modell die individuellen standardisierten Summenscores verschiedener Belastungsitems als Responsevariable in Abhängigkeit von Alter, Geschlecht und Arbeitsstunden mit den Berufsklassifikationsebenen als Ebene schätzt. Das ist, wenn ich das Modell richtig verstanden habe (!) insofern sinnvoll, als dass es u.a. die gruppenspezifische (nicht-individuelle) Varianz zwischen den verschiedenen Ebenen der Berufsklassifikationen berücksichtigt aber auch, weil es bessere Schätzungen für schwach besetzte Gruppen (in meinem Fall seltene Berufsgruppen) liefern soll (eine Art shrinking to the overallmean) als OLS oder einfach die berufsgruppenspezifischen Mittelwerte.
Ich habe nun diese Indices via ML mit stata (xtmixed) ähnlich wie in der Literatur geschätzt und wollte mir graphisch ansehen, inwiefern man diese bessere Schätzung schwach besetzter Gruppen sieht. Dazu habe ich in einem Diagramm den Mittelwert dieser individuellen Summenscores (also die y-Variablen der ML-Regressionen) innerhalb einer Berufsgruppe dem vorhergesagten Wert des ML-Modells dieser Berufsgruppe gegenüber gestellt. Ich hätte nun erwartet, dass die vorhergesagten ML-Werte deutlich von den Mittelwerten abweichen, eben näher am "overall-mean" liegen (bei kleineren Gruppen). Dies ist nicht der Fall. Allerdings bin ich mir auch nicht sicher, ob ich die richtige predict option in stata genommen habe. Eigentlich dachte ich, dass ich "fitted" nehmen müsste, um den fixed part plus diesen random-part (der verschiedenen Berufsgruppenkonstanten) nehmen muss. Hierbei gibt es keine bis sehr sehr geringe Abweichung, beide Werte sind ziemlich ähnlich.
Da ich mir unsicher war, ob es vielleicht doch an der falschen predict option lag, habe ich diese Grafik ebenfalls mit den vorhergesagten Werten für die reffects option (also nur random effects) und ohne option (für den fixed part) dargestellt. Nur die Schätzer des fixed parts sind deutlich von den berufsgruppenspezifischen Mittelwerten der Summenscores abgewichen, was ich hingegen genau anders herum erwartet hätte.
Ich bin mir nicht sicher ob ich einen Denkfehler habe oder vielleicht das Modell falsch verstanden habe. Jedenfalls weiß ich nicht so recht weiter, welche vorhergesagten Werte ich nun wirklich brauche und anhand denen ich auch sehe, dass die Mehrebenenregression bessere Schätzungen für die seltenen Berufsgruppen liefert.
Könnt ihr mir weiterhelfen?
Ich hoffe, ihr versteht mein Problem und ich habe es nicht zu unstrukturiert geschildert..
Danke schon einmal!
Viele Grüße
Pinsi1