Hallo liebe Forengemeinde,
ich arbeite gerade das erste mal selbstständig Stata und stehe direkt am Anfang vor einem Problem:
Ich möchte einen Vergleich diverser Variablen über verschiedene Länder und verschiedene Jahre vornehmen. Diese Variablen können sich von Land zu Land und Jahr zu Jahr ändern. Dabei soll u.a.eine multivariate Regressionsanalyse erfolgen. Wie organisiere ich dafür am besten meinen Datensatz?
Dabei fallen mir vier Möglichkeiten ein:
1) jeder Fall entspricht einem Land. Jede Variable müsste dann für jedes Jahr als eigene Variable eingegeben werden. Sehr aufwendig in der Dateneingabe und unhandlich für die Auswertung.
2) jeder Fall entspricht einer Jahreszahl. Jede Variable müsste dann für jedes Land als eigene Variable eingegeben werden. Sehr aufwendig in der Dateneingabe und unhandlich für die Auswertung.
3) jeder Fall entspricht einer Kombination aus Land und Jahreszahl (i.e. 20 Länder über 30 Jahre --> 600 Fälle). M.E. die beste Lösung. Die unterschiedlichen Länder sind damit jedoch nicht mehr als einzelner Fall voneinander zu unterscheiden. Verfälscht mir das die Ergebnisse der Regressionen?
4) jeder Fall entspricht einer Kombination aus Land und Jahreszahl, die Jahre werden zuvor klassifiziert (i.e. 20 Länder über 3 Jahrzehnte --> 60 Fälle). Das gleiche Problem wie Nr. 3 und kein augenscheinlicher Vorteil. Vielleicht übersehen ich aber etwas? Einen theoretischen Grund für die Klassifizierung gibt es eigentlich nicht, wäre also höchstens eine Notlösung, wenn es die Durchführbarkeit erheblich erhöht.
Für jede der Möglichkeiten sehe ich eine Reihe von Problemen. Am sinnvollsten erscheint mir jedoch die dritte Möglichkeit, da ich glaube, dass hier der Informationsverlust für die Regression am geringsten ausfällt. Da ich mich mit der Entscheidung aber schon sehr festlege und sie nicht einfach wieder verändern kann, wäre ich für Vorschläge und Meinungen sehr dankbar!
Viele Dank schonmal vorab!