Fehlermeldung bei Regression für Bachelorarbeit

Regressionsmodelle aller Art mit Stata.

Fehlermeldung bei Regression für Bachelorarbeit

Beitragvon bukay » Fr 7. Jun 2013, 18:35

Ich arbeite im Moment an meiner Bachelorarbeit ("Ungleichheit im Humankapital und Wirtschaftswachstum") und führe dafür eine sehr umfangreiche cross-country Regression mit STATA durch.

Folgendes Problem:

Abhängige Variable ist das durchschnittliche BIP per capita Wachstum zwischen den Jahren 1965-95 [rgdp_pc_growth_65_95]

Regressoren:

[rgdp_pc_65] Anfängliches pc BIP von 1965
[rinvestmentrate] Investitionsrate (%vom BIP)
[rsec_enr] secondary enrollment rate
[rgini_human] GINI-Koeffizient des Humankapitals
[rgini_income] GINI-Koeffizient des Einkommens (Physisches Kapital)
[dummy_X] -> Insgesamt 7 dummy-variablen für Jede Region (Southasia, Latinamerika, Europe...)

(Um Mulitkollinearität zwischen den dummys und der Konstanten zu vermeiden habe ich diese supressed in Stata, da alle dummy-variablen summiert = 1 ergeben = x0 -> konstante -> daher supress)

Aus mir unerklärlichen Gründen führt eine Regression des oben genannten dazu, dass rgdp_pc_65 "omitted" wird. Es scheint also als würde zwischen dem Anfänglichen pc BIP von 1965 und den dummy-variablen (bzw der konstanten die aber ja supressed ist) Multikollinearität zu herrschen und wird daher abgestoßen. Ich kann mir dies leider überhaupt nicht erklären und sehe meinen Fehler einfach nicht.

Anbei ein .zip mit meiner Datenanalyse

Einfach den Pfad im dofile "dofile_regression.do" bitte anpassen jenachdem wo ihr den Ordner speichert und dann ausführen (es sind noch weiter files und Daten dabei die an dieser Stelle aber nur indirekt relevant sein sollten)
Die Regressionen sind in den letzten Zeilen des dofiles (einmal mit rgdp_pc_65 und ohne -> erstere "omitted", zweite nicht).

Vielen Dank für eure Hilfe

PS. ich bin noch vergleichsweise unerfahren mit STATA da ich dieses erst seit gut 2 Wochen nutze

EDIT: Musste auf externen Filehoster umsteigen, da Anhang zu groß
http://www.file-upload.net/download-768 ... e.zip.html
bukay
 
Beiträge: 4
Registriert: Fr 7. Jun 2013, 18:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Fehlermeldung bei Regression für Bachelorarbeit

Beitragvon daniel » Sa 8. Jun 2013, 18:35

(Um Mulitkollinearität zwischen den dummys und der Konstanten zu vermeiden habe ich diese supressed in Stata, da alle dummy-variablen summiert = 1 ergeben = x0 -> konstante -> daher supress)


Sind Dir die Koeffizienten der einzelnen Länder wirklich so wichtig? Ich würde das ganz "normal" mit Konstante schätzen, und einen der Dummies als Refrenz auschließen. Es spielt keine Große Rolle, aber soweit ich erinnere kann das Auslassen der Konstanten zu nicht interpretierbaren Anpassungsstatistiken, i.e. R-quadrat führen (nicht das R-quadrat eine wichtige Rolle spielen würde, ich geb das nur zu bedenken).

Ansonsten klingt

Es scheint also als würde zwischen dem Anfänglichen pc BIP von 1965 und den dummy-variablen (bzw der konstanten die aber ja supressed ist) Multikollinearität zu herrschen und wird daher abgestoßen.


auf den ersten Blick doch sehr plausibel. Nimm mal an, dass BIP im Jahr 1965 für jede Region einen unterschieldichen Wert annimmmt -- was vermutlich sogar stimmt. Wenn Du nun für jedes Land kontrollierst, ist schlicht keine Varianz mehr gegeben. Die Länder-Dummies "schlucken" bereits alle (zeitkonstanten) Unterschiede zwischen den Regionen, so auch den Wert des BIP im Ausgangsjahr.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Fehlermeldung bei Regression für Bachelorarbeit

Beitragvon bukay » Sa 8. Jun 2013, 21:56

daniel hat geschrieben:
Sind Dir die Koeffizienten der einzelnen Länder wirklich so wichtig?


Es sind ja Koeffizienten für die unterschiedlichen Weltregionen, nicht Länder. Das halte ich bei einer so umfangreichen Analyse schon für angemessen, um die regionalen Unterschiede aufzufangen die sonst eine andere erklärende Variable beeinflussen könnten - z.B. je nach Hereinnahme oder Weglassen von Dummies ist die Signifikanz des Einkommens GINI entweder gegeben oder nicht.

Die Anmerkung die Konstante drin zu lassen und einen der Dummies als Refrenz auszuschließen macht Sinn - führt aber genauso dazu, dass das BIP im Jahr 1965 "omitted" wird. Einzig das was funktionieren würde, wäre die Konstante drin zu lassen und lediglich z.B. zwei Dummies hinzuzufügen um die besonders extremen Regionen zu berücksichtigen (i.e Lateinamerika, Afrika).

Ich glaube das ganze fällt unter http://en.wikipedia.org/wiki/Omitted-variable_bias (bin ich in meiner Recherche drauf gestoßen), oder liege ich damit falsch?

Danke für deine Antwort.
bukay
 
Beiträge: 4
Registriert: Fr 7. Jun 2013, 18:04
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Fehlermeldung bei Regression für Bachelorarbeit

Beitragvon daniel » Sa 8. Jun 2013, 23:43

Wenn ich die Lage korrekt interpretiere, und ich habe mir die Daten nicht angeschaut, hast Du hier Paneldaten über Regionen. Sollte das nicht der Fall sein, trifft das ein oder andere nur partiell bzw. gar nicht zu.

Ich denke, Du missverstehst das Problem. Du hast nämlich mit hoher Wahrscheinlichkeit keins, bzw. nicht das, was Du vermutest.

Es sind ja Koeffizienten für die unterschiedlichen Weltregionen, nicht Länder. Das halte ich bei einer so umfangreichen Analyse schon für angemessen, um die regionalen Unterschiede aufzufangen die sonst eine andere erklärende Variable beeinflussen könnten


Es geht nicht darum, ob Du dafür kontrollieren willst -- das willst Du. Dafür musst Du aber nicht alle Dummies ins Modell stecken und die Konstante auslassen. Den gleichen Effekt (nur eben konventioneller -- wobei Konventionen natürlich Diziplinabhängig sind) hast Du, wenn Du einen Dummy als Refernz ausschließt und die Konstante beibehälst. Das ist der Grund dafür, dass auc dann (wie erläutert zurecht)

[...] das BIP im Jahr 1965 "omitted" wird.


Du hast genau erreicht, was Du erreichen wolltest, nämlich

die regionalen Unterschiede aufzufangen


Im Grunde hast Du das Äquivalent zu einem (Region) Fixed-efects Modell geschätzt. Indem Du für Unterschiede zwischen Regionen kontrollierst, hast Du bereits für Unterschiede im BIP 1965 (und alle anderen beobachteten und unbeobachteten zeitkonstanten Faktoren) kontrolliert. Ein Problem hast Du dann, wenn Du am Effekt (i.e. am Koeffizienten) des BIP 1965 substantiell interessiert bist -- was vermutlich nicht der Fall ist.

Du hast aber möglicherweise ein Problem mit Deinen Standardfehlern (und damit automatisch mit den t Werten und Signifikanztests), wenn Du diese nicht nach Regionen clusterst.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionsmodelle

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste

cron