Kollinearitätsproblem Regression

Regressionsmodelle aller Art mit Stata.

Kollinearitätsproblem Regression

Beitragvon texmex » Sa 8. Jun 2013, 19:55

Hallo Leute,

ich untersuche die Prognosegenauigkeit von Analysten und möchte untersuchen, welchen Einfluss das Geschlecht auf die Prognosegenauigkeit hat. Hierzu möchte ich in der Regression neben der Dummy-Variable für das Geschlecht auch die Dummy-Variable Industrie-Konzentration einbeziehen. Diese lässt sich wie folgt erklären: Die von den Analysten untersuchten Unternehmen sind einer Branche zugeordnet (z.B. Banken). Ich habe für alle Branchen den Anteil an weiblichen Analysten berechnet und setze diese nun ins Verhältnis zum Anteil der weiblichen Analysten im Gesamtsample. Liegt der Anteil weibl. Analysten der Branche, dem das untersuchte Unternehmen zugeordnet wird, unterhalb (oberhalb) des Anteils der weiblichen Analysten im Gesamtsample, ist die Ausprägung der Variable Industrie-Konzentration 0 (1). Hintergrund ist die Frage, ob Frauen in unterrepräsentierten Branchen bessere Prognosen erstellen als in Branchen, in denen Frauen überrepräsentiert sind.

Ich möchte den Effekt anhand einer Interaktions-Variable untersuchen (Geschlecht (rev_mann_dummy)x Industry-Konzentration (Ind_Conc)). Stata nimmt nun die Variable Industry_Concentration nicht auf, weil Kollinearität vorliegt. Diese ist für mich aus der Korrelationsmatrix allerdings nicht erkennbar (s.u.).

Kann mir jmd. sagen, wo mein Fehler liegt?

Vielen Dank für eure Hilfe

Nachfolgend der Befehl sowie der Output in Stata:

[code][/code]
. areg EPS_Error_Score rev_mann_dummy Industry_Concentration Ind_Conc_X_rev_mann_dummy EPS_Yield log_Analyst_workload_Reports log_Analyst_workload_
> Companies log_PTBV log_MktCap log_Volatility Dummy05 Dummy06 Dummy07 Dummy08 Dummy09 if EPS_Yield > -1 & repfem ==1 & rep3 ==1 & timespan == 1 &
> PTBV_xtile2 > 10 & PTBV_xtile2 < 991 & Analyst_workload_Reports_xtile < 976 & Analyst_workload_Companies_xtile < 976 & CAR_xtile >10 & CAR_xtile
> <991, cluster(co_id) absorb(co_id)
note: Industry_Concentration omitted because of collinearity

Linear regression, absorbing indicators Number of obs = 287597
F( 13, 2750) = 15.56
Prob > F = 0.0000
R-squared = 0.2674
Adj R-squared = 0.2603
Root MSE = 0.1600

(Std. Err. adjusted for 2751 clusters in co_id)
------------------------------------------------------------------------------------------------
| Robust
EPS_Error_Score | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------------------------+----------------------------------------------------------------
rev_mann_dummy | .0006777 .003032 0.22 0.823 -.0052676 .006623
Industry_Concentration | 0 (omitted)
Ind_Conc_X_rev_mann_dummy | -.0057052 .0041514 -1.37 0.169 -.0138454 .0024349
EPS_Yield | -.211405 .045862 -4.61 0.000 -.3013325 -.1214775
log_Analyst_workload_Reports | .0096881 .0019808 4.89 0.000 .0058041 .0135721
log_Analyst_workload_Companies | -.0082447 .0027232 -3.03 0.002 -.0135845 -.0029049
log_PTBV | -.0123083 .0096898 -1.27 0.204 -.0313083 .0066918
log_MktCap | .0240529 .009741 2.47 0.014 .0049525 .0431534
log_Volatility | .0240464 .0081998 2.93 0.003 .0079681 .0401248
Dummy05 | .0298847 .0124055 2.41 0.016 .0055597 .0542098
Dummy06 | .0388272 .0104668 3.71 0.000 .0183037 .0593507
Dummy07 | .0138808 .010605 1.31 0.191 -.0069137 .0346753
Dummy08 | -.035119 .0101152 -3.47 0.001 -.054953 -.0152849
Dummy09 | .0203084 .0097421 2.08 0.037 .0012059 .0394109
_cons | .5697945 .0801822 7.11 0.000 .4125712 .7270179
-------------------------------+----------------------------------------------------------------
co_id | absorbed (2751 categories)

.
. correlate rev_mann_dummy Industry_Concentration EPS_Yield log_Analyst_workload_Reports log_Analyst_workload_Companies log_PTBV log_MktCap log_Vol
> atility Dummy05 Dummy06 Dummy07 Dummy08 Dummy09 if EPS_Yield > -1 & repfem ==1 & rep3 ==1 & timespan == 1 & PTBV_xtile2 > 10 & PTBV_xtile2 < 991
> & Analyst_workload_Reports_xtile < 976 & Analyst_workload_Companies_xtile < 976 & CAR_xtile >10 & CAR_xtile <991
(obs=287597)

| rev_ma~y Indust~n EPS_Yi~d log_A~ts log_A~es log_PTBV log_Mk~p log_Vo~y Dummy05 Dummy06 Dummy07 Dummy08 Dummy09
-------------+---------------------------------------------------------------------------------------------------------------------
rev_mann_d~y | 1.0000
Industry_C~n | 0.1345 1.0000
EPS_Yield | -0.0299 -0.0853 1.0000
log_Analy~ts | -0.0271 0.0198 0.0040 1.0000
log_Analy~es | -0.0190 0.0279 -0.0520 0.6962 1.0000
log_PTBV | 0.0222 0.1536 -0.1634 -0.0112 0.0170 1.0000
log_MktCap | -0.1003 -0.0838 0.1777 -0.0141 -0.1695 0.1292 1.0000
log_Volati~y | -0.0101 -0.0467 -0.1182 0.1452 0.1153 -0.2319 -0.3581 1.0000
Dummy05 | 0.0251 -0.0038 -0.0095 -0.0173 -0.0441 0.0561 0.0104 -0.3199 1.0000
Dummy06 | 0.0125 -0.0169 -0.0360 -0.0636 -0.0160 0.1023 0.0079 -0.2868 -0.1374 1.0000
Dummy07 | 0.0086 -0.0253 -0.0480 -0.0953 -0.0058 0.1525 0.0861 -0.3236 -0.1575 -0.1874 1.0000
Dummy08 | -0.0112 -0.0104 0.1481 -0.0547 0.0051 -0.0393 0.0048 0.0805 -0.1819 -0.2165 -0.2482 1.0000
Dummy09 | -0.0226 0.0279 -0.0529 0.1309 0.0303 -0.2097 -0.0883 0.6296 -0.2284 -0.2718 -0.3116 -0.3600 1.0000
texmex
 
Beiträge: 14
Registriert: Fr 8. Mär 2013, 10:22
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätsproblem Regression

Beitragvon daniel » Sa 8. Jun 2013, 23:58

Kann mich dunkel erinnern mal was von Dir in diesem Themenbereich gelesen zu haben, weiß allerding kein einziges Detail mehr.

Wie sind denn die Daten struktiriert? Wieso schätzt Du hier eine -areg-?

Meine (wilde) Vermutung ist folgende. Du willst (ob bewusst oder unbewusst) eine fixed-effects Regression schätzen, bei der Du die (unbeobachteten )Unterschiede zwischen den "co_id" (was immer das ist) herrausrechnen willst. Die Industrie-Konzentration (Industry_Concentration) ist aber innerhalb einer "co_id" konstant (i.e. kollinear mit dem jeweiligen Dummy).

btw.eine Korrelationsmatrix ist nicht geeignet Kollinearität festzustellen (vgl. folgendes Beispiel)

Code: Alles auswählen
sysuse auto ,clear
keep if !mi(rep78)
ta rep78 ,g(foo)

// try to check for collinearity
cor foo*

// run a regression model
reg price foo*
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätsproblem Regression

Beitragvon texmex » Mo 10. Jun 2013, 12:09

Ja, du hast richtig vermutet. Ich kontrolliere für fixed firm und fixed year effects, wobei ich den Effekt unterschiedlicher Firmen (co_id = Nummer zur eindeutigen Identifizierung eines Unternehmens) über die Option absorb (cluster) fixiere während ich Dummy-Variablen für die Fixierung des zeitl. Einflusses verwende. In allen bisherigen Untersuchungen habe ich diese Fixierungen vorgenommen, weil ich die hiervon ausgehenden Effekte herausrechnen will. In dieser Analyse möchte ich, wie im ersten Beitrag geschrieben, überprüfen, ob die Konzentration von weiblichen Analysten in einer Branche Einfluss auf die Prognosegenauigkeit hat.

Ich habe bisher die -areg- genommen, weil ich hier die oben beschriebenen Fixierungen umsetzen konnte.

Die Daten sind so strukturiert, dass jede Zeile eine Unternehmensanalyse mit Variablen zu Untersuchungszeitpunkt, untersuchtem Unternehmen und zahlreichen Variablen zum Inhalt der Analyse enthält (z.B. geschätzter Gewinn pro Aktie für akt. Geschäftsjahr).

Ist es nicht möglich, anhand der areg diese Untersuchung vorzunehmen? Wäre die Spezifikation korrekt, die Fixierung des Firmeneffekts rauszunehmen und stattdessen den zeitlichen Effekt zu "absorben" (und entspr. Dummys aus der Regression herauszunehmen)?
texmex
 
Beiträge: 14
Registriert: Fr 8. Mär 2013, 10:22
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätsproblem Regression

Beitragvon daniel » Mo 10. Jun 2013, 12:21

Ich würde eine fixed-effects Spezifikation mit -xtreg- und -fe- option umsetzen, weil mir -areg- zu rechenintensiv ist. Aber das ist, soweit ich beurteilen kann vermutlich eher Geschmackssache.

Ist es nicht möglich, anhand der areg diese Untersuchung vorzunehmen?


Soweit ich verstehe, willst Du einen Interaktionseffekt testen? Zumindest impliziert die Frage

ob Frauen in unterrepräsentierten Branchen bessere Prognosen erstellen als in Branchen, in denen Frauen überrepräsentiert sind.


eien Interaktion zwischen Geschlecht und Frauenanteil.

Diese Hypothese kannst Du auch in FE Modellen testen, solange eine der beiden beteiligten Prädikatoren innerhalb der cluster Varianz aufweist. Das sollte für Geschlecht der Fall sein. In diesem Fall wird (natürlich) dennoch der konditionale Haupteffekt des invariaten Prädikators ausgechlossen. Dieser ist implizit aber im Modell (Konstante) enthalten. Der Koeffizient des Interaktionsterms (bzw. der zugehörige Signifikanztest) zeigt Dir, ob sich der "Effekt" des Geschlechts auf die Prognosegenauigkeit nach Frauenanteil unterscheidet.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätsproblem Regression

Beitragvon texmex » Mo 10. Jun 2013, 12:31

Ja, ich will anhand des Interaktionsterms Geschlecht x Industriekonzentration testen, ob es einen Zusammenhang zwischen Geschlecht und Frauenanteil gibt.

Mit FE Modell meinst du jetzt aber FE nur im Bezug auf die zeitliche Komponente, oder? Wenn ich die Firmeneffekte herausrechne, habe ich ja das Kollinearitätsproblem...
texmex
 
Beiträge: 14
Registriert: Fr 8. Mär 2013, 10:22
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätsproblem Regression

Beitragvon daniel » Mo 10. Jun 2013, 12:58

Mit FE Modell meinst du jetzt aber FE nur im Bezug auf die zeitliche Komponente, oder? Wenn ich die Firmeneffekte herausrechne, habe ich ja das Kollinearitätsproblem...


Nein zur zeitlichen Komponente und vermutlich nein zum Kollinearitäts"problem". Wie erläutert, ist der Aussschluss des konditionalen Effektes der Konzentration aus dem Modell kein "Problem" per se. Wenn ich Deien Ergebnisse von oben anschaue, kann eine Wechselwirkung von Geschlecht und Konzentration allerdings statistisch nicht (auf den üblichen Signifikanzniveaus) belegt werden (t = 1.37).
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionsmodelle

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron