Dringende Frage: Difference in Difference Regression

Regressionsmodelle aller Art mit Stata.

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » So 28. Apr 2013, 18:22

Ich hatte angenommen, dass ich das Grundmodell zumindest mit heteroskedastiuitätsrobusten Fehlern rechnen kann.
Habe es nun geändert und die vier Regressionsergebnisse nochmal hochgeladen.

Ich verstehe nicht, was hier statistisch passiert.
Ich hatte die Idee des Clusterns so verstanden: Der Cluster-Befehl bezieht die Intragruppenkorrelation so ein, dass die Varianz der Residuen angepasst/erhöht wird, wodurch auch die Varianz der Regressionskoeffizienten steigt. Das wiederum führt dazu, dass die Regressionskoeffizienten weniger signifikant werden.

Jetzt sehe ich in meinen Regressionsergebnissen nach dem Clustern, dass anders als ich dachte durch das Clustern die Standardabweichungen und t-Werte der Koeffizienten steigen, gleichzeitig aber die Signifikanz abnimmt.
Was genau passiert hier?
Dateianhänge
Clusterungsbeispiel.xlsx
(105.72 KiB) 295-mal heruntergeladen
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon daniel » So 28. Apr 2013, 19:00

Dein grundlegendes Verständnis ist korrekt, und ich muss leider sagen, hier verstehe ich auch nicht vollständig, was da los ist. Ich hab da gar nicht dran gedacht, weil ich so einen Fall (weniger cluster als Koeffizienten) noch nie hatte. Click mal auf die blaue fehlende F-Statisitk im output und lies Dir mal den relevanten Teil durch. Ich sollte mir das wohl auch nochmal genauer reinziehen, habe dazu aber momentan keine Zeit und -- weil ich es persönlich momentan nicht benötige -- auch keine Motivation mir viel Zeit dafür zu schaffen.

Es tut mir leid, dass ich Dich an dieser kritischen Stelle so hängen lasse. Was Du tun kannst, wäre mögl. (i) mal nach Aktie/Unternehmen clustern, (ii) mal in -svy- reinlesen, obgleich da wohl ähnliche Probleme entstehen oder (mein Favorit) Dich an einen Ökonometrie-Lehrstuhl Mitarbeiter Deines Vertrauens an Deiner Uni wenden, bzw. zumindest mit Deinem Betreuer sprechen. Dieses Modell scheint doch weitaus komplexer zu sein, als angenommen.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » So 28. Apr 2013, 20:03

Hi Daniel,

habe Deinen Rat befolgt und eine Clusterung der Fehler auf Unternehmensebene durchgeführt.
Jetzt gibt die Clusterung mehr Sinn. Bei einer Regression ohne Clusterung sind die SE der Koeffizienten kleiner als mit Clusterung. Folglich führt die Clusterung zu weniger Signifikanz als vorher! (siehe Anhang).
Juhuuu! Hoffe das ist jetzt richtig.

Aber wieso die Clusterung in nur zwei Kategorien, d. h. auf Länderebene kleinere Standardfehler lieferte versteh ich auch nicht. Wie ist denn hier die Grundregel? Mehr Cluster als Koeffizienten?

Grüße
Mikael
Dateianhänge
Clusterungsbeispiel2.xlsx
(78.42 KiB) 294-mal heruntergeladen
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » So 28. Apr 2013, 20:08

Eine kurze Frage noch hinterher: Lässt sich die Clusterung auf Unternehmensebene etwa so interpretieren:
Da für jedes Unternehmen 5-Minuten Beobachtungen für fortlaufend 45 Handelstage vorliegen beschränken wir also die zeitliche Autokorrelation auf Unternehmensebene, d. h. die individuelle zeitliche AK.
Was jedoch nicht bereinigt wird ist die AK mit anderen franz. Werten und die AK mit deutschen Werten. Kann man das so sagen?

Grüße
Mikael
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon daniel » So 28. Apr 2013, 22:16

Wie ist denn hier die Grundregel? Mehr Cluster als Koeffizienten?


help j_robustsingular hat geschrieben: As discussed in [R] test, the model test with clustered [...] data is distributed as F(k,d-k+1) [...], where k is the number of constraints and d=number of clusters [...]. Because the rank of the VCE is at most d and the model test reserves 1 degree of freedom for the constant, at most d-1 constraints can be tested, so k must be less than d.

(für constraints lies vereinfacht: Koeffizienten)

Deine Interpretation würde ich wohl teilen. Ich schätze zwar, dass auch die Fehler innerhalb eines Landes autokorreliert sind und mögl. selbst die Fehler in Deutschland mit denen in Frankreich, aber damit muss man in diesem Fall wohl leben. Vielleicht die Ergebnisse besser mal konservativ interpretiren (alpha = 0.01 oder kleiner, statt der üblichen 5 Prozent).
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » Mi 1. Mai 2013, 12:51

Hi Daniel,

ich habe über die Clusterung noch ein wenig nachgedacht und nachgelesen und ich schwanke zwischen zwei Clusterungsarten:
(Zur Erinnerung: Ich habe 5-Minuten Daten für 30 deutsche und 40 französische Unternehmen über 2 Monate hinweg, d. h. pro Unternehmen rund 4400 Beobachtungen)

1. Clusterung auf Unternehmensebene - Pro: Korrelation im gesamten Betrachtungszeitraum, d. h. auch über Handelstage hinweg für ein Unternehmen wird mit einbezogen; Contra: Sehr große Cluster, jeweils 4400 Beobachtungen bei insgesamt ca. 60000-80000 Beobachtungen je Untersuchungsklasse. Dadurch können auch kleinere Korrelationen schon zu einer enormen Beobachtungsanpassung bei der Clusterung führen, d. h. die Regression "zu robust" machen, also (deutlich) größere Standardfehler für die Koeffizienten liefern, als eigentlich angemessen.

2. Clusterung nach Unternehmen und Handelstag - Pro: Kleinere Cluster, oben erwähntes Problem besteht also nicht. Contra: Es wird quasi unterstellt, dass für ein Unternehmen die Beobachtungen nur über den Handelstag hinweg korrelieren, nicht jedoch zwischen den Handelstagen.

Ich neige dazu zweite Möglichkeit zu wählen, da hier a) die Intraklassenkorrelation größer ist b) zu große Cluster das tatsächliche Bild meiner Meinung nach zu negativ darstellen (obwohl die IKK hier geringer ist, sind aufgrund der Clustergröße die Standardfehler viel größer) c) ein anderes Paper, das ein Thema ähnlich dem meinem behandelt, auch nach Unternehmen und Tag geclustert hat. d) Ich meine Ergebnisse konservativ (Alpha = 1%) interpretieren kann zum Ausgleich der Contra-Argumente für die Clusterung nach Unternehmen und Tag.

Bitte gib mir nochmal ein kurzes Feedback.
Grüße
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon daniel » Mi 1. Mai 2013, 19:52

Ich bin leider theoretisch wenig belesen, was dieses Thema angeht, aber dass für Beobachtungen pro Unternehmen Unabhängigkeit zwischen zwei aufeinander folgenden Tagen angenommen wird, scheint mir relativ unplausibel.

Wie Du berichtest, scheint das aber nicht unbedingt unüblich bzw. völlig aus der Welt zu sein, wenn es andere Forscher in der gleichen Disziplin ebenso machen.

Wie konservativ man an die Sache rangehen will, ist natürlich auch von den praktischen Implikationen abhängig. Soweit ich erinnere, ist das eine Qualifikationsarbeit, und da denke ich, mit einer solchen Argumentation (evtl. auch nur als Fußnote) kann man zwar anderer Ansicht sein, aber Deine Entscheidung ist so oder so begründet und nachvollziehbar. Mehr kann man da nicht erwarten.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » Do 2. Mai 2013, 01:10

Danke dir!
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon djan » Fr 3. Mai 2013, 20:30

Hi Daniel,

eine kurze Frage nochmal:
Habe meine Indikatorvariable in Excel generiert als fortlaufende Zahl für jeden Cluster:
1111111111111111111111111111111111111 (Beobachtungen Cluster 1)
2222222222222222222222222222222222222 (Beobachtungen Cluster 2)
....................
660 660 660 660 660 660 660 660 660 660 660

Wird das in der Regel so gemacht? Stata erkennt bei den Regressionen meine 660 Cluster, aber um sicher zu gehen, frage ich nochmal nach.
Habe auch irgendwo gesehen, dass jemand die Cluster mit Buchstaben benannt hat (aaaaaaaaaaa bbbbbbbbbbbb ccccccccccc...)

Grüße
djan
 
Beiträge: 15
Registriert: Sa 27. Apr 2013, 18:24
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dringende Frage: Difference in Difference Regression

Beitragvon daniel » Sa 4. Mai 2013, 10:32

Von Excel habe ich ja bereit abgeraten, aber sei es drum. Stata sollte sowohl nummerische (1, 2, 3, ..., 660) als auch string Variablen (a, b, ..., ?) als clusterindikator erkennen.

In Stata hättest Du diese Variable einfach als

Code: Alles auswählen
bys Unternehmen Handlungstag : g cluster_var = _n


erstellen können.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

VorherigeNächste

Zurück zu Regressionsmodelle

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste