Das ist kein Problem, sondern eine notwenige Bedingung, um die Koeffizienten schätzen zu können. Auch ist dieses Phänomen nicht spezifisch für ein LPM.
Umgehen muss man da eigentlich nichts, sondern die geschätzen Koeffizienten nur korrekt interpretieren. Als einfaches Beispiel nehmen wir Geschlecht. Es ist nicht möglich für Männer und Frauen einen Koeffizienten zu schätzen (es ist natürlich möglich, Modelle ohne Konstante zu schätzen, aber das sei hier außen vor gelassen, weil es zu anderen (echten) Problemen führen kann). Daher lassen wir einen der zwei indikatoren aus dem Modell -- sagen wir den Indikator "Mann". Der Koeffizient für "Frau" gibt nun den durchschnittlichen Unterschied in y zwischen Männern (die Referenz) und Frauen an. Dieses Beispiel mit k = 2 Ausprägungen (Mann und Frau) lässt sich ohen weiteres auf variablen mit k = k Ausprägungen (z.B. Ausbildung) übertragen. Wenn Ausbildung k = 3 Ausprägungen hat, können wir nur k - 1 = 2 Indikatorvariablen in die Regression aufnehmen. Die geschätzen Koeffizienten geben den Durchschnittlichen Unterschied in y zwischen dem jeweiligen indikator und der Referenz (der Indikator, der nicht im Modell ist) an.
Ein Beispiel mit Stata.
- Code: Alles auswählen
sysuse nlsw88 ,clear
ta race , g(race)
reg wage race2 race3
Der Koeffizient für race2 gibt an, dass farbige Arbeiterinnen im Schnitt 1,24 USD weniger verdienen, als weiße Arbeiterinnen. Ebenso gibt der Koeffizient für race3 an, dass "andere Ethnien" im Schnitt 46 Cent mehr verdienen als weiße Arbeiterinnen. Dieser Unterschied ist nicht statistisch signifikant. Über den Unterschied im Lohn von farbigen und "anderen" Arbeiterinnen können wir anhand dieses Modells keine direkte Aussage treffen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.