ich würde gerne fehlende Werte ersetzen durch ein sogenanntes matching.
1.
Ich habe einen sehr großen Datensatz (mehr als 130.000 Observationen). Dort habe ich Unternehmen aufgelistet über mehrere Jahre mit unterschiedlichen Variablen (Anzahl der Mitarbeiter, Gewinn usw). Zudem habe ich einige Variablen, die die Unternehmen in unterschiedliche Industrien einteilen.
Industrie-Einteilungen:
- ff_industry_5
- ff_industry_10
- ff_industry_17
- ff_industry_30
- ff_industry_38
- ff_industry_48
- ff_industry_49
Diese Industrie-Klassifizierungen unterscheiden sich darin, dass z.B. die ff_industry_5 alle Unternehmen in 5 Gruppen einteilt, die ff_industry_10 in 10 Gruppen usw.
Diese Industrie-Einteilungen von den ff_industrys pro Unternehmen wird durch eine Variable prod1_sic festgelegt.
prod1_sic für ein Unternehmen wird durch das Segments des 1. Produktes des Unternehmens bestimmt.
Somit ist die Anzahl der fehlenden Werte bei prod1_sic und bei den ff_industrys (5,10,...,49) die selbe weil die ff_industrys von prod1_sic abhängig sind.
2.
Zudem habe ich eine weitere Variable: primary_sic Diese primary_sic hat kaum (deutlich weniger als prod1_sic) fehlende Werte. Ich würde gerne die fehlenden Werte von der Variable prod1_sic durch ein matching mit der Variable primary_sic auffüllen, da sie deutlich weniger fehlende Werte hat.
Ich suche einen Weg um prod1_sic zu füllen
Hier ist noch zu sagen, dass der prod1_sic nicht konstant ist mit primary_sic.
Ich habe mir dieses Thema angeguckt
http://www.stata-forum.de/post1374.html#p1374 Konnte mir aber nicht weiterhelfen.
Zudem habe ich das Command:
- Code: Alles auswählen
xfill
Ich habe noch für ein Matching eine Datei (siehe Anhang). Leider komme ich mit dem Problem nicht alleine klar.
Meint ihr hier gibt es eine Lösung wenn prod1_sic nicht konstant mit primary_sic ist?