STATA-FORUM.DE

needshelp.jpg · von **needshelp.jpg** » Fr 5. Aug 2022, 16:20

Hallo,

ich nutze erst seit kurzer Zeit Stata und auch wenn ich ein bisschen Programmiererfahrung habe komme ich gerade trotz Recherche nicht weiter. Folgendes Problem:

Ich habe 2 Datensätze bekommen und mit append zusammengefügt. Nun habe ich die string Variable "id_year" welcher ca 164.000 Observations zugeordnet sind. Dabei handelt es sich grundsätzlich um Jahreszahlen, welche im Datensatz jeweils einzelnen Firmen zugeordnet werden. Zu jeder Firma gibt es also eine Zeile pro Jahreszahl.
In einem der Datensätze wurden der Variable lediglich die Werte 2017 bis 2021 für jede einzelne Firma zugeordnet, während dummerweise im anderen Datensatz Werte nach folgendem Schema zugeordnet wurden:

1_2007
1_2008
1_2009
.
.
.
99998_2020

Die erste Zahl entspricht dabei einer Nummerierung der Firmen (ähnlich einer fortlaufenden Nummer) und die zweite Zahl der jeweiligen Jahreszahl.
Diese Observations sind nun durch append unter der Variable "id_year" vermischt. Die Jahre 2017 bis 2020 sind dadurch doppelt vorhanden. Einfach die Observations 2017 bis 2020 zu droppen ist jedoch keine Option, da jene aus einem überarbeiteten Datensatz stammen und aktueller sind als z.B. 1_2017 bis 1_2020.
Gibt es eine Möglichkeit für jede laufende Nummer jeweils die Observations XXXX_2017 bis XXXX_2020 zu droppen?

Ich bin dankbar für jede Hilfe!

Staxa · von **Staxa** » Fr 5. Aug 2022, 19:28

Du kannst die Variable splitten und dann die neuen generierten nutzen um bestimmte Fälle zu löschen, siehe etwa

Code: Alles auswählen: split oldvar, gen(newvars) parse("_")

needshelp.jpg · von **needshelp.jpg** » Sa 6. Aug 2022, 13:44

Vielen Dank! Das hat das Problem glöst.

STATA-FORUM.DE

Droppen bestimmter Observations

Droppen bestimmter Observations

Re: Droppen bestimmter Observations

Re: Re: Droppen bestimmter Observations

Wer ist online?