Hallo zusammen,
ich habe einen Datensatz, der wie folgt strukturiert ist (unten findet ihr einen datex Auszug vom Datensatz) :
Insgesamt sind vier Spalten gegeben. In der ersten Zeile ist der "Name" (numerisch von 1-5000) des Unternehmens gegeben.
In der zweiten Spalte die Anzahl der Monate seit der Ernennung des aktuellen CEOs. Die liegt bei einigen Unternehmen im Datensatz bei den ersten Beobachtungen bei 0, da bereits Produktreleases unter den alten CEOs statt gefunden haben können.
In der dritten Spalte sind die KULMULIERTEN Produktreleases zum aktuellen Monatszeitpunkt gegeben.
In der vierten Spalte wird anhand einer Binärvariable (0 oder 1) bestimmt, ob das Unternehmen auf dem Aktienmarkt gelistet wird. Für dasselbe Unternehmen kann dieser Wert sich über die Zeit ändern, da es sein kann, dass ein Unternehmen von der Börse genommen wird.
Ich möchte stichprobenartig testen, ob die Verteilung der kulmulierten Produktreleases der SELBEN Unternehmen sich unterscheiden, je nachdem, ob sie an der Börse gelistet sind oder nicht (also falls es der Fall war, dass die Binärvariable sich im Beobachtungszeitraum mindestens einmal geändert hat).
Meine Idee wäre manuell stichprobenartig relevante Unternehmen herauszusuchen, die anderen Unternehmen zwischenzeitlich zu droppen und dann mit ranksum einen Whitney-Mann Test durchzuführen.
Das würde allerdings viel manuelle Arbeit bedeuten. Hat jemand eine Idee, wie man das eleganter lösen könnte?
Vielen Dank im Voraus für eure Unterstützung. Meldet euch gerne bei Unklarheiten oder Rückfragen.
Bleibt gesund!
CODE: ALLES AUSWÄHLEN
* Example generated by -dataex-. To install: ssc install dataex
clear
input float(Company_Identifier time_investment n_product d_public)
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 3 0
1 0 3 0
1 0 3 0
1 0 4 0
1 0 4 0
1 0 4 0
1 0 4 0
1 0 4 0
1 0 4 0
1 0 4 0
1 1 4 0
1 2 4 0
1 3 6 0
1 4 6 0
1 5 6 0
1 6 6 0
1 7 6 0
1 8 6 0
1 9 6 0
1 10 6 0
1 11 6 0
1 12 6 0
1 13 6 0
1 14 6 0
1 15 6 0
1 16 6 0
1 17 6 0
1 18 6 0
1 19 6 0
1 20 6 0
1 21 6 0
1 22 6 0
1 23 6 0
1 24 6 0
1 25 6 0
1 26 6 0
1 27 8 0
1 28 8 0
1 29 8 0
1 30 8 0
1 31 8 0
1 32 8 0
1 33 8 0
1 34 8 0
1 35 8 0
1 36 8 0
1 37 8 0
1 38 8 0
1 39 8 0
1 40 8 0
1 41 9 0
1 42 9 0
1 43 9 0
1 44 9 0
1 45 9 0
1 46 9 0
1 47 9 0
1 48 9 0
1 49 9 0
1 50 9 0
1 51 9 0
1 52 9 0
1 53 9 0
1 54 9 0
1 55 9 0
1 56 9 0
1 57 9 0
1 58 9 0
1 59 9 0
1 60 9 0
1 61 9 0
1 62 9 0
1 63 9 0
1 64 9 0
1 65 9 0
1 66 9 0
1 67 9 0
1 68 9 0
1 69 7 0
1 70 7 0
1 71 7 0
1 72 7 0
1 73 7 0
1 74 7 0
1 75 7 0
1 76 6 0
1 77 6 0
1 78 6 0
1 79 6 0
1 80 7 0
1 81 7 0
1 82 7 0
1 83 7 0
1 84 7 0
end
------------------ copy up to and including the previous line ------------------
Listed 100 out of 100476 observations
Use the count() option to list more