STATA-FORUM.DE

dom465 · von **dom465** » Sa 30. Nov 2019, 00:28

Hallo zusammen,

ich habe einen Paneldatensatz mit Informationen über Kaufdaten von Retailkunden. Diese Kunden haben 2 Lebenszyklen. Der erste und zweite Lebenszyklus ist in dem Datensatz pro Kundennummer in unterschiedliche Zeilen geschrieben.

Ich brauche jetzt ein Modell, indem ich die Wahrscheinlichkeit des outcome einer Variable aus dem zweiten Lebenszyklus, durch Variablen aus dem ersten Lebenszyklus vorhersagen kann.

Bsp. Anhand von einer gewissen Bestellmenge aus dem ersten Lebenszyklus kann ich schließen, dass der Kunde wahrscheinlich im zweiten Lebenszyklus mehr zurückschickt.

Jemand eine Idee? Im Prinzip muss die abhängige in dem Modell die Variable aus dem zweiten Lebenszyklus sein und die unabhängigen Variablen, die aus dem ersten. Weil die Zeilen aber unterschiedlich sind, funktioniert es aktuell nicht.

Lieben Dank!
Dominik

Staxa · von **Staxa** » Mo 2. Dez 2019, 15:24

So wie ich das verstehe musst du nur deinen Paneldatensatz in einen Querschnittsdatensatz umwandeln. Dazu kannst du beispielsweise die Werte extrahieren aus beiden Zyklen. Ich nehme daher an, dass du eine Variable VAR hast und pro Person 2 Zeitpunkte vorliegen:

Code: Alles auswählen: gen x1 = VAR if time == 1 gen x2 = VAR if time == 2 bysort ID: egen t1 = max(x1) bysort ID: egen t2 = max(x2) bysort ID: gen counter = _n reg x1 x2 if counter == 1

dom465 · von **dom465** » Fr 6. Dez 2019, 23:34

Ja genau, meine ID beschreibt die Kunden eindeutig. Mit deinem Code rechnet er dann mit dem Maximalwert pro Zeile. Bei mir sieht das aber so aus:

ID Bestellwert Retourwert netto kaufdatum lifecycle
1 100 20 80 01.01.2007 erster
1 200 30 70 30.01.2007 erster
1 50 50 0 20.08.2009 zweiter
1 90 60 30 11.11.2010 zweiter

Erster und zweiter Lebenszyklus ist bei mir anhand des Kaufdatums mit einer Abwesenheitsdauer von 2 Jahren zwischen den Käufen definiert.

Jetzt will ich im Modell prüfen ob die Bestellhöhe im ersten lifecycle eine Auswirkung auf die Rückgabequote im zweiten lifecycle hat.

Hast du vielleicht noch eine Idee oder muss ich dann in excel händisch den Datensatz umwandeln? Das habe ich aber auch noch nie gemacht :/

Vielen Dank aber schon mal für deine obige Antwort!

Edit:
ich habe jetzt mal die Durchschnittswerte vom Bruttobestellwert aus dem ersten lifecycle und vom Retourenwert aus dem zweiten gemacht. Somit hätte ich nur noch 2 Werte die in derselben Zeile stehen und somit kann ich die Reg durchlaufen lassen. Weiss aber nicht ob das nicht zu einfach ist :roll:

Staxa · von **Staxa** » Sa 7. Dez 2019, 18:57

Wenn ich das richtig verstehe, musst du einfach die Summe aller Sendungen aus dem 1. Cycle bilden und das dann als erklärende Variable heranziehen. Das kannst du so machen:

Code: Alles auswählen: *Summe der Werte aus dem ersten Cycle für jede Person berechnen bysort ID: egen totalsum = sum(bestellwert) if lifecycle == 1 *Summe der Retouren aus dem zweiten Cycle für jede Person berechnen bysort ID: egen totalretoure= sum(retoure) if lifecycle == 2 *Jeweils nur eine Zeile pro ID auswählen, damit Fälle in der Regression nicht doppelt gezählt werden bysort ID lifecycle: gen counter = _n *Regression rechnen reg totalretoure c.totalsum if counter == 1

Grundsätzlich solltest du alles immer in Stata machen, alleine aus Dokumentationszwecken. Alles direkt am Anfang aus Excel importieren und danach nur noch mit Stata.

dom465 · von **dom465** » Mo 9. Dez 2019, 20:56

Hat funktioniert, lieben Dank!!!

STATA-FORUM.DE

Berechnung von Prädiktoren

Berechnung von Prädiktoren

Re: Berechnung von Prädiktoren

Re: Berechnung von Prädiktoren

Re: Berechnung von Prädiktoren

Re: Berechnung von Prädiktoren

Wer ist online?