Trimming

Allgemeine Fragen rund um Statistik mit Stata.

Trimming

Beitragvon crichter » Mo 6. Mai 2013, 19:09

Hallo, ich weiß nicht, ob der Bereich richtig gewählt ist. Ich möchte Ausreißer in meinen Daten gerne durch trimming beseitigen. Also die 0,5% niedrigsten und 0,5% höchsten Werte einer Variable löschen. Am besten so, dass ich nicht erst das 0.5% Perzentil ausrechnen muss und dann händisch den Befehl eingeben muss drop x if x <....

Ich freue mich über eure Antworten.
crichter
 
Beiträge: 3
Registriert: Mo 6. Mai 2013, 19:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Trimming

Beitragvon daniel » Mo 6. Mai 2013, 22:50

Halte ich inhaltlich/statistisch für mehr als fragwürdig.

Zudem ist Dein pseudo-code illegal (vgl. -help drop-). Du kannst entweder Variablen rauswerfen

Code: Alles auswählen
drop foo


oder Beobachtungen

Code: Alles auswählen
drop if exp


Eine Kombination ist nicht möglich -- wie sollte das auch in der Datenmatrix umestzbar sein?
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Trimming

Beitragvon crichter » Di 7. Mai 2013, 17:31

Wieso für inhaltlich fragwürdig? Trimming oder winsorizing sind in der empirischen Forschung gang legitime Methoden um mit Ausreißern die die Analyse ansonsten verzerren würden umzugehen.

Davon ab ging es mir auch nur um die Umsetzung.

Denk dir das eine x in dem code einfach weg. Es ging mir da nur drum die Idee zu vermitteln.

Aus meinem Post geht hervor, dass es sich um die Beobachtungen handelt. Ersetze Werte durch Beobachtung.
crichter hat geschrieben:Also die 0,5% niedrigsten und 0,5% höchsten Werte einer Variable löschen.


Also hat jemand eine Idee?
crichter
 
Beiträge: 3
Registriert: Mo 6. Mai 2013, 19:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Trimming

Beitragvon daniel » Di 7. Mai 2013, 17:45

Ausreißer als solche nach auf univariaten Analysen beruhenden statisitschen Maßzahlen zu definieren ist m.E. eher ignorant. Das sind möglicherweise inhaltlich sehr interessante Beobachtungen. Wenn nicht wirklich klar ist, dass hier ein Kodierungsfehler oder sontiges vorliegt, dann wird die Analyse m.E. eher "verzerrt" wenn so getan wird, als habe man die interessanten Beobachtungen -- die potentiell eine zu testende Theorie zu Recht falsifizieren würden -- nicht gemacht, und sie schlichtweg ignorieret. Hat für mich einfach den Beigeschmack des anpassens des samples an das Modell -- statt wie eigentlich gewünscht umgekehrt.

Nun ja, Deine Entscheidung. Die Umsetzung ist ein Zweizeiler

Code: Alles auswählen
_pctile foo ,p(.5 99.95)
keep if inrange(foo, r(r1), r(r2))
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 15 Gäste

cron