Klassifizierung um Median

Allgemeine Fragen rund um Statistik mit Stata.

Klassifizierung um Median

Beitragvon DieKrake » Di 13. Aug 2013, 13:23

Hey,
ich habe meine Daten mit folgender Formel in zwei Gruppen klassifiziert:
egen ret_class=xtile( fhalf_ret), by( dtyear objid) nq(2)

.. beide gruppen sind jedoch nicht gleichgroß, was wohl auf eine ungerade stichprobenanzahl in dem spezifischen jahr zurückzuführen ist. Hat hier jmd ne idee wie ich den mittleren Wert in solch einem Fall am besten ausschließe??

Vielen dank! :)
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon daniel » Di 13. Aug 2013, 14:17

Ich verstehe das Problem nicht ganz. Gibt es ein Beispiel?

Allgemein ist -egen- relativ langsam. Wenn es nur darum geht den Median zu berechnen, würde ich mit -summarize- arbeiten.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon DieKrake » Di 13. Aug 2013, 14:33

nein, also ich habe zwei merkmale bezgl über- und unterdurchschnittlich klassifiziert und dafür den median als referenz genommen damit meine stichprobe für beide merkmale jeweils in gleichgroße gruppen geteilt wird. so kann ich einen chi^2 test auf unabhängigkeit bzw eine kontingenz-/vierfeldertafel machen, in der ich zeige, dass zwei der vier möglichen kombinationen häufiger vertreten sind

mein problem ist jetzt nur, dass in manchen jahren eine ungerade anzahl an fonds existiert und somit eben keine teilung der stichprobe in zwei gleichgroße gruppen für beide merkmale entsteht, sondern der "mittlere" wert der "schwächeren" klassifizierung zugeordnet wird.

ergo ist die unabhängigkeit die ich mit dem chi^2 test widerlegen will schon von vorneherein verzerrt, da selbst wenn beide merkmale unabhängig voneinander wären, die vier "zellen" nicht 25% betragen.

2.frage: wie bekomme ich eine vierfeldertafel hin in der ich neben den absoluten Werten auch die bedingten Wk'en angegeben habe. also bei unabhängigkeit soll überall 25% stehen!?
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon daniel » Di 13. Aug 2013, 17:27

Klingt als sei die Grundidee mit dem Median Split evtl. nicht die Beste. Dazu kann und möchte ich aber an dieser Stelle nicht viel sagen.

wie bekomme ich eine vierfeldertafel hin in der ich neben den absoluten Werten auch die bedingten Wk'en angegeben habe. also bei unabhängigkeit soll überall 25% stehen!?


Mal in -help tabulate twoway- nachschauen? Optionen -row-, -column-, oder -cell-.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon DieKrake » Do 15. Aug 2013, 12:21

der test ist schon richtig so als einstieg und in der fachliteratur durchaus anerkannt ;)

die frage ist nur wie ich nach den beiden merkmalen zwei gleichgroß klassifizierte gruppen hinbekomme!?
so habe ich es bisher gemacht:
egen ret_class=xtile( fhalf_ret), by( dtyear objid) nq(2)
egen rar_class=xtile( rar ), by( dtyear objid) nq(2)

aber wie gesagt sind in jahren in denen eine ungerade anzahl an fonds existieren dann in einer der klassifizierungen für beide gruppen jeweils ein fonds mehr? wie kann ich den mittleren rausschmeißen? =)
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon daniel » Fr 16. Aug 2013, 10:41

wie kann ich den mittleren rausschmeißen? =)


In welcher Fachliteratur ist es anerkannt, einfach beliebige Werte oder Beobachtugnen "rauszuschmeißen", nur damit man genau gleichgroße Gruppen hat?

Beobachtungen entfernen kannst Du mittels -drop-. Den Median kannst Du mittels -summarize- und -detauil- Option ausrechnen und in r(p50) abgreifen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon DieKrake » Fr 16. Aug 2013, 11:03

da ich einen chi^2-test auf unabhängigkeit der beiden betrachteten merkmale machen möchte, sollten alle fonds anhand beider merkmale in zwei gleichgroße gruppen klassifiziert werden, damit nicht selbst bei unabhängigkeit der merkmale die zellhäufigkeiten in der vierfeldertafel von 25% abweichen
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon DieKrake » Di 20. Aug 2013, 11:59

Hey daniel, i still have this problem and do not know how to solve it. i tried to explain it in english again and maybe it is clearer now, also neither my english nor my german are quite good^^ you make a really sophisticated impression so i hope you can help me. its relatively important to me to find a solution and you can trust me that i tried and researched a lot although the amount of posts in the past weeks seems to show something different. anyway,:

Im running a chi^2 test of independence where i've divided my dataset/funds into 2 groups each depending on returns and risk-adjustment or to be more specific concerning if the funds have above or below median returns in the first half and above or below median risk-adjustment in the second half of the year.

this leads to a classification of funds into one of four combinations: (high-risk, high-return), (high-risk, low-return), (low-risk, high-return), (low-risk, low-return).

i will show that these classifications are not independent via a contingency-table (later also via regression).
however using:
egen ret_class=xtile( fhalf_ret), by( year) nq(2)
egen rar_class=xtile( rar ), by( year) nq(2),
i dont get equal sized groups because some years have an odd number of funds and therefore even if the criteria are independent the cell-frequencies are biased and not equal to 25% (or more specific, the problem is that they do not sum up to 50% each per classification).
therefore i would like to exclude the fund with the median return but only in the years with an odd number of funds to asure that i will get 50% of the funds in each group (considering return-classification and risk-adj.-classification).


I would really appreciate if you could help me and do not want to offend you if the answer to this question is quite obvious for you. im still a beginner in stata and i just dont get it!

thanks for your help very much!!
DieKrake
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon daniel » Di 20. Aug 2013, 12:32

I [...] do not want to offend you


I will be honset with you, even though I will look like an asshole, if I am not correct about the following -- but I am pretty sure I am.

I am offended. But not because the answer is obvious to me, but because I think you lie to me (us). I guess your german is quite well. In fact, I bet you are a native speaker, otherwise you would not use the word "schon" in

der test ist schon richtig


to pick one example from your prior postings. You would also probably not chose a name like "DieKrake". Further I do not belive you write your post in english, because you want to make it clearer to me (as I am obviously a native german speaker), but because the copy and pasting is less work to do for you. Bottom line: this a double posting cf. http://www.talkstats.com/showthread.php ... zed-groups and I will not answer your question. Actually it is a tripple posting, as you have contacted me privately and I bet it is a multi-posting because you probably contacted others privately as well.

There is no rule against double postings, but you should at least point out this fact by cross-referencing. The very fact, that you did not only fail to do so, but were not even willing to invest time into another translation into german, simply copy pasted your request and then lied about the reasons for switching to english, makes it obviuos that you did not "forgett" to include cross-references, but you do not want me to know you posted the question somewhere else. You do so, because you think I am more willing to give an answer if I think, I am the only one who can help you. That does offend me, and I will not answer any question from "DieKrake" ever again. I am also thinking about reoporting to the admin so to block your IP and make it hard for you to be able to simply chose another user-name.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
 
Beiträge: 1060
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Klassifizierung um Median

Beitragvon DieKrake » Di 20. Aug 2013, 12:48

hallo daniel,

was du sagst stimmt so direkt nicht.ich komme aus dem vietnam, lebe allerdings seit mehreren jahren in deutschland. korrekt ist, dass mein deutsch vermutlich ausreicht um meine problematik zu schildern, jedoch hast du mich scheinbar missverstanden in meinem vorrigen post bzw konnte mir deine antwort nicht weiterhelfen. das ich eine post in einem anderen forum ebenfalls gemacht habe, sollte ja wohl kein problem sein und mir war nicht bewusst, dass du es als angriff empfindest wenn ich das problem erneut in englisch schildere bzw selbiges hier rüberkopiere. es tut mir leid und wenn du dich gekränkt fühlst und wenn du nicht anwtorten willst werde ich das akzeptieren.

ich kann es aber auch erneut in deutsch übersetzen wenn das noch einen unterschied macht. allein deine forentätigkeit zeigt, dass du dich mit stata auskennst und ich will dir keineswegs schmeicheln sondern wollte nur nachfragen da ich mir sicher bin dass du mir helfen kannst. ich habe weiterhin meinen erneuten post nur damit begründet dass der vorherige scheinbar undeutlich war. auch habe ich niemand anderes kontaktiert und die gesendete personal mail war nicht unter gesendeten objekten zu finden sondern nur im postausgang.

auf keinen fall wollte ich dich attackieren mit meinem post.


*ich bin Fußballtorwart, deswegen "DieKrake". das ist mein spitzname
DieKrake
 
Beiträge: 13
Registriert: Mi 7. Aug 2013, 14:20
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron