In einer Regressionsanalyse fallen bei mir etwa die Hälfte der untersuchten Städte wegen fehlenden Daten (abhängige Variable) weg. Ich möchte nun schauen, ob das Wegfallen dieser Städte (n ist trotzdem genug gross) eine starke Auswirkung auf das Regressionsergebnis hat. Dafür möchte ich in einem t-test die Mittelwerte (der abhängigen Variable ("abhV") der beiden Stadtgruppen (die die wegfallen und die anderen) vergleichen. Dafür habe ich zuerst eine neue Variable definiert ("daten") in der alle Städte welche keine Daten für die abhängige Variable haben den Wert 0, alle mit abhängiger Variable den Wert 1 haben.
Nun möchte ich eben diesen t-test durchführen. Ist das nun Two-sample mean-comparison test (unpaired) , Two-sample mean-comparison test (paired) oder group mean comparison test und was muss ich da für if/in und so eingeben? Oder muss ich zuerst für die beiden Stadtgruppen jeweils eine neue Variable definieren?
Ich nehme an, das Sample ist unpaired, da die Städte ja nichts miteinander zu tun haben, oder?
Mein Vorgehen: ttest abhV, by (daten)
Unten steht dann:
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.7050 Pr(|T| > |t|) = 0.5900 Pr(T > t) = 0.2950
Wie deute ich das? Das eine Konfidenzintervall ist im anderen enthalten --> macht keinen Unterschied?
Und Pr(|T| > |t|) = 0.5900 deutet auch darauf hin, dass es keinen Unterschied gibt zwischen beiden Gruppen?
Vielen Dank für die Hilfe