PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Statistiker hier? Probleme bei Regressionsanalyse


andre87
2012-07-06, 18:23:18
Hallo,
ich schreibe gerade meine Masterarbeit und bin relativ unerfahren in Oekonometrie und habe nun ein paar Fragen zu meiner Regressionsanalyse.

Ich habe vor den Einfluss von CSR Aktivitaeten von Firmen auf deren finanzielle Performance zu untersuchen, mein Model sieht wie folgt aus:

Ich habe ein Sample von ca 60 Firmen, alle Firmen wurden in den Jahren 2007 und 2009 zu ihren CSR Aktivitaeten befragt wurden, es handelt sich also um ein gleichbleibendes Sample zu 2 verschiedenen Zeitpunkten, also Paneldaten. Meine Modelle fuer die Jahre sehen wie folgt aus:

2009:

Financial Performance 2010 = ß0 + ß1*CSR2009 + ß2*SIZE2010 + ß3*IND2010 + ß4*RISK2010 + ß5*RDINT2009 + ε

2007:

Financial Performance 2008 = ß0 + ß1*CSR2007 + ß2*SIZE2008 + ß3*IND2008 + ß4*RISK2008 + ß5*RDINT2007 + ε

wobei:

Independent Variable:

CSR = Total Score im CSR-Rating im Geschaeftsjahr

Controll Variables:

SIZE = Firmengroesse gemessen anhand von Umsatz im Geschaeftsjahr
IND= Branche des Unternehmens (gleichbleibend)
RISK= Risikofaktor des Unternehmens im Geschaeftsjahr
RDINT= Research & Development Ausgaben im Geschaeftjahr

Soweit so gut. Nach einiger Recherche habe ich nun vor ein "First Difference" Model anzuwenden.

Ich denke, das ist auch soweit durchfuehrbar, allerdings habe ich denke ich ein Problem, denn ich habe folgende Aussage zu dem First Difference Model gefunden:

"If we consider a panel dataset of individual-level data, this implies that time-invariant characteristics such as gender or race cannot be included among the regressors in X, since when differenced they will disappear."

In meinem Fall waere die Branchenzugehoerigkeit also "Time-invariant". Heisst das, das ich diese Kontrollvariable "Industry" nicht in das Modell einbringen kann und somit herauslassen muss oder heisst das einfach, dass der Einfluss der Branchenzugehoerigkeit durch den Term ai ("individual fixed effect") mit erklaert wird, sodass ich quasi troztdem fuer die Branchenzugehoerigkeit kontrolliert habe, obwohl diese Variable dann nicht mehr in meinem Modell auftaucht?

Was gibt es fuer Alternativen um diese Paneldaten zu analysieren?

Ich hoffe ihr versteht was ich meine und koennt mir diesbezueglich helfen.

gruss

Aghanim
2012-07-06, 19:30:15
Hallo,
ich schreibe gerade meine Masterarbeit und bin relativ unerfahren in Oekonometrie und habe nun ein paar Fragen zu meiner Regressionsanalyse.

Ich habe vor den Einfluss von CSR Aktivitaeten von Firmen auf deren finanzielle Performance zu untersuchen, mein Model sieht wie folgt aus:

Ich habe ein Sample von ca 60 Firmen, alle Firmen wurden in den Jahren 2007 und 2009 zu ihren CSR Aktivitaeten befragt wurden, es handelt sich also um ein gleichbleibendes Sample zu 2 verschiedenen Zeitpunkten, also Paneldaten. Meine Modelle fuer die Jahre sehen wie folgt aus:

2009:

Financial Performance 2010 = ß0 + ß1*CSR2009 + ß2*SIZE2010 + ß3*IND2010 + ß4*RISK2010 + ß5*RDINT2009 + ε

2007:

Financial Performance 2008 = ß0 + ß1*CSR2007 + ß2*SIZE2008 + ß3*IND2008 + ß4*RISK2008 + ß5*RDINT2007 + ε

wobei:

Independent Variable:

CSR = Total Score im CSR-Rating im Geschaeftsjahr

Controll Variables:

SIZE = Firmengroesse gemessen anhand von Umsatz im Geschaeftsjahr
IND= Branche des Unternehmens (gleichbleibend)
RISK= Risikofaktor des Unternehmens im Geschaeftsjahr
RDINT= Research & Development Ausgaben im Geschaeftjahr

Soweit so gut. Nach einiger Recherche habe ich nun vor ein "First Difference" Model anzuwenden.

Ich denke, das ist auch soweit durchfuehrbar, allerdings habe ich denke ich ein Problem, denn ich habe folgende Aussage zu dem First Difference Model gefunden:

"If we consider a panel dataset of individual-level data, this implies that time-invariant characteristics such as gender or race cannot be included among the regressors in X, since when differenced they will disappear."

In meinem Fall waere die Branchenzugehoerigkeit also "Time-invariant". Heisst das, das ich diese Kontrollvariable "Industry" nicht in das Modell einbringen kann und somit herauslassen muss oder heisst das einfach, dass der Einfluss der Branchenzugehoerigkeit durch den Term ai ("individual fixed effect") mit erklaert wird, sodass ich quasi troztdem fuer die Branchenzugehoerigkeit kontrolliert habe, obwohl diese Variable dann nicht mehr in meinem Modell auftaucht?

Was gibt es fuer Alternativen um diese Paneldaten zu analysieren?

Ich hoffe ihr versteht was ich meine und koennt mir diesbezueglich helfen.

gruss


Wenn du die ersten Differenzen nimmst fällt natürlich alles Zeitinvariante heraus. Logisch, die Differenz von t-1 zu t ist bei einer Variable die sich nicht über die Zeit t verändert 0. Da dich aber nur der Koeffizient der Variable CSR interessiert, ist das aber für die hinsichtlich der Variable IND nicht von Relevanz. Denn Berücksichtigt wird diese variable ja trotzdem, sie lässt sich nur eben nicht getrennt vom zeitfixen Effekt Interpretieren. Du erschlägst damit also quasi alle "time invariant effects". Problematisch ist ein solches Modell also nur, wenn die Variable, die dich interessiert zeitinvariant ist.

Was du aber berücksichtigen musst:

Du hast ja ein Model: Y = ß'X_t + v + ε_t, mit X als Vektor der Kontrollvariablen, v als zeitinvarianten Effekt und ε_t als Fehler.

So, nun gibt es drei Fälle:

a) v_t =! 0 und ist korreliert mit X

b) v_t =! und ist nicht korreliert mit X

c) v_t = 0


Als erstes musst du also herausfinden, ob v_t =! 0 ist. Das tust du mit dem Breusch-Pagan test für Random Effects.
Können Random Effects nicht abgelehnt werden führst du die Regression einmal als Random Effects Modell und einmal als Fixed Effects Modell durch und testes dann mit dem Hausmann test, ob sich die Koeffizienten Unterschieden. Tun sie das => Fixed Effects (zwar nicht effizient, aber unverzerrt). Tun sie das nicht => Random Effects (da effizient). Können Random Effects abgelehnt werden => Pooled OLS, ist aber bei Panels durch die Panelstruktur eher selten.

Gute Bücher hierzu wären von Greene "econometric analysis" und zB das hier:

http://www.uncg.edu/bae/people/ribar/teaching/ECO721/Notes/PANEL.pdf


Das Thema Fixed vs Random Effects ist eine Standardfrage.

PS Es wäre schön, wenn Mods die Spambeiträge einiger User hier löschen würde. Wir sind hier nicht in der Hauptschule.



Wenn du dich nicht in der Materie auskennst, dann schreib bitte auch nicht so einen bloedsinn...

Das ist ein in der Wissenschaft anerkanntes Thema zu dem es zig Studien in den letzten 40 Jahren gab und fuer mich allemal interessanter als zum x-ten male Capm und Konsorten zu testen...

So siehts aus, aber einige Bildungsversager zeigen hier recht deutlich ihre Herkunft. ;)

andre87
2012-07-06, 20:06:33
Wenn du die ersten Differenzen nimmst fällt natürlich alles Zeitinvariante heraus. Logisch, die Differenz von t-1 zu t ist bei einer Variable die sich nicht über die Zeit t verändert 0. Da dich aber nur der Koeffizient der Variable CSR interessiert, ist das aber für die hinsichtlich der Variable IND nicht von Relevanz. Denn Berücksichtigt wird diese variable ja trotzdem, sie lässt sich nur eben nicht getrennt vom zeitfixen Effekt Interpretieren. Du erschlägst damit also quasi alle "time invariant effects". Problematisch ist ein solches Modell also nur, wenn die Variable, die dich interessiert zeitinvariant ist.

Was du aber berücksichtigen musst:

Du hast ja ein Model: Y = ß'X_t + v + ε_t, mit X als Vektor der Kontrollvariablen, v als zeitinvarianten Effekt und ε_t als Fehler.

So, nun gibt es drei Fälle:

a) v_t =! 0 und ist korreliert mit X

b) v_t =! und ist nicht korreliert mit X

c) v_t = 0


Als erstes musst du also herausfinden, ob v_t =! 0 ist. Das tust du mit dem Breusch-Pagan test für Random Effects.
Können Random Effects nicht abgelehnt werden führst du die Regression einmal als Random Effects Modell und einmal als Fixed Effects Modell durch und testes dann mit dem Hausmann test, ob sich die Koeffizienten Unterschieden. Tun sie das => Fixed Effects (zwar nicht effizient, aber unverzerrt). Tun sie das nicht => Random Effects (da effizient). Können Random Effects abgelehnt werden => Pooled OLS, ist aber bei Panels durch die Panelstruktur eher selten.

Gute Bücher hierzu wären von Greene "econometric analysis" und zB das hier:

http://www.uncg.edu/bae/people/ribar/teaching/ECO721/Notes/PANEL.pdf


Das Thema Fixed vs Random Effects ist eine Standardfrage.




Wow, vielen Dank! Das hilft mir aufjedenfall schoneinmal weiter ;)

Was mich jedoch ein bisschen verwundert ist, dass mein Supervisor meinte, dass es bei 2 Waves nicht wirklich Sinn macht Panel-Modelle zu verwenden und ich die Panelstruktur dann einfach ignorieren und Pooled OLS anwenden solle. Das fuehrt dann doch hoechstwahrscheinlich zu biased Ergebnissen oder nicht?


@commander keen

Kannst du mir bitte einen Gefallen tun und den Thread hier nicht vollspamen wenn du schon nichts beizutragen hast? danke!

Zu deinen daemlichen BWL Plattitueden: Schade, dass Leute so voreingenommen sind. Ein betriebswirtschaftlichen Beruf schliesst eine soziale Ader nicht aus. Auch mir sind solche Werte wichtig!

Aghanim
2012-07-06, 20:09:19
Wow, vielen Dank! Das hilft mir aufjedenfall schoneinmal weiter ;)

Was mich jedoch ein bisschen verwundert ist, dass mein Supervisor meinte, dass es bei 2 Waves nicht wirklich Sinn macht Panel-Modelle zu verwenden und ich die Panelstruktur dann einfach ignorieren und Pooled OLS anwenden solle. Das fuehrt dann doch hoechstwahrscheinlich zu biased Ergebnissen oder nicht?


@commander keen

Kannst du mir bitte einen Gefallen tun und den Thread hier nicht vollspamen wenn du schon nichts beizutragen hast? danke!

Zu deinen daemlichen BWL Plattitueden: Schade, dass Leute so voreingenommen sind. Ein betriebswirtschaftlichen Beruf schliesst eine soziale Ader nicht aus. Auch mir sind solche Werte wichtig!

Naja, ob dem so ist würde ich testen. Wenn v existiert und mit X korreliert ist sind die Schätzer biased mit pooled OLS. Der Punkt ist ja, dass du auch, wenn du kein Panel hättest natürlich trotzdem zeitinvariante Effekte haben kannst, die mit X korreliert sind.
Um die zu erschlagen will man ja Paneldatensätze haben, denn ohne Panelstruktur kann man dagegen nichts tun. Und Zwei Perioden sind ein Panel. Nur anhand der Perioden zu sagen, dass man die Penlstruktur ignorieren sol macht imo keinen sinn. Klar kann es sein, dass v nicht existiert, das würde im Endeffekt bedeuten, dass man zwar ein Panel hat, aber die Daten so zufällig unter den Personen aufgeteilt sind, dass man sie quasi unter den Firmen durcheinander mischen kann. Da würde ich aber auch bei nur zwei Jahren eher nicht behaupten. Wie gesagt: Testen, ob eine Panelstruktur existiert!




BTW In meiner Aufzählung der Möglichkeiten oben muss es natürlich v und nicht v_t heissen, ist ja Zeitinvariant.