Ich habe ein einheitliches
Shapefile mit allen bekannten Kartierungen erstellt und dabei zwei Analysen
durchgeführt. Als abhängige Variable habe ich – wie im Kolloquium gezeigt – den
Vegetationstyp gewählt. Dieser ist ja an sich nominal skaliert, Voraussetzung
für die lineare Regression ist jedoch eine metrische Variable. Daher wurde der
Vegetationstyp nach einer quasi-ordinalen Reihung klassifiziert:
Code
|
Name
|
0
|
Kategorie
unklar
|
0
|
Vegetation
verbrannt
|
1
|
Fels/Schutt
|
2
|
leichte
Grasbedeckung/weitgehend kahl
|
3
|
Rasen
lückig
|
4
|
Rasen
dicht
|
5
|
Krummholz
aufgelichtet
|
6
|
Jungwuchs
|
7
|
Krummholz
dicht
|
8
|
Wald
aufgelichtet
|
9
|
Wald
dicht
|
Meine unabhängigen Variablen
sind bekanntlich Alter der Brandfläche, Höhenlage, Neigung, Exposition, Wetness
Index und Geologie. Ich habe in ArcGIS zwei Varianten probiert:
·
Die DGM-Infos (Höhe, Neigung, Exposition, Wetness
Index) wurden in Zellmittelpunkte konvertiert, anschließend wurden diese
Mittelpunkte mit überlappendem Vegetationstyp verschnitten (d.h. der jeweilige
Punkt besitz nur die Attribute des mit dem Mittelpunkt lagegleichen
Vegetationstyps)
Abbildung 1: Beispiel Zellmittelpunkte
·
Die DGM-Infos wurden als Polygone (10x10m)
beibehalten und mit den mit überlappenden Vegetationstypen verschnitten (d.h.
jedem Vegetationstyp werden die Attribute der überlappenden Zelle angefügt;
kleine Artefakte treten dabei allerdings auf)
·
Ich habe ein einheitliches Shapefile mit allen
bekannten Kartierungen erstellt und dabei zwei Analysen durchgeführt. Als
abhängige Variable habe ich – wie im Kolloquium gezeigt – den Vegetationstyp
gewählt. Dieser ist ja an sich nominal skaliert, Voraussetzung für die lineare
Regression ist jedoch eine metrische Variable. Daher wurde der Vegetationstyp nach
einer quasi-ordinalen Reihung klassifiziert:
Abbildung 2: Beispiel Raster
Die beiden Ansätze
unterscheiden sich hauptsächlich dadurch, dass der erste Ansatz eine Art
Stichprobe ist, während der zweite Ansatz hingegen alle in der 10x10m Zelle
vorkommenden Vegetationstypen berücksichtigt.
Mit beiden Datensätzen habe
ich eine lineare Regression berechnet (OLS-Verfahren) und dabei folgende
Modellergebnisse erhalten:
Abbildung 3: Ergebnis der OLS-lineare Regression mit
Punktdaten
Abbildung 4: Abbildung 1: Ergebnis der OLS-lineare Regression
mit Polygondaten
Geologie
|
Abkürzung Geologie
|
Alpiner
Muschelkalk
|
AMK
|
Hangschutt
|
HS
|
Hauptdolomit
|
HD
|
Reichenhaller
Schichten
|
RHS
|
Wettersteinkalk
|
WSK
|
Hangbrekzie,
Gehängebrekzie
|
B
|
Moräne
|
M
|
Raibl
Gruppe ungegeliedert
|
RG
|
Ohne jetzt viel auf das genaue
Ergebnis einzugehen, ist es so dass beide Modellergebnisse ein sehr geringes R²
(0,16 bzw. 0,13) aufweisen, das Modell also sehr wenig erklärt. Die Ursachen
dafür können vielseitig sein, primär kann davon ausgegangen werden, dass die
Zusammenhänge eben nicht linear sind oder ich die falschen bzw. zu wenig
unabhängige Variablen berücksichtige, dass Multikollinearität auftritt (VIF-Wert,
z.B. sehr stark bei der Exposition). Tendenzen lassen sich dennoch erkennen, so
z.B. auch die zu erwartenden Zusammenhänge zwischen höherem Vegetationstyp bei
geringerer Neigung/Höhe… Ein anderer Grund kann aber auch sein, dass die
abhängige Variable ursprünglich keine metrische Variable ist und die Codierung
wirklich nur eine Hilfskonstruktion ist. Alternativ dazu kann man eine
logistische Regression rechnen, da diese mit kategorialen Daten verwendet
werden kann. Die Umsetzung ist in ArcGIS jedoch nicht direkt möglich und muss
über das Statistikprogramm R eingebunden werden, daran arbeite ich momentan
noch. Ebenso muss ich noch genauer recherchieren, wie die Dummy Variablen
Exposition und Geologie zu interpretieren sind.
Lange Erklärung, kurzer Sinn:
Ich stehe im Moment an und weiß nicht, wie die Analyse besser durchgeführt
werden kann (mit Ausnahme der logistischen Regression). Das Ergebnis selbst ist
nicht wirklich zufrieden stellend und ich wollte euch nun fragen, was eurer
Meinung nach der nächste Schritt wäre.