
Modellverfahren
Einleitung
Die North Atlantic Oscillation (NAO) hat einen sehr großen Einfluss auf das
Wetter und die Witterung in
Mitteleuropa.
Die Luftdruckverhältnisse im isländischen Gebiet und Azorenraum stellen die
Intensität der NAO dar. Untersuchungen ergaben, dass zwischen den Luftdruckverteilungen (genauer: den
Druckanomalien gegenüber langjährigen Mittelwert) im nordatlantischen Sektor
und der Temperatur Mitteleuropas in den nachfolgenden Monaten gewisse
statistische Beziehungen bestehen.
Daraus entwickelte sich die Idee, die Luftdruckanomalien im nordatlantischen
Raum zur
langfristigen Monatsprognose anzuwenden.
Da jedoch nicht immer hoch signifikante Beziehungen in jenem Sektor existieren und meteorologische Parameter global miteinander verknüpft sind (Telekonnektion), musste das Forschungsgebiet auf
andere Regionen, wie dem Nordpazifik, Eurasien, Nordamerika und zuletzt
sogar auf die südliche Hemisphäre erweitert werden. Diese Untersuchungen
zeigten vor allem, dass auch die meteorologischen Gegebenheiten auf der
südlichen Halbkugel einen großen Einfluss auf unsere Witterung haben und nicht
vernachlässigt werden sollten.
Basierend auf dieser Grundlage wurde ein statistisches Verfahren (LRFS
→ Long
Range Forecast System) aufgebaut, welches Anfang 2004 schrittweise automatisiert wurde.
Damit
konnte einerseits der Beobachtungszeitraum von ursprünglich 1961-2000 auf 1949-2008 erweitert
und andererseits als weiterer Parameter die Temperatur als Einflussgröße
eingeführt werden. Mit der
automatischen Verarbeitung war eine Steigerung der Effektivität der Prognosen
verbunden und der zeitlich bisher große Aufwand wurde deutlich verringert, so
dass jetzt auch Prognosen für andere Regionen problemlos möglich sind.
Verlauf
Der Verlauf der Berechnungen des LRFS untergliedert sich in
4 Teilbereiche:
-
Korrelation der Datensätze
-
Variablenextraktion -
Hauptkomponentenanalyse -
PLS-Regression
1. Korrelation der Datensätze
|
Was ist der
Korrelationskoeffizient?
Der Korrelationskoeffizient (KK) ist ein Maß für die Stärke des linearen
Zusammenhanges zweier Datenreihen.
Der Wert dieses Koeffizienten ist eine dimensionslose Zahl und liegt immer zwischen 1 und -1. Dabei
bedeutet ein Wert von 1, dass ein perfekter linearer Zusammenhang zwischen
beiden Reihen vorliegt (je größer A, desto größer B). Gleiches gilt bei
-1, jedoch im umgekehrten Sinne (je größer A, desto kleiner B). Ist
überhaupt kein linearer Zusammenhang zwischen den Datenreihen vorhanden,
beträgt der Wert 0 (siehe Grafiken).
Der KK ist eine Maßzahl, die sich ausschließlich auf lineare Zusammenhänge
bezieht. Selbst wenn der Koeffizient niedrig bis null ist, kann dennoch
ein (nichtlinearer) Zusammenhang zwischen zwei Datensätzen vorhanden sein.
Obwohl atmosphärische Vorgänge in der Regel nicht linear sind, eignet sich
der KK dennoch um zumindest gewisse Beziehungen der Parameter
untereinander aufzudecken.
Um die Güte einer
Korrelation zu überprüfen, reicht die alleinige Kenntnis des KK nicht aus,
da dessen Aussagewert auch vom Umfang der Datenreihen abhängig ist. Ein
hoher KK bei einer geringen Anzahl von Fällen könnte auch zufälliger Natur
sein und eine sogenannte Scheinkorrelation vortäuschen. Um herauszufinden,
ob ein KK tatsächlich signifikant ist, d.h. ob der gefundene Zusammenhang
nicht nur in der Stichprobe existiert, sondern sich auch verallgemeinern
lässt, führt man einen Signifikanztest durch.
Signifikanz eines Korrelationskoeffizienten
Auf die exakte Durchführung
eines Signifikanztests soll nicht weiter eingegangen werden, da hierfür
standardisierende Transformationen vollzogen werden müssen, die den Rahmen
jetzt sprengen würden.
Als sehr vereinfachtes
Beispiel sei hier auf der rechten Seite der Auszug einer signifikanten Beziehung dargestellt.
Die zweite Spalte gibt dabei die Luftdruckanomalie am Gitterpunkt 65°N
110°O (Zentral-Sibirien) im Oktober an, während Spalte drei die
Temperaturabweichung des darauffolgenden Januars in Leipzig kennzeichnet. Rechts
unten ist der daraus resultierende KK der Periode 1949 - 2008
eingeblendet.
Nur soviel sei gesagt: Dass dieser Betrag von 0,375 übersignifikant
ist, wird dadurch nachgewiesen, dass der Koeffizient seinen mittleren
Fehler bei einer Anzahl von 60 Jahren um das 2,97-fache (siehe
Fehlerberechnung eines KK) übersteigt, die übliche Signifikanzgrenze aber
beim Zweifachen des mittleren Fehlers liegt. Dies bedeutet, dass der
betreffende Zusammenhang zu mehr als 95%
physikalischer Natur ist und somit nicht als rein zufällige Erscheinung
gedeutet werden darf. Oder anders ausgedrückt: Mit einer
Wahrscheinlichkeit von mehr 95% wird das Vorzeichen dieser Korrelation ( - )
auch in einem anderen Zeitraum mit dem hiesigen identisch sein. Für europäische Verhältnisse ist der gezeigte Betrag bereits ein recht hoher Wert, in den Tropen hingegen sind weitaus höhere Koeffizienten nicht ungewöhnlich.
Es ist von großer Bedeutung, dass lediglich solche Variablen als
Prediktoren herangezogen werden, die einen bestimmten KK-Betrag
überschreiten, da nur jene einen Informationsgehalt besitzen, die für eine
Prognose dienlich sein können.
|
 |
 |
|
 |
 |
|
 |
2. Variablenextraktion
3.
Hauptkomponentenanalyse
| Wozu eine
Hauptkomponentenanalyse?
Die Hauptkomponentenanalyse (EOF bzw. PCA)
ist ein statistisches (lineares) Verfahren, um eine große Anzahl von
Variablen so zu strukturieren und zu vereinfachen, dass diese mittels
neuer, aber deutlich weniger und aussagekräftiger Variablen so gut wie
möglich dargestellt werden können. Dabei wird eine Linearkombination so
erstellt, dass damit so viel wie möglich an Varianz aller Messwerte der
Variablen aufgeklärt wird. Als nächster Schritt wird eine weitere Gerade
derart in die
Punktwolke der Messwerte eingepasst, dass sie einerseits senkrecht
(orthogonal) zur ersten Geraden steht und zum anderen der zweithöchste
Anteil an Varianzaufklärung erfolgt. Durch die Orthogonalisierung sind
die neu entstandenen Variablen (auch Hauptkomponenten genannt)
untereinander unabhängig, also unkorreliert. Damit soll eine
Datenredundanz vermieden werden. Dieser Vorgang wird so oft wiederholt
bis eine vordefinierte Anzahl an Hauptkomponenten oder ein anderes
Abbruchkriteritum erreicht ist. Die nun entstandenen Hauptkomponenten
beinhalten einen großen Teil an Informationen der ursprünglichen
Variablen und dienen als Ausgangsbasis für die eigentlichen
Regressionsberechnungen. |
 |
4. PLS-Regression
|
Die voraussichtliche
Abweichung Y der Monatsmitteltemperatur ergibt sich aus folgender
Formel:
Y = C1*X1 + C2*X2
C.......berechneter Beziehungskoeffizient
X.......Hauptkomponente (Daten der Beziehungspunkte)
|
|
Eine weitere ausführliche Abhandlung des beschriebenen Verfahrens
(inzwischen veraltet) ist als
pdf-Datei
abrufbar.
Vorteile
-
liefert nachweißlich mit eine der stabilsten und
genauesten Werte im Bereich Langfristprognose
-
weiter ausbaufähig durch Hinzuziehen anderer
Parameter, z.B. Geopotential aus verschiedenen Schichten,
Wassertemperaturen usw.
-
relativ einfache Berechnung
-
Prognosen klar definiert und dadurch
problemlos verifizierbar
-
aus Art und Wert der prognostizierten
Abweichung lassen sich andere Größen, wie z. B. Anzahl der Sommer- oder
Frosttage berechnen
-
über eine t-Verteilungskurve
lassen sich auch Angaben über die Wahrscheinlichkeit des Eintreffens eines
prognostizierten Wertes machen
Nachteile
-
größerer Arbeitsaufwand für die Prognose
anderer Regionen
-
homogene, langjährige Datenreihen sind für ein
Prognosegebiet notwendig
-
Signifikanzgebiete bzw. -zusammenhänge
physikalisch oftmals nicht erklärbar
-
Scheinkorrelationen (unechte physikalische
Zusammenhänge) nicht auszuschließen
-
eventuelle Instabilität bei den Prognosen
d.h. Änderungen einer Prognose im Verlauf der Monate nicht selten
→ wird
durch die Hauptkomponentenanalyse aber soweit wie möglich reduziert
Für weitere Fragen steht Ihnen der Autor per
mail oder Formular gern zur
Verfügung.

|
|