Modellverfahren


Einleitung

Die North Atlantic Oscillation (NAO) hat einen sehr großen Einfluss auf das Wetter und die Witterung in Mitteleuropa.
Die Luftdruckverhältnisse im isländischen Gebiet und Azorenraum stellen die Intensität der NAO dar. Untersuchungen ergaben, dass zwischen den Luftdruckverteilungen (genauer: den Druckanomalien gegenüber langjährigen Mittelwert) im nordatlantischen Sektor und der Temperatur Mitteleuropas in den nachfolgenden Monaten gewisse statistische Beziehungen bestehen.

Daraus entwickelte sich die Idee, die Luftdruckanomalien im nordatlantischen Raum zur langfristigen Monatsprognose anzuwenden. Da jedoch nicht immer hoch signifikante Beziehungen in jenem Sektor existieren und meteorologische Parameter global miteinander verknüpft sind (Telekonnektion), musste das Forschungsgebiet auf andere Regionen, wie dem Nordpazifik, Eurasien, Nordamerika und zuletzt sogar auf die südliche Hemisphäre erweitert werden. Diese Untersuchungen zeigten vor allem, dass auch die meteorologischen Gegebenheiten auf der südlichen Halbkugel einen großen Einfluss auf unsere Witterung haben und nicht vernachlässigt werden sollten.

Basierend auf dieser Grundlage wurde ein statistisches Verfahren (LRFS
Long Range Forecast System) aufgebaut, welches Anfang 2004 schrittweise automatisiert wurde. Damit konnte einerseits der Beobachtungszeitraum von ursprünglich 1961-2000 auf 1949-2008 erweitert und andererseits als weiterer Parameter die Temperatur als Einflussgröße eingeführt werden. Mit der automatischen Verarbeitung war eine Steigerung der Effektivität der Prognosen verbunden und der zeitlich bisher große Aufwand wurde deutlich verringert, so dass jetzt auch Prognosen für andere Regionen problemlos möglich sind.
 

Verlauf

Der Verlauf der Berechnungen des LRFS untergliedert sich in 4 Teilbereiche:

  1. Korrelation der Datensätze

  2. Variablenextraktion

  3. Hauptkomponentenanalyse

  4. PLS-Regression


1. Korrelation der Datensätze

  • Korrelation monatlicher Luftdruckdaten (Prediktoren) an jedem 5°x5°- Gitterpunkt der Nord- bzw. Südhemisphäre mit der Temperatur (Prediktand) in Mitteleuropa eines Folgemonats im Untersuchungszeitraum 1949 bis 2008.

  • Für die Druckdaten bedeutet dies ca. 2150 Datensätze (potentielle Prediktoren) pro Vormonat → dieser Vorgang wird von einem Programm automatisch durchgeführt

  • Nicht berücksichtigt wurden bei der Analyse der Bereich Himalaja/Tibet (fehlerbehaftete Angaben bei der Reduktion der Daten auf Normalnull), sowie die Gebiete entlang des Äquators (aufgrund zu geringer Luftdruckstreuungen)

  • Durchführung des genannten Schrittes mit den jeweils letzten 6 Monaten

  • gesamte Prozedur wird auch mit monatlichen Temperaturdaten von Land und Meer (Oberfläche) als Prediktoren vorgenommen

  • neuerdings dienen als Prediktoren auch die Temperaturverhältnisse der höheren Troposphäre (5 bis 12 km Höhe)

  •  

    Was ist der Korrelationskoeffizient?

    Der Korrelationskoeffizient (KK) ist ein Maß für die Stärke des linearen Zusammenhanges zweier Datenreihen.
    Der Wert dieses Koeffizienten ist eine dimensionslose Zahl und liegt immer zwischen 1 und -1. Dabei bedeutet ein Wert von 1, dass ein perfekter linearer Zusammenhang zwischen beiden Reihen vorliegt (je größer A, desto größer B). Gleiches gilt bei -1, jedoch im umgekehrten Sinne (je größer A, desto kleiner B). Ist überhaupt kein linearer Zusammenhang zwischen den Datenreihen vorhanden, beträgt der Wert 0 (siehe Grafiken).

    Der KK ist eine Maßzahl, die sich ausschließlich auf lineare Zusammenhänge bezieht. Selbst wenn der Koeffizient niedrig bis null ist, kann dennoch ein (nichtlinearer) Zusammenhang zwischen zwei Datensätzen vorhanden sein. Obwohl atmosphärische Vorgänge in der Regel nicht linear sind, eignet sich der KK dennoch um zumindest gewisse Beziehungen der Parameter untereinander aufzudecken.

    Um die Güte einer Korrelation zu überprüfen, reicht die alleinige Kenntnis des KK nicht aus, da dessen Aussagewert auch vom Umfang der Datenreihen abhängig ist. Ein hoher KK bei einer geringen Anzahl von Fällen könnte auch zufälliger Natur sein und eine sogenannte Scheinkorrelation vortäuschen. Um herauszufinden, ob ein KK tatsächlich signifikant ist, d.h. ob der gefundene Zusammenhang nicht nur in der Stichprobe existiert, sondern sich auch verallgemeinern lässt, führt man einen Signifikanztest durch.


    Signifikanz eines Korrelationskoeffizienten

    Auf die exakte Durchführung eines Signifikanztests soll nicht weiter eingegangen werden, da hierfür standardisierende Transformationen vollzogen werden müssen, die den Rahmen jetzt sprengen würden.
    Als sehr vereinfachtes Beispiel sei hier auf der rechten Seite der Auszug einer signifikanten Beziehung dargestellt. Die zweite Spalte gibt dabei die Luftdruckanomalie am Gitterpunkt 65°N 110°O (Zentral-Sibirien) im Oktober an, während Spalte drei die Temperaturabweichung des darauffolgenden Januars in Leipzig kennzeichnet. Rechts unten ist der daraus resultierende KK der Periode 1949 - 2008 eingeblendet.

    Nur soviel sei gesagt: Dass dieser Betrag von  0,375 übersignifikant ist, wird dadurch nachgewiesen, dass der Koeffizient seinen mittleren Fehler bei einer Anzahl von 60 Jahren um das 2,97-fache (siehe Fehlerberechnung eines KK) übersteigt, die übliche Signifikanzgrenze aber beim Zweifachen des mittleren Fehlers liegt. Dies bedeutet, dass der betreffende Zusammenhang zu mehr als 95% physikalischer Natur ist und somit nicht als rein zufällige Erscheinung gedeutet werden darf. Oder anders ausgedrückt: Mit einer Wahrscheinlichkeit von mehr 95% wird das Vorzeichen dieser Korrelation ( - ) auch in einem anderen Zeitraum mit dem hiesigen identisch sein. Für europäische Verhältnisse ist der gezeigte Betrag bereits ein recht hoher Wert, in den Tropen hingegen sind weitaus höhere Koeffizienten nicht ungewöhnlich.

    Es ist von großer Bedeutung, dass lediglich solche Variablen als Prediktoren herangezogen werden, die einen bestimmten KK-Betrag überschreiten, da nur jene einen Informationsgehalt besitzen, die für eine Prognose dienlich sein können.


    2. Variablenextraktion

  • Extraktion sämtlicher Druck-Prediktoren, die mit dem Prediktanden um mindestens |0.30| korrelieren (willkürliche Festlegung), was immerhin einer Erfüllung des 97,5%-Signifikanz-Levels entspricht

  • Extraktion der Temperatur-Prediktoren, hier allerdings mit einem Korrelationskoeffizienten von mindestens |0.33|, was einem 99%-Signifikanz-Level entspricht

  • Speicherung der extrahierten Prediktoren in einer Datei zur weiteren Bearbeitung → auch hier programmgesteuerte Durchführung
     

  • 3. Hauptkomponentenanalyse

  • Durchführung einer Hauptkomponentenanalyse (EOF-Analyse) - dabei werden die Informationen aus einer Vielzahl von Variablen (Prediktoren) komprimiert und in Form neuer und deutlich weniger Variablen ausgedrückt

  • Überbetonung eines zusammengehörigen Variablenkomplexes wird dadurch vermieden

  • starke Beeinflussung von nur einzelnen, ursprünglichen Variablen auf die Berechnung (Instabilität) wird unterdrückt

  • Informationsgehalt der ursprünglichen Variablen bleibt überwiegend erhalten
     

  • Wozu eine Hauptkomponentenanalyse?

    Die Hauptkomponentenanalyse (EOF bzw. PCA) ist ein statistisches (lineares) Verfahren, um eine große Anzahl von Variablen so zu strukturieren und zu vereinfachen, dass diese mittels neuer, aber deutlich weniger und aussagekräftiger Variablen so gut wie möglich dargestellt werden können. Dabei wird eine Linearkombination so erstellt, dass damit so viel wie möglich an Varianz aller Messwerte der Variablen aufgeklärt wird. Als nächster Schritt wird eine weitere Gerade derart in die Punktwolke der Messwerte eingepasst, dass sie einerseits senkrecht (orthogonal) zur ersten Geraden steht und zum anderen der zweithöchste Anteil an Varianzaufklärung erfolgt. Durch die Orthogonalisierung sind die neu entstandenen Variablen (auch Hauptkomponenten genannt) untereinander unabhängig, also unkorreliert. Damit soll eine Datenredundanz vermieden werden. Dieser Vorgang wird so oft wiederholt bis eine vordefinierte Anzahl an Hauptkomponenten oder ein anderes Abbruchkriteritum erreicht ist. Die nun entstandenen Hauptkomponenten beinhalten einen großen Teil an Informationen der ursprünglichen Variablen und dienen als Ausgangsbasis für die eigentlichen Regressionsberechnungen.


    4. PLS-Regression

  • Seit 01.11.2010 tritt an bisheriger Stelle der normalen multiplen Regression die sogenannte PLS-Regression (Partial Least Sqares)

  • beinhaltet eine spezielle Form der Hauptkomponentenanalyse

  • Auswertung ist so angelegt, dass aus den ursprünglichen Prediktoren jeweils immer 2 neue Variablen (Hauptkomponenten) gebildet werden, die mit dem Prediktanden hoch korrelieren

  • im Gegensatz zur allgemeinen Regression nach EOF-Analyse korrelieren bei der PLS-Regression die neuen Variablen mit Prediktanden durchweg hoch

  • Anzahl von 2 Variablen hat sich bei Kreuzvalidierungen als besonders günstig erwiesen

  • Ermittlung der zugehörigen Koeffizienten über das erstellte Regressionsmodell

  • Berechnung der voraussichtlichen Temperaturanomalie über die Regression mittels Koeffizienten

  • für die Ermittlung der Niederschlagsprognose wird analog verfahren

  • Berechnung weiterer statistischer Größen z.B. mittlerer Fehler der Prognose und deren Mutungsbereich

  • zur endgültigen Prognose wird eine Kombinationstechnik angewandt, um eine Prognosestabilität über längere Zeiträume zu gewährleisten, was jedoch nicht immer gelingt
     

  • Die voraussichtliche Abweichung Y der Monatsmitteltemperatur ergibt sich aus folgender Formel: 

    Y = C1*X1 + C2*X2

    C.......berechneter Beziehungskoeffizient
    X.......Hauptkomponente (Daten der Beziehungspunkte)

    Eine weitere ausführliche Abhandlung des beschriebenen Verfahrens (inzwischen veraltet) ist als pdf-Datei abrufbar.



      Vorteile

    • liefert nachweißlich mit eine der stabilsten und genauesten Werte im Bereich Langfristprognose

    • weiter ausbaufähig durch Hinzuziehen anderer Parameter, z.B. Geopotential aus verschiedenen Schichten, Wassertemperaturen usw.

    • relativ einfache Berechnung

    • Prognosen klar definiert und dadurch problemlos verifizierbar

    • aus Art und Wert der prognostizierten Abweichung lassen sich andere Größen, wie z. B. Anzahl der Sommer- oder Frosttage berechnen 

    • über eine t-Verteilungskurve lassen sich auch Angaben über die Wahrscheinlichkeit des Eintreffens eines prognostizierten Wertes machen


      Nachteile

    • größerer Arbeitsaufwand für die Prognose anderer Regionen

    • homogene, langjährige Datenreihen sind für ein Prognosegebiet notwendig

    • Signifikanzgebiete bzw. -zusammenhänge physikalisch oftmals nicht erklärbar

    • Scheinkorrelationen (unechte physikalische Zusammenhänge) nicht auszuschließen

    • eventuelle Instabilität bei den Prognosen d.h. Änderungen einer Prognose im Verlauf der Monate nicht selten → wird durch die Hauptkomponentenanalyse aber soweit wie möglich reduziert

       
      Für weitere Fragen steht Ihnen der Autor per mail oder Formular gern zur Verfügung.

       

      Name:                 

      E-Mail Adresse: 

      Anliegen:

    Top