Zentriert Gleitend Durchschnittlich In R
Bewegungsdurchschnitte Bewegungsdurchschnitte Bei herkömmlichen Datensätzen ist der Mittelwert oft der erste und eine der nützlichsten Zusammenfassungsstatistiken zu berechnen. Wenn Daten in Form einer Zeitreihe vorliegen, ist das Serienmittel ein nützliches Maß, entspricht aber nicht der Dynamik der Daten. Mittelwerte, die über kurzgeschlossene Perioden berechnet werden, die entweder der aktuellen Periode vorausgeht oder auf der aktuellen Periode zentriert sind, sind oft nützlicher. Weil diese Mittelwerte variieren oder sich bewegen, wenn sich die aktuelle Periode von der Zeit t 2, t 3 usw. bewegt, werden sie als gleitende Mittelwerte (Mas) bezeichnet. Ein einfacher gleitender Durchschnitt ist (typischerweise) der ungewichtete Durchschnitt von k vorherigen Werten. Ein exponentiell gewichteter gleitender Durchschnitt ist im Wesentlichen derselbe wie ein einfacher gleitender Durchschnitt, aber mit Beiträgen zum Mittelwert, der durch ihre Nähe zur aktuellen Zeit gewichtet wird. Weil es nicht eine, sondern eine ganze Reihe von gleitenden Durchschnitten für jede gegebene Serie gibt, kann der Satz von Mas selbst auf Graphen aufgetragen, als Serie analysiert und bei der Modellierung und Prognose verwendet werden. Eine Reihe von Modellen kann mit gleitenden Durchschnitten konstruiert werden, und diese sind als MA-Modelle bekannt. Wenn solche Modelle mit autoregressiven (AR) Modellen kombiniert werden, sind die resultierenden zusammengesetzten Modelle als ARMA - oder ARIMA-Modelle bekannt (die I ist für integriert). Einfache Bewegungsdurchschnitte Da eine Zeitreihe als ein Satz von Werten betrachtet werden kann, kann t 1,2,3,4, n der Mittelwert dieser Werte berechnet werden. Wenn wir annehmen, daß n ziemlich groß ist und wir eine ganze Zahl k wählen, die viel kleiner als n ist. Wir können einen Satz von Blockdurchschnitten oder einfache gleitende Mittelwerte (der Ordnung k) berechnen: Jede Maßnahme repräsentiert den Mittelwert der Datenwerte über ein Intervall von k Beobachtungen. Beachten Sie, dass die erste mögliche MA der Ordnung k gt0 die für t k ist. Im Allgemeinen können wir den zusätzlichen Index in den obigen Ausdrücken fallen lassen und schreiben: Dies besagt, dass der geschätzte Mittelwert zum Zeitpunkt t der einfache Durchschnitt des beobachteten Wertes zum Zeitpunkt t und der vorhergehenden k -1 Zeitschritte ist. Wenn Gewichte angewendet werden, die den Beitrag von Beobachtungen, die weiter weg in der Zeit sind, verringern, wird der gleitende Durchschnitt exponentiell geglättet. Bewegliche Mittelwerte werden oft als eine Form der Prognose verwendet, wobei der Schätzwert für eine Reihe zum Zeitpunkt t 1, S t1. Wird als MA für den Zeitraum bis einschließlich Zeit t genommen. z. B. Die heutige Schätzung basiert auf einem Durchschnitt der bisher aufgezeichneten Werte bis einschließlich gestern (für Tagesdaten). Einfache gleitende Durchschnitte können als eine Form der Glättung gesehen werden. In dem unten dargestellten Beispiel wurde der in der Einleitung zu diesem Thema gezeigte Luftverschmutzungs-Datensatz um eine 7-Tage-Gleitende Durchschnitt (MA) - Linie erweitert, die hier in rot dargestellt ist. Wie man sehen kann, glättet die MA-Linie die Gipfel und Tröge in den Daten und kann sehr hilfreich bei der Identifizierung von Trends sein. Die Standard-Vorwärtsberechnungsformel bedeutet, dass die ersten k -1 Datenpunkte keinen MA-Wert haben, aber danach rechnen die Berechnungen bis zum endgültigen Datenpunkt in der Serie. PM10 tägliche Mittelwerte, Greenwich Quelle: London Air Quality Network, londonair. org. uk Ein Grund für die Berechnung einfacher gleitender Durchschnitte in der beschriebenen Weise ist, dass es ermöglicht, Werte für alle Zeitschlitze von der Zeit tk bis zur Gegenwart berechnet werden, und Da eine neue Messung für die Zeit t 1 erhalten wird, kann die MA für die Zeit t 1 dem bereits berechneten Satz hinzugefügt werden. Dies stellt eine einfache Prozedur für dynamische Datensätze zur Verfügung. Allerdings gibt es einige Probleme mit diesem Ansatz. Es ist vernünftig zu argumentieren, dass der Mittelwert über die letzten 3 Perioden, sagen wir, zum Zeitpunkt t -1 liegen sollte, nicht Zeit t. Und für eine MA über eine gerade Anzahl von Perioden vielleicht sollte es sich am Mittelpunkt zwischen zwei Zeitintervallen befinden. Eine Lösung für dieses Problem ist die Verwendung von zentrierten MA-Berechnungen, bei denen das MA zum Zeitpunkt t der Mittelwert eines symmetrischen Satzes von Werten um t ist. Trotz seiner offensichtlichen Verdienste wird dieser Ansatz im Allgemeinen nicht verwendet, weil es erfordert, dass Daten für zukünftige Ereignisse verfügbar sind, was möglicherweise nicht der Fall ist. In Fällen, in denen die Analyse vollständig aus einer bestehenden Serie besteht, kann die Verwendung von zentriertem Mas vorzuziehen sein. Einfache gleitende Durchschnitte können als eine Form der Glättung betrachtet werden, wobei einige hochfrequente Komponenten einer Zeitreihe entfernt werden und die Trends in ähnlicher Weise wie der allgemeine Begriff der digitalen Filterung hervorgehoben werden (aber nicht entfernen) werden. In der Tat sind gleitende Mittelwerte eine Form des linearen Filters. Es ist möglich, eine gleitende Durchschnittsberechnung auf eine Reihe anzuwenden, die bereits geglättet worden ist, d. h. Glätten oder Filtern einer bereits geglätteten Reihe. Zum Beispiel können wir mit einem gleitenden Durchschnitt von Ordnung 2, wie sie mit Gewichten berechnet werden, also die MA bei x 2 0,5 x 1 0,5 x 2 betrachten. Ebenso ist die MA bei x 3 0,5 x 2 0,5 x 3. Wenn wir Eine zweite Glättung oder Filterung anwenden, haben wir 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dh die zweistufige Filterung Prozess (oder Faltung) hat einen variabel gewichteten symmetrischen gleitenden Durchschnitt mit Gewichten erzeugt. Mehrere Windungen können sehr komplexe gewichtete Bewegungsdurchschnitte erzeugen, von denen einige von besonderem Gebrauch in spezialisierten Bereichen, wie in Lebensversicherungsberechnungen, gefunden wurden. Bewegliche Mittelwerte können verwendet werden, um periodische Effekte zu entfernen, wenn sie mit der Länge der Periodizität als bekannt berechnet werden. Zum Beispiel, mit monatlichen Daten saisonale Variationen können oft entfernt werden (wenn dies das Ziel ist), indem Sie einen symmetrischen 12-Monats-gleitenden Durchschnitt mit allen Monaten gleich gewichtet, mit Ausnahme der ersten und letzten, die mit 12 gewichtet werden. Dies ist, weil es wird 13 Monate im symmetrischen Modell (aktuelle Zeit, t. - 6 Monate). Die Summe wird durch 12 geteilt. Ähnliche Verfahren können für jede klar definierte Periodizität angenommen werden. Exponentiell gewichtete Bewegungsdurchschnitte (EWMA) Mit der einfachen gleitenden Durchschnittsformel: Alle Beobachtungen werden gleich gewichtet. Wenn wir diese gleichen Gewichte nennen, alpha t. Jedes der k Gewichte würde 1 k betragen. So wäre die Summe der Gewichte 1, und die Formel wäre: Wir haben bereits gesehen, dass mehrere Anwendungen dieses Prozesses dazu führen, dass die Gewichte variieren. Bei exponentiell gewichteten Bewegungsdurchschnitten wird der Beitrag zum Mittelwert aus Beobachtungen, die in der Zeit mehr entfernt werden, reduziert und damit neue (lokale) Ereignisse hervorgehoben. Im wesentlichen wird ein Glättungsparameter, 0lt alpha lt1, eingeführt und die Formel überarbeitet: Eine symmetrische Version dieser Formel wäre von der Form: Werden die Gewichte im symmetrischen Modell als Begriffe der Binomialexpansion ausgewählt, (1212) 2q. Sie werden auf 1 summieren, und wenn q groß wird, wird die Normalverteilung angenähert. Dies ist eine Form der Kernel-Gewichtung, wobei die Binomie als Kernfunktion fungiert. Die im vorigen Unterabschnitt beschriebene zweistufige Faltung ist genau diese Anordnung, wobei q 1 die Gewichte ergibt. Bei der exponentiellen Glättung ist es notwendig, einen Satz von Gewichten zu verwenden, die auf 1 summieren und die Größe geometrisch verkleinern. Die verwendeten Gewichte sind typischerweise in der Form: Um zu zeigen, dass diese Gewichte auf 1 summieren, betrachten wir die Ausdehnung von 1 als Reihe. Wir können den Ausdruck in Klammern mit der Binomialformel (1- x) p schreiben und erweitern. Wobei x (1-) und p -1, was ergibt: Dies ergibt dann eine Form des gewichteten gleitenden Durchschnitts der Form: Diese Summation kann als eine Wiederholungsrelation geschrieben werden, die die Berechnung stark vereinfacht und das Problem vermeidet, dass das Gewichtungsregime Sollte strikt unendlich sein, damit die Gewichte auf 1 summieren (für kleine Werte von alpha ist dies normalerweise nicht der Fall). Die Notation, die von verschiedenen Autoren verwendet wird, variiert. Manche verwenden den Buchstaben S, um anzuzeigen, daß die Formel im wesentlichen eine geglättete Variable ist und schreibt: Während die Kontrolle Theorie Literatur oft Z anstelle von S für die exponentiell gewichteten oder geglätteten Werte verwendet (siehe z. B. Lucas und Saccucci, 1990, LUC1 , Und die NIST-Website für weitere Details und bearbeitete Beispiele). Die oben zitierten Formeln stammen aus der Arbeit von Roberts (1959, ROB1), aber Hunter (1986, HUN1) verwendet einen Ausdruck der Form: die für die Verwendung in einigen Kontrollverfahren besser geeignet ist. Bei alpha 1 ist die mittlere Schätzung einfach der gemessene Wert (oder der Wert des vorherigen Datenelementes). Mit 0,5 ist die Schätzung der einfache gleitende Durchschnitt der aktuellen und vorherigen Messungen. Bei der Vorhersage der Modelle ist der Wert S t. Wird oft als Schätz - oder Prognosewert für den nächsten Zeitraum verwendet, dh als Schätzung für x zum Zeitpunkt t 1. Damit haben wir: Dies zeigt, dass der Prognosewert zum Zeitpunkt t 1 eine Kombination aus dem vorherigen exponentiell gewichteten gleitenden Durchschnitt ist Plus eine Komponente, die den gewichteten Vorhersagefehler darstellt, epsilon. Zum Zeitpunkt t. Unter der Annahme, dass eine Zeitreihe gegeben ist und eine Prognose erforderlich ist, ist ein Wert für Alpha erforderlich. Dies kann aus den vorhandenen Daten abgeschätzt werden, indem die Summe der quadratischen Vorhersagefehler mit variierenden Werten von alpha für jedes t 2,3 ausgewertet wird. Einstellung der ersten Schätzung als der erste beobachtete Datenwert x 1. Bei den Steuerungsanwendungen ist der Wert von alpha wichtig, der bei der Bestimmung der oberen und unteren Kontrollgrenzen verwendet wird und die erwartete durchschnittliche Lauflänge (ARL) beeinflusst Bevor diese Kontrollgrenzen kaputt sind (unter der Annahme, dass die Zeitreihe einen Satz von zufälligen, identisch verteilten unabhängigen Variablen mit gemeinsamer Varianz darstellt). Unter diesen Umständen ist die Varianz der Kontrollstatistik: (Lucas und Saccucci, 1990): Kontrollgrenzen werden gewöhnlich als feste Vielfache dieser asymptotischen Varianz gesetzt, z. B. - 3 mal die Standardabweichung. Wenn beispielsweise Alpha 0,25 und die zu überwachenden Daten eine Normalverteilung N (0,1) haben, wenn die Kontrolle begrenzt wird, werden die Regelgrenzen - 1.134 sein und der Prozeß erreicht eine oder andere Grenze in 500 Schritten im Durchschnitt. Lucas und Saccucci (1990 LUC1) leiten die ARLs für eine breite Palette von Alpha-Werten und unter verschiedenen Annahmen mit Markov Chain Verfahren ab. Sie tabellieren die Ergebnisse, einschließlich der Bereitstellung von ARLs, wenn der Mittelwert des Kontrollprozesses um ein Vielfaches der Standardabweichung verschoben wurde. Zum Beispiel ist bei einer 0,5-Schicht mit alpha 0,25 die ARL weniger als 50 Zeitschritte. Die oben beschriebenen Ansätze werden als einzelne exponentielle Glättung bezeichnet. Da die Prozeduren einmal auf die Zeitreihen angewendet werden und dann analysiert oder kontrolliert werden, werden Prozesse auf dem resultierenden geglätteten Datensatz durchgeführt. Wenn der Datensatz einen Trend und saisonale Komponenten enthält, kann eine zweidimensionale oder dreistufige Exponentialglättung als Mittel zur Beseitigung (expliziten Modellierung) dieser Effekte angewendet werden (siehe weiter unten den Abschnitt "Vorhersage" und das NIST-Beispiel). CHA1 Chatfield C (1975) Die Analyse der Times-Serie: Theorie und Praxis. Chapman und Hall, London HUN1 Hunter J S (1986) Der exponentiell gewichtete gleitende Durchschnitt. J von Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiell gewichtete Moving Average Control Schemes: Eigenschaften und Erweiterungen. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolltabelle Tests basierend auf geometrischen Moving Averages. Technometrics, 1, 239-2505.2 Smoothing Time Series Smoothing ist in der Regel getan, um uns besser zu helfen, Muster zu sehen, Trends zum Beispiel in Zeitreihen. Im Allgemeinen glatt die unregelmäßige Rauheit, um ein klareres Signal zu sehen. Für saisonale Daten können wir die Saisonalität ausgleichen, damit wir den Trend identifizieren können. Glättung gibt uns nicht ein Modell, aber es kann ein guter erster Schritt bei der Beschreibung verschiedener Komponenten der Serie sein. Der Begriff Filter wird manchmal verwendet, um ein Glättungsverfahren zu beschreiben. Wenn zum Beispiel der geglättete Wert für eine bestimmte Zeit als eine lineare Kombination von Beobachtungen für Umgebungszeiten berechnet wird, könnte man sagen, dass wir ein lineares Filter auf die Daten angewendet haben (nicht dasselbe wie das Ergebnis, ist eine gerade Linie, durch der Weg). Die traditionelle Verwendung des Begriffs Gleitender Durchschnitt ist, dass zu jedem Zeitpunkt die (möglicherweise gewichteten) Mittelwerte der beobachteten Werte, die eine bestimmte Zeit umgeben, ermittelt werden. Zum Beispiel zum Zeitpunkt t. Ein zentrierter gleitender Durchschnitt der Länge 3 mit gleichen Gewichten wäre der Mittelwert der Werte zu Zeiten t -1. T Und t1. Um Saisonalität von einer Serie wegzunehmen, so können wir besser sehen Trend, würden wir einen gleitenden Durchschnitt mit einer Länge Saisonspanne verwenden. So wurde in der geglätteten Serie jeder geglättete Wert über alle Jahreszeiten gemittelt. Dies geschieht durch einen einseitigen gleitenden Durchschnitt, in dem Sie alle Werte für die vorherigen Jahre im Wert von Daten oder einen zentrierten gleitenden Durchschnitt, in dem Sie Werte sowohl vor als auch nach der aktuellen Zeit verwenden, durchschnittlich sind. Für vierteljährliche Daten können wir beispielsweise einen geglätteten Wert für die Zeit t als (x t x t-1 x t-2 x t-3) 4, den Mittelwert dieser Zeit und die vorherigen 3 Quartale definieren. Im R-Code handelt es sich um einen einseitigen Filter. Ein zentrierter gleitender Durchschnitt schafft ein bisschen Schwierigkeit, wenn wir in der Saisonspanne eine gerade Anzahl von Zeiträumen haben (wie wir es normalerweise tun). Um die Saisonalität in vierteljährlichen Daten zu verteilen. Um den Trend zu identifizieren, ist die übliche Konvention, den gleitenden Durchschnitt zu verwenden, der zum Zeitpunkt der Zeit geglättet wird. Um die Saisonalität in monatlichen Daten zu verkleinern. Um den Trend zu identifizieren, ist die übliche Konvention, den gleitenden Durchschnitt zu verwenden, der zum Zeitpunkt t geglättet wird. Das heißt, wir wenden das Gewicht 124 auf Werte t6 und t6 und Gewicht 112 auf alle Werte zu allen Zeiten zwischen t5 und t5 an. In der R-Filter-Befehl, gut spezifizieren Sie einen zweiseitigen Filter, wenn wir Werte verwenden wollen, die vor und nach der Zeit für die Glättung kommen. Beachten Sie, dass auf der Seite 71 unseres Buches die Autoren gleiche Gewichte über einen zentrierten saisonalen gleitenden Durchschnitt anwenden. Das ist auch okay Zum Beispiel könnte ein vierteljährlich glatter zum Zeitpunkt t gefragt werden. Frak x frac x frac xt frac x frac x Ein monatlich glatter kann ein Gewicht von 113 auf alle Werte aus den Zeiten t-6 bis t6 anwenden. Der Code, den die Autoren auf Seite 72 verwenden, nutzt einen rep-Befehl, der einen Wert wiederholt eine gewisse Anzahl von Malen wiederholt. Sie verwenden nicht den Filterparameter im Filterbefehl. Beispiel 1 Vierteljährliche Bierproduktion in Australien In Lektion 1 und Lektion 4 sahen wir eine Reihe von vierteljährlichen Bierproduktionen in Australien. Der folgende R-Code erzeugt eine geglättete Reihe, die uns das Trendmuster sehen lässt, und zeichnet dieses Trendmuster auf demselben Graphen wie die Zeitreihe auf. Der zweite Befehl erzeugt und speichert die geglättete Serie im Objekt trendpattern. Beachten Sie, dass innerhalb des Filterbefehls der Parameter namens filter die Koeffizienten für unsere Glättung und die Seiten 2 ergibt, dass eine zentrierte glatte berechnet wird. (Beerprod. dat) trendpattern filter (beerprod, filter c (18, 14, 14, 14, 18), sides2) plot (beerprod, Typ b, Hauptverkehrsdurchschnitt jährlicher Trend) Linien (Trendmuster) Heres das Ergebnis: Wir Könnte das Trendmuster von den Datenwerten subtrahieren, um einen besseren Blick auf die Saisonalität zu erhalten. Heres, wie das geschehen würde: saisonale beerprod - trendpattern plot (saisonale, typ b, wichtig saisonale muster für bierproduktion) Das Ergebnis folgt: Eine weitere Möglichkeit zur Glättung von Serien, um den Trend zu sehen, ist der einseitige Filter Trendpattern2 Filter (Beerprod, Filter c (14, 14, 14, 14), Seiten1) Damit ist der geglättete Wert der Durchschnitt des vergangenen Jahres. Beispiel 2 U. S. Monatliche Arbeitslosigkeit In der Hausaufgabe für Woche 4 sahen Sie eine monatliche Reihe von U. S. Arbeitslosigkeit für 1948-1978. Heres eine Glättung getan, um den Trend zu betrachten. Trendunemploy Filter (arbeitslos, filterc (124,112,112,112,112,112,112,112,124), side2) trendunemploy ts (trendunemploy, start c (1948,1), freq 12) plot (trendunemploy, mainTrend in U. S. Arbeitslosigkeit, 1948-1978, xlab Jahr) Nur der geglättete Trend ist aufgetragen. Der zweite Befehl identifiziert die Kalenderzeitmerkmale der Serie. Das macht die Handlung eine sinnvollere Achse. Die Handlung folgt. Für nicht-saisonale Serien, Sie arent gebunden, um über eine bestimmte Spanne zu glätten. Für die Glättung sollten Sie mit gleitenden Durchschnitten verschiedener Spannen experimentieren. Diese Zeitspannen könnten relativ kurz sein. Das Ziel ist es, die rauen Kanten zu klopfen, um zu sehen, welcher Trend oder Muster dort sein könnte. Andere Glättungsmethoden (Abschnitt 2.4) Abschnitt 2.4 beschreibt mehrere anspruchsvolle und nützliche Alternativen zur gleitenden durchschnittlichen Glättung. Die Details können skizzenhaft erscheinen, aber das ist okay, weil wir nicht in vielen Details für diese Methoden verstoßen wollen. Von den alternativen Methoden, die in Abschnitt 2.4 beschrieben sind, kann eine niedrigere (lokal gewichtete Regression) am weitesten verbreitet sein. Beispiel 2 Fortsetzung Die folgende Kurve ist geglättet Trendlinie für die U. S. Unemployment-Serie, die mit einem lowess glatter, in dem eine erhebliche Menge (23) trug zu jeder geglätteten Schätzung. Beachten Sie, dass dies die Serie aggressiver geglättet hat als der gleitende Durchschnitt. Die Arbeitsgebiete waren arbeitslose ts (Arbeitslosigkeit, Start c (1948,1), freq12) Plot (lowess (arbeitslos, f 23), Haupt-Lowess-Glättung des US-Arbeitslosigkeits-Tendenz) Einzelne Exponential-Glättung Die grundlegende Prognosegleichung für eine einzelne exponentielle Glättung ist oft Als Hut alpha xt (1-alpha) Hut t Text Wir prognostizieren den Wert von x zum Zeitpunkt t1 eine gewichtete Kombination des beobachteten Wertes zum Zeitpunkt t und dem prognostizierten Wert zum Zeitpunkt t. Obwohl die Methode als Glättungsmethode bezeichnet wird, wird sie hauptsächlich für die kurzfristige Vorhersage verwendet. Der Wert wird als Glättungskonstante bezeichnet. Aus irgendeinem Grund ist 0,2 eine beliebte Standardauswahl von Programmen. Das ist ein Gewicht von 0,2 auf die jüngste Beobachtung und ein Gewicht von 1 .2 .8 auf die jüngste Prognose. Bei einem relativ kleinen Wert wird die Glättung relativ umfangreicher sein. Bei einem relativ großen Wert ist die Glättung relativ weniger umfangreich, da mehr Gewicht auf den beobachteten Wert gesetzt wird. Dies ist eine einfache einstufige Vorhersagemethode, die auf den ersten Blick kein Modell für die Daten zu verlangen scheint. In der Tat ist diese Methode gleichbedeutend mit der Verwendung eines ARIMA (0,1,1) Modells ohne Konstante. Das optimale Verfahren besteht darin, ein ARIMA (0,1,1) Modell an den beobachteten Datensatz anzupassen und die Ergebnisse zu verwenden, um den Wert von zu bestimmen. Dies ist optimal im Sinne der Erstellung der besten für die bereits beobachteten Daten. Obwohl das Ziel Glättung und ein Schritt voraus Prognose ist, bringt die Äquivalenz zum ARIMA (0,1,1) Modell einen guten Punkt. Wir sollten nicht blind auf exponentielle Glättung anwenden, weil der zugrunde liegende Prozess nicht gut durch eine ARIMA (0,1,1) modelliert werden kann. ARIMA (0,1,1) und exponentielle Glättungsäquivalenz Betrachten wir eine ARIMA (0,1,1) mit Mittelwert 0 für die ersten Differenzen xt - x t-1: beginnen Hasverstärker xt theta1 wt amp amp xt theta1 (xt - hat t) amp amp (1 theta1) xt - theta1hat neigen dazu. Wenn wir (1 1) und damit - (1) 1, so sehen wir die Äquivalenz der Gleichung (1) oben. Warum die Methode aufgerufen wird Exponentielle Glättung Dies ergibt die folgenden: Beginn Hut Amp-Amp Alpha xt (1-Alpha) Alpha x (1-Alpha) Hut Amp-Alpha xt Alpha (1-Alpha) x (1-Alpha) 2hat Ende Weiter Auf diese Weise durch sukzessives Ersetzen des prognostizierten Wertes auf der rechten Seite der Gleichung. Dies führt zu: Hut alpha xt alpha (1-alpha) x alpha (1-alpha) 2 x Punkte alpha (1-alpha) jx Punkte alpha (1-alpha) x1 Text Gleichung 2 zeigt, dass der prognostizierte Wert ein gewichteter Durchschnitt ist Von allen vergangenen Werten der Serie, mit exponentiell wechselnden Gewichten, wie wir in die Serie zurückkehren. Optimale Exponentialglättung in R Grundsätzlich passen wir einfach eine ARIMA (0,1,1) an die Daten und bestimmen den Koeffizienten. Wir können die Passform des Glattes untersuchen, indem wir die vorhergesagten Werte mit der aktuellen Serie vergleichen. Exponentielle Glättung neigt dazu, mehr als ein Prognosewerkzeug als ein echtes glatter verwendet zu werden, also sahen, um zu sehen, ob wir eine gute Passform haben. Beispiel 3 N 100 monatliche Beobachtungen des Logarithmus eines Ölpreisindex in den Vereinigten Staaten. Die Datenreihe ist: Ein ARIMA (0,1,1) passen in R gab einen MA (1) Koeffizienten 0,3877. Also (1 1) 1.3877 und 1-0.3877. Die exponentielle Glättungsvorhersagegleichung ist Hut 1.3877xt - 0.3877hat t Zur Zeit 100 ist der beobachtete Wert der Reihe x 100 0.86601. Der vorhergesagte Wert für die Serie zu diesem Zeitpunkt ist also die Prognose für die Zeit 101 ist Hut 1.3877x - 0.3877hat 1.3877 (0.86601) -0.3877 (0.856789) 0.8696 Im Folgenden ist, wie gut die glatter passt die Serie. Es ist eine gute Passform. Das ist ein gutes Zeichen für die Vorhersage, der Hauptzweck für diese glattere. Hier werden die Befehle verwendet, um die Ausgabe für dieses Beispiel zu generieren: Ölindex-Scan (oildata. dat) Plot (Ölindex, Typ b, Hauptprotokoll der Ölindex-Serie) expsmoothfit arima (Ölindex, Ordnung c (0,1,1)) expsmoothfit Um zu sehen, dass die Arima-Ergebnisse die Ölvorhersage vorhergesagt haben (extrozessive Residuale prognostizierte Werte) (Ölindex, Typb, Hauptspiegelung des Log of Oil Index) Zeilen (Vorhersagen) 1.3877oilindex100-0.3877predicteds100 Prognose für die Zeit 101 Doppelte Exponentialglättung Doppelte exponentielle Glättung könnte bei theres verwendet werden Trend (entweder Langzeit oder kurzer Lauf), aber keine Saisonalität. Im Wesentlichen schafft die Methode eine Prognose durch die Kombination von exponentiell geglätteten Schätzungen des Trends (Steigung einer Geraden) und der Ebene (grundsätzlich der Abzweigung einer Geraden). Zwei verschiedene Gewichte oder Glättungsparameter werden verwendet, um diese beiden Komponenten zu jeder Zeit zu aktualisieren. Der geglättete Pegel entspricht mehr oder weniger einer einfachen exponentiellen Glättung der Datenwerte und der geglättete Trend ist mehr oder weniger gleichbedeutend mit einer einfachen exponentiellen Glättung der ersten Differenzen. Die Vorgehensweise entspricht der Montage eines ARIMA (0,2,2) Modells, ohne Konstante kann es mit einer ARIMA (0,2,2) Passung durchgeführt werden. (1-B) 2 xt (1 & ndash; 1B theta 2 B 2) Gew. Navigation6.2 Umzugsdurchschnitte ma 40 elecsales, order 5 41 In der zweiten Spalte dieser Tabelle wird ein gleitender Durchschnitt von Ordnung 5 angezeigt, der eine Schätzung des Trendzyklus liefert. Der erste Wert in dieser Spalte ist der Durchschnitt der ersten fünf Beobachtungen (1989-1993) der zweite Wert in der 5-MA-Spalte ist der Durchschnitt der Werte 1990-1994 und so weiter. Jeder Wert in der 5-MA-Säule ist der Durchschnitt der Beobachtungen in der Fünfjahresperiode, die auf dem entsprechenden Jahr zentriert sind. Es gibt keine Werte für die ersten zwei Jahre oder die letzten zwei Jahre, weil wir nicht zwei Beobachtungen auf beiden Seiten haben. In der obigen Formel enthält Spalte 5-MA die Werte von Hut mit k2. Um zu sehen, wie die Trendzyklusschätzung aussieht, zeichnen wir sie zusammen mit den Originaldaten in Abbildung 6.7 aus. Plot 40 elecsales, main quotResidential Elektrizitätsverkäufe, ylab quotGWhquot. Xlab quotYearquot 41 Zeilen 40 ma 40 elecsales, 5 41. col quotredquot 41 Beachten Sie, wie der Trend (in Rot) glatter ist als die Originaldaten und erfasst die Hauptbewegung der Zeitreihe ohne all die kleinen Schwankungen. Die gleitende Durchschnittsmethode erlaubt keine Schätzungen von T, wobei t nahe den Enden der Reihe liegt, daher erstreckt sich die rote Linie nicht auf die Kanten des Graphen auf beiden Seiten. Später werden wir anspruchsvollere Methoden der Trendzyklusschätzung einsetzen, die Schätzungen in der Nähe der Endpunkte zulassen. Die Reihenfolge des gleitenden Durchschnitts bestimmt die Glätte der Trendzyklusschätzung. Im Allgemeinen bedeutet eine größere Ordnung eine glattere Kurve. Die folgende Grafik zeigt die Auswirkung der Änderung der Reihenfolge des gleitenden Durchschnitts für die Wohnungsdaten der Verkaufsdaten. Einfache gleitende Mittelwerte wie diese sind meist von ungerader Ordnung (zB 3, 5, 7 usw.). Das ist also symmetrisch: In einem gleitenden Durchschnitt der Ordnung m2k1 gibt es k frühere Beobachtungen, k spätere Beobachtungen und die mittlere Beobachtung Die gemittelt werden. Aber wenn m war sogar, wäre es nicht mehr symmetrisch. Verschieben von Durchschnittswerten der gleitenden Mittelwerte Es ist möglich, einen gleitenden Durchschnitt auf einen gleitenden Durchschnitt anzuwenden. Ein Grund dafür ist es, einen gleichmäßigen gleitenden Durchschnitt symmetrisch zu machen. Zum Beispiel könnten wir einen gleitenden Durchschnitt von Ordnung 4 nehmen und dann einen anderen gleitenden Durchschnitt von Ordnung 2 auf die Ergebnisse anwenden. In Tabelle 6.2 wurde dies für die ersten Jahre der australischen vierteljährlichen Bierproduktionsdaten durchgeführt. Bier2 lt-fenster 40 ausbeer, start 1992 41 ma4 ltmma 40 bier2, bestell 4. centre FALSE 41 ma2x4 ltmma 40 bier2, bestell 4. zentrum TRUE 41 Die notation 2times4-MA in der letzten Spalte bedeutet ein 4-MA Gefolgt von einem 2-MA. Die Werte in der letzten Spalte werden durch einen gleitenden Durchschnitt der Ordnung 2 der Werte in der vorherigen Spalte erhalten. Zum Beispiel sind die ersten beiden Werte in der 4-MA-Säule 451,2 (443410420532) 4 und 448,8 (410420532433) 4. Der erste Wert in der Spalte 2times4-MA ist der Durchschnitt dieser beiden: 450,0 (451,2448,8) 2. Wenn ein 2-MA einem gleitenden Durchschnitt der geraden Ordnung folgt (wie z. B. 4), wird er als zentrierter gleitender Durchschnitt von Ordnung 4 bezeichnet. Dies liegt daran, dass die Ergebnisse nun symmetrisch sind. Um zu sehen, dass dies der Fall ist, können wir die 2times4-MA wie folgt schreiben: begin Hut amp frac Bigfrac (y y y y) frac (y y y y) Big Amps frac y frac14y frac14y frac14y frac18y. Ende Es ist jetzt ein gewichteter Durchschnitt von Beobachtungen, aber es ist symmetrisch. Auch andere Kombinationen von gleitenden Durchschnitten sind möglich. Zum Beispiel wird oft ein 3times3-MA verwendet und besteht aus einem gleitenden Durchschnitt der Ordnung 3, gefolgt von einem anderen gleitenden Durchschnitt der Ordnung 3. Im Allgemeinen sollte eine gerade Ordnung MA von einer geraden Ordnung MA folgen, um sie symmetrisch zu machen. In ähnlicher Weise sollte eine ungerade Ordnung MA von einer ungeraden Ordnung MA folgen. Schätzung des Trendzyklus mit saisonalen Daten Die häufigste Verwendung von zentrierten gleitenden Durchschnitten ist die Schätzung des Trendzyklus aus saisonalen Daten. Betrachten Sie die 2times4-MA: Hut frac y frac14y frac14y frac14y frac18y. Bei der Anwendung auf vierteljährliche Daten wird jedes Viertel des Jahres gleichgewichtig, da die ersten und letzten Bedingungen für das gleiche Quartal in aufeinanderfolgenden Jahren gelten. Folglich wird die saisonale Variation gemittelt und die resultierenden Werte von Hut t haben wenig oder keine saisonale Variation übrig. Ein ähnlicher Effekt würde mit einem 2 x 8-MA oder einem 2 x 12-MA erhalten. Im Allgemeinen entspricht ein 2 x m-MA einem gewichteten gleitenden Durchschnitt der Ordnung m1 mit allen Beobachtungen, die das Gewicht 1m mit Ausnahme der ersten und letzten Begriffe, die Gewichte 1 (2m) nehmen, Wenn also die saisonale Periode gleich und von der Ordnung m ist, benutze ein 2 mal m-MA, um den Trendzyklus abzuschätzen. Wenn die Saisonperiode ungerade und der Ordnung m ist, verwenden Sie einen m-MA, um den Trendzyklus abzuschätzen. Insbesondere kann ein 2 x 12-MA verwendet werden, um den Trendzyklus der monatlichen Daten abzuschätzen und ein 7-MA kann verwendet werden, um den Trendzyklus der täglichen Daten abzuschätzen. Andere Entscheidungen für den Auftrag der MA werden in der Regel dazu führen, dass Trend-Zyklus-Schätzungen durch die Saisonalität in den Daten verunreinigt werden. Beispiel 6.2 Herstellung elektrischer Geräte Abbildung 6.9 zeigt eine 2-mal 12-MA, die auf den Index der elektronischen Ausrüstung angewendet wird. Beachten Sie, dass die glatte Linie keine Saisonalität zeigt, ist es fast das gleiche wie der Trendzyklus, der in Abbildung 6.2 gezeigt wird, der mit einer viel anspruchsvolleren Methode geschätzt wurde, als im Durchschnitt zu fahren. Jede andere Wahl für die Reihenfolge des gleitenden Durchschnitts (außer 24, 36, etc.) hätte zu einer glatten Linie geführt, die einige saisonale Schwankungen zeigt. Plot 40 elecequip, ylab quotNeu bestellt indexquot. Col quotgrayquot, main quotElektrische Geräteherstellung (Eurozone) 41 Zeilen 40 ma 40 elecequip, Auftrag 12 41. col quotredquot 41 Gewichtete Bewegungsdurchschnitte Kombinationen von gleitenden Durchschnitten führen zu gewichteten gleitenden Durchschnitten. Zum Beispiel entspricht der oben diskutierte 2x4-MA einem gewichteten 5-MA mit Gewichten, die durch frac, frac, frac, frac, frac gegeben sind. Im allgemeinen kann ein gewichteter m-MA als Hut t sum k aj y geschrieben werden, wobei k (m-1) 2 und die Gewichte durch a, Punkte, ak gegeben sind. Es ist wichtig, dass die Gewichte alle zu einem summieren und dass sie symmetrisch sind, so dass aj a. Die einfache m-MA ist ein Spezialfall, bei dem alle Gewichte gleich 1m sind. Ein großer Vorteil der gewichteten gleitenden Durchschnitte ist, dass sie eine glattere Schätzung des Trendzyklus ergeben. Anstelle von Beobachtungen, die die Berechnung mit vollem Gewicht betreten und verlassen, werden ihre Gewichte langsam erhöht und dann langsam verringert, was zu einer glatteren Kurve führt. Einige spezifische Sätze von Gewichten sind weit verbreitet. Einige davon sind in Tabelle 6.3 angegeben. Die Breite des sich bewegenden Fensters muss eine Ganzzahl zwischen 1 und n eine Option sein, um verschiedene Algorithmen zu wählen. C - eine Version ist in C geschrieben. Es kann nicht endliche Zahlen wie NaNs und Infs behandeln (wie Mittelwert (X, na. rm TRUE)). Es funktioniert am schnellsten für endrulemean. Schnell - zweites, noch schneller, C - Version. Dieser Algorithmus funktioniert nicht mit nicht-endlichen Zahlen. Es funktioniert auch am schnellsten für endrule anders als gemein. R - viel langsamer Code in R geschrieben. Nützlich für Debugging und als Dokumentation. Exakt - gleich C. mit der Ausnahme, dass alle Ergänzungen unter Verwendung eines Algorithmus durchgeführt werden, der die Hinzufügung von Rundungsfehlern markiert und korrigiert, wobei die Zeichenfolge angibt, wie die Werte am Anfang und am Ende der Daten behandelt werden sollen. Nur die ersten und letzten k2-Werte an beiden Enden sind betroffen, wobei k2 die Halbbandbreite ist k2 k 2. mean - wendet die zugrunde liegende Funktion auf kleinere und kleinere Abschnitte des Arrays an. Äquivalent zu: für (i in 1: k2) outi mean (x1: (ik2)). Diese Option ist in C if algC implementiert. Andernfalls erfolgt in R. trim - trim die endausgangsanordnung länge ist gleich länge (x) -2k2 (out out (k21): (n-k2)). Diese Option mimet die Ausgabe von apply (embed (x, k), 1, mean) und anderen verwandten Funktionen. Halten Sie die Enden mit Zahlen aus x Vektor (out1: k2 x1: k2) konstant - füllen Sie die Enden mit dem ersten und letzten berechneten Wert im Ausgabe-Array (out1: k2 outk21) NA - füllen Sie die Enden mit NAs (out1: k2 NA ) Func - gleich wie gemein, aber impliert in R. Diese Option könnte sehr langsam sein und ist meistens zum Testen enthalten. Ähnlich wie bei enden in laufender Funktion, die die folgenden Optionen hat: ldquo c (Median, halten, konstant) rdquo. spezifiziert ob Ergebnis Sollte zentriert sein (Standard), linksbündig oder rechtsbündig. Wenn endrule Mittel dann Einstellung Ausrichtung nach links oder rechts wird wieder auf langsamere Implementierung gleichbedeutend mit endrule func. Abgesehen von den Endwerten ist das Ergebnis von y runmean (x, k) das gleiche wie ldquo für (j (1k2): (n-k2)) yjmean (x (j-k2): (jk2)) rdquo. Der Hauptanreiz, diesen Satz von Funktionen zu schreiben, war die relative Langsamkeit der Mehrheit der bewegten Fensterfunktionen, die in R und seinen Paketen verfügbar sind. Mit Ausnahme von Runmed. Eine laufende Fenster-Median-Funktion, alle Funktionen, die in sehen, siehe auch Abschnitt sind langsamer als sehr ineffizient ldquo gelten (embed (x, k), 1, FUN) rdquo Ansatz. Relative Geschwindigkeit der Runmean-Funktion ist O (n). Funktion EndRule wendet eine der fünf Methoden an (siehe endrule-Argument), um Endpunkte des Eingabefeldes x zu verarbeiten. In der aktuellen Version des Codes wird die Standard-Endrulemean-Option innerhalb des C-Codes berechnet. Das ist getan, um die Geschwindigkeit im Falle von großen bewegten Fenstern zu verbessern. Im Falle einer runmean (. Algexact) - Funktion wird ein spezieller Algorithmus verwendet (siehe Referenzen), um sicherzustellen, dass sich Rundungsfehler nicht ansammeln. Als Ergebnis ist runmean genauer als Filter (x, rep (1k, k)) und runmean (. AlgC) Funktionen. Gibt einen numerischen Vektor oder eine Matrix mit der gleichen Größe wie x zurück. Nur im Falle von endruletrim werden die Ausgangsvektoren kürzer und die Ausgangsmatrizen haben weniger Zeilen. Die Funktion runmean (. Algexact) basiert auf Code von Vadim Ogranovich, der auf dem Python-Code basiert (siehe letzte Referenz), von Gabor Grothendieck hervorgehoben. Referenzen Über die in runmean verwendete Rundungsfehlerkorrektur. Shewchuk, Jonathan Adaptive Precision Floating-Point Arithmetik und schnell robuste geometrische Prädikate. Www-2.cs. cmu. eduafscsprojectquakepublicpapersrobust-arithmetic. ps Mehr zur Rundungsfehlerkorrektur finden Sie unter: aspn. activestateASPNCookbookPythonRecipe393090 Links in Bezug auf: Moving mean - mean. Kernapply Filter. zersetzen. Stl. Rollmean aus Zoo-Bibliothek, subsums aus Magic Library, Andere bewegte Fensterfunktionen aus diesem Paket: runmin. Runmax Runquantile Runmad und rund runed generic running windows Funktionen: anwenden (embed (x, k), 1, FUN) (am schnellsten), läuft aus gtools Paket (extrem langsam für diesen Zweck), subsums aus Magic Library können laufende Fensteroperationen auf Daten mit ausführen Beliebige Abmessungen Paket caTools Version 1.12 Index
Comments
Post a Comment