Ruchowa średnia szeregowa korelacja


Korelacja teorii ekonometrycznej Czasami, zwłaszcza w danych z serii czasowych, zerwanie założenia CLR (t. T 1) 0, epsilon) 0. Jest to znane w ekonometrii jako korelacja szeregowa lub autokorelacja. Oznacza to, że c (t. 1) 0, epsilon) neq 0 i jest wzór w zakresie błędów. Określenia błędów nie są następnie następnie niezależne w obrębie obserwacji i nie są przypadkowe. Przykłady autokorelacji Edytuj Kiedy termin błędu jest związany z poprzednim terminem błędu, można go zapisać w równaniu algebraicznym. t t t rho epsilon u gdzie jest współczynnik autokorelacji między dwoma warunkami zakłóceń, a u jest okresem zakłóceń autokorelacji. Jest to proces znany jako proces autoregresji. 1 litera epsilon) lt1 U jest potrzebna w równaniu, ponieważ chociaż warunek błędu jest mniej przypadkowy, to ma on niewielki wpływ losowy. Korelacja seryjna n-tego zamówienia Edycja modelu autoregresji Edycja pierwszej kolejności Proces autoregresji, AR (1). t t u t rho epsilon u To jest znane jako autoregresja pierwszego rzędu z powodu błędu tylko w zależności od poprzedniego błędu. nth order Proces autoregresji, AR (n). t 1 t 1 2 t 2 ntnut rho epsilon rho epsilon cdots rho epsilon u model ruchomy średniej Edycja zapisu MA (q) odnosi się do ruchomych średnich wzorów rzędu q: X tti 1 qiti mu varepsilon sum theta varepsilon, gdzie 1 . q są parametrami modelu, jest oczekiwanie na Xt (często zakładane na równe 0), a t. t 1. są ponownie białe błędy szumu. Ruchomej średniej postaci jest zasadniczo skończonym filtrem odpowiedzi impulsowej z pewną dodatkową interpretacją na niej umieszczoną. Model średniej autoregulacji Odchylenie ARMA (p. Q) odnosi się do modelu ze słowami o autoregresji i q średnim ruchem średnim. Model ten zawiera modele AR (p) i MA (q), X t c t i 1 p i X t i i 1 q i t i. cvarepsilon sum varphi X sum theta varepsilon, przyczyny autokorelacji Edytuj (t. t 1) 0, epsilon) neq 0 Przestrzenna autokorelacja zachodzi wtedy, gdy oba błędy są specjalnie i / lub geograficznie powiązane. W prostszy sposób są one obok siebie. Przykłady: miasto św. Pawła ma skok przestępczości i zatrudnia dodatkową policję. W następnym roku stwierdzili, że liczba przestępstw znacznie się obniżyła. Co ciekawe, miasto Minneapolis, które nie dostosowało swojej policji, stwierdziło, że w tym samym okresie zwiększyły się wskaźniki przestępczości. Uwaga: ten typ Autokorelacji występuje w próbkach przekrojowych. InertiaTime to Adjust (Częstotliwość bezwładności) Często występuje w danych makro, danych szeregowych. Amerykańskie stopy procentowe nieoczekiwanie wzrastają, a zatem są związane zmiany kursów walut z innymi krajami. Osiągnięcie nowej równowagi mogło trochę potrwać. Długie wpływy Jest to kolejny problem z serii Makro, dotyczący szoków ekonomicznych. Obecnie oczekuje się wzrostu amerykańskiej stopy procentowej. Związane z nimi kursy walut powoli zaczną się poprawiać - do czasu ogłoszenia przez Rezerwę Federalną i mogą przekroczyć równowagę. Wygładzanie danych Korzystanie z funkcji do płynnych danych przyniesie autokorelację w warunkach zakłóceń. Nieprecyzyjna regresja W regresji często pojawiają się oznaki autokorelacji, gdy są pominięte zmienne. Ponieważ istniejąca niezależna zmienna istnieje już w okresie zakłóceń, pojawia się termin zakłóceń, który wygląda następująco: t 2 X 2 ut beta X u, gdy poprawna specyfikacja jest Y t 0 1 X 1 2 X 2 ut beta beta X beta X u Konsekwencje Autokorelacji Edytuj Głównym problemem związanym z autokorelacją jest to, że może sprawić, że model wygląda lepiej niż jest w rzeczywistości. Lista konsekwencji Edytuj Współczynniki są ciągle nieosiągalne E (t) 0. c o v (X t. U t) 0) 0, cov (X, u) 0 Prawdziwa odchylenie wzrasta, dzięki obecności autokorelacji. Szacowana odchylenie jest mniejsza ze względu na autokorelację (odchylenie w dół). Spadek s e () i wzrost statystyk t powoduje, że estymator wygląda bardziej dokładniej, niż jest w rzeczywistości. R staje się zawyżony. Wszystkie te problemy powodują, że testy hipotetyczne stają się nieważne. Autokorelacja danych. 2 działa, ale prawdziwe OLS, których nigdy nie dowiedzieliśmy, jest gdzieś w środku. Testowanie autokorelacji Edytuj Mimo że nie jest rozstrzygające, można uzyskać wrażenie poprzez wyświetlenie wykresu zmiennej zależnej względem błędu (mianowicie resztki rozproszonej). Test Durbin-Watson: Przyjmij tt 1 t epsilon rho u Test H (0): 0 (brak AC) względem H (1): gt 0 (test jednokrotnie) Statystyka badania DW (tt 1) ​​2 2 2 2 - epsilon ) 2-2rho Każda wartość w D (L) (w tabeli DW) odrzuca hipotezę zerową i istnieje AC. Każda wartość pomiędzy D (L) a D (W) pozostawia nam bez wniosku o AC. Każda wartość większa niż D (W) akceptuje hipotezę zerową, a AC nie istnieje. Uwaga, jest to jeden test ogonowy. Aby dostać drugi ogon. Użyj 4-DW zamiast statycznego testu. Automagnetyczna średnia ruchoma ARIMA (p, d, q) Modele do analizy serii czasowej W poprzednim zestawie artykułów (części 1. 2 i 3) poszliśmy do znaczących szczegółów na temat AR ( p), MA (q) i ARMA (p, q) liniowych serii czasowych. Użyliśmy tych modeli do generowania symulowanych zestawów danych, zamontowanych modeli w celu odzyskania parametrów, a następnie zastosowali te modele do danych finansowych. W tym artykule omówimy rozszerzenie modelu ARiMR, mianowicie modelu Autoregresywnego Ruchu Średniej Zintegrowanego lub modelu ARIMA (p, d, q). Zobaczymy, że należy wziąć pod uwagę model ARIMA, gdy mamy niestacjonarne serie. Takie serie pojawiają się w obecności trendów stochastycznych. Krótkie podsumowanie i kolejne kroki Do tej pory rozważaliśmy następujące modele (łącza prowadzą do odpowiednich artykułów): Stale wzbogacamy nasze zrozumienie szeregu czasowego takimi jak korelacja szeregowa, stacjonarność, liniowość, resztki, korelegramy, symulacja, dopasowanie, sezonowość, warunkowa heteroskompresja i testowanie hipotez. Dotychczas nie przeprowadziliśmy prognoz ani prognoz z naszych modeli i nie mieliśmy żadnego mechanizmu tworzenia systemu obrotu lub krzywej akcji. Po zapoznaniu się z ARIMA (w tym artykule) ARCH i GARCH (w następnych artykułach) będziemy w stanie zbudować podstawową długoterminową strategię handlową opartą na przewidywaniu zwrotów z indeksu giełdowego. Pomimo faktu, że wiele szczegółów dotyczących modeli, które znamy, nie przyniesie największych osiągnięć (AR, MA, ARMA), jesteśmy teraz dobrze zorientowani w procesie modelowania szeregów czasowych. Oznacza to, że kiedy przyjdziemy na badania nad nowymi modelami (a nawet tymi, które znajdują się obecnie w piśmiennictwie badawczym), będziemy mieli dużą wiedzę, na podstawie której będziemy narysować, aby skutecznie ocenić te modele zamiast traktować je jako klucz zwrotny recepty lub czarne pudełko. Co ważniejsze, daje nam to pewność, że rozszerzymy je i zmodyfikujemy samodzielnie i zrozumiemy, co robimy, kiedy to robimy. Chciałbym podziękować Ci za cierpliwość do tej pory, ponieważ mogłoby się wydawać, że te artykuły są daleko od prawdziwe działanie rzeczywistego obrotu. Jednakże, prawdziwe ilościowe badania handlowe są uważne, mierzone i wymagają dużo czasu na poprawę. Nie ma szybkiej naprawy ani bogatych systemów w handlu kwantowym. Byliśmy bardzo blisko gotowych rozważać nasz pierwszy model handlowy, który będzie mieszaniną ARIMA i GARCH, więc koniecznie musimy poświęcić trochę czasu na zrozumienie modelu ARIMA. Gdy skonstruujemy nasz pierwszy model handlowy, rozważymy więcej zaawansowane modele, takie jak procesy pamięci długiej, modele przestrzeni państwowej (np. filtr Kalmana) i modele autoregresji wektorowej (VAR), które doprowadzą nas do innych, bardziej wyrafinowanych strategii handlowych. Autoregresywne, zintegrowane średnie ruchome (ARIMA) Modele rzędu p, d, q modele ARIMA są stosowane, ponieważ mogą zredukować niestacjonarne serie do serii stacjonarnych przy użyciu sekwencji różnych kroków. Możemy sobie przypomnieć z artykułu o białym hałasie i losowych spacery, że jeśli zastosujemy operatora różnicy do serii walk losowych (serii niestacjonarnych) pozostajemy z białym szumem (stacjonarne serie): start nabla xt xt - x wt koniec ARIMA zasadniczo wykonuje tę funkcję, ale robi to wielokrotnie, d razy, w celu zredukowania niestacjonarnych serii do stacjonarnych. W celu obsługi innych form niestacjonarności poza stochastycznymi trendami można używać dodatkowych modeli. Efekty sezonowości (takie jak te, które występują w cenach towarowych) można rozwiązać za pomocą modelu ARIMA sezonowego (SARIMA), jednak w tej serii nie będziemy rozmawiać z SARIMA. Warunkowe efekty heteroskrzydłowe (jak w przypadku indeksowania indeksów zmienności) można rozwiązać za pomocą ARCHGARCH. W tym artykule będziemy rozważać niestacjonarne serie ze stochastycznymi trendami i dopasować modele ARIMA do tych serii. Będziemy wreszcie przedstawić prognozy dla naszej serii finansowej. Definicje Przed definiowaniem procesów ARIMA musimy omówić koncepcję zintegrowanej serii: Zintegrowana seria zamówień d Seria czasu jest zintegrowana z zamówieniem d. I (d), jeśli: begin nablad xt wt end To znaczy, jeśli różni się seria d otrzymamy dyskretny szum białych szumów. Alternatywnie, przy użyciu Operatora Przesunięcia Wstecznego warunek równoważny to: Po zdefiniowaniu zintegrowanej serii możemy zdefiniować sam proces ARIMA: Autoregresywny Zintegrowany Średni Ruchowy Model p, d, q Szereg czasowy to autoregresywny zintegrowany model średniej ruchomości rzędu p, d, q. ARIMA (p, d, q). jeśli nablad xt jest autoregresywną średnią ruchową rzędu p, q, ARMA (p, q). Oznacza to, że jeśli serie są zróżnicowane d razy, a następnie następuje proces ARMA (p, q), to jest to seria ARIMA (p, d, q). Jeśli używamy zapisu wielomianowego z części 1 i 2 serii ARMA, proces ARIMA (p, d, q) można zapisać w kategoriach operatora przewijania wstecznego. : Gdzie wt jest dyskretnym szumem białego szumu. Istnieją pewne punkty do zapoznania się z tymi definicjami. Ponieważ losowy chód jest podawany przez xt x wt, widać, że I (1) jest inną reprezentacją, ponieważ nabla1 xt wt. Jeśli podejrzewamy tendencję nieliniową, będziemy mogli użyć powtarzających się różnic (t. e gt), aby zredukować szeregi do stacjonarnego białego szumu. W R możemy użyć polecenia diff z dodatkowymi parametrami, np. diff (x, d3) w celu przeprowadzenia powtarzających się różnic. Symulacja, korelogram i dopasowanie modelu Ponieważ już wykorzystaliśmy komendę arima. sim do symulacji procesu ARMA (p, q), poniższa procedura będzie podobna do procedury przeprowadzonej w części 3 serii ARMA. Najważniejszą różnicą jest to, że ustalimy teraz d1, czyli stwórzmy niestacjonarne szeregi czasowe ze stochastycznym składnikiem trenującym. Tak jak poprzednio, dopasowujemy model ARIMA do naszych symulowanych danych, próbujemy odzyskać parametry, utworzyć przedziały ufności dla tych parametrów, wytworzyć korelikę pozostałości modelu i wreszcie przeprowadzić test Ljung-Box, aby ustalić, czy mamy dobre dopasowanie. Zamierzamy symulować model ARIMA (1,1,1), z autoregresywnym współczynnikiem alpha0.6 i średnią ruchomą beta-0.5. Oto kod R do symulacji i wykreowania takiej serii: Teraz, gdy mamy symulowane serie, spróbujemy dopasować model ARIMA (1,1,1). Ponieważ znamy kolejność, po prostu określimy to w dopasowaniu: przedziały ufności są obliczane jako: Oba oszacowania parametrów mieszczą się w przedziałach ufności i są zbliżone do wartości rzeczywistych parametrów symulowanej serii ARIMA. Nie powinniśmy więc być zaskoczeni tym, że resztki wyglądają jak realizacja dyskretnego białego szumu: wreszcie możemy przeprowadzić test Ljung-Box, aby dostarczyć statystycznych dowodów na dobre dopasowanie: widać, że wartość p jest znacząco większa niż 0,05 i jako takie możemy stwierdzić, że istnieją silne dowody na dyskretny biały hałas, który jest dobrym dopasowaniem do resztek. Stąd model ARIMA (1,1,1) jest dobrym dopasowaniem, zgodnie z oczekiwaniami. Dane finansowe i przewidywania W tej sekcji zamierzamy dopasować modele ARIMA do Amazon, Inc. (AMZN) i SampP500 US Equity Index (GPSC, w Yahoo Finance). Wykorzystamy prognozowaną bibliotekę, napisaną przez Rob J Hyndmana. Pozwala kontynuować i zainstalować bibliotekę w R: Teraz możemy korzystać z quantmod, aby pobrać codzienną serię cen Amazon od początku 2017 roku. Ponieważ już podjęliśmy już pierwsze zlecenia w serii, dopasowanie ARIMA przeprowadzone wkrótce nie wymaga d gt 0 dla składnika zintegrowanego: jak w części 3 serii ARMA, będziemy teraz pętli kombinacje p, d i q, aby znaleźć optymalny model ARIMA (p, d, q). Optymalnie rozumiemy kombinację zleceń, która minimalizuje Akaike Information Criterion (AICACA): widać, że wybrano p4, d0, q4. Warto zauważyć, że d0, ponieważ mamy już do czynienia z różnymi rzędami pierwszego rzędu: jeśli wymyślimy korelogram pozostałości, możemy sprawdzić, czy mamy dowody na dyskretne białe szumy: istnieją dwa znaczące piki, mianowicie w k15 i k21, chociaż powinniśmy spodziewać się statystycznie znaczących pików po prostu z powodu odchylenia próbki 5 razy. Pozwala przeprowadzić test Ljung-Box (patrz poprzedni artykuł) i sprawdzić, czy mamy dowody na dobre dopasowanie: jak widać wartość p jest większa niż 0,05, a więc mamy dowody na dobre dopasowanie na poziomie 95. Teraz możemy użyć prognozy z biblioteki prognoz, aby przewidzieć 25 dni do przodu dla serii zwrotów Amazon: widzimy prognozy dotyczące punktów na najbliższe 25 dni z 95 (ciemnoniebieskim) i 99 (jasnoniebieskim) pasm błędów . Będziemy używać tych prognoz w naszym pierwszym cyklu strategii handlowej, gdy połączymy ARIMA i GARCH. Wykonaj tą samą procedurę dla SampP500. Po pierwsze otrzymujemy dane z quantmod i przekształcamy je w dzienny strumień powrotów: dopasowujemy model ARIMA przez zapętlenie wartości p, d i q: AIC mówi nam, że najlepszym modelem jest ARIMA (2,0, 1) model. Zauważ jeszcze raz, że d0, ponieważ już mamy pierwsze różnice porządkowe w serii: Możemy sprecyzować resztki modelu, aby sprawdzić, czy mamy dowody dyskretnego białego szumu: korespregacja wygląda obiecująco, więc następnym krokiem jest uruchomienie test Ljung-Box i potwierdzamy, że mamy dobre dopasowanie modelu: ponieważ wartość p jest większa niż 0,05, mamy dowody na dobre dopasowanie modelu. Dlaczego w poprzednim artykule test Ljung-Box dla SampP500 wykazał, że ARMA (3,3) był słabo przystosowany do dziennych powrotów dzienników Zwróć uwagę, że celowo obcięto dane SampP500, które zaczną się od 2017 roku w tym artykule , co wyklucza niestabilne okresy w latach 2007-2008. Stąd wyłączyliśmy dużą część SampP500, gdzie mieliśmy nadmierne skupienie się na zmienności. To wpływa na szeregową korelację serii i tym samym skutkuje tym, że serie wydają się bardziej stacjonujące niż było w przeszłości. Jest to bardzo ważny punkt. Podczas analizy serii czasowych musimy bardzo uważać na warunkowo heteroseksualne serie, takie jak indeksy giełdowe. W finansowaniu ilościowym próbuje określić okresy o różnej zmienności, często określane jako wykrywanie reżimu. Jest to jeden z trudniejszych zadań do osiągnięcia W tym artykule omówimy ten punkt w dalszej części, gdy przyjrzymy się modelom ARCH i GARCH. Pozwala teraz przedstawić prognozę na najbliższe 25 dni dziennika dziennego SampP500: teraz, gdy mamy zdolność dopasowywania i prognozowania modeli takich jak ARIMA, były bardzo bliskie możliwości tworzenia wskaźników strategicznych dla handlu. Następne kroki W następnym artykule przyjrzymy się modelowi GARCH (ang. Generalized Autoregressive Conditional Heteroscedasticity) i skorzystaj z niego w celu wyjaśnienia większej korelacji szeregowej w pewnych akcjach i indeksach akcji. Po omówieniu GARCH będziemy mogli połączyć je z modelem ARIMA i tworzyć wskaźniki sygnałowe, a tym samym podstawową strategię ilościową. Pierwsze kroki w przemyśle lotniczym Średnia przemieszczająca się średnia ARMA (p, q) Modele do analizy serii czasowej - część 3 Jest to trzeci i ostatni post w mini serii w modelach ARMA (Autoregressive Moving Average) do analizy serii czasowych. W poprzednich artykułach przedstawiliśmy modele autoregresji i modele Moving Average. Teraz nadszedł czas na połączenie ich w celu stworzenia bardziej wyrafinowanego modelu. Ostatecznie doprowadzi to do modeli ARIMA i GARCH, które umożliwią nam przewidywanie zwrotu aktywów i prognozy zmienności. Modele te będą stanowiły podstawę sygnałów handlowych i technik zarządzania ryzykiem. Jeśli przeczytałeś część 1 i 2, zobaczysz, że mamy tendencję do śledzenia wzoru do analizy modelu serii czasowej. Powtórz to krótko tutaj: Uzasadnienie - dlaczego jesteśmy zainteresowani tym konkretnym modelem Definicja - definicja matematyczna w celu zmniejszenia dwuznaczności. Correlogram - Wykreślenie próbki korelgramu w celu wizualizacji zachowania modelu. Symulacja i dopasowanie - dopasowanie modelu do symulacji, w celu zapewnienia prawidłowego zrozumienia modelu. Prawdziwe dane finansowe - zastosuj model do rzeczywistych cen aktywów historycznych. Przewidywanie - prognozuj kolejne wartości do budowy sygnałów handlowych lub filtrów. Aby śledzić ten artykuł, warto zapoznać się z wcześniejszymi artykułami dotyczącymi analizy serii czasowych. Mogą się tu znaleźć. Kryterium informacji Bayesiana W części 1 tego artykułu omówiliśmy Kryterium Informacyjne Akaike (AKAike Information Criterion - AICACA) w celu pomagania nam w wyborze pomiędzy osobnymi modelami najlepszych serii czasowych. Ścisłym narzędziem jest kryterium informacji bajeskiej (ang. Bayesian Information Criterion - BIC). Zasadniczo ma podobne zachowanie do AIC w tym, że penalizuje modele za zbyt wiele parametrów. Może to prowadzić do nadmiernego zużycia. Różnica między BIC a AIC polega na tym, że BIC jest bardziej rygorystyczny, a jego karanie dodatkowych parametrów. Kryterium informacji Bayesiego Jeśli przyjmiemy funkcję prawdopodobieństwa dla modelu statystycznego, który ma k parametry, a L zmaksymalizuje prawdopodobieństwo. to Bayesian Information Criterion podaje: Gdzie n jest liczbą punktów danych w serii czasowej. Będziemy używać AIC i BIC poniżej przy wyborze odpowiednich modeli ARMA (p, q). Test Ljung-Box W części 1 tego artykułu seria Rajan wspomniała w komentarzu Disqus, że test Ljung-Box był bardziej odpowiedni niż użycie Kryterium Informacyjnego Akaike Kryterium Informacyjnego Bayesian w celu określenia, czy model ARMA był dobry do epoki seria. Test Ljung-Box jest klasycznym testem hipotezowym, który ma na celu zbadanie, czy zestaw autokorelacji dopasowanego modelu serii czasowej różni się istotnie od zera. Test nie testuje każdego przypadkowego opóźnienia losowego, ale raczej testuje losowość w grupie opóźnień. Badanie Ljung-Box Zdefiniujmy hipotezę zerową jako: Dane z serii czasowej w każdym opóźnieniu to i. i.d. Oznacza to, że korelacje pomiędzy wartościami serii populacji są zerowe. Zdefiniujmy alternatywną hipotezę: Dane z serii czasowych nie są i. i.d. i posiadają korelację szeregową. Obliczamy następującą statystykę testową. P: Gdzie n jest długością próbki serii czasowej, kapelusz k jest autokorelacją próbki w punkcie lag k, a h jest liczbą opóźnień w teście. Zasadą decyzyjną dotyczącą odrzucenia hipotezy zerowej jest sprawdzenie, czy Q gt chi2, dla rozkładu chi-kwadratowego z h stopniami swobody w 100 (1-alfa) th percentile. Chociaż szczegóły testu mogą wydawać się nieco skomplikowane, w rzeczywistości możemy użyć R, aby obliczyć test dla nas, upraszczając procedurę nieco. Średnia przemieszczania się z autogryzją (ARMA) Modele porządku p, q Teraz, gdy dyskutowaliśmy na temat BIC i testu Ljung-Box, byliśmy gotowi omówić nasz pierwszy model mieszany, a mianowicie Średnia ruchów autoregresji rzędu p, q lub ARMA (p, q). Do tej pory rozważaliśmy procesy autoregresji i przenoszenie średnich procesów. Poprzedni model traktuje własne zachowania w przeszłości jako dane wejściowe do modelu i jako takie próby przechwytywania efektów uczestnictwa w rynku, takich jak pęd i średni zwrotność w obrocie giełdowym. Ten ostatni model jest wykorzystywany do scharakteryzowania informacji szokowych w szeregu, takich jak ogłoszenie o zarabianiu niespodzianek lub niespodziewane zdarzenie (np. Wyciek oleju BP Deepwater Horizon). W związku z tym model ARiMR próbuje uchwycić oba te aspekty podczas modelowania serii czasowych finansowych. Zauważ, że model ARMA nie uwzględnia klastrowania zmienności, kluczowego zjawiska empirycznego wielu finansowych serii czasowych. Nie jest to model warunkujący heteroseksualność. W tym celu musimy poczekać na modele ARCH i GARCH. Definicja Model ARMA (p, q) jest liniową kombinacją dwóch modeli liniowych, a więc jest ciągle liniowy: Autoregresywny Średnia ruchoma Model wzoru p, q Model szeregowy czasowy, jest autoregresywnym średnim ruchem modelu rzędu p, q . ARMA (p, q), jeśli: begin xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w end Gdzie jest biały hałas z E (wt) 0 i sigma2 wariancji. Jeśli weźmiemy pod uwagę Operatora Przesuwania Wstecznego. (patrz poprzedni artykuł), możemy następnie przepisać powyższe jako funkcję theta i phi: Z łatwością możemy zauważyć, że poprzez ustawienie p neq 0 i q0 odzyskamy model AR (p). Podobnie, jeśli ustawimy p 0 i q neq 0, odzyskamy model MA (q). Jedną z kluczowych cech modelu ARiM jest fakt, że w parametrach jest oszczędny i zbędny. Oznacza to, że model ARMA często wymaga mniej parametrów niż sam model AR (p) lub MA (q). Ponadto, jeśli przepisujemy równanie w kontekście BSO, to wielomiany teta i phi mogą czasami mieć wspólny współczynnik, co prowadzi do prostszego modelu. Symulacje i korelogramy Podobnie jak w przypadku autoregresji i przeciętnych modeli, będziemy symulować różne serie ARMA, a następnie próbować dopasować modele ARMA do tych realizacji. Wykonujemy to dlatego, że chcemy zapewnić, że zrozumiemy procedurę dopasowania, w tym sposób obliczania przedziałów ufności dla modeli, a także zapewnić, że procedura rzeczywiście odzyskuje uzasadnione szacunki dla oryginalnych parametrów ARMA. W części 1 i 2 ręcznie skonstruowaliśmy serię AR i MA, narysując N próbek z rozkładu normalnego, a następnie opracowano specyficzny model szeregów czasowych przy użyciu opóźnień w tych próbkach. Istnieje jednak prostszy sposób na symulowanie danych AR, MA, ARMA, a nawet ARIMA, po prostu przy użyciu metody arima. sim w R. Pozwala rozpocząć od najprostszego możliwego nietrywialnego modelu ARiMR, a mianowicie ARiMR (1,1 ) Model. Oznacza to, że autoregresywny model porządku jeden w połączeniu z ruchomym średnim modelem kolejności. Taki model ma tylko dwie współczynniki, alfa i beta, które reprezentują pierwsze opóźnienia samego szeregu czasowego i szok białego szumu. Taki model jest określony przez: Przed symulacją musimy określić współczynniki. Przyjmijmy alfa 0.5 i beta -0.5: Wyjście jest następująco: Pozwala także wykreślić koreklogram: widać, że nie ma istotnej autokorelacji, którą można oczekiwać od modelu ARMA (1,1). Na koniec spróbuj obliczyć współczynniki i ich standardowe błędy za pomocą funkcji arima: możemy obliczyć przedziały ufności dla każdego parametru za pomocą standardowych błędów: przedziały ufności zawierają prawdziwe wartości parametrów dla obu przypadków, ale należy zauważyć, że 95 przedziały ufności są bardzo szerokie (wynika to z dość dużych błędów standardowych). Pozwala teraz wypróbować model ARMA (2,2). Oznacza to model AR (2) połączony z modelem MA (2). Musimy określić cztery parametry tego modelu: alfa1, alfa2, beta1 i beta2. Pozwala zabrać alpha1 0.5, alpha2-0.25 beta10.5 i beta2-0.3: Wyjście naszego modelu ARMA (2,2) wygląda następująco: A odpowiadająca im autokorelacja: teraz możemy spróbować dopasować model ARMA (2,2) do dane: Możemy również obliczyć przedziały ufności dla każdego parametru: Zwróć uwagę, że przedziały ufności dla współczynników dla ruchomych składników średniej (beta1 i beta2) w rzeczywistości nie zawierają pierwotnej wartości parametru. Wskazuje to na niebezpieczeństwo próby dostosowania modeli do danych nawet wtedy, gdy znamy prawdziwe wartości parametrów. Jednak w celach handlowych potrzebujemy tylko siły predykcyjnej, która przekracza szansę i osiąga wystarczająco dużo zysków powyżej kosztów transakcji, aby zyskać na zyskach długi bieg. Teraz, gdy widzimy kilka przykładów symulowanych modeli ARMA, potrzebujemy mechanizmu wyboru wartości p i q przy dopasowywaniu modeli do rzeczywistych danych finansowych. Wybór najlepszego modelu ARMA (p, q) Aby określić, która kolejność p, q modelu ARMA jest odpowiednia dla szeregu, musimy użyć AIC (lub BIC) w podzbiorze wartości dla p, q i a następnie zastosuj test Ljung-Box, aby ustalić, czy zostało osiągnięte dobre dopasowanie, dla konkretnych wartości p, q. Aby pokazać tę metodę, najpierw będziemy symulować konkretny proces ARMA (p, q). Będziemy wtedy pętli wszystkie pary wartości p in i q in i obliczyć AIC. Wybieramy model z najniższym AIC, a następnie test Ljung-Box na resztkach, aby ustalić, czy osiągnęliśmy dobre wyniki. Zacznijmy od symulacji serii ARMA (3,2): teraz utworzymy obiekt, który pozwoli zachować najlepsze dopasowanie modelu i najniższą wartość AIC. Pętlę nad różnymi kombinacjami p, q i używamy bieżącego obiektu do przechowywania dopasowania modelu ARMA (i, j) dla zmiennych pętli i i j. Jeśli bieżący AIC jest mniejszy niż jakikolwiek wcześniej wyliczony AIC, ustawiamy końcowy AIC na tę bieżącą wartość i wybierz tę kolejność. Po zakończeniu pętli mamy kolejność modelu ARMA przechowywanego w final. order i ARIMA (p, d, q) dopasowują się (ze zintegrowanym składnikiem d ustawionym na 0) przechowywanej jako final. arma: Pozwala wyprowadzić AIC , rzędu i współczynników ARIMA: widać, że pierwotny porządek symulowanego modelu ARMA został odzyskany, a mianowicie z p3 i q2. Możemy sprecyzować corelogram pozostałości modelu, aby zobaczyć, czy wyglądają na realizację dyskretnego białego szumu (DWN): Corelogram rzeczywiście wygląda jak realizacja DWN. Wreszcie, wykonujemy test Ljung-Box na 20 opóźnień, aby to potwierdzić: Zauważ, że wartość p jest większa niż 0,05, co oznacza, że ​​reszty są niezależne na poziomie 95, a zatem model ARMA (3,2) zapewnia dobre dopasowanie modelu. Oczywiście tak powinno być w przypadku, gdy sam skomentowaliśmy dane. Jednak właśnie ta procedura zostanie użyta, gdy dopasujemy modele ARMA (p, q) do indeksu SampP500 w następnej sekcji. Dane finansowe Teraz, gdy przedstawiliśmy procedurę wyboru optymalnego modelu szeregowego dla serii symulowanych, stosujemy je do danych finansowych. W tym przykładzie po raz kolejny wybieramy SampP500 US Equity Index. Pozwala na pobieranie dziennych cen zamknięcia przy użyciu quantmod, a następnie utworzenie strumienia powrotnego: umożliwia wykonanie tej samej procedury dopasowania jak w symulowanych seriach ARMA (3,2) powyżej w dzienniku zwraca serie SampP500 przy użyciu modelu AIC: najlepszy model dopasowania ma zlecenie ARMA (3,3): Pozwala wyznaczyć resztki dopasowanego modelu do codziennego strumienia danych dziennika SampP500: Zauważ, że istnieją znaczne piki, zwłaszcza przy wyższych opóźnieniach. To wskazuje na słabe dopasowanie. Pozwala przeprowadzić test Ljung-Box, aby sprawdzić, czy mamy statystyczne dowody na to: jak podejrzewaliśmy, wartość p jest mniejsza niż 0,05 i jako taka nie możemy powiedzieć, że resztki są realizacją dyskretnego białego szumu. Stąd istnieje dodatkowa autokorelacja w resztach, której nie wyjaśniono w modelu ARMA (3,3). Następne etapy Jak omawialiśmy cały czas w tej serii artykułów, zobaczyliśmy dowody warunkowej heteroskompresji (klasteryzacja lotności) w serii SampP500, zwłaszcza w okresach około 2007-2008. Kiedy w serii artykułów użyjemy modelu GARCH, zobaczymy, jak wyeliminować te autokorelacje. W praktyce modele ARMA nigdy nie są właściwie przystosowane do zwrotu papierów wartościowych. Musimy wziąć pod uwagę warunkową heteroskompresję i używać kombinacji ARIMA i GARCH. Następny artykuł będzie rozpatrywać ARIMA i pokazać, jak zintegrowany składnik różni się od modelu ARMA, który rozważaliśmy w tym artykule. Tylko początek modelu ilościowego TradingAR: tryb autoregresji jest regresją zmiennej przeciwko sobie (wcześniejsze wartości zmiennej prognozowanej). Autoregresywny model rzędu p, AR (p) może być zapisany jako y t c 1 y t 1 2 y t 2 p y t p e t. gdzie c jest stałą i e t jest białym szumem. Model MA: W przeciwieństwie do modelu AR, model średniej ruchomości wykorzystuje poprzednie błędy prognozy w modelu regresji. Ruchomy średni model rzędu q, MA (q) można zapisać jako y t c e t 1 e t 1 2 e t 2 q e t q. gdzie e t jest białym szumem. W obu przypadkach terminem błędu jest biały szum. Z powyższego wzoru możemy jasno zobaczyć, jak różne modele błędów są modelowane inaczej w obu modelach. W modelu AR, opóźnione wartości y t są predyktorami. I model błędu e t w modelu jest podobny do błędu w wielu regresji liniowej. W modelu MA poprzednie błędy prognozy są predykcjami. Warto zauważyć, że możliwe jest zapisanie dowolnego stacjonarnego modelu AR (p) jako nieskończonego modelu MA, a MA (p) mogą być zapisane jako nieskończona AR. FYI można znaleźć szczegółowe opisy koncepcji w www2.sasproceedingssugi28252-28.pdf i relacje między stacjonarnym modelem AR i modelem MA w pliku otexts. orgfpp84.

Comments

Popular posts from this blog

Binarne opcje robot ex 4300