Tuesday 14 November 2017

Linear Autoregressiv Moving Gjennomsnittet Modeller


glarma: Generelle Lineære Autoregressive Flytte Gjennomsnittlige Modeller Med. Numerisk toleransen for å gjenkjenne tall, som er mindre enn den angitte toleransen, som null. Modeller for glarma er spesifisert symbolsk. En typisk modell har formularen y (respons), X (termer) der y er telle - eller faktorresponsvektoren, X er en rekke termer som spesifiserer en lineær prediktor for responsen. Det skal bemerkes at den første kolonnen av X skal være en vektor på 1s som inngripen i modellen. Fire innledende parametere som må estimeres, kombineres til delta (beta, phi, theta, alfa). hvor alpha er en valgfri parameter for å imøtekomme den negative binomialmodellen. Merk at i funksjonen glm. nb fra pakken MASS. Denne parameteren kalles theta. For Poisson og negative binomial responsfordeler brukes logglenken for tiden. For binomialsvar er logit-lenken for tiden brukt. De generaliserte lineære autoregressive bevegelige gjennomsnittsmodellene beregnes som følger. Den lineære prediktoren for responsen er log (mut) Wt transponere (Xt) beta offset Zt. Det uendelige glidende gjennomsnittet fra den lineære prediktoren er Zt sum (gammai residualer (t-i)). Dette uendelige bevegelige gjennomsnittet beregnes ved hjelp av de autoregressive bevegelige gjennomsnittlige rekursjonene Zt phi1 (Z (t-1) e (t-1)). phip (Z e (t-p)) theta1 e. thetaq e hvor p og q er ordrene phi og theta henholdsvis og ikke-nulllagene til vektorer phi og theta kan spesifiseres av brukeren via argumenter phiLag og thetaLag. Det finnes to typer rester som kan brukes i hver rekursjon, Pearson-residualer eller scorerester, og i tillegg til binomialfordeling kan identitetsrester anvendes. Det uendelige glidende gjennomsnittet, Zt. Avhenger av hvilken type rester som brukes, som de endelige parametrene som er oppnådd fra filteret. Standardisering av tidligere observerte teller er nødvendig for å unngå ustabilitet, og derfor bør brukeren velge riktig type rester avhengig av situasjonen. Metoden for estimering for parametere som er implementert i funksjonen, har til hensikt å maksimere loggbarheten ved en iterativ metode som starter fra passende valgte innledende verdier for parametrene. Fra startverdier blir deltahatt (0) for vektoren av parametereoppdateringer oppnådd ved bruk av iterasjon deltaet (k1) delta (k) Omega (deltak) første derivat av log (deltak) hvor Omega (deltahue (k)) er noen passende valgt matrise. Iterasjoner fortsetter for k gt 1 til konvergens er nådd eller antall iterasjoner k når en brukerdefinert øvre grense på maksimale iterasjoner, i hvilket tilfelle de vil stoppe. Konvergenskriteriet som brukes i implementeringen vår er det basert på eta. Maksimum absoluttverdier av de første derivatene. Når eta er mindre enn en bruker spesifisert verdi grad stopper iterasjonene. Det er to metoder for optimalisering av sannsynligheten, Newton-Raphson og Fisher-scoring. Metoden som brukes er spesifisert av argumentmetoden. Det bør legges merke til at hvis initialverdien for parametere ikke er valgt godt, kan optimaliseringen av sannsynligheten mislykkes. Det er behov for forsiktighet ved montering av blandede ARMA-spesifikasjoner fordi det er potensial for AR - og MA-parametrene å være uidentifiserbare dersom ordrene p og q er for store. Mangel på identifiserbarhet manifesterer sig i algoritmen for å optimalisere sannsynligheten for ikke å konvergere, og at hessien er singularcheck advarselsmeldingene og konvergensfeilkoder. Funksjonsopsummeringen (dvs. summary. glarma) kan brukes til å oppnå eller skrive ut et sammendrag av resultatene. Den generiske tilgangen fungerer coef (dvs. coef. glarma), logLik (dvs. logLik. glarma), montert (dvs. montert. glarma), residualer (dvs. residuals. glarma), nobs (dvs. nobs. glarma), model. frame. frame. glarma) og ekstraktAIC (dvs. ekstraktAIC. glarma) kan brukes til å trekke ut forskjellige nyttige egenskaper av verdien returnert av glarma. glarma returnerer et objekt av klasse glarma med komponenter: Autoregressive Moving Gjennomsnittlig ARMA (p, q) Modeller for Time Series Analysis - Del 3 Dette er det tredje og siste innlegget i mini-serien på autoregressive Moving Average (ARMA) modeller for tidsserier analyse. Weve introduserte autoregressive modeller og Moving Average-modeller i de to tidligere artiklene. Nå er det på tide å kombinere dem for å produsere en mer sofistikert modell. Til slutt vil dette lede oss til ARIMA - og GARCH-modellene som gjør at vi kan forutsi avkastning og prognosevolatilitet. Disse modellene vil danne grunnlag for handelssignaler og risikostyringsteknikker. Hvis du har lest del 1 og del 2, vil du ha sett at vi pleier å følge et mønster for vår analyse av en tidsseriemodell. Jeg gjentar det kort her: Begrunnelse - Hvorfor er vi interessert i denne spesifikke modellen Definisjon - En matematisk definisjon for å redusere tvetydighet. Korrelogram - Plotting a sample correlogram for å visualisere en modellens oppførsel. Simulering og montering - Tilpasning av modellen til simuleringer, for å sikre at vi har forstått modellen riktig. Real Financial Data - Bruk modellen til ekte historiske eiendomspriser. Prediksjon - Varsle etterfølgende verdier for å bygge handelssignaler eller filtre. For å følge denne artikkelen er det tilrådelig å ta en titt på tidligere artikler om tidsserier. De kan alle bli funnet her. Bayesian Information Criterion I del 1 av denne artikkelserien så vi på Akaike Information Criterion (AIC) som et middel til å hjelpe oss å velge mellom separate beste tidsseriemodeller. Et nært beslektet verktøy er Bayesian Information Criterion (BIC). I hovedsak har den lignende oppførsel til AIC ved at den straffer modeller for å ha for mange parametere. Dette kan føre til overfitting. Forskjellen mellom BIC og AIC er at BIC er strengere med straffen for ytterligere parametere. Bayesian Information Criterion Hvis vi tar sannsynligheten for en statistisk modell, som har k parametere, og L maksimerer sannsynligheten. da er Bayesian Information Criterion gitt av: Hvor n er antall datapunkter i tidsseriene. Vi bruker AIC og BIC nedenfor når du velger passende ARMA (p, q) modeller. Ljung-Box Test I del 1 av denne artikkelen ser serien Rajan nevnt i Disqus på at Ljung-Box-testen var mer hensiktsmessig enn å bruke Akaike-informasjonskriteriet for Bayesian Information Criterion ved å avgjøre om en ARMA-modell var en god passform til en tid serie. Ljung-Box-testen er en klassisk hypotesetest som er laget for å teste om et sett av autokorrelasjoner av en tilpasset tidsseriemodell er vesentlig forskjellig fra null. Testen tester ikke hvert enkelt lag for tilfeldighet, men tester tilfeldigvis over en gruppe lags. Ljung-Box Test Vi definerer nullhypotesen som: Tidsseriedataene ved hvert lag er i. i.d .. det vil si at korrelasjonene mellom populasjonsserieverdiene er null. Vi definerer den alternative hypotesen som: Tidsseriedataene er ikke i. i.d. og har seriell korrelasjon. Vi beregner følgende teststatistikk. Q: Hvor n er lengden på tidsserieprøven, er h k eksamensautokorrelasjonen ved lag k og h er antall lags under testen. Beslutningsregelen om å nullstille nullhypotesen er å sjekke om Q gt chi2, for en chi-kvadrert fordeling med h grader av frihet ved 100 (1-alfa) prosentilen. Selv om detaljene i testen kan virke litt komplekse, kan vi faktisk bruke R for å beregne testen for oss, forenkle prosedyren noe. Autogressive Moving Average (ARMA) Modeller av rekkefølge p, q Nå som vi diskuterte BIC og Ljung-Box testen, var klare til å diskutere vår første blandede modell, nemlig det autoregressive Moving Average av ordre p, q eller ARMA (p, q). Hittil har vi vurdert autoregressive prosesser og bevegelige gjennomsnittsprosesser. Den tidligere modellen vurderer sin egen tidligere oppførsel som innganger for modellen og som et slikt forsøk på å fange markedsdeltagende effekter, som for eksempel momentum og gjennombrudd i aksjehandel. Sistnevnte modell brukes til å karakterisere sjokkinformasjon til en serie, for eksempel en overraskende inntektsmeddelelse eller uventet hendelse (for eksempel BP Deepwater Horizon oljeutslipp). Derfor forsøker en ARMA-modell å fange begge disse aspektene når man modellerer økonomiske tidsserier. Merk at en ARMA-modell ikke tar hensyn til volatilitetsklynging, et sentralt empirisk fenomen i mange økonomiske tidsserier. Det er ikke en betinget heteroscedastisk modell. For det må vi vente på ARCH og GARCH-modellene. Definisjon ARMA (p, q) - modellen er en lineær kombinasjon av to lineære modeller, og er dermed i seg selv likevel lineær: Autoregressiv Flytende Gjennomsnitt Modell av rekkefølge p, q En tidsseriemodell, er en autoregressiv glidende gjennomsnittsmodell av rekkefølge p, q . ARMA (p, q), hvis: start xt alfa1 x alfa2 x ldots wt beta1 w beta2 w ldots betaq w ende Hvor er hvit støy med E (wt) 0 og varians sigma2. Hvis vi vurderer Backward Shift Operator. (se en tidligere artikkel) kan vi omskrive ovenstående som en funksjon theta og phi av: Vi kan rett og slett se det ved å sette p neq 0 og q0 vi gjenoppretter AR (p) modellen. På samme måte hvis vi setter p 0 og q neq 0 gjenoppretter vi MA (q) modellen. En av hovedtrekkene til ARMA-modellen er at den er parsimonisk og overflødig i sine parametere. Det vil si at en ARMA-modell ofte krever færre parametere enn en AR (p) eller MA (q) - modell alene. I tillegg om vi skriver om ligningen i form av BSO, kan theta og phi-polynomene noen ganger dele en felles faktor, og dermed føre til en enklere modell. Simuleringer og korrelogrammer Som med de autoregressive og bevegelige gjennomsnittsmodellene vil vi nå simulere ulike ARMA-serier og deretter prøve å passe ARMA-modeller til disse realisasjonene. Vi bærer dette ut fordi vi vil sikre at vi forstår monteringsprosedyren, inkludert hvordan du beregner konfidensintervaller for modellene, samt sørge for at prosedyren faktisk gjenoppretter rimelige estimater for de opprinnelige ARMA parametrene. I del 1 og del 2 konstruerte vi manuelt AR - og MA-serien ved å tegne N-prøver fra en normalfordeling og deretter lage den spesifikke tidsseriemodellen ved hjelp av lags av disse prøvene. Det er imidlertid en enklere måte å simulere AR, MA, ARMA og til og med ARIMA-data, ganske enkelt ved å bruke arima. sim-metoden i R. Lets starte med den enkleste mulige ikke-trivielle ARMA-modellen, nemlig ARMA (1,1 ) modell. Det vil si en autoregressiv bestillingsmodell kombinert med en bevegelig gjennomsnittsmodell av ordre en. En slik modell har bare to koeffisienter, alfa og beta, som representerer de første lagene av tidsseriene selv og de støt hvite lydbetingelsene. En slik modell er gitt av: Vi må spesifisere koeffisientene før simulering. La oss ta alfa 0,5 og beta -0,5: Utgangen er som følger: Lar vi også plotte korrelogrammet: Vi kan se at det ikke er noen signifikant autokorrelasjon, som kan forventes fra en ARMA (1,1) modell. Endelig kan vi prøve å bestemme koeffisientene og deres standardfeil ved hjelp av arima-funksjonen: Vi kan beregne konfidensintervallene for hver parameter ved hjelp av standardfeilene: Forvissingsintervallene inneholder de sanne parameterverdiene i begge tilfeller, men vi bør merke at 95 konfidensintervaller er svært brede (en konsekvens av de rimelig store standardfeilene). La oss nå prøve en ARMA (2,2) modell. Det er en AR (2) modell kombinert med en MA (2) modell. Vi må spesifisere fire parametre for denne modellen: alpha1, alpha2, beta1 og beta2. Lar oss ta alpha1 0.5, alpha2-0.25 beta10.5 og beta2-0.3: Utgangen av vår ARMA (2,2) modell er som følger: Og den tilsvarende autokorrelasjonen: Vi kan nå prøve å montere en ARMA (2,2) modell til dataene: Vi kan også beregne konfidensintervaller for hver parameter: Legg merke til at konfidensintervallene for koeffisientene for den bevegelige gjennomsnittskomponent (beta1 og beta2) ikke faktisk inneholder den opprinnelige parameterverdien. Dette skisserer faren for å forsøke å passe modeller til data, selv når vi kjenner de sanne parameterverdiene. For handelsformål trenger vi bare å ha en prediktiv kraft som overskrider sjansen og gir nok overskudd over transaksjonskostnadene for å være lønnsomt i på lang sikt. Nå som vi har sett noen eksempler på simulerte ARMA-modeller, trenger vi mekanisme for å velge verdiene p og q når de passer til modellene til ekte økonomiske data. Velge den beste ARMA-modellen (p, q) For å bestemme hvilken rekkefølge p, q av ARMA-modellen passer for en serie, må vi bruke AIC (eller BIC) på tvers av en undergruppe av verdier for p, q og Bruk deretter Ljung-Box-testen for å finne ut om en god passform har blitt oppnådd, for spesielle verdier av p, q. For å vise denne metoden skal vi for det første simulere en bestemt ARMA (p, q) prosess. Vi vil da gå over alle parvisverdier av p i og q inn og beregne AIC. Vi velger modellen med lavest AIC og kjører en Ljung-Box-test på residualene for å avgjøre om vi har oppnådd en god passform. La oss begynne med å simulere en ARMA (3,2) - serie: Vi skal nå opprette et objekt som er endelig for å lagre den beste modellen passer og laveste AIC verdi. Vi går over de forskjellige p, q-kombinasjonene og bruker det nåværende objektet til å lagre passformen til en ARMA (i, j) modell, for loopingvariablene i og j. Hvis den nåværende AIC er mindre enn noen tidligere beregnet AIC, setter vi den endelige AIC til denne nåværende verdien og velger den rekkefølgen. Ved avslutning av sløyfen har vi rekkefølgen på ARMA-modellen lagret i final. order og ARIMA (p, d, q) passer seg (med integrert d-komponenten satt til 0) lagret som final. arma: Lets utføre AIC , ordre og ARIMA-koeffisienter: Vi ser at den opprinnelige rekkefølgen på den simulerte ARMA-modellen ble gjenopprettet, nemlig med p3 og q2. Vi kan plotte corelogrammet av resterne av modellen for å se om de ser ut som en realisering av diskret hvit støy (DWN): Korelogrammet ser faktisk ut som en realisering av DWN. Endelig utfører vi Ljung-Box-testen for 20 lags for å bekrefte dette: Legg merke til at p-verdien er større enn 0,05, som sier at residualene er uavhengige på 95-nivået og dermed gir en ARMA (3,2) modell en God modell passform. Klart dette burde være tilfelle siden weve simulerte dataene selv. Dette er nettopp prosedyren vi skal bruke når vi kommer til å passe ARMA (p, q) modeller til SampP500-indeksen i følgende avsnitt. Finansdata Nå som vi har skissert prosedyren for å velge den optimale tidsseriemodellen for en simulert serie, er det ganske greit å bruke det til økonomiske data. For dette eksempelet skal vi igjen velge SampP500 US Equity Index. Lar deg laste ned de daglige sluttkursene ved hjelp av quantmod, og opprett deretter logg returneringsstrømmen: La oss utføre den samme monteringsprosedyren som for den simulerte ARMA-serien (3,2) ovenfor på loggen returnerer serien til SampP500 ved hjelp av AIC: Den beste monteringsmodellen har rekkefølge ARMA (3,3): Lar plotte gjenstander av den monterte modellen til SampP500 logg daglig returstrøm: Legg merke til at det er noen signifikante topper, spesielt ved høyere lag. Dette er tegn på dårlig form. Kan utføre en Ljung-Box-test for å se om vi har statistisk bevis for dette: Som vi mistenkte er p-verdien mindre enn 0,05, og som sådan kan vi ikke si at residualene er en realisering av diskret hvit støy. Derfor er det ytterligere autokorrelasjon i residualene som ikke forklares av den monterte ARMA-modellen (3,3). Neste trinn Som vi har diskutert hele tiden i denne artikkelserien, har vi sett bevis på betinget heteroscedasticitet (volatilitetsklynging) i SampP500-serien, spesielt i perioder rundt 2007-2008. Når vi bruker en GARCH-modell senere i artikkelserien, ser vi hvordan du eliminerer disse autokorrelasjonene. I praksis er ARMA-modeller vanligvis ikke gode tilpasninger for logg-aksjer returnerer. Vi må ta hensyn til betinget heteroscedasticitet og bruke en kombinasjon av ARIMA og GARCH. Den neste artikkelen vil vurdere ARIMA og vise hvordan den integrerte komponenten adskiller seg fra den ARMA-modellen vi har vurdert i denne artikkelen. Bare Komme i gang med kvantitativ Trading8.3 Autoregressive modeller I en multiple-regresjonsmodell forutsier vi variabelen av interesse ved hjelp av en lineær kombinasjon av prediktorer. I en autoregresjonsmodell forutsier vi variabelen av interesse ved å bruke en lineær kombinasjon av tidligere verdier av variabelen. Begrepet auto-regresjon indikerer at det er en regresjon av variabelen mot seg selv. Dermed kan en autoregressiv modell av orden p skrives som hvor c er en konstant og et er hvit støy. Dette er som en multiple regresjon, men med forsinkede verdier av yt som prediktorer. Vi refererer til dette som en AR (p) modell. Autoregressive modeller er bemerkelsesverdig fleksible ved å håndtere et bredt spekter av forskjellige tidsseriemønstre. De to seriene i figur 8.5 viser serier fra en AR (1) modell og en AR (2) modell. Endring av parametrene phi1, prikker, phip resulterer i forskjellige tidsseriemønstre. Variasjonen av feilbegrepet et vil bare endre omfanget av serien, ikke mønstrene. Figur 8.5: To eksempler på data fra autoregressive modeller med forskjellige parametere. Venstre: AR (1) med yt 18 -0.8y et. Høyre: AR (2) med yt 8 ​​1.3y -0.7y et. I begge tilfeller er et normalt distribuert hvit støy med gjennomsnittlig null og varians en. For en AR (1) modell: Når phi10, yt er ekvivalent med hvit støy. Når phi11 og c0, yt er ekvivalent med en tilfeldig spasertur. Når phi11 og cne0, yt er ekvivalent med en tilfeldig gang med drift Når phi1tt0, yt har en tendens til å svinge mellom positive og negative verdier. Vi begrenser normalt autoregressive modeller til stasjonære data, og noen begrensninger på parameterverdiene er derfor nødvendig. For en AR (1) modell: -1 lt phi1 lt 1. For en AR (2) modell: -1 lt phi2 lt 1, phi1phi2 lt 1, phi2-phi1 lt 1. Når pge3 er restriksjonene mye mer kompliserte. R tar seg av disse restriksjonene ved estimering av en modell. Dokumentasjon c er en konstant vektor av forskyvninger, med n elementer. 934 Jeg er n-en-matriser for hver jeg. 934 jeg er autoregressive matriser. Det er p autoregressive matriser, og noen kan være helt sammensatt av nuller. 949 t er en vektor av serielt ukorrelerte innovasjoner, vektorer med lengde n. 949 t er multivariate normale tilfeldige vektorer med en kovariansmatrise 931. 920 j er n-by-n matriser for hver j. 920 j beveger gjennomsnittlige matriser. Det er q bevegelige gjennomsnittsmatriser, og noen kan være helt sammensatt av nuller. 948 er en konstant vektor av lineære tidstrendskoeffisienter, med n elementer. x t er en r-by-1 vektor som representerer eksogene vilkår ved hver tid t. r er antall eksogene serier. Eksogene vilkår er data (eller andre umodellerte innganger) i tillegg til responstidsserien y t. Hver eksogen serie vises i alle responsekvasjoner. Generelt er tidsseriene y t og x t observerbare. Med andre ord, hvis du har data, representerer den en eller begge seriene. Du vet ikke alltid offseten c. trend koeffisient 948. koeffisient 946. autoregressive matriser 934 i. og beveger gjennomsnittlige matriser 920 j. Du vil vanligvis tilpasse disse parametrene til dine data. Se estimering for måter å estimere ukjente parametere på. Innovasjonene 949 t er ikke observerbare, i hvert fall i data, selv om de kan observeres i simuleringer. Econometrics Toolboxx2122 støtter opprettelsen og analysen av VAR (p) modellen ved hjelp av varme og tilhørende metoder. Lagoperatørrepresentasjon Det er en ekvivalent representasjon av de lineære autoregressive ligningene i forhold til lagoperatører. Lagsoperatøren L flytter tidsindeksen tilbake med en: L y t y t 82111. Operatøren L m flytter tidsindeksen tilbake med m. L m y t y t 8211 m. I lagoperatørskjema blir ligningen for en SVARMAX (p. Q) modell (x03A6 0 x2212 x2211 i 1p x03A6 i Li) x t3 x x3b2 x t (x0398 0 x2211 j 1 q x0398 j L j) x03B5 t. Denne ligningen kan skrives som x03A6 (L) y t c x03B2 x t x0398 (L) x03B5 t. Velg ditt land

No comments:

Post a Comment