PRIMIJENJENA EKONOMETRIJA
Sadržaj
SADRŽAJ ..................................................................................................................................... 1 PREDGOVOR ...................................................................................................................................... 1.
POGLAVLJE ........................................................................................................ ......................................................................................................................... .................. 2
.................................................................................................. ........................................ 2 OPĆENITO O EKONOMETRIJI ..........................................................
1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE ............................................... ...................................................... ....... 2 1.2. POVEZANOST EKONOMETRIJE I SRODNIH ZNANSTVENIH GRANA .................... 3 2.
......................................................................................................................... .................. 4 POGLAVLJE ........................................................................................................
METODOLOGIJA EKONOMETRIJSKOG .............................................................................. ............................................................................. 4 ISTRAŽIVANJA ......................................................................................................................... ................................................................................................................................ ....... 4
2.1. CILJEVI I T IJEK EKONOMETRIJSKOG ISTRAŽIVANJA .................................................. 7 2. 2. EKONOMETRIJSKI MODELI ................................................................................................ 8 3.
....................................................................................................................... ................ 14 POGLAVLJE ........................................................................................................
ZNAČENJE REGRESIJSKE ANALIZE ...................................................... ................................................................................. ........................... 14 4.
POGLAVLJE ........................................................................................................ ....................................................................................................................... ................ 19
................................................................... ................ 19 REGRESIJSKI MODEL S DVIJE VARIJABLE ................................................... ................................................................................................................ ...................................... 19 - TEMELJNI POJMOVI- ..........................................................................
4.1. ODNOS IZMEĐU VARIJABLI .............................................................................. .............................................................................................. ................ 19 4.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL ......................................................... 21
4.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA ................................ 21 .................................................................................................................... ................ 23 ZADACI ZA VJEŽBU .................................................................................................... ............................................................................................................... ..... 24 RJEŠENJA ZADATAKA ...........................................................................................................
4.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA ...... 25 4.4.1. REGRESIJSKA FUNKCIJA POPULACIJE .................................................................... 26 4.4.2. REGRESIJSKA FUNKCIJA UZORKA ........................................................................... 29 ........................................................................................................................ ........................... 38 ZADACI ZA VJEŽBU ............................................................................................. ................................................................................................................... ..... 38 RJEŠENJA ZAD ATAKA ............................................................................................................... 6. POGLAVLJE.................................................................. .............................................................................................................................. ............................................................ 39 KLASIČNI LINEARNI REGRESIJSKI MODEL ................................................................... .................................................................. 39
6.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA .................................. 42 6.2. SVOJSTVA OLS PROCJENITELJA ................................................................................. ...................................................................................... ..... 44 6.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA ............................................... 45
ZADACI ZA VJEŽBU ............................................................................................. ........................................................................................................................ ........................... 52 I
PRIMIJENJENA EKONOMETRIJA
Sadržaj
RJEŠENJA ZAD ATAKA ............................................................................................................... ................................................................................................................... ..... 53 8.
POGLAVLJE ................................................................................................................ ............................................................................................................................... ................ 54
MJERENJE POUZDANOSTI ............................................................................................................ 54 REGRESIJSKOG MODELA ............................................................................................................... .............................................................................................................. 54 8.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE .................................................... 55
8.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA DETERMINACIJE ............................................................ .......................................................................................................................... .............................................................. 56
8.3. STANDARDNA GREŠKA REGRESIJE ..................................................... ................................................................................ ........................... 58 8.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA ................. 59 8.5. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE ............................................ 61 ZADACI ZA VJEŽBU ............................................................................................. ........................................................................................................................ ........................... 63 RJEŠENJA ZADATAKA ............................................................................................................... ................................................................................................................... ..... 64 9.
POGLAVLJE ........................................................................................................ ....................................................................................................................... ................ 65
............................................................. ........................... 65 VIŠESTRUKI LINEARNI REGRESIJSKI REGRESIJSKI MODEL ..................................
9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE ..................................................... 65
9. 2. PRETPOSTAVKE VIŠESTRUKOG LINEARNOG REGRESIJSKOG MODELA ............ 66 9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE ....................................................... 67 9.3.1. OLS PROCJENITELJI ....................................................................................................... ...................................................................................................... 67 9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA ..................... 69
9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R 2 .......................................................... 70 9.5. TESTIRANJE HIPOTEZA U MODELU VIŠESTRUKE LINEARNE REGRESIJE ........... 73 RJEŠENJA ZADATAKA ............................................................................................................... ................................................................................................................... ..... 80 10.
....................................................................................................................... ................ 81 POGLAVLJE ........................................................................................................
............................................................. ..... 81 OCJENJIVANJE U UVJETIMA NEISPUNJENIH ........................................................ PRETPOSTAVKI KLASIČNOG MODELA ............................................................................ ............................................................................ 81
10.1. MULTIKOLINEARNOST ............................................................... ..................................................................................................... ...................................... 81 10.2. AUTOKORELACIJA .......................................................... ............................................................................................................. ................................................... 87 ................................................................................................ ..... 96 10.3. HETEROSKEDASTIČNOST ...........................................................................................
10.4. NORMALNOST GREŠAKA RELACIJE ........................................................................... .......................................................................... 103 ZADACI ZA VJEŽBU ............................................................................................. ...................................................................................................................... ......................... 104 ................................................................................................................. ... 105 RJEŠENJA ZADATAKA ............................................................................................................... 11.
POGLAVLJE ........................................................................................................ ..................................................................................................................... .............. 107
TEMELJNI POJMOVI ANALIZE ............................................................................................ ........................................................................................... 107
II
PRIMIJENJENA EKONOMETRIJA
Sadržaj
VREMENSKIH NIZOVA ................................................................................... ............................................................................................................ ......................... 107 12.
POGLAVLJE ........................................................................................................ ..................................................................................................................... .............. 115
ODABRANI MODELI VREMENSKIH NIZOVA ....................................... ................................................................ ......................... 115 13.
..................................................................................................................... .............. 117 POGLAVLJE ........................................................................................................
....................................................................................................... ... 117 METODE IZGLA ĐIVANJA .................................................................................................... VREMENSKOG NIZA ................................................................................................................ 117
13.1. METODA POMIČNIH PROSJEKA .................................................................................. 117 ................................................... 119 13.2. METODA EKSPONENCIJALNOG IZGLAĐIVANJA ...................................................
13.3. METODE ANALIZE SEZONSKIH POJAVA ................................................... ................................................................. .............. 121
ZADACI ZA VJEŽBU ............................................................................................. ...................................................................................................................... ......................... 125 ................................................................................................................. ... 127 RJEŠENJA ZADATAKA ............................................................................................................... 14.
POGLAVLJE ........................................................................................................ ..................................................................................................................... .............. 141
OSNOVE EKONOMETRIJSKE ANALIZE ............................................................ .......................................................................... .............. 141 VREMENSKIH NIZOVA ................................................................................... ............................................................................................................ ......................... 141
14.1. OSNOVNI POJMOVI U EKONOMETRIJSKOJ ANALIZI VREMENSKIH SERIJA SERIJA . 141 14.2. AUTOKORELACIJSKA FUNKCIJA I FUNKCIJA PARCIJALNE AUTOKORELACIJE ...................................................................................................................................................... ........................................................................................................................................................ ... 145
14.3. MODELI STACIONARNIH VREMENSKIH SERIJA ..................................................... ..................................................... 147 14. 3. SVOJSTVA AUTOKORELACIJSKE FUNKCIJE I FUNKCIJE PARCIJALNE
AUTOKORELACIJE ODABRANIH MODELA STOHASTIČKIH PROCESA .................. 149 ZADACI ZA VJEŽBU ............................................................................................. ...................................................................................................................... ......................... 151 RJEŠENJA ZADATAKA ............................................................................................................... ................................................................................................................. ... 152 ........................................................................................................ ..................................................................................................................... .............. 156 ................................................................................................ ............................................................................................... 156 ................................................................................................. ............................................................. .................................... 156
15.1. ODABIR NAJBOLJEG MODELA PROGNOZIRANJA ................................................. 157
15.2. MJERE EFIKASNOSTI PROGNOSTIČKIH METODA ............................................... .................................................. ... 158 16.
..................................................................................................................... .............. 161 POGLAVLJE ........................................................................................................
.................................................................... .............. 161 PROGNOZIRANJE POMO ĆU ODABRANIH ...................................................... MODELA VREMENSKIH NIZOVA ....................................................................................... 161
16.1. NAIVNI PROGNOSTIČKI MODELI ............................................................................ 161 16.2. PROGNOZIRANJE POMOĆU MODELA POMIČNIH PROSJEKA ....................... 164 16.3. PROGNOZIRANJE POMOĆU MODELA EKSPONENCIJALNOG ........................................................................................................................ ... 166 IZGLAĐIVANJA ...................................................................................................................... III
PRIMIJENJENA EKONOMETRIJA
Sadržaj
16.4. PROGNOZIRANJE POMOĆU MODELA TRENDA ................................................. 167 16. 5. PROGNOZIRANJE POMOĆU ODABRANIH KAUZALNIH METODA ............. 169 .............................................................................. 169 JEDNOSTAVNI REGRESIJSKI MODEL MODEL ............................................................................... .............................................................................................................. ... 171 STATISTIČKE TABLICE ............................................................................................................ .................................................................................................................................. .................................... 176 LITERATURA ..............................................................................................
IV
PRIMIJENJENA EKONOMETRIJA
Predgovor
PREDGOVOR Nastavni tekst „Primijenjena ekonometrija“, ekonometrija“, nastao nastao je kao rezultat objedinjavanja materijala korištenoga u višegodišnjem radu sa studentima, na predavanjima, seminarima i vježbama iz predmeta Primijenjena ekonometrija koji se izvodi kao temeljni predmet na prvoj godini diplomskog studija Fakulteta za menadž ment u turizmu i ugostiteljstvu Opatija, Sveučilišta u Rijeci. Materijal je namijenjen isključivo polaznicima predmeta, te predstavlja osnovnu literaturu i integralni nastavni materijal za savladavanje teorijskoga i praktičnoga dijela predmeta. Cjelokupni je tekst podijeljen u četiri četiri osnovna dijela, a svojim sadržajem, kroz šesnaest logički strukturiranih poglavlja, u cijelosti pokriva predviđeni sadržaj spomenutoga predmeta. U tekstu nisu navedeni svi citati i izvori, već je na kraju materijala dan detaljan popis izvora korištenih prilikom sastavljanja ovoga rada. Napominje se da su svi primjeri i zadaci u potpunosti preuzeti iz izvora danih na kraju materijala. Neki su od zadataka i primjera pojednostavljeni, preformulirani ili prerađeni. Onima koji žele detaljnije proučiti sadržaj i steći dublji uvid u obrađenu materiju ostavljena je mogućnost istraživanja koristeći se popisom literature, kao i pretraživanjem dodatnih izvora koja pokrivaju autoriziranim predavanjima istraživanu materiju. Svjesne činjenice, da je djelo nepotpuno te da, sadržajem nisu obuhvaćena sva relevantna područja primijenjene ekonometrije, vjerujemo da će ovaj materijal, poslužiti studentima kao temelj za daljnja istraživanja. Iako je u pisanje i uređivanje teksta te sakupljanje podataka i materijala uloženo mnogo truda i vremena, autorice će biti zahvalne svima onima koji će ukazati na eventualne pogreške i propuste koji su se uvukli u tekst. I na kraju ovim putem želimo želim o zahvaliti svim onima koji su mi pružili nesebičnu pomoć pomoć prilikom pisanja ovoga materijala. Posebnu zahvalu dugujemo Stručnom povjerenstvu dr. sc. Maji Biljan-August, redovitoj profesorici, dr.sc. Dori Smolčić Jurdana, redovitoj profesorici te dr. sc. Slobodanu Ivanoviću, Ivanoviću, redovitom profesoru, na njihovim korisnim savjetima, idejama, uputama i sugestijama. Autorice
Opatija, listopad 2015.
1
I. DIO
UVODNO O EKONOMETRIJI
I. DIO UVODNO O EKONOMETRIJI
1. Poglavlje: Općenito o ekonometriji
Ć
E
konomisti primjenjuju saznanja ekonomske teorije za objašnjavanje i dobivanje kvalitativnih informacija i odgovora tipa:
Hoće li profit rasti ili padati ako proizvodnja raste? Hoće li prihodi rasti ili padati ako se cijena smanji?
No menadžerima su jednako važne i kvantitativne informacije:
Koliko će biti rast odnosno pad….? Odgovore na ovakva i slična pitanja daje ekonometrija. Ekonometrijske tehnike obično se koriste i razvijaju za davanje odgovora na praktične probleme. Kao što je razvidno iz prvih pet slova riječi ekonometrija ti su problemi obično ekonomskog karaktera, iako se često ekonometrijske tehnike koriste i u ne ekonomskim istraživanjima. Ekonometrija je multidisciplinarna znanost koja izučava kvantitativne odnose definirane u ekonomskoj teoriji, kao i procese koji generiraju njihove varijable, a sve uz uporabu matematičkog i statističkog instrumentarija. 1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE
Ekonometrija kao znanstvena grana intenzivnije se počinje razvijati 30-ih godina prošlog stoljeća, a radi utvrđivanja kvantitativnih odnosa između ekonomskih procesa i njihovih varijabli pomoću matematičkih i statističkih metoda. Iako su ekonomisti 17. i 18. stoljeća pokušavali mjeriti ekonomske varijable i primijeniti matematičke metode u ekonomiji, nije bilo značajnijeg napretka sve do prve polovice prošlog stoljeća, iako primjena statističkih metoda na ekonomske procese ima dužu povijest. Prva je empirijska studija objavljena već 1699. godine od Charla Devenanta, dok je prvu modernu statističku studiju potražnje proveo Rodolfo Enini, talijanski statističar 1907. godine. Glavni razvojni impuls ekonometriji došao je s osnivanjem Ekonometrijskog društva pod vodstvom Schumpetera u Clevelandu (SAD) 1930. godine i izdavanjem časopisa « Econometrica» u siječnju 1933. godine. Taj je časopis i danas relevantan izvor informacija o razvojnim dostignućima na području ekonometrije. ekonometrije. Etimološki, izraz ekonometrija ili «mjerenje u ekonomiji» nastaje od dvije grčke riječi oikonomia (ekonomija) i metron (mjerenje). Sam naziv ekonometrija uveo je u ekonomsku literaturu
Ragnar Frisch, norveški ekonomist i statističar, kasnije dobitnik prve Nobelove nagrade za ekonomske znanosti. Ekonometrija je grana ekonomske znanosti koja povezuje ekonomsku
teoriju, matematičku ekonomiju i metode statističke analize, a bavi se razvijanjem i usavršavanjem metoda i modela za kvantitativnu analizu gospodarske strukture, s ciljem da se ustanove zakonitosti gospodarskih procesa, te da se omogući predviđanj e, planiranje i usmjeravanje gospodarskih tijekova. Općenito, da bi bilo koja teorijska tvrdnja u ekonomiji mogla biti dokazana, potrebno je koristiti ekonometrijske metode. Ekonometrija se zasniva
na prilagođavanju matematičkih i statističkih metoda potrebama zaključivanja u ekonomiji, kroz proces modeliranja osnovnih ekonomskih međuzavisnosti. Ekonomska teorija može se prikazati kao skup odnosa između ekonomskih varijabli (Samuelson, 1947). Ekonometrija upravo te odnose matematički formulira i kvantificir a na bazi empirijskih mjerenja ekonomskih pojava.
2
I. DIO UVODNO O EKONOMETRIJI
1. Poglavlje: Općenito o ekonometriji
Prema Theilu (1971.) ekonometrija se bavi empirijskim utvrđivanjem ekonomskih zakonitosti. U ekonometriji se kvantificiraju odnosi između ekonomskih varijabli pomoću matematičkih i statističkih metoda. U uvodnom članku prvog broja časopisa «Econometrica», poznati ekonomista Schumpeter
daje slijedeću definiciju ekonometrije: «Ekonometrija je primjena specifičnih metoda u području ekonomskih znanosti u nastojanju da se postignu numerički rezultati i verificiraju ekonomski ekonomsk i teoremi.» Ekonometrija analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza
temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu. 1.2. POVEZANOST EKONOMETRIJE I SRODNIH SR ODNIH ZNANSTVENIH GRANA
Ekonometrija predstavlja znanstvenu disciplinu koja ima za cilj matematički formulirati i utvrditi kvantitativne veze koje postoje između ekonomskih varijabli, a temeljem ekonomske teorije i informacija o tim varijablama sakupljen ih pomoću statističkih metoda. Prema tome, ekonometrija je jedna od grana ekonomske znanosti koja, na specifičan način, sintetizira matematiku, ekonomsku teoriju, statističke metode i empirijsko opažanje. Ekonometrija zapravo verificira koliko je ekonomska teorija konzistentna s empirijskim opažanjima, omogućuje dublje pronicanje u suštinu stvarnih ekonomskih pojava i procesa, a ocijenjene ekonometrijske veze i modeli mogu poslužiti za utvrđivanje ekonomskih parametara potrebnih za vođenje ekonomske politike, donošenje odluka te predviđanje kretanja ekonomskih varijabli. Ekonometrija dakle, nastaje svojevrsnom integracijom ekonomske
teorije, matematike i statistike i to na način da ekonomske postavke verificira kroz empirijska istraživanja. Ekonometrija tako povezuje tri znanstvene discipline i to matematičku ekonomiju, ekonomsku statistiku te matematičku statistiku. Slika 1: Povezanost ekonometrije i srodnih znanstvenih grana
Matematička ekonomija formulira zaključke ekonomske teorije matematičkim simbolima, jezikom i sustavom notiranja i koristi matematičke metode da izvede veze ekonomskih zakonitosti, ali u determinističkom obliku i ne daje numeričke vrijednosti parametrima specificiranih veza. Ekonomska statistika se bavi prikupljanjem, obrađivanjem i predstavljanjem empirijskih ekonomskih podataka. Matematička statistika ocjenjuje, uz pomoć svojih metoda, a na osnovi empirijskih podataka, parametre ekonomskih veza. S obzirom da ekonomske veze ka rakterizira stohastičnost, a matematička statistika se bavi podacima koji su rezultat kontroliranih eksperimenata potrebne su prilagodbe. Takve prilagodbe
statističkih metoda zovu se ekonometrijske metode.
3
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
Ž
to je to ekonometrijsko istraživanje i kako se konstruira ekonometrijski model? Odgovori na ta pitanja iznalaze se u metodologiji ekonometrijskog istraživanja.
Š
U svakom ekonometrijskom istraživanju metodološki razlikuje se nekoliko koraka:
postavljanje hipoteze, prikupljanje podataka,
specifikacija matematičkog modela, specifikacija statističkog ili ekonometrijskog modela, procjena parametara ekonometrijskog modela, ispitivanje pouzdanosti ekonometrijskog modela, testiranje hipoteze te upotreba modela.
POSTAVLJANJE POSTAVLJANJE HIPOTEZE
Svodi se na proučavanje teorijskih ekonomskih postavki u svrhu definiranja praktičnog problema na koji se traži odgovor, odnosno postavljanja hipoteze. Da bi ekonometrijski model, kao rezultat ekonometrijskog istraživanja, mogao dati odgovor na postavljeni problem, odnosno vjerodostojne rezultate, problem mora biti jasno postavljen. Uspješnost svih daljnjih koraka zavisi od jasnoće postavljenog problema, odnosno od valjanosti postavljene hipoteze. Hipoteza se formulira temeljem poznavanja analizirane pojave,
rezultata ranijih istraživanja te svakako temeljem poznavanje ekonomske teorije. Postavljanje znanstvenih hipoteza s ciljem specifikacije ekonometrijskog modela podrazumijeva prethodno znanje o varijablama koje je potrebno uključiti u model, o matematičk om obliku
njihovih međuzavisnosti i izvjesna znanja o predznaku i intervalima mogućih vrijednosti parametara modela. PRIKUPLJANJE PODATAKA
Ekonometričari u svojim istraživanjima obično koriste podatke, sakupljene, sistematizirane i objavljene u statističkim publikacijama. Jasno je da kvaliteta i dostupnost podataka određuju kvalitetu i uspješnost samog ekonometrijskog istraživanja. SPECIFIKACIJA MATEMATIČKOG MODELA
Nakon postavljanja hipoteze i prikupljanja podataka prelazi se na specifikaciju
matematičkog modela. Radi se o matematičkoj formulaciji postavljene hipoteze, odnosno kvantitativnog izražavanja odnosa koji iz hipoteze proizlazi. Ova faza podrazumijeva poznavanje matematičkog jezika, instrumentarija i načina notiranja, kao i ponašanja uključenih varijabli te predznaka i veličine parametara modela. Specifikacija modela podrazumijeva matematičku formulaciju postavljenih znanstvenih hipoteza, koje se određuju na osnovi poznavanja djelovanja i ponašanja ispitivane pojave u ekonomskoj stvarnosti, na tem elju rezultata ranijih istraživanja dane pojave i, što je osobito važno, temeljem spoznaja ekonomske teorije o njoj. Prva slika o međuzavisnosti dohotka i osobne potrošnje dobiva se crtanjem dijagrama rasipanja. 4
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
SPECIFIKACIJA EKONOMETRIJSKOG MODELA
Specificiranje ekonometrijskog modela pretpostavlja dobro poznavanje ekonomske teorije.
Na toj osnovi istraživač odlučuje koje varijable uključiti u model, ima a priori teorijska očekivanja o predznaku i veličini parametara, te odlučuje o matematičkom obliku mode la. Pogreška u navedenom postupku naziva se specifikacijska pogreška. pogreška. To je najteža pogreška koja se može d ogoditi u ekonometrijskom istraživanju, jer ostavlja najteže posljedice na ocjeni modela. Najčešće greške specifikacije su izostavljanje nekih varija bli iz funkcije ili upotreba neodgovarajućeg matematičkog oblika modela. Ako nije postignuta zadovoljavajuća specifikacija modela, ocjene parametara dobivene bilo kojom ekonometrijskom tehnikom biti će netočne, nepotpune ili neupotrebljive. PROCJENA PARAMETARA EKONOMETRIJSKOG MODELA
Nakon specifikacije ekonometrijskog modela prelazi se na njegovo ocjenjivanje. Ocjenjivanje
modela predstavlja tehničku fazu u dobivanju rezultata a obuhvaća:
ispitivanje problema agregiranja i sličnih problema u svezi s varijablama uključenim u model,
ispitivanje uvjeta identifikacije funkcija korištenih u modelu, ispitivanje jakosti međusobne korelacije varijabli korištenih u modelu, odnosno razine multikolinearnosti,
ispitivanje vezano uz zadovoljenje uvjeta stohastičnosti slučajnih varijabli te odabir i primjenu ekonometrijskih metoda i tehnika za ocjenu modela. Agregiranjem se jednom vrijednošću predstavljaju ekonomske veličine kvalitativno različitih objekata. Pojednostavljenja u agregiranju mogu rezultirati agregacijskom pristranošću kod ocjene parametara modela. Identifikacija funkcija modela postupak je kojim se provjerava da
li svaka funkcija ima svoje jasno značenje, u smislu veza i odnosa postavljenih teorijom. Identifikacija je problem vezan za ocjenjivanje modela s imultanih jednadžbi. Ispitivanje jakosti međusobne korelacije varijabli korištenih ko rištenih u modelu, te uvjeta stohastičnosti slučajnih varijabli od presudne je važnosti, jer neispunjenost tih osnovnih pretpostavki rezultira pogrešnim ocjenama modela. Koja će se e konometrijska metoda koristiti u svakom posebnom slučaju zavisi od više čimbenika. Na taj izbor utječe najprije priroda razmatrane pojave i uvjeti njene identifikacije. Naime, ako se ispituje jednostavna pojava koje se može zadovoljavajuće prikazati modelom jedne jednadžbe, najčešće se koristi klasična metoda najmanjih kvadrata. U protivnome se koriste metode koje se primjenjuju na modele
simultanih jednadžbi. Uobičajeno je da se koristi ona metoda koja daje ocjene sa što više takozvanih poželjnih karakteristika, a koja je od poželjnih karakteristika ocjena i najvažnija, zavisi od cilja ekonometrijskog istraživanja. Postoji više dijagnostičkih mjera (testova). Dvije su osnovne skupine testova koji se koriste. Prva skupina testova daje opću sliku o tome da li je model dobro specificiran ili ne. To su tzv. test portmanteau ili testovi specifikacije modela.
Zaključci koji proizlaze iz ovih testova jesu da je model adekvatan za opisivanje podataka ili, naprotiv tvrde sa određenim stupnjem signifikantnosti da mode l nije dobro specificiran. Druga skupina testova odnosi se na osobine slučajne pogreške koje možda govore u kojem smjeru mijenjati model. Primjeri ove vrste testova jesu testovi normalnosti procijenjenih grešaka, testovi linearnosti veze između y i x i, testovi korelacije reziduala, itd. ISPITIVANJE POUZDANOSTI EKONOMETRIJSKOG MODELA
Dobivene vrijednosti parametara potrebno je testirati. Procjena parametara ili vrednovanje ocjena parametara, sa ekonometrijskog stajališta i statističke pouzdanosti, vrši se temeljem tri skupine kriterija i to ekonomskih, statističkih te ekonometrijskih.
5
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
Ekonomski (a priori) kriteriji odnose se na veličinu i predznak parametara te zastupljenost objasnidbenih varijabli u modelu. Parametri u ekonomskim modelima predstavljaju elastičnosti, granične vrijednosti, multiplikatore i slično, a za koje ekonomska te orija definira
predznak, a katkada i veličinu. Budući da ekonometrija pretpostavlja postojanje definiranih međuzavisnosti ekonomskih veličina danih ekonomskom teorijom, može se reći da ekonomska teorija prethodi ekonometrijskom zaključivanju. Stoga, ako se kao rezultat primjene modela na raspoloživa opažanja dobije pogrešan predznak ili veličina nekog parametra, takva se ocjena smatra nezadovoljavajućom. Statistički kriteriji ( testovi testovi prvoga reda ) evaluacije statističke signifikantnosti ocjena parametara najčešće su koeficijent determinacije i standardne greške ocjene parametara. Koeficijent determinacije predstavlja postotak varijacija zavisne varijable oko njezine srednje vrijednosti, koji je objašnjen varijacijama nezavisnih varijabli. Stoga, koeficijent determinacije predstavlja indikator relevantnosti uključenih čimbenika i valjanosti modela kao ocjene. Standardne greške ocjena parametara predstavljaju mjeru disperzije ocjena pravih vrijednosti parametara, te služe za vrednovanje pouzdanosti ocjena poje dinih parametara.
Statistički kriteriji su uvijek u strogoj zavisnosti od ekonomskih kriterija, jer čak i kada su statistički zadovoljavajuće, ocjene parametara se odbacuju ako nemaju smisla sa aspekta apriornih ekonomsko-teorijskih postavki. Ekonometrijski kriteriji ( kriteriji ( testovi testovi drugoga reda ) određuju pouzdanost statističkih kriterija. Pomoću
njih se utvrđuje da li ocjene parametara imaju svoje poželjne osobine (nepristranost, konzistentnost, efikasnost). Potpuno ekonometrijsko istraživanje uvijek obuhvaća i ove sekundarne ekonometrijske testove. Ako pretpostavke primijenjene ekonometrijske metode
nisu zadovoljavajuće, onda ocjene parametara nemaju poželjne osobine ili statistički kriteriji gube svoju vrijednost te postaju nepouzdani u određivanju statističke signifikantnosti dobivenih ocjena. TESTIRANJE HIPOTEZE EKONOMETRIJSKOG MODELA
Nakon specifikacije i vrednovanja modela prelazi se na testiranje hipoteze. Testiranje
hipoteze predstavlja način provjeravanja o tome ima li postavljeni model ekonomskog smisla i da li će dobiveni rezultati biti sukladni s ekonomskom teorijom. PROGNOZIRANJE PREDVIĐANJE I PROGNOZIRANJE
Ocjena valjanosti modela sa aspekta njegove moći predviđanja podrazumijeva ispitivanje stabilnosti ocjene parametara u modelu, odnosno njihove osjetljivosti na promjenu veličine uzorka. To ispitivanje treba odgovoriti na pitanje da li ocjena veza adekvatno predstavlja
odnose u stvarnosti i izvan uzorka čiju prosječnu varijaciju predstavlja. Čak i kada model zadovoljava ekonomske, statističke i ekonometrijske kriterije vrednovanja ocjena, moguće je da ima slabu moć predviđanja. Takvi modeli mogu se koristiti u svrhe analize postojeće ekonomske strukture, ali ne i za predviđanja, najčešće zato što su statični. Da bi model uspješno mogao predstaviti promjenu strukturnih parametara, mora odražavati i dinamičnost promatrane pojave. Ekonometrijski model može koristiti za predviđanje budućih vrijednosti zavisne varijable na osnovi očekivanih budućih vrijednosti eksplanatornih varijabli. Model može također poslužiti u ekonomskoj analizi te za kontrolu i donošenje ekonomskih odluka i mjera.
6
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
2.1. CILJEVI I TIJEK EKONOMETRIJSKOG ISTRAŽIVANJA
Polazeći od definicije ekonometrije, moguće je definirati i cilj ekonometrijskog istraživanja, koji nije tek sakupljanje činjenica o određenim pojavama, već i njihovo objašnjenje te predviđanje njihova kretanja u budućnosti. A u suvremenim turbulentnim i promjenama podložnim ekonomskim procesima raste i potreba za kvantitativnim i preciznim izražavanjem ekonomskih pojava. Moguće je istaći 3 osnovna cilja ekonometrije: 1. Testiranje ekonomske teorije svodi se na proučavanje ekonomske teorije radi boljeg razumijevanja i objašnjavanja ekonomskih pojava i aktivnosti. U modernoj ekonomiji niti jedna teorija, i pored svoje uvjerljivosti i konzistentnosti, ne može se prihvatiti bez empirijskog testiranja. 2. Pomoć ekonomskoj politici očituje se u dobivanju numeričkih ocjena koeficijenata
ekonomskih odnosa koje se mogu koristiti prilikom donošenja odluka. 3. Predviđanje se odnosi na korištenje numeričkih ocjena koeficijenata kako bi se predvidjele buduće vrijednosti ekonomskih veličina. Predviđanje pretpostavlja mogućnost definiranja stanja sustava (u smislu znanja vrijednosti određenih promjenjivih veličina) i postojanje dinamičke teorije pomoću koje se buduće stanje sustava izvodi logičkim implikacijama iz poznavanja sadašnjeg stanja. Navedeni se ciljevi međusobno ne isključuju. Uspješno ekonometrijsko istraživanje trebalo bi uključiti optimalnu kombinaciju sva tri navedena cilja. U tom se smislu ciljevi ekonometrijskog istraživanja mogu shvatiti i kao zadaci ekonometrijskog istraživanja, a oni su:
formuliranje ekonometrijskog modela, procjenjivanje i testiranje modela te upotreba modela za prognoziranje i predviđanje . Složenost ekonometrijskih zadataka i ciljeva uvjetovala je i njen razvoj u više pravaca, razlikuju se stoga, dvije osnovne grane ekonometrije:
teorijska ekonometrija koja se bavi razvojem i unapređenjem metoda za kvantificiranje ekonomskih odnosa, te primijenjena ekonometrija koja koristi ekonometrijski instrumentarij i posebnim granama ekonomske teorije, a uključuje sredstva i rezultate teorijske ekonometrije.
Svako ekonometrijsko istraživanje odvija se u nekoliko koraka. Slika 2: Tijek ekonometrijskog istraživanja
Ekonomska teorija razmatra ekonomske odnose i oformljuje postulate i tvrdnje. Polazeći od
neke teorije koje je potrebno testirati, uz pomoć matematičkog izražavanja te teorije 7
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
(matematička ekonomija) ekonomija) postavlja se model ili hipoteza koja se testira. Koristeći podatke ekonomske statistike, model se uspoređuje s tim podacima. Ocjenjivanje modela vrši se ekonometrijskim metodama, dobivenim prilagođavanjem metodama matematičke statistike ekonomskim fenomenima. Temeljem dobivenih rezultata, testira se polazna hipoteza. Teorija se prihvaća ako je kompatibilna sa podacima, u protivnom ista se odbacuje. U tom je slučaju
moguće i revidiranje teorije. Dobiveni numerički rezultati mogu se koristiti za predviđanja ili donošenje ekonomskih odluka. 2. 2. EKONOMETRIJSKI MODELI DETERMINISTIČKI DETERMINISTIČKI I STOHASTIČKI MODELI
U prirodnim znanostima ponašanje analiziranog sustava opisuje se determinističkim (matematičkim) modelima. modelima. Deterministički modeli pretpostavljaju da je istraživana pojava potpuno determinirana određenim uzročnim vezama. U društvenim znanostima mora se uvažiti stohastičko ponašanje, budući da se vrijednosti nekih varijabli ponašaju slučajno. Stoga se istraživana pojava ne može egzaktno predvidjeti sustavom jednadžbi, već samo procijeniti. Uključivanjem članova slučajnih pogrešaka (disturbance terms) deterministički model pretvara se u stohastički model, odnosno ekonometrijski model. Ekonometrijskim modelom djelomično se nadoknađuje pomanjkanje preciznosti uslijed stohastičkog ponašanja varijabli i pojednostavljenja empirijskih veza. Matematička ekonomija izražava ekonomske odnose i strukture u egzaktnom (determinističkom) obliku, tzv. obliku funkcionalne zavisnosti. Ekonomska teorija kaže koje veze tvore model, koje je varijable potrebno uključiti u svaku pojedinu vezu i koji je predzna k nekih parcijalnih derivacija. No, ekonomska teorija može vrlo malo reći o funkcionalnom obliku veza, uključenim pomacima i vrijednostima parametara. Pored toga, veze su determinističke pa ne dopuštaju prisutnost stohastičkog odstupanja. Da bi se ekonomski model doveo u oblik provjerljive hipoteze, nužno je specificirati funkcionalni oblik veza, odabir vremena varijabli i stohastičku karakterizaciju odstupanja. Dobije se tako ekonometrijski model spreman za ocjenjivanje i testiranje. Pri danom stanju ekonomske znanosti to se prethodno znanje djelomično izvodi iz
ekonomske teorije i djelomično iz ad hoc rasuđivanja ili procjenjivanja. EKONOMSKI MODEL
Ekonomisti se u svojim istraživanjima koriste eksperimentima ili pokusima. No budući je stvarni svijet iznimno kompleksan, ekonomisti ne eksperimentiraju sa realnim ekonomskim
sustavima, već se okreću laboratorijima i kontroliranim eksperimentima da bi proučavali ekonomske pojave. Stoga, ekonomska teorija konstruira ekonomske modele kojima, na pojednostavljeni način, prikazuje ekonomske odnose u stvarnosti. Ti su modeli idealni i takvi
da omogućavaju uočavanje zakonitosti koje vladaju ekonomskim odnosima. Model se može definirati kao pojednostavljeni prikaz realnog sustava ili procesa koji se proučava. Sve defin icije modela sadrže nekoliko zajedničkih elemenata (Jovičić, 1989.):
pretpostavka da je prisutno određeno znanje empirijske prirode, pojednostavljenje kompleksne stvarnosti u razumljiv sustav fundamentalnih veza, koristeći aksiome, mogućnost postavljanja pretpostavki o konstrukciji i ponašanju analiziranih pojava, te matematičke metode predstavljanja veza i hipoteza. Svrha modeliranja je objašnjavanje, predviđanje i kontrola proučavanih pojava (Lovrić, 2005.) te pojednostavljenje složenih realnih situacija i utvrđivanje uzročnih veza koje izgledaju 8
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
najznačajnije za određeni problem. Temeljeći svoje zaključke o nekoj pojavi na modelu, istraživač može ispitivati logičke posljedice pretpostavki od kojih polazi, testirati postavljene hipoteze, odnosno uspoređivati ih sa opažanjima iz stvarnosti, i tako bolje upoznati stvarnost i omogućiti uspješno djelovanje i reagiranje na pojave iz stvarnosti. Neuređen skup tvrdnji o ekonomskoj stvarnosti ne može činiti ekonomsku znanost. Ekonomska znanja moraju imati određenu aksiomatsku strukturu, tako da je ograničen broj propozicija dovoljan da se ostale izvedu logičnim zaključivanjem. Takav ograničen skup propozicija, iz kojih se preostale deduciraju predstavlja ekonomski model. Ako kažemo da količina potražnje za jabukama zavisi od cijene jabuka, pojednostavljujemo stvarnost, stoga što postoji niz drugih varijabli od kojih potražnja za jabukama zavisi. Te varijable mogu biti dohodak potrošača, promjene u razmišljanju potrošača, povećanje svijesti o zdravoj prehrani, porast ili pad cijene ostalog voća itd. Propozicije koje se iz modela izvlače jesu teze. Model se smatra konzistentnim, ako dedukcijom ne rezultiraju teze koje su protivne aksiomima korištenim kod njegova sastavljanja (Jovičić, 1989.). Iz navedenoga proizlazi i d efinicija
ekonomskog modela. Ekonomski model je (Jovičić, 1989.): formalizirana prezentacija ideja, propozicija ili znanja o specifičnom fenomenu čiji je j e cilj da obuhvati suštinu i način djelovanja kompleksa realnosti u lakše razumljiv sustav. Ekonomski model je stoga, skup pretpostavki koje pojednostavljeno prikazuju ponašanje određene ekonomske pojave ili procesa. Kada ekonomski model poprimi oblik matematičkih odnosa, moguće je upotrijebiti podatke o analiziranoj pojavi, te temeljem tih podat aka, procijeniti valjanost modela, odnosno provjeriti da li model adekvatno predstavlja stvarnost. Empirijska provjera valjanosti ekonomskih modela predstavlja jedan od osnovnih ciljeva ekonometrijske analize. EKONOMETRIJSKI EKONOMETRIJSKI MODEL
Cilj analiziranja ekonomskih pojava, procesa, odnosa, veza i struktura te konstruiranja
ekonomskih modela, je upoznavanje njihove suštine i utvrđivanja zakonitosti u njihovom ponašanju i kretanju. No, tek ekonometrijske metode omogućuju da se spomenute zakonitosti numerički izraze i statistički testiraju. Ekonometrija dakle, analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu. Ekonometrijski model je krajnji rezultat svakog ekonometrijskog istraživanja, predstavlja
skup hipoteza koje dozvoljavaju donošenje statističkog zaključka na osnovi uočenih vrijednosti ekonomskih varijabli (Vujković, 1976.). Ekonometrijski model može se definirati kao skup relacija upotrijebljenih za reprezentiranje ekonomskih procesa koji se mogu izraziti u matematičkoj formi (Vujković, 1976.). Maddala ekonometrijski model definira kao s kup jednadžbi i različitih numeričkih vrijednosti strukturnih koeficijenta koji izražavaju ekonomsku Maddala, 1992 .). Ekonometrijski model mora biti dovoljno eksplicitan da strukturu procesa ( Maddala,
omogući:
istraživanje ekonomskih procesa, kontrolu ekonomskih procesa, te predviđanje ponašanja istraživanog procesa u različitim promjenjivim uvjetima budućnosti. Ekonometrijski model mora biti tako konstruiran da omogući (Jovičić, 1989.): modeliranje ekonomskog sustava i testiranje hipoteza o njegovim parametrima prognoziranje i predviđanje 9
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
analiziranje ekonomskih kretanja i simulacija mjera ekonomske politike, simulacija teorije ekonomskih ciklusa, ekonomskog rasta, itd.
Ekonometrijski model sastoji se iz slijedećih elemenata (Maddala, 1992.):
skupa strukturnih jednadžbi koje objašnjavaju ponašanje ekonomske varijable, a koje proizlaze iz ekonomskog modela; takve jednadžbe uključuju i «odstupanja» (koja uključuju sve one, za specifični model nevažne varijable, kao i neke nepredvidive čimbenike); iskaza o eventualnim pogreškama u opažanjima analiziranih varijabli; specifikacije distribucije vjerojatnosti «odstupanja». Navedeni elementi omogućuju testiranje empirijske valjanosti ekonometrijskoga modela i njegovo korištenje za predviđanja i donošenje odluka. Poželjne osobine ekonometrijskog modela su (Jovičić, 1989.): relevantnost, odnosno zasnovanost cilja; teorijska uvjerljivost: model treba biti usuglašen sa postulatima ekonomske teorije i
adekvatno predstavljati ekonomske pojave; razjašnjavanja: model mora objašnjavati opažanja iz stvarnosti, biti sposobnost razjašnjavanja: konzistentan sa opaženim ekonomskim ponašanjem; točnost ocjene parametara: ocjene trebaju na najbolji mogući način aproksimirati stvarne parametre modela, te posjedovati osobine nepristranosti, konzistentnosti i efikasnosti; mogućnost predviđanja mogućnost predviđanja endogenih varijabli; jednostavnost: model treba predstavljati određenu ekonomsku vezu sa najvećom
mogućom jednostavnošću, da bi se lako moglo razumjeti njegovo značenje, uz uvjet da se druge željene osobine ne gube simplifikacijom modela. KLASIFIKACIJA EKONOMETRIJSKIH MODELA
Postoji niz kriterija klasifikacije ekonometrijskih modela. S obzirom na složenosti pojave koja je
predmetom izučavanja, ekonometrijski model može biti: model jedne jednadžbe te model sustava jednadžbi ili model sustava simultanih jednadžbi: takav se model sasto ji od više linearnih ili nelinearnih jednadžbi međusobno povezanih na određeni specifičan način. S obzirom na dužinu vremenskoga razdoblja koje obuhvaćaju, ekonometrijski modeli mogu biti: kratkoročni ekonometrijski modeli te dugoročni ekonometrijski modeli. S obzirom na stupanj agregiranja ekonomskih varijabli te formuliranja osnovnih ekonomskih veza analizirane ekonomske pojave, ekonometrijski modeli mogu biti: mikro ekonometrijski modeli te makro ekonometrijski modeli. S obzirom na svrhu primjene koju model ima, ekonometrijski model može biti: deskriptivni ekonometrijski model: takav se model konstruira sa svrhom
definiranja odnosa između uzroka i posljedica temeljem kojih se mogu donijeti
sudovi o funkcioniranju ekonomske pojave te analitički ekonometrijski modeli: pokazuju kako se analizirana ekonomska pojava promijenila kada bi se promijenila bilo koja od njenih veza.
S obzirom na metode statističke analize ekonometrijski modeli mogu biti: 10
I. DIO
2.
UVODNO O EKONOMETRIJI
Poglavlje: Metodologija ekonometrijskog istraživanja
linearni ekonometrijski modeli, nelinearni ekonometrijski modeli koji se prikladnom transformacijom mogu
linearizirati te nelinearni ekonometrijski modeli.
NOTIRANJE I STRUKTURA EKONOMETRIJSKOG MODELA
Opći oblik ekonometrijskog modela je slijedeći: gdje:
, 1, 2, … ,
(1)
Y i predstavlja vektor (n x 1) varijabli koje model želi objasniti (endogene, zavisne varijable), a koje se odnose na i- to opažanje je funkcija zbog koje Y i zavisi od vektora (k x 1) nezavisnih varijabli X i f je i je vektor (n x 1) slučajnih pogrešaka. Svaki ekonometrijski model sastavljen je od dva karakteristična dijela: deterministički dio modela: sustavni dio modela f(X )i koji izražava postuliranu teorijsku vezu danu ekonomskom teorijom pri kojoj je Y i zavisna od X i, ako su drugi čimbenici
konstantni (ceteris paribus klauzula), predstavlja dakle, sistematske varijacije Y u zavisnosti od promjene u X ; stohastički dio modela i: nesustavni dio modela (slučajno odstupanje), koji predstavlja slučajne varijacije kojima se uzima u obzir djelovanje promjena ostalih varijabli koje su
izostavljene iz modela; slučajna su odstupanja pojedinačno posve beznačajna, ali njihov zajednički utjecaj može biti zamjetljiv. VARIJABLE EKONOMETRIJSKOG MODELA
Varijabla čije se varijacije objašnjavaju pomoću drugih naz iva se zavisnom varijablom, a varijable kojima se objašnjava varijacija zavisne varijable nazivaju se nezavisnim varijablama. Zavisne varijable su one koje su determinirane sustavom. Model je i tako konstruiran da ih objasni, pa je broj jednadžbi jednak broju endogenih varijabli. Nezavisne varijable formirane su van sustava. Pri svakoj konstrukciji ekonometrijskog modela javlja se problem odabira, odnosno klasifikacije varijabli na zavisne i nezavisne. Status varijabli u modelu, to jest proces određivanja koja je varijabla zavisna, a koje su varijable nezavisne, zavisi o danoj primjeni
modela i izvire iz poznavanja područja primjene. Ima više različitih naziva za pojam zavisna i nezavisna varijabla. Kadšto su ti nazivi u svezi s područjem primjene modela. U sljedećoj tablici su dani izrazi koji se najčešće koriste za pojam zavisne i nezavisnih varijabli. Tablica 1: Različiti izrazi za zavisnu i nezavisnu varijablu
Nazivi varijabli čije se varijacije objašnjavaju – varijabla Y zavisna varijabla regresand varijabla endogena varijabla output varijabla prediktand varijabla varijabla cilja varijabla efekata varijabla odziva
objašnjena varijabla
Nazivi varijabli pomoću kojih se objašnjavaju varijacije Y – varijabla X nezavisne varijable regresorske varijable egzogene varijable input varijable prediktorske varijable kontrolne varijable kauzalne varijable stimulus varijable eksplanatorne varijable
11
I. DIO UVODNO O EKONOMETRIJI
2.
Poglavlje: Metodologija ekonometrijskog istraživanja
PARAMETRI EKONOMETRIJSKOG MODELA
U svakom ekonometrijskom modelu pojavljuju se određeni parametri ili koeficijenti regresije modela. Jednadžba pravca, odnosno funkcionalni dio modela određen je ako su poznati parametri. Parametar mjeri mjeri vrijednost varijable Y koja odgovara vrijednosti 0 varijable X . Parametar , nagib funkcije, mjeri promjenu vrijednosti varijable Y koja odgovara jedinici promjene vrijednosti varijable X . SLUČAJNA VARIJABLA
Ekonomska teorija izražava ekonomske odnose u «točnom, egzaktnom obliku», odnosno obliku funkcionalne zavisnosti. U praksi se često javljaju «statističke diskrepancije». Takve je diskrepancije, koje su stohastičke prirode teško eliminirati, ali je relativno lako njima operirati, ukoliko nisu proizvod grubih sustavnih grešaka u formuliranju mo dela ili mjerenju. Statistički odnosi među pojavama razlikuju se od determinističkih (funkcionalnih) odnosa. Statistički odnosi pojava pod utjecajem su nesistematskih, stohastičkih varijacija, čija prisutnost izvire iz prirode tih odnosa. Stohastički element u jednadžbama ekonomskog ponašanja konvencionalno se tretira dodajući jednadžbi «slučajnu « slučajnu varijablu u » nazvanu slučajno odstupanje ili slučajna pogreška ili rezidualno odstupanje. Promjenjiva veličina ut uključuje se u model da bi obuhvatila utjecaj raznih pogrešaka, koje se mogu svrstati u tri grupe:
slučajne, odnosno nesustavne pogreške mjerenja relevantnih varijabli pogreške specifikacije modela, odnosno: pogreške izostavljanja varijabli, koje su brojne i nezavisne i koje se mijenjaju raznim pravcima, tako da je ukupni efekt na zavisno promjenjivu veličinu slučajan, odnosno nepredvidiv u svakom posebnom razdoblju, pogreške specifikacije uslijed pojednostavljenja matematičkog oblika zavisnosti
koje je u stvarnosti kompleksniji.
pogreške zbog rada s uzorkom, jer bez obzira na veličinu uzorka on daje tek parcijalne informacije o populaciji.
Suma tako međusobno odvojenih i nepredvidivih utjecaja ponaša se kao slučajna promjenjiva veličina.
12
II. DIO
REGRESIJSKA ANALIZA
13
II. DIO REGRESIJSKA ANALIZA
3. Poglavlje: Regresijska analiza – Temeljni Temeljni pojmovi -
3.
-
E
konomska se teorija uglavnom bavi odnosima među varijablama. Općenito se može tvrditi da se cjelokupni sadržaj ekonomske teorije može promatrati kao zbirka odnosa među varijablama. Ekonometrija se bavi testiranjem teorijskih tvrdnji i postavki u navedenim odnosima te
procjenjivanjem parametara koje oni sadrže.
Ekonometričari koriste različite statističke tehnike, no osnovna je regresijska analiza. Cilj ekonometrijskog istraživanja je verifikacija ekonomskih zakonitosti, a statistička tehnika koja služi za kvantificiranje i testiranje navedenih zakonitosti je reg resijska analiza. Regresijska se analiza sastoji u primjeni različitih metoda ispitivanja zavisnosti jedne varijable o drugoj varijabli ili o više drugih varijabli. Varijable predočuju pojave koje su u nekom odnosu. Korelacijska i regresijska analiza stat istička su sredstava za proučavanje povezanosti
(odnosa) među pojavama. Korelacijska analiza proučava jakost, intenzitet ili stupanj povezanosti među pojavama. Regresijska analiza precizno opisuje povezanost uz pomoć regresijskog modela. PRIMJER 1 Dohodak Stupanj Stupanj obrazovanja
Korelacija dviju varijabli: ne spominje se koja varijabla utječe na koju. Korelacija određuje jakost veze; koeficijent korelacije: mjera jačine veze samo za linearne veze: -1 r r 1 1. Dohodak = f (Stupanj obrazovanja)
Regresija ukazuje na smjer uzročnosti, za razliku od korelacije koja je simetrična. Regresijska analiza proučava zavisnost varijable o nezavisnim varijablama te ukazuje na postojanje tendencije kretanja prema prosječnoj vrijednosti.
Regresijska analiza predstavlja statističku tehniku objašnjavanja promjena u jednoj varijabli (zavisnoj varijabli), kao funkciji promjene u skupu drugih varijabli (nezavisne ili objasnidbene varijable). PRIMJER 2 Q = f (P, P S , Y a ) )
Q – količina potražnje P – cijena PS – cijena supstituta Ya – visina dohotka
Regresijska analiza testira smjer i jačinu kvantitativne veze, ali ne dokazuje uzročnost. Uzročnost dokazuje ekonomska teorija.
Regresijska analiza bavi se izučavanjem odnosa između jedne zavisne i jedne ili više nezavisnih varijabli. Možemo biti zainteresirani za istraživanje odnosa između količine potražnje nekog proizvoda i njegove cijene, dohotka potrošača i cijene supstituta. Spomenuti odnos temelji se na određenoj ekonomskoj teoriji koja specificira postojanje jedne zavisne ( Y ) 14
II. DIO REGRESIJSKA ANALIZA
3. Poglavlje: Regresijska analiza – Temeljni Temeljni pojmovi -
i jedne ili više nezavisnih varijabli ( X ).). No, iako se regresijska analiza bavi proučavanjem odnosa među varijablama, ona ne implicira kauzalnost: ne dokazuje da je nezavisna varijabla uzrok, a zavisna posljedica. Kauzalnost dviju varijabli mora biti dokazana ekonomskom teorijom koja dokazuje pojavu, koju se empirijskim putem testira.
Regresijska analiza ima slijedeće ciljeve:
Procijeniti srednju vrijednost zavisne varijable za danu vrijednost nezavisne varijable. Testirati hipoteze o prirodi povezanosti: hipoteze sugerira ekonomska teorija. Primjerice, u funkciji potražnje, želi se testirati da cjenovna elastičnost potražnje iznosi -1: krivulja potražnje ima jediničnu cjenovnu elastičnost. Ako cijena proizvoda poraste za 1%, količina potraživanog proizvoda smanjuje se za 1%, pod pretpostavkom ko nstantnosti ostalih čimbenika. Predvidjeti ili prognozirati srednju vrijednost zavisne varijable, za dane vrijednosti nezavisne varijable izvan dometa uzorka.
Prema (Jurun, Pivac, Arnerić, 2006) osnovne zadaće regresijske analize su: Pronaći analitički oblik veze između jedne zavisne i jedne ili više nezavisnih varijabli. Temeljem analitičkog oblika izvršiti predviđanje vrijednosti zavisne varijable pri određenim vrijednostima nezavisne-nih varijabli. Cjeloviti postupak regresijske analize obuhvaća sljedeće korake: DEFINIRANJE PREDMETA I CILJEVA ISTRAŽIVANJA
Nakon sagledavanja teorijskih spoznaja kao i rezultata prethodnih istraživanja promatrane pojave postavljaju se osnovne pretpostavke. Tek je tada moguće potpuno, precizno i koncizno definirati predmet i cilj istraživanja. ODABIR MODELA I DEFINIRANJE VARIJABLI
Radi se o odabiru čimbenika (nezavisnih varijabli X ) koji imaju najznačajniji utjecaj na zavisnu varijablu Y . Ovo je vrlo složen korak, jer bi uključivanje irelevantnih varijabli dovelo do ne manjih grešaka specifikacije od isključivanja relevantnih varijabli iz regresijskog modela. Potrebno je i provjeriti ispunjenje svih pretpostavki stohastičnosti slučajne varijable (Gauss-Markovljevi uvjeti). U samom pristupu analizi važno je odrediti je li prikladniji model u kojem je slučajni član aditivan ili je ispravnije analizu započeti s multiplikativnim modelom. Uz to se mora odabrati između jednodimenzionalnog ili multiplog regresijskog modela. -DOKUMENTACIJSKE OSNOVE FORMIRANJE STATISTIČKO-DOKUMENTACIJSKE
Formiranje baze podataka mora udovoljavati svim zahtjevima prikupljanja valjanih podataka. ODABIR KONKRETNOG REGRESIJSKOG MODELA
Pri odabiru konkretnog regresijskog modela njegova specifikacija obuhvaća odabir optimalnog funkcionalnog oblika modela te broja i karaktera relevantnih variajbli. STATISTIČKA ANALIZA MODELA
Ovaj korak obuhvaća ocjenu parametara i provjeru pokazatelja reprezentativnosti regresijskog modela. TESTIRANJE HIPOTEZA O MODELU I STATISTIČKO TEORIJSKIH PRETPOSTAVKI
Ovaj korak obuhvaća testiranje hipoteza o statističkoj značajnosti svakog pojedinog parametra u modelu, kao i pretpostavki o slučajnoj pogrešci modela. VREDNOVANJE MOĆI PREDVIĐANJA MODELA
15
II. DIO
3. Poglavlje: Regresijska analiza – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Ukoliko model nema zadovoljavajuću moć predviđanja, a zadovoljava kriterije prethodnih koraka, može se koristiti u analitičke svrhe. INTERPRETIRANJE REZULTATA
Temeljem valjanosti svih navedenih koraka moguće je izvršiti sintezu rezultata i donijeti zaključke o pojavi koja se istražuje. Osnova je svake analize regresijski model. Regresijski model definira se kao:
algebarski model kojim se analitički izražava statistički odnos među pojavama, odnosno jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli Svaki regresijski model sadrži slučajnu varijablu kojom se predočuju nesistematski utjecaji i po kojoj se statistički model razlikuje od determinističkog modela. Regresijski modeli služe u analitičke, često prediktivne svrhe. Oblici modela su različiti i zavise o danom slučaju primjene. Postupak kojim se odabire oblik modela, odabiru i definiraju varijable, određuje njihov status te postavljaju hipoteze naziva se građenjem modela. Opći oblik regresijskog modela može biti
(, ,…,,…,) (, ,…,,…,) ∙
ili
gdje je: Y f (X) X 1 , X 2 ,… X k , , ( )
(2)
(3)
zavisna varijabla funkcionalni dio modela koji je različit te zavisi o danom slučaju primjene nezavisne varijable stohastička varijabla koja predočuje nesistematske utjecaje na zavisnu varijablu
PODACI
Regresijski model analizira se polazeći od stvarnih vrijednosti pojava, odnosno od stvarnih (empirijskih) vrijednosti varijabli. Podaci za regresijsku analizu potječu iz primarnih ili sekundarnih izvora, a nastaju mjerenjem ili opažanjem u statističkim pokusima. U primjenama regresijskog modela podaci se pojavljuju kao:
vremenski nizovi (vremenske serije), podaci vremenskog presjeka te mješoviti podaci. Podaci vremenskog niza (time series data) sadrže informacije o kretanju vrijednosti varijable tijekom određenog vremenskog razdoblja. Podaci se sakupljaju u jednakim vremenskim intervalima: godišnje, polugodišnje, mjesečne, kvartalne intervale. Tako sakupljeni podaci mogu biti kvantitativne prirode (cijene, osobna potrošnja, investicije, stopa nezaposlenosti) ili kvalitativne prirode ili dummy varijable (muškarci, žene, zaposleni, nezaposleni, udati ili ne udati). Dummy podaci poprimaju vrijednosti od 0 i 1 čime se izražava prisutnost odnosno odsutnost nekog kvalitativnog svojstva. Podaci vremenskoga presjeka ili brojčane vrijednosti pojava ( cross-sectional data) su vrijednosti
varijabli u jednom vremenskom intervalu ili vremenskoj točki za specifične jedinice (poduzeće, gospodarski sektor, zemlja).
16
II. DIO
3. Poglavlje: Regresijska analiza – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Mješoviti podaci ( pooled pooled data) su kombinacija podataka vremenske serije i podataka vremenskog presjeka. Primjer mješovitih podataka su podaci o stopi nezaposlenosti tijekom 10 godina za 20 različitih zemalja. Podaci za stopu nezaposlenosti za razdoblje od 10 godina predstavljaju podatke vremenske serije, dok podaci o stopi nezaposlenosti za svaku pojedinu
zemlju predstavljaju podatke vremenskog presjeka. Raspolagat će se tako podacima sastavljenim od 200 zapažanja: 10 godišnjih opažanja za 20 različitih zemalja. Posebna vrsta mješovitih podataka su tzv. Panel podaci ( panel data, longitudinal data ili micropanel data) koji se sastoje od opažanja uzetih za jednu gospodarsku jedinicu (poduzeće ili obitelj) kroz određeni vremenski period. Panel podaci koji se dobiju anketiranjem istih gospodarskih jedinica u
jednakim vremenskim intervalima vrlo su korisni za analizu kretanja ponašanja tih gospodarskih jedinica.
Kako je neke utjecaje nemoguće kvantificirati u nekim se modelima pojavljuju i binarne ili dummy varijable (dummy variables, indicator variables). One poprimaju naprijed poznate vrijednosti 0 ili 1. Vrijednost 0 govori o odsutnosti nekog svojstva, a 1 o prisutnosti svojstva, pa su one sredstvo kojim se u model uključuje određena kvalitativna varijabla.
Podaci na temelju kojih se provode postupci katkada se transformiraju radi pojednostavljenja
računanja ili radi poboljšanja njihove kvalitete. Tako se umjesto originalnih varijabli rabe njihove logaritamske vrijednosti, recipročne vrijednosti. Već je spomenuto da uspješnost ekonometrijskog istraživanja uvelike zavisi od kvalitete i količine podataka. Vrlo često u fazi prikupljanja ekonomskih podataka dolazi do različitih poteškoća i pogrešaka. Najčešće se u analizama koriste javni podaci, koji mogu u sebi sadržavati određenu pogrešku u definiciji, statističkom izračunavanju ili nepotpunom obuhvatu i slično. Stoga, je u ovoj fazi ekonometrijskog istraživanja potrebno voditi računa o tome jesu li varijable odabranog modela izmjerene na odgovarajući način, tj. je li statistički podaci odgovaraju svojoj ekonomskoj definiciji te da li sadržavaju pogrešku mjerenja. VREMENSKA DIMENZIJA
Vremenska dimenzija u regresijskom modelu dolazi do izražaja na različite načine. Tako se u regresijski model može uključiti varijabla vrijeme kao nezavisna varijabla. Vremenske serije (vremenski nizovi) često su brojčana podloga za konkretizaciju modela. Ako vremensk i nizovi čine vrijednosti varijabli u modelu tada njihova kovarijacija u vremenu može biti sinkrona ili asinkrona. Sinkrona kovarijacija
, 1 , 2 , … , { , ,…,,…,, 1, 2, … , }
Ako se s
označi vremenska serija vrijednosti zavisne varijable Y ; a s vremenske serije nezavisnih varijabli X 1 , X 2 , X j , X k u
modelu:
X tktk )+e Y t= f (X t1 , X t2 , X tjt ,…, )+e , t, t1 , t2 , j
t=1, 2,…,n
(4)
vrijednost zavisne varijable u vremenu t funkcija je vrijednosti nezavisnih varijabli u istom vremenu t i vrijednosti slučajne varijable e u istom vremenu. Pojave (varijable) predočene u
tom modelu sinkrono kovariraju (Promatra li se odnos raspoloživog dohotka i osobne potrošnje stanovništva, sinkrona kovarijacija upućuje na odnos tekućeg raspoloživog dohotka i tekuće osobne potrošnje za sva ko od n razdoblja.). Asinkrona kovarijacija
Asinkrona kovarijacija prisutna je ako na tekuću vrijednost zavisne varijable djeluju vrijednosti nezavisnih varijabli prethodnog razdoblja ili više razdoblja prije tekućeg (pomak
17
II. DIO
3. Poglavlje: Regresijska analiza – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
u vremenu). U nekim modelima u s tatusu nezavisne varijable može se naći i zavisna varijabla s pomakom u vremenu. U modelu Y t = f(Y t-1 t, X 2,t-1 , X 3,t-2 t-1 , X 1t 1 , 2,t-1 , 3,t-2+…)+et
(5)
tekuća vrijednost zavisne varijable Y zavisi o njenoj prethodnoj vrijednosti, o tekućoj vrijednosti nezavisne varijable X 1, o vrijednosti prethodnog razdoblja varijable X 2, o vrijednosti dvaju razdoblja ispred tekuće varijable X 3… i o vrijednosti slučajne varijable iz
tekućeg razdoblja. Model Y t = f(X , t, X t-1 t-1 , X t-2 t-2+…)+et
(6)
izražava zavisnost tekuće vrijednost zavisne varijable Y o tekućoj vrijednosti i proteklim vrijednostima nezavisne varijable X i tekućoj vrijednosti varijable e. Tekuća vrijednost zavisne varijable Y može se predočiti pomoću njezinih proteklih vrijednosti i tekuće vrijednosti varijable e, to jest modelom:
VRSTE MODELA
, −, − ⋯
(7)
Regresijski modeli dijele se na:
simultane: sastoje se iz dvije ili više povezanih jednadžbi te nesimultane: sastoje se od jedne jednadžbe . Regresijski model može biti: model jednostavne regresije: ako se sastoji od jedne zavisne i jedne nezavisne varijable te
model višestruke (multiple) regresije: ako sadrži jednu zavisnu i dvije ili više nezavisnih varijabli. LINEARNOST MODELA
Važna pretpostavka primjene linearne regresije je linearnost modela. Među regresijskim modelima važnu skupinu čine linearni regresijski modeli. Linearnost regresijskog modela po pravilu se povezuje s dimenzijom (potencijom) varijabli i nepoznatih parametara. Model je linearan u varijablama ako svaka varijabla u modelu ima potenciju jednaku 1 te nije podijeljena ili pomnožena pomnožena s drugom varijablom. Model je linearan u parametrima ako svaki parametar u njemu ima potenciju jednaku 1, te ako isti nije pomnožen ili podijeljen s drugim
parametrima. Model u kojem su parametri u umnošku ili kvocijentu nelinearan je u parametrima. Regresijski model može biti:
linearan u varijablama i linearan u parametrima, nelinearan u varijablama i linearan u parametrima, linearan u varijablama i nelinearan u parametrima, te nelinearan u varijablama i nelinearan u parametrima. Sa stajališta metoda statističke analize model je linearan ako je linearan u parametrima. U sklopu metoda statističke analize model se dijeli na: ‒ ‒ ‒
linearne, nelinearne koji se prikladnom transformacijom mogu transformirati u linearne te nelinearne («pravi» nelinearni modeli) .
Mogućnost transformacije nelinearnih modela u linearne modele zavisi o položaju slučajne varijable. 18
II. DIO
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
4.
ajjednostavniji slučaj linearnog odnosa sadrži samo dvije mjerljive varijable.
4.1. ODNOS IZMEĐU VARIJABLI
Odnos između varijabli X i Y definiramo kao skup svih vrijednosti koje označava zadana jednadžba. Ako je zadana jednadžba
gdje su 0 i 1 konstante tada je, odnos između X i Y skup mogućih vrijednosti X i i Y koje zadovoljavaju jednadžbu.
,,
(8)
koji se sastoji od svih
Pojam odnosa povezan je s pojmovima:
domene: skup svih mogućih vrijednosti varijable X te područja vrijednosti: skup svih mogućih odgovarajućih vrijednosti varijable Y. Svi se odnosi među varijablama mogu klasificirati kao: deterministički: deterministički: ako se svaki element domene združuje sa samo jednim elementom područja vrijednosti; odnos između X i Y okarakteriziran je kao Y=f(X) deterministički ako za svaku vrijednost varijable X postoj postoji samo jedna odgovarajuća vrijednost varijable Y;
postoji cjelokupna distribucija vjerojatnosti stohastički: ako za svaku vrijednost varijable X postoji vrijednosti varijable Y ; u tom slučaju, za bilo koju zadanu vrijednost varijable X, varijabla Y može poprimiti neku specifičnu vrijednost ili pasti unutar nekog određenog intervala, nikada ne s vjerojatnošću manjom od 1 i većom od 0, što znači da se vrijednost varijable Y nikada može točno predvidjeti. PRIMJER 3
Ilustriranje razlike između determinističkog i stohastičkog odnosa (Primjer preuzet iz Kmenta, 1997) Pretpostavimo da izvodimo niz pokusaq u grupi da bismo odredili potražnju za jabukama pri različitim cijenama. Neka je:
qt količina jabuka prodanih u vremenu t pt cijena jabuka Grupa potrošača svaki put tijekom razdoblja plaća jabuke koje se nude po danoj cijeni. Na kraju imamo slijedeće rezultate: pt qt
25 1
20 3
15 5
10 7
5 9
0 11
19
II. DIO
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Ti se rezultati mogu prikazati kao:
110,4
Odnos je između cijene i količine takav da u svakom trenutku, u kojem bi jabuke bile ponuđene po 25 novčanih jedinica po komadu bila bi prodana samo jedna jabuka. To je deterministički odnos, jer za svaku cijenu postoji samo jedna količina prodanih jabuka. Ako razmotrimo različiti skup rezultata: količina
cijena 25
0 jabuka 25% vremena 1 jabuka 50% vremena 2 jabuka 25% vremena
20
2 jabuka 25% vremena 3 jabuka 50% vremena 4 jabuka 25% vremena . . . 10 jabuka 25% vremena 11 jabuka 50% vremena 12 jabuka 25% vremena
. . . 0
gdje je t slučajna varijabla koja bez obzira na specifičnu cijenu, ima s lijedeću distribuciju vjerojatnosti: f( t) ) 0,25 0,5 0,25 1,00
t
-1 0 +1
Ta se varijable zove slučajno odstupanje (slučajna pogreška), jer remeti inače deterministički odnos. Zadnji je odnos stohastički jer se, zbog prisutnosti odstupanja za svaku cijenu traži nekoliko količina, pri čemu se svaka količina ostvaruje s danom vjerojatnošću. Grafički prikaz dvaju odnosa dan je na slijedećoj slici. Slika 3: Deterministički i stohastički odnos stohastički odnos
deterministički odnos
a n i č i l o K
12
12
10
10 a n i č i l o K
8 6
X X
8
X X
6
4
4
2
2
X X
X X
X X X X
0
5
10 Cijena
15
20
25
0
5
10
15
20
25
Cijena
20
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
4.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL
Ekonometrija se bavi isključivo stohastičkim odnosima. Najjednostavniji oblik stohastičkog odnosa između dvije varijable X i Y zove se jednostavni linearni regresijski regre sijski model. Taj se model formalno izražava u obliku:
u kojem je:
Y X
i 0 i 1
(9)
zavisna varijabla nezavisna varijabla
slučajno odstupanje i-to opažanje nepoznati koeficijenti ili parametri:
0: konstanti član, predstavlja odsječak na osi ordinate 1: koeficijent nagiba (smjera), regresijski koeficijent, označava vrijednost za koju će se promijeniti y kada se x promijeni za 1. Stohastička narav regresijskog modela podrazumijeva da za svaku vrijednost varijable X postoji cijela distribucija vjerojatnosti za vrijednosti varijable Y . To znači da se vrijednost varijable Y nikada ne može točno predvidjeti. Neizvjesnost se glede varijable Y, pojavljuje zbog prisutnosti slučajnog odstupanja koje, budući da je slučajno, pridaje slučajnost i varijabli Y. PRIMJER 4
Razmotrimo proizvodnu funkciju poduzeća. Pretpostavimo da proizvodnja na neki specifičan način zavisi o količini uloženog rada. Takva se proizvodna funkcija može odnositi na kratak rok u kojem su količine ostalih čimbenika fiksne. Međutim, općenito, ista će količina rada dovesti do različitih količina proizvodnje zbog varijacija u vremenu, mogućnosti ljudi, učestalosti zastoja strojeva i drugih čimbenika. Proizvodnja će, koja je u tom slučaju zavisna varijabla, zavisiti ne samo o količini uloženog rada koji je nezavisna varijabla, već i o velikom broju slučajnih uzroka koji se sažeto izražavaju u obliku slučajnog odstupanja. Ti su slučajevi pojedinačno posve beznačajni da bi ih se zapazilo. Međutim, njihov zajednički utjecaj može biti posve zamjetljiv. Vrije dnost varijable X i distribucija vjerojatnosti slučajne varijable određuju tada distribuciju vjerojatnosti varijable Y i njezine karakteristike.
4.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA
Izraz (9) predstavlja model linearne regresije. Potrebno je razjasniti što zapravo termin «linearan» znači. Linearnost regresijskog modela može se interpretirati na dva načina i to kao linearnost u varijablama te linearnost u parametrima. LINEARNOST U VARIJABLAMA
Prvo i možda «prirodnije» značenje linearnosti je to da je očekivana vrijednost zavisne varijable Y linearna funkcija nezavisne varijable(i) X kao kao u izrazu (9). Za funkciju Y= f (X)
X ima ima potenciju 1 (izrazi X 2 i X nisu linearni) te, X nije pomnožen ili podijeljen sa nekom drugom varijablom, kao na primjer: X Z i X/Z, gdje je Z druga varijabla.
U takvoj interpretaciji sljedeći izrazi nisu linearni E ( Y ) 1 2 X i2
(10)
21
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
E ( Y ) 1 2
1
(11)
X i
jer u izrazu (10) X ima ima potenciju 2, a u izrazu (11) se X pojavljuje pojavljuje u inverznom obliku. Za regresijski model koji je linearan u nezavisnoj varijabli(ama) stopa promjene u zavisnoj varijabli ostaje konstantna za jedinicu promjene u nezavisnoj varijabli; nagib ostaje konstantan. Za regresijski model koji je nelinearan u nezavisnoj varijabli nagib nije
konstantan, što je vidljivo na sljedećoj slici. Slika 4: Linearna (a) i nelinearna (b) krivulja potražnje
Na slici (a) za regresiju iz izraza (9), nagib – stopa promjene u (E)Y – srednja vrijednost od Y i, ostaje ista, to jest 2, bez obzira na kojoj vrijednost od X se se promjena mjeri. S druge strane, za regresiju iz izraza (11), stopa promjene u srednjoj vrijednosti Y , varira iz točke u točku na regresijskoj krivulji,1. LINEARNOST U PARAMETRIMA
Drugi način interpretiranja linearnosti jest, da je očekivanje zavisne varijable linearna funkcija parametara. Analogno linearnosti u varijablama, funkcija je linearna u parametrima, ako parametri imaju potenciju 1. Izrazi (10) i (11) predstavljaju linearne model, je parametri poštuju uvjete linearnosti, nelinearnost varijable X se ne uzima u obzir. Međutim model tipa E ( Y ) 1
2
2
(12)
X i
nelinearan je u parametrima jer se 2 pojavljuje s potencijom 2.
Sa stajalište regresijske analize model je linearan ako je linearan u parametrima.
1⁄ 1
U linearnom modelu nagib, iznos Y u odnosu na X, je konstantan i jednak , zavisi od vrijednosti X na kojoj se nagib mjeri te nije konstantan.
2,
dok u nelinearnom modelu iznosi
22
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
ZADACI ZA VJEŽBU2 1 .
Analiziraju se slijedeće varijable te odredite moguću status pojava, odnosno varijabli u regresijskom modelu: raspoloživi dohodak, osobna potrošnja; uloženi kapital, broj zaposlenih, opseg proizvodnje; ukupni troškovi, opseg proizvodnje; per capita bruto društveni proizvod, veličina fiksnog kapitala, broj zaposlenih, medijalni -broj završenih godina školovanja; prihod, broj turističkih ležajeva, prosječan broj noćenja, prosječni godišnji dohodak kojime raspolaže
2 .
turist. Kako glase regresijski modeli ako je funkcionalni dio modela: a) f(x) = 1+ 2X; b) f(X 1 , X 2 ) = 0X 1 1X 2 2
3 .
Klasificirajte slijedeće modela s obzirom na (1) dimenziju (potenciju) varijabli i parametara te (2) s obzirom na uporabu metoda statističke analize: a) b) c) d) e)
4 .
Linearizirajte sljedeće modele: a) b)
5 .
∙ ∙ ∙ ∙ ∙ ∙
Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SAD -u. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici. Godina Per capita osobna potrošnja Per capita raspoloživi dohodak 2000. 3 277 3 665 2001. 3 355 3 752 2002. 3 511 3 860 2003. 3 623 4 808 2004. 3 566 4 009 2005. 3 609 4 051 2006. 3 774 4 158 2007. 3 924 4 280 2008. 4 057 4 441 2009. 4 121 4 512 2010. 4 093 4 487 2011. 4 131 4 561 2012. 4 146 4 555 2013. 4 303 4 670 2014. 4 490 4 941 Temeljem podataka iz tablice: a) Odredite status varijabli u modelu regresije. b) Nacrtajte dijagram rasipanja. Što se zaključuje na temelju dijagrama?
2
Zadaci preuzeti i prilagođeni prema Šošić, I. (2004), Primijenjena statistika, Školska knjiga, Zagreb i Lovrić, LJ. (2005),
Uvod u ekonometriju, Ekonomski fakultet Rijeka, Rijeka.
23
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
RJEŠENJA ZADATAKA 1.
2.
3.
Određivanje statusa varijable u regresijskom modelu izvire iz ekonomske teorije. (1) Osobna potrošnja zavisi o raspoloživom dohotku, pa je zavisna varijabla osobna potrošnja, a nezavisna varijabla raspoloživi dohodak. (2) Opseg proizvodnje zavisi o veličin i kapitala i broju zaposlenih. Opseg proizvodnje je zavisna varijabla, a veličina uloženog kapitala i broj zaposlenih su nezavisne varijable. (3) Varijabla ukupni troškovi je zavisna, a nezavisna varijable je opseg proizvodnje. (4) Per capita bruto društve ni proizvod zavisi o veličini fiksnog kapitala, broju zaposlenih, medijalnom zbroju završenih godina školovanja. Varijabla per capita bruto društveni proizvod zavisna je, a ostale varijable su nezavisne. (5) Varijabla prihod je zavisna, a varijable broj turističkih ležajeva, prosječan broj noćenja turista, prosječni godišnji dohodak turista nezavisne su varijable. a) Regresijski je (aditivni) model f(x) = 1+ 2X+e b) Model u kojem je stohastička varijabla u umnošku s funkcionalnim dijelom oblika je f(X 1 , X 2 ) = 0X 1 1X 2 2 e a) Model je linearan u varijablama i parametrima jer su potencije varijabli i parametara jednake jedan.
Sadrži jednu zavisnu i jednu nezavisnu varijablu i sa stajališta metoda statističke analize predočuje b)
model jednostavne linearne regresije. Model je nelinearan u varijabli X2 (jer ta varijabla ima potenciju 2), a linearan u parametrima. Sa
stajališta metoda statističke analize model je linearan. c)
Model je nelinearan u varijabli X 3 (ta varijabla ima potenciju 0,5), a linearan u parametrima i ubraja se
među linearne statističke modele.
. , , 0 1 1 2 2 ; ; ; ; ; d)
Logaritamskom transformacijom model nelinearan u varijablama postaje
Parametri uz nezavisne varijable su s potencijom jedan, pa je riječ o linearnom (lineariziranom) modelu višestruke regresije. e) Model je nelinearan, i ne može se linearizirati, jer je varijabla e u zbroju s funkcionalnim dijelom modela. Stoga je riječ o «pravom» nelinearnom modelu.
4.
5.
a) b)
a)
Gospodarska teorija upućuje da osobna potrošnja ovisi o raspoloživom dohotku. Najjednostavniji statistički model potrošne funkcije jest model jednostavne linearne regresije u kojem je raspoloživi dohodak po stanovniku nezavisna varijabla, osobna potrošnja po stanovniku zavisna varijabla.
b)
Dijagram rasipanja: 4600 4400 ja
4200 n š ro
4000 t o p
3800 a ti p
3600 a c r e p
3400 3200 3000 3600
3800
4000
4200
4400
4600
4800
5000
per capita dohodak
Točke na dijagramu rasipanja raspoređuju se od donjeg lijevog kuta kvadrata koordinatnog sustava prema gornjem desnom kutu. Prema rasporedu točaka uočava se da je povezanost raspoloživog dohotka i potrošnje po obliku linearna.
24
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
4.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA
Jednadžba Y= 0 + 1X matematička je funkcija čije je obilježje determinističnost. Za razliku od matematičke funkcije, regresijska je funkcija stohastička. Regresijskom funkcijom izražavamo vezu među pojavama (varijablama) iz rea lnog svijeta. Ta veza nije nikad tako precizna da bi se mogla točno predstaviti nekom teorijskom funkcijom. PRIMJER 5
Funkcija potrošnje. Prema makroekonomskoj teoriji, potrošnja domaćinstva (Y) zavisi o dohotku domaćinstva (X). Ako dohodak raste, raste i potrošnja. Takvu vezu moguće je opisati jednostavnim regresijskim modelom. Radi se o stohastičkoj veličini čiju vjerojatnost označavamo kao vjerojatnost od Y pri danoj vrijednosti od X i (uvjetna vjerojatnost od Y za dano Xi): P(Y/Xi). Za takvu stohastičku varijablu možemo izračunati srednju vrijednost, koju nazivamo očekivana vrijednost E (Y/X i). To znači da tvrdnja -sva domaćinstva koja imaju veći dohodak troše više, vrijedi u prosjeku. Vidimo da se ovdje radi o stohastičko j pojav i.
Za takve pojave vrijedi da je očekivana vrijednost zavisne varijable, funkcija nezavisne varijable:
| |
(13)
odnosno ako se radi o linearnoj funkciji:
(14)
Izraz (14) zove se regresijska funkciju populacije (RFP).
|
Pomoću regresijskog modela moguće je izračunati očekivanu potrošnju svih domaćinstava s jednakim dohotkom. Ovako izračunata očekivana vrijednost deterministička je veličina. Ukoliko Uko liko uzmemo podatke za pojedino poj edino i-to domaćinstvo, vidjet ćemo da će se, za određenu visinu dohotka, potrošnja razlikovati od ove koje smo izračunali regresijskom jednadžbom. Ta odstupanja stvarnih vrijednosti potrošnje za svako domaćinstvo, od one izračunate regresijskom jednadžbom, označit ćemo sa u ( ).). Ta odstupanja nazivaju se slučajna greška ili slučajna odstupanja, a predstavljaju razliku između empirijskih i očekivanih vrijednosti zavisne varijable: iz relacije izvodimo odnosno
| |
(15)
(16)
(17)
Tako od determinističkog modela, koji definira ekonomska teorija, dolazimo do stohastičkog, populacijskog regresijskog modela. Naime, potrošnja se, za svako domaćinstvo, sastoji od:
očekivane vrijednosti potrošnje svih domaćinstava pri određenoj visini dohotka (deterministički dio) te slučajne pogreške (stohastički dio) koja se ponaša slučajno i koja predstavlja utjecaj drugih faktora na potrošnju, koji nisu predstavljeni uključenom regresorskom varijablom, pa je zbog nje i zavisna varijable također slučajna Neki od glavni razlozi zbog kojih ta odstupanja nastaju jesu manji utjecaji koji nisu uključeni kao zasebne varijable, greške mjerenja varijabli, greške u izboru tipa funkcijske veze, te nepredvidive ili potpuno slučajne varijable. 25
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
Izraz (17) ocjenjuje se na cijelom skupu podataka populacije. Obično za tako velik skup ne
raspolažemo podacima, pa se koristimo uzorcima na osnovi kojih ocjenjujemo parametre RFP koji nam u stvari nisu poznati. Dakle, kod ekonometrijskog modeliranja primjenjujemo
saznanja statističke teorije, pa parametre RFP ocjenjujemo pomoću slučajnog uzorka. Ako bismo parametre RFP ocjenjivali na bazi različitih uzoraka, svaki put bismo dobili ocjene koje bi se međusobno ipak razlikovale, ali pretpostavljamo da se razlikuju samo zbog nekih slučajnih utjecaja. Regresijska funkcija populacije, koja je ocijenjena na bazi uzorka zove se regresijska funkcija uzorka (RFU) i notira se :
gdje su:
|
(18)
ocjene od ocjena od ocjena od Osnovni zadatak jednostavne linearne regresijske analize jest naći pravac koji je najbolje prilagođen empirijskim podacima. Točke na tom pravcu označavaju se sa , i izračunavaju se pomoću jednadžbe (18). Razlika (19) zove se rezidual:
(19)
Rezidual predstavlja razliku između empirijskih točaka i točaka na regresijskom pravcu ( ei je procjena slučajnog odstupanja na osnovi uzorka). Iz relacija (18 i 19) izvodi se jednadžba: odnosno
(20)
(21)
4.4.1. REGRESIJSKA FUNKCIJA POPULACIJE
Za ilustriranje pojma regresijske funkcije populacije posegnimo za primjerom 3 . Pretpostavimo da želimo ocijeniti visinu izdataka 100 obitelji, na određenoj razini dohotka. tjedni izdatak pojedine obitelji. Populacija Označimo sa X raspoloživi tjedni dohodak, a sa Y tjedni od 100 obitelji podijeljena je u 10 dohodovnih razreda (od 150$ do 375$). Podaci o tjednom dohotku i izdacima prikazani su u tablici Tablica 2: Tjedni izdaci u odnosu na tjedni dohodak DOHODOVNI RAZRED X 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. SREDINA
150 28 27 25 33 23 15 18 12 13 15 20,90
175 33 31 29 27 24 20 18 15 14 10 22,10
200 35 31 30 28 26 22 20 17 16 19 24,40
225 36 34 31 29 27 26 23 21 18 16 26,10
TJEDNI IZDACI Y 250 275 38 40 36 37 33 32 30 30 28 29 25 27 23 25 22 22 20 18 18 32 27,30 29,20
300 42 39 34 31 30 29 26 24 25 23 30,30
325 43 35 31 30 29 33 32 30 31 25 31,90
350 45 39 33 30 27 30 28 32 32 34 33,0
375 46 40 34 31 28 32 30 31 33 31 33,60
3
Primjer preuzet i prilagođen prema Gujarati, D. N. i Porter, D. C. (2009), Basic Econometrics, Fifth Edition, McGraw-Hill International International Edition, New York.
26
II. DIO
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Na tjednoj razini dohotka od 150 $, postoji 10 obitelji koje tjedno troše između 12 i 28 $. Prosječno tih 10 obitelji troši 20,90 $ tjedno. Podaci iz tablice 2 unose se u dijagram rasipanja. Slika 5: Dijagram rasipanja
Tjedni izdaci prikazani su na ordinati, dok je tjedni dohodak prikazan na apscisi. Kako
dijagram rasipanja pokazuje za svaku danu razinu tjednog dohotka postoji više vrijednosti za Y.
Što prikazuje dijagram rasipanja? Dijagram rasipanja pokazuje opću tendenciju prema kojoj Y raste sa svakim porastom X : obitelji sa višim dohotkom više i troše. Trend rasta uočljiviji je ukoliko se promatraju sred nje vrijednosti za Y u u odnosu na vrijednosti X . Te su srednje vrij ednosti nazvane očekivanjima ili očekivanim vrijednostima. Ukoliko se očekivane vrijednosti Y povežu pravcem dobije se regresijska krivulja populacije. Regresijska funkcija populacije daje srednju (očekivanu) vrijednost zavisne varijable (izdaci) koja odgovara svakoj pojedinoj vrijednosti nezavisne
varijable (tjedni dohodak). Stoga, na razini tjednog dohotka od 200 $, prosječni tjedni izdaci iznose 24,40 $. Ukratko RFP je krivulja koja ukazuje na povezanost srednje vrijednosti varijable Y sa svakom pojedino m vrijednošću nezavisne varijable X populacije. Kako je RFP
aproksimativno linearna, može se matematički izraziti slijedećom funkcijom:
|
(22)
koja predstavlja matematičku funkciju pravca.
|
Izraz predstavlja očekivanje ili očekivanu vrijednost Y . Očekivane vrijednosti varijable Y za danu vrijednost varijable X prikazane su u posljednjem retku tablice 2. Potrebno je napomenuti da je funkcija od X i, što znači da zavisnost Y od od X , tehnički nazvana regresija Y na X , može biti jednostavno definirana kao srednja vrijednost distribucije vrijednosti varijable Y za danu vrijednost varijable X . Drugim riječima, regresijska krivulja populacije je pravac koji prolazi kroz očekivanu vrijednost varijable Y ,
|
matematički se izražava izrazom (22) a naziva se RFP jer predstavlja regresijsku krivulju populacije kao cjeline. Parametri 0 i 1 predstavljaju regresijske koeficijente. 0 predstavlja odsječak na osi ordinate (intercept), a 1 koeficijent nagiba koji mjeri razinu promjene u očekivanoj vrijednosti Y za jedinicu promjene varijable X. Pretpostavimo da 1=0,6. Taj se podatak interpretira kako slijedi: ako tjedni dohodak poraste za 1 $, prosječno će tjedni tjedni izdaci porasti za 60 centi. centi. Što je s 0? 0 predstavlja srednju vrijednost Y ako ako X=0.
Pokazuje srednju vrijednost izdataka u slučaju da tjedni dohodak iznosi nula.
27
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
Statistička ili stohastička specifikacija regresijske funkcije populacije RFP prikazuje očekivanu vrijednost zavisne varijable koja odgovara pojedinim vrijednostima nezavisne varijable. Iz tablice 2 vidljivo je, na primjer da za X=300 $ prosječna vrijednost varijable Y iznosi 30,30 $. Ali, ako nasumice odaberemo jednu obitelj između 10 njih na određenoj razini dohotka, izdaci neće nužno odgovarati prosječnom iznosu. Ako odaberemo desetu obitelj na razini dohotka X=300 $, vidimo da njeni izdaci iznose 23 $, što je ispod prosjeka dohodovnoga razreda. Prva obitelj istoga dohodovnoga razreda troši 42 $, što je pak iznad prosjeka. Kako dakle , objasniti pojedinačne izdatke u odnosu razinu dohotka? Pojedinačni izdaci jednaki su prosjeku dohodovnoga razreda određena količina. Matematički se navedeno može izraziti na slijedeći način:
(23)
gdje je, ui stohastička ili slučajna greška ili odstupanje.
Slučajno odstupanje je slučajna varijabla, stoga se njene vrijednosti ne mogu a priori poznavati ili kontrolirati, a karakterizirana je distribucijom vjerojatnosti (primjerice normalnom ili t-distribucijom). Po jedinačni izdaci i-te obitelji, koji odgovaraju određenom raspoloživom dohotku predstavljaju zbroj dviju komponenti:
koja predstavlja prosječni izdatak u i-toj Determinističke komponente podpopulaciji, to je točka na regresijskoj krivulji populacije koja odgovara danoj razini dohotka. Stohastičke komponente ui ( nesistematična ili slučajna komponenta, slučajno odstupanje ili slučajna greška) koja je determinirana drugim čimbenicima nego što je to dohodak .
Objašnjenje navedenoga vidljivo je iz sljedeće slike. Slika 6: Tjedni izdaci i regresijska linija populacije
Na razini dohotka X=150 $, jedna obitelj troši 25 $ tjedno, dok prosječni izdaci na istoj razini dohotka iznose 20,90 $. Stoga, izdaci navedene obitelji prelaze sustavnu komponentu modela za 4,10 $, a njena u komponenta iznosi +4,10 jedinica. S druge strane, na razini dohotka X=300 $, druga slučajno odabrana obitelj troši 24 $, dok prosječni izdaci za danu razinu dohotka iznose 30,30 $. Izdaci navedene obitelji manji su od sustavne komponente modela za 6,30 $, a njena u komponenta iznosi -6,30 jedinica.
28
II. DIO
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Izraz (23) naziva se stohastička (statistička) regresijska funkcija populacije, dok se izraz (22) naziva deterministička ili nestohastička regresijska funkcija populacije. Deterministička regresijska funkcija populacije prikazuje odnos očekivanih vrijednosti varijable Y u odnosu na određene razine dohotka (nezavisnu varijablu X). Stohastička regresijska krivulja populacije pokazuje kako variraju pojedinačni izdaci u odnosu na prosječnu vrijednost zbog prisutnosti slučajnog odstupanja u. U svezi s osnovnim osobinama slučajnog odstupanja potrebno je napomenuti sljedeće: 1. Slučajno odstupanje može prikazivati utjecaj onih varijabli koje nisu eksplicite uključene
u model. Primjer, u odnosu izdataka i raspoloživog dohotka, slučajno odstupanje može prikazivati utjecaj čimbenika kao što su: stupanj obrazovanja, zaposlenost člano va obitelji, broj članova obitelji, područje stanovanja, prijašnji dohoci, sklonost investiranju, sklonost štednji i dr. 2. Slučajna komponenta može biti posljedica pogrešaka u mjerenju. Primjerice podaci za raspoloživi dohodak mogu biti zaokruženi, a podaci za izdatke nepravilno prikazani zbog grešaka u prikupljaju samih podatka. 3. Iako je poznato da druge varijable utječu na Y, moguće ih je inkorporirati u slučajnu komponentu, jer je njihov zajednički utjecaj malen i nesistematičan. 4.4.2. REGRESIJSKA FUNKCIJA UZORKA
Postavlja se pitanje kako procijeniti regresijsku funkciju populacije iz izraza (22), odnosno dobiti vrijednosti parametara. Ako imamo podatke iz tablice 2, podatke za cijelu populaciju, problem je jednostavno rješiv: potrebno je pronaći oč ekivanu vrijednost varijable Y
(prosječnih populacijskih izdataka) za danu razinu dohotka te spojiti dobivene sredine. No, u praksi rijedak je slučaj da se raspolaže s podacima cijele populacije, najčešće se raspolaže s podacima uzorka odabranog iz neke populacije. Potrebno je stoga, ocijeniti regresijsku funkciju populacije na temelju podataka iz uzorka. Pretpostavimo da umjesto podataka za cijelu populaciju iz tablice 2 posjedujemo podatke iz tablica 3 i 4, koje predstavljaju dva nasumice odabrana uzorka iz populacije prikazane u tablici 2. Tablica 3: Prvi slučajni uzorak iz tablice 2
Y X
18 150
24 175
26 200
23 225
30 250
27 275
34 300
35 325
33 350
40 375
Tablica 4: Drugi slučajni uzorak iz tablice 2
Y X
23 150
18 175
24 200
25 225
28 250
27 275
31 300
29 325
33 350
34 375
Za razliku od tablice 2, u tablicama 3 i 4 za svaki je nivo dohotka prikazana samo jedna
određena vrijednost izdataka. Postavlja se pitanje da li je moguće procijeniti prosječne izdatke koji odgovaraju pojedinim razinama dohotka u populaciji na temelju dva slučajno odabrana uzorka? Drugim riječima, može li se ocijeniti regresijska funkcija populacije temeljem podataka iz uzorka? Kako se može pretpostaviti, RFP ne može se precizno odrediti zbog postojanja sampling pogrešaka. Temeljem podataka iz tablica 3 i 4 crta se dijagram rasipanja. Kroz točke koje predstavljaju parove vrijednosti na dijagramu rasipanja, povlači se pravac koji dovoljno dobro odgovara pojedinim točkama (slika 7). Takav pravac naziva se regresijski pravac uzorka (RPU).
29
II. DIO
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
REGRESIJSKA ANALIZA
Slika 7: Regresijski pravci uzorka 1 (tablica 3) i uzorka 2 (tablica 4)
No, koji od dva regresijska pravca uzorka najbolje odgovara regresijskom pravcu populacije? Svaki pojedini regresijski pravac uzorka tek je aproksimacija regresijskog pravca populacije, i to zbog postojanja sampling varijacija. Općenito postoji k različitih regresijskih pravaca uzorka za k različitih uzoraka. Naposljetku, analogno regresijskoj funkciji populacije koja određuje regresijski pravac populacije, moguće je odrediti i regresijsku funkciju uzorka (RFU) koja predstavlja regresijski pravac uzorka, a može se pisati kao:
gdje je,
(24)
|
ocjenjivač4 od ocjenjivač od ocjenjivač od
, ocjenjivač očekivane vrijednosti populacije
Pogledom na dijagram rasipanja jasno je vidljivo da svi podaci iz uzorka ne leže na
regresijskom pravcu uzorka. Stoga, kako za slučaj stohastičke regresijske funkcije populacije, moguće je razviti i stohastičku alternativu izraza (23): gdje je ei ocjenjivač od ui.
(25)
Ei predstavlja rezidual. Konceptualno, rezidual ei je analogan slučajnom odstupanju ui, te predstavlja razlike između stvarnih vrijednosti varijable Y i procijenjenih vrijednosti iz regresijskog uzorka. Stoga, vrijedi:
(26)
Rezimirajući do sada navedeno, osnovni cilj regresijske analize je procijeniti regresijsku funkciju populacije
temeljem regresijske funkcije uzorka
4
Ocjenjivač ili statistika je formula koja sugerira način procjenjivanja populacijskih parametara. Određena numerička vrijednost dobivena ocjenjivačem predstavlja ocjenu.
30
II. DIO REGRESIJSKA ANALIZA
4. Poglavlje: Regresijski model s dvije varijable – Temeljni Temeljni pojmovi -
jer je najčešće analiza temeljena na uzorcima, u zorcima, a ne na pod acima iz cijele populacije. No, zbog postojanja sampling varijacija, procjena regresijske funkcije populacije, temeljena na regresijskoj funkciji uzorka, tek je aproksimacija. Takva je aproksimacija prikazana na
sljedećoj slici. Slika 8: Regresijski pravac populacije i regresijski pravac uzorka
: : |
Potrebno je napomenuti da se ne analiziraju 0, 1 i ui, već njihovi ocjenjivači , i ei dobiveni iz uzorka. Za dani X i, prikazan na slici 8 postoji jedno Y i opažanje iz uzorka. U
terminima regresijske funkcije uzorka, opaženi Y i može biti izražen kao:
| |
(27)
ili u terminima regresijske funkcije populacije kao:
(28)
Na slici 8 podcjenjuje stvarnu očekivanu vrijednost za prikazani X 1. Općenito za svaki Y koji se nalazi desno od točke A na slici 8, regresijska funkcija uzorka će precijeniti stvarnu regresijsku funkciju populacije.
31
II. DIO
5. Poglavlje: Ocjenjivanje parametara regresije
REGRESIJSKA ANALIZA
5. POGLAVLJE
OCJENJIVANJE PARAMETARA REGRESIJE
P
od pretpostavkom da je regresijska krivulja uzorka tek aproksimacija regresijske funkcije
populacije, može li se iznaći metoda ili tehnika koja bi navedenu aproksimacija približila, što je više moguće stvarnim podacima. Drugim riječima, kako konstruirati r egresijsku egresijsku funkciju uzorka na način da budu što bliži vrijednostima ? Kako će se kasnije pokazati, može se pronaći regresijska funkcija uzorka koja najbolje preslikava regresijsku funkciju populacije. Zadatak
,
,
regresijske analize je ocijeniti regresijsku funkciju populacije (RFP) temeljem regresijske funkcije uzorka (RFU). Kako se procjenjuje RFP te kako se određuje je procijenjena RFP dobra ocjena stvarnih vrijednosti?
Problem ocjenjivanja parametara regresijskog modela može se promatrati ka o problem ocjenjivanja parametara distribucije vjerojatnosti zavisne varijable Y. Taj se problem može riješiti pomoću određenog broja različitih metoda ocjenjivanja. Neke od tih metoda su:
metoda najmanjih kvadrata ( Method of Ordinary Least Squares Estimators, OLS) najbolje linearno nepristrano ocjenjivanje (Best Linear Unbiased Estimator , BLUE ) metoda maksimalne vjerodostojnosti ( Method Method of Maximum Likelihood Estimator , MLE) Iako postoji više metoda dobivanja regresijske funkcije uzorka, kao ocjenjivača st varne regresijske funkcije populacije, u regresijskoj analizi najčešće se koristi metoda najmanjih kvadrata ( Method of Ordinary Least Square, OLS metoda). METODA NAJMANJIH KVADRATA
Metodu najmanjih kvadrata otkrio je Carl Friedrich Gauss, početkom 19. stoljeća. Cilj joj je
odrediti jednadžbu pravca koja će se najbolje prilagoditi empirijskim podacima. Razmotrimo regresijski model s dvije varijable:
∑ ∑
(29)
Kako se regresijska funkcija populacije ne može izravno odrediti, poseže se za njenom ocjenom temeljem regresijske funkcije uzorka:
koja se može pisati i kao:
Zbog statističkih razloga ne minimizira se
već
(30)
, te se dobije:
( ) ( )
Za dane vrijednosti Y i X iz uzorka, suma kvadrata reziduala, funkcija je parametara
(31)
.
Za različite vrijednosti navedenih parametara, dobiju se i različite vrijednosti reziduala, te stoga, i različite vrijednosti sume njihovih kvadrata. No, potrebno je odabrati one vrijednosti ocjenjivača koje će dati najmanju moguću vrijednost sume kvadra ta reziduala. 32
II. DIO
5. Poglavlje: Ocjenjivanje parametara regresije
REGRESIJSKA ANALIZA
Vrijednosti od
koje minimiziraju vrijednost sume kvadrata reziduala dobiju se
rješavanjem dviju simultanih jednadžbi:
∑∑ ∑∑ ∑ ∑ ∑ ∑∑
(32) (33)
gdje je n veličina uzorka. Jednadžbe (3 2) i (33) nazivaju sustav normalnih jednadžbi najmanjih , dok su vrijednosti suma, kvadrata. U navedenim jednadžbama nepoznanice su kvadrata suma varijabli Y i X poznate. Rješavanjem ovoga sustava od dvije simultane : jednadžbe dolazi se od izraza prema kojima se određuju vrijednosti (34)
(35)
gdje je:
i
jednostavne aritmetičke sredine od X i Y
NAPOMENA: Prema konvenciji mala slova označavaju odstupanja podatak od aritmetičke sredine .
Ocjenjivači iz izraza (3 4) i (35) nazivaju se OLS ocjenjivači, budući su dobiveni metodom najmanjih kvadrata. Neke od karakteristika OLS ocjenjivača jesu: 1. Regresijska funkcija uzorka dobivena OLS metodom prolazi kroz srednje vrijednosti varijable X i i Y , te se može pisati: (36) 2. Srednja vrijednost reziduala
̅ ∑∑ ⁄
uvijek iznosi nula.
3. Suma umnoška reziduala ei i vrijednosti nezavisne varijable X uvijek iznosi nula: navedene dvije varijable nisu korelirane. Simbolima:
∑ 0 ∑ 0
.
4. Suma umnoška reziduala ei i ocijenjene vrijednosti jednaka je nuli. Simbolima:
33
II. DIO
5. Poglavlje: Ocjenjivanje parametara regresije
REGRESIJSKA ANALIZA
PRIMJER 6
0 1
Za određivanje vrijednosti ocjenjivača promotrimo podatke iz tablice 3. Izračuni zahtijevaju upotrebu izraza (34) i (35). U nastavku je prikazana pomoćna tablica izračuna. Tablica 5: Pomoćna tablica za ocjenu parametara iz podataka prikazanih u tablici 3.
Y 18 24 26 23 30 27 34 35 33 40 290
X 150 175 200 225 250 275 300 325 350 375 2625
-11 -5 -3 -6 1 -2 5 6 4 11 0
-112,5 -87,5 -62,5 -37,5 -12,5 12,5 37,5 62,5 87,5 112,5 0
1237,5 437,5 187,5 225 -12,5 -25 187,5 375 350 1237,5 4200
12656,25 7656,25 3906,25 1406,25 140 6,25 156,25 156,25 1406,25 3906,25 7656,25 12656,25 51562,5
19,83636 21,8727 23,9090 25,9454 27,9818 30,0181 32,0545 34,0909 36,1272 38,1636 290
-1,8364 2,1273 2,0909 -2,9455 2,0182 -3,0182 1,9455 1, 9455 0,9091 -3,1273 1,8364 0,00000
3,37223 4,52528 4,37190 8,67570 4,07305 9,10942 3,78479 0,82644 9,77983 3,37223 51,8909
-275,455 372,2727 418,1818 -662,727 504,5455 -830 583,6364 295,4545 -1094,55 688,6364 0
-36,4268 46,52926 49,99174 -76,4212 56,4724 -90,6003 62,36066 30,99174 -112,98 70,08231 0
22500 30625 40000 50625 62500 75625 90000 105625 122500 140625 740625
NAPOMENA
=262,5 =29
=
Iz podataka tablice 5 i izraza (34) i (35) računaju se regresijski parametri
:
42005 0,0814 ∑∑ 51562, 29 29 0,0814 0814 ∙ 262, 262,5 7,7,6182182
Uvrštavanjem u izraz (30) dobije se sljedeća regresija uzorka dohotka i izdataka:
7,61820,0814
(37)
gdje Y predstavlja tjedne izdatke, a X tjedni raspoloživi dohodak. Regresijska krivulja dobivena
temeljem uzorka prikazana je na sljedećoj slici. Slika 9: Regresijski pravac temeljen na podacima iz tablice 3 40 y = 7,6182+0,0815x
35 30 25 Y
20 15 10 5 0 0
50
100
150
200
250
300
350
400
X
Interpretacija procijenjene funkcije izdataka: Koeficijent nagiba iznosi 0,0814, što znači da, ako
raspoloživi tjedni dohodak poraste za 1 $, prosječni izdaci porasti će za oko 8 centi tjedno. Vrijednost konstantnog člana od 7,6182, govori da, kada bi raspoloživi tjedni dohodak iznosio 0 , prosječni tjedni izdaci iznosili bi oko 7,62 $. Često konstanti član nema velikoga ekonomskog značenja. 34
II. DIO
5. Poglavlje: Ocjenjivanje parametara regresije
REGRESIJSKA ANALIZA
PRIMJER 7
Analiza podataka modelom modelom jednostavne linearne regresije regresije programskom potporom Gretl.
Analizira se prihod od prodaje proizvoda (u 000 HRK) u zavisnosti o izdacima za promidžbene aktivnosti u trgovinama na malo (u 000 HRK). Odabran je model jednostavne linearne regresije. Varijable modela su: y = prihodi od prodaje proizvoda, u HRK, zavisna varijabla x = izdaci za promidžbene aktivnosti, u HRK, nezavisna varijabla Tablica 6: Izdaci za promidžbene aktivnosti i prihodi od prodaje
Izdaci za promidžbene aktivnosti ( )
Prihod ( )
171 190 197 200 204 224 290 374 389 423 436 546 3644
3212 4284 4145 4096 4632 4741 5321 6863 7173 8270 8300 9435 70472
, , 1,2,… ,
Prvi korak u regresijskoj analizi je crtanje dijagrama rasipanja (engl. scatter plot), tj. grafičkoga u prvom kvadrantu pravokutnog koordinatnog prikaza točaka
sustava. Na horizontalnoj osi ističe se dio aritmetičkoga mjerila koji obuhvaća opažene vrijednosti varijable x, a na vertikalnoj dio aritmetičkoga mjerila koji obuhvaća opažene vrijednosti varijable y. Dijagram rasipanja omogućuje da se uoči oblik veze među odabranim varijablama, smjer povezanosti te jakost povezanosti. Slika 10: Dijagram rasipanja
10000 9000 8000 i d o 7000 h i r 6000 P 5000 4000 3000 0
100
200
30 0
4 00
5 00
6 00
Izdaci
Temeljem dijagrama rasipanja zaključuje se da je veza između x i y linearna (jer su točke raspoređene blizu nekoga zamišljenoga pravca), pozitivnoga je smjera i jaka. Realno je dakle za pretpostaviti da se povezanost prodaje proizvoda i izdataka za promidžbene aktivnosti u trgovinama na malo može opisati modelom:
.
Kako bi se odredio procijenjeni model:
35
II. DIO
5. Poglavlje: Ocjenjivanje parametara regresije
REGRESIJSKA ANALIZA
= 704724 ∑= 1 278 380 ∑= 24 174 558 ∑̅ = ∑ 3644 ∑ , 303,6667 ∑ 5872,6667 3 03, 6 667∙ 5 872, 6 67 ∑∑== ̅ 2417455812∙ 1278 1278383800 12 12∙∙ 303, 303,6667 6667 16,14819 ̅ 5872,66716,14819 ∙303,6667 968,99930 968,99930 16,14819. 16,14819 potrebno je odrediti vrijednosti regresijskih koeficijenata
i
.
Za vrijednosti iz tablice 6 dobiveni su sljedeći rezultati: ,
,
i
, pa je:
.
Uvrštavanjem konkretnih vrijednosti u izraze (34) i (35) dobiva se da je:
i
.
U konkretnom slučaju, procijenjena regresijska jednadžba glasi:
pokazuje da će se na temelju procijenjenoga modela, za povećanje izdataka za promidžbene aktivnosti u iznosu od tisuću kuna prihod u prosjeku povećati za 16,14819 tisuća kuna. Konstantni član u modelu rijetko se interpretira i često nema suvislo značenje. Njegova uloga u modelu povezana je s jednadžbom regresijskoga pravca. Naime, kada bi regresijski pravac bio definiran bez konstantnoga člana, geometrijski bi to značilo da pravac uvijek prolazi ishodištem, što je često nerealna pretpostavka. U konkretnom slučaju vrijednost teorijski označava očekivanu vrijednost prihoda ako izdaci za promidžbene aktivnosti iznose 0 kuna.
Regresijski koeficijent
968,9993
Primjenom programskog programskog paketa Gretl dobiveni su između ostalih i sljedeći rezultati. Tablica 7: Izdaci za promidžbene aktivnosti i prihodi od prodaje
Očitavanjem rezultata (eng. Coefficient) programskog programskog ispisa dobiva se procijenjena procijenjena jednadžba.
1 , 2 , … ,
Regresijske vrijednosti i rezidualna odstupanja Ako se za svaki u procijenjenu regresijsku jednadžbu uvrste stvarne vrijednosti nezavisne varijable , dobivaju se regresijske vrijednosti zavisne varijable y. Prva se regresijska vrijednost , pa je: dobiva uvrštavanjem prve vrijednosti varijable x koja iznosi
171 968,9993016,14819∙171 3730,34. 171 3730,3 4 3212 ̂
Analogno se dobivaju is ostale regresijske vrijednosti. Regresijske vrijednosti procjene su stvarnih vrijednosti zavisne varijable . U konkretnom se primjeru interpretira na sljedeći način: Za
vrijednosti izdataka za promidžbene aktivnosti od tisuće kuna očekivana vrijednost prihoda tisuće kuna. Stvaran prihod od prodaje , za vrijednost izdataka od iznosi tisuće kuna, je tisuće kuna. Razlika je rezidualno odstupanje . Rezidualna odstupanja
171̂
razlike su stvarnih vrijednosti zavisne varijable od procijenjenih vrijednosti te predstavljaju procjene
36
II. DIO REGRESIJSKA ANALIZA
5. Poglavlje: Ocjenjivanje parametara regresije
171
slučajne varijable u modelu. Prvo rezidualno odstupanje pokazuje da je prema regresijskoj jednadžbi, za vrijednost izdataka od tisuće kuna, prihod od prodaje „precijenjen“ za 518,340 tisuća kuna. Stvarne vrijednosti prihoda, pripadne regresijske vrijednosti i rezidualna odstupanja dani su u sljedećoj tablici. Tablica 8: Regresijske vrijednosti i rezidualna odstupanja (Ispis Gretl)
37
II. DIO REGRESIJSKA ANALIZA
5. Poglavlje: Ocjenjivanje parametara regresije
ZADACI ZA VJEŽBU 1.
2.
3.
Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SAD -u. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici. Godina Per capita osobna potrošnja Per capita raspoloživi dohodak 2000. 3 277 3 665 2001. 3 355 3 752 2002. 3 511 3 860 2003. 3 623 4 808 2004. 3 566 4 009 2005. 3 609 4 051 2006. 3 774 4 158 2007. 3 924 4 280 2008. 4 057 4 441 2009. 4 121 4 512 2010. 4 093 4 487 2011. 4 131 4 561 2012. 4 146 4 555 2013. 4 303 4 670 2014. 4 490 4 941 Procijenite parametre u modelu metodom najmanjih kvadrata. Dani su podaci: Xi 1 4 3 5 5 4 Yi 3 5 2 7 8 4 a) Ocijenite linearni model pomoću metode najmanjih kvadrata. b) Pretpostavimo da su poznate stvarne vrijednosti parametara: 0= 0 i 1= 1,4. Izračunajte vrijednosti
reziduala i vrijednosti slučajnih odstupanja za svako od šest opažanja. Zadani su podaci bruto društvenog proizvoda per capita (GDP pc) u 000 US $ i % zaposlene radne snage u poljoprivredi za 10 zemalja: ZEMLJA A B C D E F GDPPC 5 7 7 8 8 12 % ZAPOSLENIH U POLJOPRIVREDI 8 9 9 8 10 3 a) Metodom najmanjih kvadrata izračunajte parametre linearne
G 10 5
H 9 5
I 8 6
J 9 6
funkcije u kojoj ćete ocijeniti vezu između % zaposlenih u poljoprivredi (zavisna varijabla Z) i razine GDP pc (nezavisna varijabla G). b) Ako je GDPpc neke zemlje točno 6 000 $, koliki se očekuje postotak zaposlenih u poljoprivredi?
RJEŠENJA ZADATAKA 1. 2.
3.
0,411765 11765 1,20588 0588 14,5794 5794 0,925234 25234
343,710330,9816156
Model s procijenjenim parametrima glasi: a) b) ei 1,382 -0,235 ui 1,6 -0,6 a) b) 9,028%
-2,029 -2,2
0,559 0
1,559 1
-1,235 -1,6
38
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
Č
N
akon procjene parametara regresijskog modela pristupa se testiranju hipoteza te iznalaženju odgovora na pitanje koliko je dobra procijenjena regresijska funkcija. Potrebno je naime, prosuditi da li je procijenjena regresijska krivulja doista dobra procjena stvarne regresijske funkcije populacije. Kako možemo biti sigurni na temelju tek jednog uzorka da je procijenjena regresijska funkcija doista dobra aproksimacija stvarne regresijske funkcije populacije?
Kako dobivene ocjene
predstavljaju ocjene iz uzorka za stvarne vrijednosti parametara
potrebno je testirati njihovu statističku pouzdanost. Činjenica da se za dobivanje ocjena parametara koristi samo jedan uzorak iz populacije znači da je svaki ocijenjeni parametar upravo ocjena. Ocjena parametara poprima različitu vrijednost ako je izračun ata iz različitog uzorka te varira od uzorka do uzorka. Cilj je stoga, dobiti nabolje (s minimalnom varijancom) linearne nepristrane ocjene parametara. Prema RFP, varijabla Y zavisi od objasnidbenih varijabli X1, X2,…, Xk i slučajnih odstupanja u. Sve dok se ne odredi način kako trebaju biti generirane varijable X k i u, ne može se ispitati statistička značajnost ocijenjenih
parametara. Potrebno je napomenuti da pretpostavka o distribuciji vjerojatnosti slučajnog odstupanja (pri kojoj se ustanovljuju distrib ucije ocjena parametara) nije nužna da bi se parametri računski odredili. Također, ocjene parametara dobivene metodom najmanjih kvadrata imaju optimalna svojstva bez obzira na pretpostavku normalnosti grešaka, ukoliko su ispunjene ostale pretpostavke o grešci modela. No, za dobivanje intervalnih ocjena parametara i testiranje statističkih hipoteza o njima, potrebno je pretpostaviti da u ima normalnu distribuciju. Poznato je da vrijednosti od Y i zavise od vrijednosti Xi i vrijednosti ui. Pretpostavili smo da
su vrijednosti nezavisne varijable poznate te ih smatramo nestohastičnim. Slučajno odstupanje slučajna je varijabla. Zbog dodavanja stohastičke komponente nezavisnoj varijabli koja nije stohastička, za dobivanje vrijednosti varijable Y, i ona postaje stohastička. To znači da, osim ako nismo voljni pretpostaviti način nastajanja slučajne varijable, nećemo biti u stanju odrediti koliko je dobra regresijska funkcija uzorka kao ocjena regresijske
funkcije populacije. Testiranje hipoteza nemoguće je ukoliko se ne postave određene pretpostavke o slučajnoj varijabli. Radi se o definiranju postavki klasičnog linearnog regresijskog modela (CLRM – Classical Linear Regression Model). Model je 1821. godine definirao C. F. Gauss, a predstavlja standard prema kojemu se u tvrđuju rezultati primijenjene regresijske analize. Ako pretpostavke nisu ispunjene, rezultati su netočni i obmanjujući. Pretpostavke Gaussovog klasičnog standardnog linearnog regresijskog modela su slijedeće:
Korektna specifikacija i linearnost regresijskog modela Sredina jednaka nuli Odsutnost autokorelacije
Homoskedastičnost
Odsutnost multikolinearnosti
Nestohastičnost varijable X Normalnost slučajnog odstupanja
39
II. DIO REGRESIJSKA ANALIZA
1.
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKI MODEL KOREKTNO JE SPECIFICIRAN TE JE LINEARAN U PARAMETRIMA I
ODSTUPANJIMA; MOŽE, ALI NE MORA BITI LINEARAN U VARIJABLAMA
Ova pretpostavka znači uključivanje u model svih relevantnih objasnidbenih varijabli, te odabir odgovarajućeg funkcijskog oblika. Linearnost modela u parametrima omogućava dobivanje linearnih ocjena. Nelinearnost u varijablama rješava se transformacijom (primjenom logaritama ili inverznih funkcija). 2.
SREDINA JEDNAKA NULI: ZA DANE VRIJEDNOSTI VARIJABLE X, OČEKIVANA VRIJEDNOST SLUČAJNOG ODSTUPANJA JEDNAKA JE NULA
Simbolima:
0
(38)
Slučajno odstupanje predstavlja sve one čimbenike koji nisu eksplicite uvršteni u model te se pretpostavlja da nemaju sistemski utjecaj na zavisnu varijablu, pa se pozitivni i
negativni utjecaji poništavaju. Što znači da je njihov ukupni utjecaj na zavisnu varijablu u prosjeku jednak nuli. Za dane vrijed nosti od X, očekivanje slučajnog odstupanja iznosi 0 (slika 11). Slika 11: Distribucija slučajnog odstupanja
3.
ODSUTNOST AUTOKORELACIJE: VRIJEDNOSTI SLUČAJNE VARIJABLE u MEĐUSOBNO SU NEKORELIRANE SLUČAJNE VELIČINE, TJ. NJIHOVA JE KOVARIJANCA JEDNAKA NULI.
Simbolima: cov( ui ,u j ) 0
i
j
(39) To znači da među komponentama varijable u ne postoji autokorelacija (serijska
korelacija). Problem autokorelacije karakterističan je za regresijske modele koji se ocjenjuju na bazi vremenskih nizova jer ekonomske varijable najčešće pokazuju kroz vrijeme pozitivnu ili negativnu tendenciju kretanja vrijednosti. Posljedica kršenja ove pretpostavke je da vrijednosti varijable u nisu slučajne već korelirane i to ostavlja posljedice na ocijenjene parametre modela. Pri navedenoj pretpostavci, činjenica da je, recimo, danas proizvodnja veća od očekivane ne bi trebala uzrokovati veću (ili manju) od očekivane proizvodnje sutra. Slika 12: Autokorelacija
40
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
Slika (a) prikazuje neautokorelirana odstupanja, slika (b) pozitivnu autokorelaciju, a slika (c) negativnu autokorelaciju. 4.
HOMOSKEDASTIČNOST: VARIJANCA SLUČAJNE VARIJABLE u KONSTANTNA JE I JEDNAKA
2
Simbolima: var( ui )
2
(40)
To znači da odstupanja imaju svojstvo jednake raspršenosti, odnosno homoskedastičnosti (homoskedastičnost: homo: jednak, scedastic: varijanca). Geometrijski je ova pretpostavka prikazana na sljedećoj slici. Slika 13: Homoskedastičnost (jednaka varijanca) i heteroskedastičnost (različita varijanca)
Svako odstupanje ima istu varijancu σ 2 koja je konstantna i čija je vrijednost nepoznata. Ova pretpostavka isključuje mogućnost da bi raspršena odstupanja bila veća za veće nego za manje vrijednosti varijable X. Ako ova pretpostavka nije ispunjena, odstupanja su različito raspršena i kažemo da je da je prisutna heteroskedastičnost hete roskedastičnost (slika 13 (b)). To znači
da varijanca pogreške zavisi o opažanju o kojem je riječ. Reprezentativnost modela ovisi o tome kako su blizu distribuirane empirijske vrijednosti varijable Y oko njihovih
sredina, i to je suština regresije. Heteroskedastičnost je česta kod regresijskih modela koji se ocjenjuju na osnovi podataka vremenskog presjeka, gdje su velike razlike između najvećih i najmanjih vrijednosti opažanja. CLRM pretpostavlja varijancu slučajnog odstupanja kao na slici 13(a). 5.
ODSUTNOST MULTIKOLINEARNOSTI: NE POSTOJI EGZAKTNA LINEARNA KOMBINACIJA NEZAVISNIH VARIJABLI.
Prema ovoj pretpostavci, zahtijeva se da niti jedna objasnidbena varijabla ne bude
savršeno korelirana s bilo kojom drugom objasnidbenom varijablom ili s bilo kojom linearnom kombinacijom objasnidbenih varijabli. Kada se naruši ovaj zahtjev, govori se o savršenoj multikolinearnosti. S druge strane, k ada su sve objsnidbene varijable međusobno nekorelirane, govori se o odsutnosti mulitikolinearnosti. 6.
NESTOHASTIČNOST VARIJABLE X
Važna je implikacija ove pretpostavke da nezavisna varijabla X i slučajno odstupanje u nisu korelirani, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli. Simbolima: cov( ui , X ki )
0
(41)
41
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
Ukoliko ova pretpostavka nije ispunjena, te postoji na primjer pozitivna korelacija između varijable X 1 i odstupanja u1, svaki rast varijable X 1, bio bi praćen rastom odstupanja u1, obrnuto, te bi bilo nemoguće utvrditi stvarni zasebni utjecaj na zavisnu
varijablu Y. Ocijenjeni parametri će biti vjerojatno veći, zbog toga što će metoda najmanjih kvadrata greškom pripisati va rijaciju varijable Y stvarno uzrokovanu od u, varijabli X. Ova je pretpostavka često narušena kod simultanih modela. 7.
NORMALNOST: SLUČAJNA ODSTUPANJA SU NORMALNO DISTRIBUIRANA S MATEMATIČKIM OČEKIVANJEM KAKO JE NAVEDENO U 2. PRETPOSTAVCI I VARIJANCOM KAKO JE NAVEDENO U 4. PRETPOSTAVCI. PRETPOSTAVCI. ui
N ( 0 , 2 )
(42)
Prema ovoj pretpostavci ui je neprekidna varijabla varijabla koja poprima vrijednosti od – do +.
Simetrično je distribuirana oko njezine sredine i njezina je distribucija potpuno određena dvama parametrima, sredinom i varijancom. Ova pretpostavka omogućuje primje nu statističkih testova o značajnosti regresijskih parametara ocijenjenih temeljem statističkih uzoraka, te implicira normalnu distribuiranost zavisne varijable Y.
Pretpostavke o normalnosti, sredini jednakoj nuli, homoskedastičnosti te odsustvu autokorelacije impliciraju da se odstupanje tumači kao obračun velikog broja pojedinačno nesignifikantnih i nezavisnih čimbenika koje se obično zovu slučaj. To tumačenje isključuje čestu tvrdnju da odstupanje uključuje sve objasnidbene varijable sustava koje su izostavljene iz determinističkog dijela regresijske jednadžbe zbog nemjerljivosti, neznanja ili praktičnosti. Potpuna specifikacija regresijskog modela uključuje:
regresijsku jednadžbu te osnovne pretpostavke: specifikacija vjerojatnosti odstupanja i određivanje vrijednosti nezavisne varijable.
Pretpostavke na kojima se temelji klasični linearni regresijski model koriste se pri izvođenju ocjenjivača parametara regresije. Budući da se pretpostavlja da je odstupanj e normalno
distribuirano i da ima sredinu jednaku nuli, varijanca jedini je pokazatelj koji je nepoznat glede te distribucije. Stoga regresijski model s dvije varijable ima svega tri nepoznata pokazatelja, a to su parametri regresije 0 i 1 te varijanca odstupanja σ2.
6.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA
Iz izraza (34) i (35) vidljivo je da su OLS procjenitelji funkcija podatka iz uzorka. Stoga,
budući da je vjerojatno, da se podaci mijenjaju zavisno od uzorka iz kojega dolaze, izvjesno je da će i ocjenjivači varirati. Potrebno je stoga, odrediti pouzdanost ili preciznost pro cjenitelja Pretpostavke klasičnog linearnog regresijskog modela omogućavaju procjenjivanje varijance i standardnih grešaka OLS procjenitelja. Procjenitelji su slučajne varijable, a njihova vrijednost mijenja se iz uzorka u uzorak. Poželjno bi b ilo poznavati sampling varijacije
.
procjenitelja, odnosno kako oni variraju s obzirom na uzorak. Sampling varijacije mjere se
varijancom procjenitelja ili njihovom standardnom pogreškom, koja predstavlja kvadratni korijen njihove varijance. Standardnom pogr eškom, koja predstavlja standardnu devijaciju sampling-distribucije
(teorijska
distribucija
vjerojatnosti
procjenitelja
parametra)
procjenitelja, mjeri se preciznost procjene. Polazeći od pretpostavki klasičnog linearnog regresijskog modela varijance i standardne pogreške OLS dobiju se izrazima:
42
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
() ∑ () ∑ ∑ () ∑ ∙ ∑ () ∑ ∙
(43) (44)
(45) (46)
gdje je:
varijance standardna greška konstantna ili homoskedastična varijanca od linearnog regresijskog modela
kao u 4. pretpostavci klasičnog
Jednom kada je j e varijanca 2 slučajnog odstupanja ui, poznata, sve vrijednosti s desne strane
izraza, koje daju numeričke vrijednosti varijance i standardne greške OLS procjenitelja, mogu se jednostavno izračunati iz raspoloživih podataka. Homoskedastična varijanca slučajnog odstupanja ui, 2 dobije se iz izraza:
2 ∑2
gdje je:
22
(47)
OLS procjenitelj nepoznate stvarne varijance broj stupnjeva slobode suma kvadrata reziduala ili rezidualna suma kvadrata
Analogno, drugi korijen od
, odnosno:
∑22
(48)
poznat je kao standardna greška procjene ili standardna greška regresije, a jednostavno predstavlja standardnu devijaciju vrijednosti od Y oko procijenjenog regresijskog pravca, te se često koristi kao sumarni pokazatelj prilagođen osti regresijske linije. PRIMJER 8
Izračun varijance i standardne greške funkcije izdataka i dohotka iz primjera 6. PROCJENITELJ
FORMULA
∑ 22
REZULTAT ILI PROCJENA
∑ 22 51,889091 6,4854
43
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
() ()
∑22 ∑ ∑
() () ∑∑ ∙
∑ ∑ ∙ ()
∑22 6,6,4854 2,5468 ∑ 51562, 6,48545 0,000126 2,51562, 551562,4685 0,0112 ∑ ∑ ∑ ∙ 10∙740625 51562,5 ∙6,4854 9,31539 ∑∑ ∙ 1,1984∙2,5468 3,0523
Procijenjena funkcija izdataka iz primjera 6 glasi:
7,63,1820, 0 814 0523 5230,0112
(49)
Vrijednosti u zagradama predstavljaju predstavljaju procijenjene standardne standardne greške. Ovakvo zapisivanje rezultata regresije ukazuje na vrijednosti procijenjenih parametara i njihove standardne pogreške. U ovom slučaju, procijenjeni koeficijent nagiba funkcije izdataka iznosi 0,0814, a njegova standardna pogreška iznosi 0,0112 te predstavlja mjeru varijabilnosti procjenitelja
1
od uzorka do uzorka.
1
Kako se mogu upotrijebiti navedeni podaci? Može li se, na primjer, reći da izračunati leži unutar određenog broja jedin ica standardne devijacije od stvarnog 1? U slučaju potvrdnog odgovora, može se s određenim povjerenjem, tvrditi koliko je regresijska funkcija uzorka dobra procjena regresijske funkcije populacije, što je svrha testiranja hipoteza. No, prije testiranja hipoteza, budući da su procjenitelji slučajne varijable, potrebno je spomenuti njihove distribucije vjerojatnosti te odgovoriti na pitanje zašto se upotrebljava baš OLS metoda za procjenu parametara regresije.
6.2. SVOJSTVA OLS PROCJENITELJA
Metoda najmanjih kvadrata koristi se ne samo zbog jednostavnosti primjene, već i zbog toga što ju odlikuju određene teorijske osobine koje su sažete u Gauss-Markovom teoremu. Držeći se postavki klasičnog linearnog regresijskog modela, ocjene parametara dobivene metodom
najmanjih kvadrata imaju optimalna svojstva. Ta su svojstva sadržana, kako je već spomenuto, u Gauss-Markovom teoremu, koji glasi:
Uz poštivanje pretpostavki 1-6 (poglavlje 6 ) klasičnog linearnog regresijskog modela i primjenom metode najmanjih kvadrata, dobiveni ocjenjivači parametara regresijskog modela najbolji su linearni nepristrani ocjenjivači (engl. Best LinearUnbiased Estimator - BLUE). Napomena : Za Gauss-Markov
važno je da bude ispunjeno prvih šest pretpostavki. Normalnost odstupanja (sedma pretpo stavka) omogućuje primjenu statističkih testova za ocjenu pouzdanosti parametara i funkcije ( t i F test). test).
44
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
Ako su ocijenjeni parametri za model koji zadovoljava 7 klasičnih pretpostavki klasičnog linearnog regresijskog modela, tada oni imaju sljedeća svojst va: a)
NEPRISTRANI SU.
E ( k ) k OLS ocjene centrirane su oko stvarnih vrijednosti koeficijenata populacije. ˆ
b)
(50)
IMAJU MINIMALNU VARIJANCU.
OLS ocjenjivači parametara imaju manju varijancu od bilo kojeg drugog linearnog nepristranog procjenitelja. c)
KONZISTENTNI SU.
Ako raste uzorak podataka na osnovi kojega se parametar ocjenjuje, tada ocjene konvergiraju stvarnim vrijednostima parametra. d) NORMALNO SU DISTRIBUIRANI. DISTRIBUIRANI. 2 k N ( k , ) ˆ
ˆ
k
(51)
Stoga se, za ispitivanje normalnosti mogu primijeniti statistički testovi temeljeni na normalnoj distribuciji. e)
LINEARNOST
Ocjenjivač je linearan ako predstavlja linearnu funkciju opažanja u uzorku, odnosno ako je dan kao linearna kombinacija podataka.
Ako je poštivano sedam klasičnih pretpostavki i koristi se metoda najmanjih kvadrata za ocjenu regresijskih parametara, tada regresijski parametar predstavlja veličinu za koliko se mijenja regresijska vrijednost zavisne varijable ako se nezavisna varijabla uz taj parametar mijenja za jedinicu, a ostale nezavisne varijable ostaju konstantne.
Ocjenjivači su efikasni ako su nepristrani i imaju najmanju varijancu od bilo kojeg drugog ocjenjivača. Linearnost je poželjno svojstvo zbog jednostavnosti izračuna, mada nema toliku značajnost kao nepristranost, odnosno efikasnost. Nepristranost jamči točnost ocjene «u prosjeku», ali tek kada je u kombinaciji sa najmanjom varijancom daje poželjnu preciznost ocjene. Osobina najmanje varijance dobiva na važnosti tek kada je ocjena i nepristrana. Stoga je, kombinacija svih ovih svojstava važna odlika karakteristika procjenitelja koji se dobivaju metodom najmanjih kvadrata.
6.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA
Kod ocjenjivanja parametara regresijskog modela koristi se metoda uzoraka. Ocjene parametara dobivene su temeljem jednog uzorka podataka iz populacije, za zavisnu i
nezavisne varijable. Uzme li se drugi uzorak, dobit će se drugi skup ocjena parametara regresijskog modela. Kada bi se parametri ocijenili za veći broj uzoraka, ocjene pojedinog parametra bile bi normalno distribuirane, kao implikacija normalne distribuiranosti slučajnih odstupanja u regresijskom modelu. Rasprava o svojstvima procjenitelja, svodi se zapravo na razmatranje svojstava ocjena dobivenih iz niza uzoraka, tj. svojstava distribucije uzoraka procjenitelja. Definiranje distribucije procjenitelja preduvjet je testiranja hipoteza. Definiranje distribucije procjenitelja počiva na sedmoj pretpostavci klasičnog linearnog regresijskog modela o normalnoj distribuiranosti slučajnih odstupanja s matematičkim očekivanjem
jednakim nula i homoskedastičnom varijancom 2. Značajnost ove pretpostavke leži u centralnom graničnom teoremu.
45
II. DIO
6. Poglavlje: Klasični linearni regresijski model
REGRESIJSKA ANALIZA
⁄
s redinom i i varijancom 2 , CENTRALNI GRANIČNI TEOREM. Ako X ima bilo kakvu distribuciju sa sredinom tada distribucija od Stoga je distribucija
teži standardnoj normalnoj distribuciji kada veličina uzorka n raste. u velikim uzorcima približno normalna i ima sredinu i i varijancu .
⁄
Slučajno odstupanje ui predstavlja utjecaj na zavisnu varijablu Y svih onih čimbenika koji nisu eksplicite uključeni u regresijski model, jer ih ima mnogo, a njihov je pojedinačni utjecaj nezamjetljiv. Ukoliko je skup takvih utjecaja slučajan, te ako slučajno odstupanje predstavlja zbroj takvih utjecaja, prema centralnom graničnom teoremu, može se pretpostaviti da slučajno odstupanje ima normalnu distribuciju sa srednjom vrijednosti nula i homoskedastičnom varijancom 2. Kako je poznato svaka linearna funkcija normalno distribuirane varijable, i sama je normalno distribuirana. Što znači da, ukoliko su procjenitelji linearne funkcije normalno distribuiranog slučajnog odstupanja, i oni su sami normalno distribuirani. Normalno distribuirana varijabla karakterizirana je s dva parametra: srednjom
vrijednošću i varijancom. Parametri normalno distribuiranih procjenitelja su:
~, ~, ,
(52) (53)
Željeno svojstvo distribucije procjenitelja jest da je prosječna vrijednost ocjene regresijskog parametra (dobivena metodom najmanjih kvadrata na velikom broju ponovljenih uzoraka) jednaka stvarnoj vrijednosti parametra (svojstvo sredine). U tom slučaju govori se o nepristranom ocjenjivaču. Ocjena parametra dobivena za određeni uzorak iz takve (uz pretpostavku jednake nepristrane distribucije, bit će bliže stvarnoj vrijednosti varijance) od ocjene dobivene iz distribucije pristranog ocjenjivača koja nije centrirana oko stvarne vrijednosti.
Slika 14: Distribucija OLS ocjena parametara dobivenih iz velikog broja uzoraka
Svojstvo varijance
Iz teorije vjerojatnosti poznato je da je varijanca slučajne varijable mjera raspršenosti oko sredine. Što je manja varijanca, to su u prosjeku pojedine vrijednosti bliže sredini. Varijanca ocjene parametara je stoga, pokazatelj preciznosti ocjene parametara. Varijanca distribucije
,
zavisi o varijanci slučajnih odstupanja 2 i ako varijanca slučajnih odstupanja raste, raste i
varijanca distribucije . Na slici 15 prikazane su ocjene parametara , dobivene na osnovi velikog broja uzoraka i pomoću dvije m etode ocjenjivanja. Slika 15: Distribucija ocjena parametara dobivenih pomoću dviju metoda ocjenjivanja
Metoda kojom je dobivena ocjena ima manju raspršenost oko srednje, stvarne vrijednosti parametara ima dakle, manju varijancu. 46
II. DIO REGRESIJSKA ANALIZA
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
7. POGLAVLJE
TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE
P
rocjena parametara i testiranje hipoteza dva su osnovna područja statističkog zaključivanja.
Metoda najmanjih kvadrata jedna je od metoda procjene parametara linearnog regresijskog modela. Imajući na umu pretpostavke klasičnog linearnog regresijskog modela analiziraju se
svojstva regresijskih parametara, te je pod pretpostavkom normalnosti slučajnog odstupanja, moguće odrediti distribuciju procjenitelja. Preduvjeti su to za testiranje hipoteza u sklopu regresijske analize.
TEST HIPOTEZE O ZNAČAJNOSTI REGR ESIJSKIH PARAMETRA: T-TEST
U praksi se testira hipoteza o značajnosti parametara uz nezavisnu varijablu, varijablu, ili, što je isto hipoteza o značajnosti prisutnosti varijable X u modelu . Osnova je testiranja sampling-distribucija procjenitelja parametara, odnosno procjenitelja komponenti varijance. Odluka se donosi usporedbom test-veličine s odgovarajućim kritičnim vrijednostima sampling -distribucije.
Statistički značajan ili signifikantan parametar znači zapravo da su podaci konzistentni s pretpostavkom o uzročnosti veze između zavisne i nezavisne varijable. U modelu jednostavne linearne regresije test hipoteze o značajnosti parametra, može biti jednosmjeran j ednosmjeran ili jednostran (na donju ili gornju granicu) ili dvosmjeran, odnosno dvostran. Hipotezama:
:: ≠ 00
utvrđuje se značajnost nezavisne varijable koja postoji uz parametar u regresijskom modelu. Uz pretpostavku da su ocjene parametara normalno distribuirane, za testiranje pouzdanosti ocijenjenog parametra koristi se Studentov t-pokazatelj. Test-veličina je empirijski t-omjer:
∗
(54)
gdje je * hipotetička vrijednost od (na (na primjer * =0 ). Uz spomenute uvjete test-veličina je distribuirana po Studentovoj distribuciji sa (n-2) stupnja slobode. U postupku provođenja t-testa potrebno je odrediti: Broj stupnjeva slobode, koji iznosi (n-2) za model s dvije varijable. Razinu signifikantnosti ; u empirijskim istraživanjima obično se koriste razine signifikantnosti od 1, 5 ili 10%. Umjesto arbitrarnog odabira razine signifikantnosti, može se izračunati p vrijednost, te odbaciti nultu hipotezu ukoliko je izračunata vrijednost dovoljno mala.
Vrstu testa koji će se koristiti: da li jednosmjerni ili dvosmjerni test.
Odluka se donosi usporedbom empirijske vrijednosti s teorijskom vrijednosti t za danu razinu signifikantnosti i određeni broj stupnjeva slobode. Ako je varijanca osnovnog skupa poznata ili 47
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
II. DIO REGRESIJSKA ANALIZA
je uzorak velik, test- veličina je empirijski z-omjer. Hipoteze i način donošenja odluka za t -test prikazani su u tablici 9. Tablica 9: Način donošenja odluke za t-test
vrsta testa
nulta hipoteza 0
alternativna hipoteza 1
područje prihvaćanja
područje 0
odbacivanja
0
dvosmjeran H 0… = = * H 1… t < < t /2, df t > > t /2, df * t t desnostran: jednosmjeran, na H 0… H 1… t < t , df t > t , df * * gornju granicu ljevostran: jednosmjeran, na H 0… H 1… t >-t , df t < -t , df * * donju granicu i sa NAPOMENA: t /2, df ili t , df teorijska je ili kritična t vrijednost (tc) uz razinu signifikantnosti i stupnjevima slobode df=n-k-1, n je broj opažanja, opažanja, a k broj nezavisnih varijabli.
Dvostranim testom testira se hipoteza o pretpostavljenoj vrijednosti, a jednostranim predznak parametra uz regresorsku varijablu. DVOSTRANI TEST
Korištenjem dvostranog t-testa s hipotezama:
:: ≠ 00
utvrđuje se značajnost nezavisne varijable koja postoji uz parametar
u regresijskom
modelu. JEDNOSTRANI TEST TEST
U ekonometrijskoj analizi jednostrani test se koristi za testiranje ima li parametar
pretpostavljeni predznak. Predznak regresijskog koeficijenta najčešće je a priori pretpostavljen. Hipoteze za ljevostrani t-test su:
:: <≥ 00
H0 se odbacuje ako je t < - t , df i tada se kaže da parametar uz varijablu ima oč ekivani negativni predznak. Hipoteze za desnostrani t-test su:
:: >≤ 00
H0 se odbacuje ako je t > t , df i kaže se da parametar uz varijablu ima očekivani pozitivni predznak. Odluka se također može donijeti pomoću empirijske razine signifikantnosti p, koja
predstavlja najnižu razinu povjerenja na kojoj se može odbaciti nul hipoteza. PRIMJER 9
Postupak testiranja hipoteza na primjeru izdataka iz primjera 6.
48
II. DIO REGRESIJSKA ANALIZA
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
Procijenjena funkcija izdataka iznosi
7,6182 0,0814 : 1 0
. Pretpostavimo slijedeću tvrdnju:
Dohodak nema nikakvog utjecaja na količinu potrošenog novca, dakle:
Nulta hipoteza istražuje da li je Y uopće u vezi sa X. Ako se nulta hipoteza prihvati, nema nikakvog
smisla uključivati varijablu X u model. S druge, strane ukoliko varijabla X ima utjecaja na varijablu Y nulta se hipoteza odbacuje u korist alternativne hipoteze, koja tvrdi:
1: 1 ≠ 0
U razmatranom primjeru je koeficijent nagiba različit od nule, a može biti pozitivan ili negativan. Za očekivati je, stoga odbacivanje nulte hipoteze. U nastavku je prikazan postupak testiranja. Dvostrani t-test
Hipoteze dvostranog testa su:
0: 1 0 1: 1 ≠ 0
Uvrštavanjem potrebnih numeričkih vrijednosti vrijednosti u izraz (5 4) dobije se:
∗ 0,00,8011124 0 7,2624
Iz tablice Studentove t- distribucije očitamo kritične t vrijednosti za dvostrani test za 8 stupnjeva signifikantnosti: slobode za različite razine signifikantnosti:
kritična t vrijednost
razina signifikantnosti 0,01 0,05 0,10
3,355 2,306 1,860
U tablici 9 o načinu donošenja odluka, u slučaju dvostranog t -testa, vidimo da ukoliko je izračunata tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti, odbacujemo nultu
hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 7,262 daleko veća od kritičnih vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,0001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta regresije jednaka jednaka nuli, pogriješili jednom u 1000 slučajeva. Jednostrani t-test
Kako se pretpostavlja pozitivna vrijednost koeficijenta dohotka u funkciji izdataka (desnostrani test),
realistični sustav hipoteza mogao bi biti:
:: >≤ 00
Postupak testiranja ostaje isti, osim što vjerojatnost pogreške tipa I nije ravnomjerno podijeljena na dva kraka t-distribucije, već je koncentrirana ili na lijevom ili na desnom kraku krivulje.
49
II. DIO REGRESIJSKA ANALIZA
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
Slika 16: Jednostrani test: (a) Desnostrani i (b) Ljevostrani
U razmatranom primjeru razmatra se desni krak. Za 8 stupnjeva slobode očitavaju se vrijednosti iz t tablice za kritične t-vrijednosti: razina signifikantnosti 0,01 0,05 0,10
kritična t vrijednost 2,896 1,860 1,397
Najprije se izračunava t vrijednost za hipotezu da je hipotetična vrijednost regresijskog koeficijenta 0:
∗ 0,0814 00,8014112 0 7,2624
Kako je izračunata t vrijednost veća od kritičnih vrijednosti, odbacujemo nultu hipotezu o tome da dohodak nema utjecaja na veličinu izdataka, naprotiv ima pozitivan utjecaj. PRIMJER 10
Postupak testiranja hipoteza na primjeru 7 analize odnosa između prihoda između prihoda i izdataka za promidžbene aktivnosti varijable u modelu su:
y x
= prihodi od prodaje proizvoda, u HRK, zavisna varijabla
= izdaci za promidžbene aktivnosti, aktivnosti, u HRK, nezavisna varijabla
Rezultati procjene parametara varijabli dani su u sljedećoj tablici. Tablica 10: Rezultati regresijske analize (ispis Gretl)
Iz ispisa proizlazi da procijenjena regresijska jednadžba glasi:
257,968,02929999 0,16,7874871482
Vrijednosti u zagradama ispod procijenjenih parametara jesu standardne greške procjena (engl. std. error). Regresijski koeficijent je pozitivan iz čega proizlazi da je veza između varijabli x i y pozitivna. Stoga se, kako bi se ispitalo da li je varijable x suvišna u modelu, može koristiti jednosmjerni test na gornju granicu:
50
II. DIO REGRESIJSKA ANALIZA
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
1:: 11 ≤> 00 ∗ 10,6,6,7148248874872 0 20,51 0, 0 5 5% > 2
Test veličina (t-ratio) u konkretnom slučaju dobivena je prema formuli:
1,1812
Ako se test provodi uz razinu signifikantnosti
, tada je za n=12,
2 0,0510
. Budući da je proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da su izdaci za promidžbene aktivnosti suvišna varijabla u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p -vrijednosti (engl. p-value). Iz ispisa proizlazi da je:
1,68 9 < 0,05 →
,
α
tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti signifikantnosti .
51
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
II. DIO REGRESIJSKA ANALIZA
ZADACI ZA VJEŽBU 1.
2.
3.
Koja od sljedećih nezavisnih varijabli ne bi zadovoljila klasičnu pretpostavku savršene multikolinearnosti multikolinearnosti među eksplanatornim varijablama: a) potrošnja i dohodak u državi kroz razdoblje od 10 godina;
2
b) i , te c) i . Koje su od sljedećih tvrdnji točne ili djelomično točne: a) Ocjene ne mogu biti BLUE ako slučajna odstupanja u nisu normalno distribuirana. b) Ako odstupanja nisu normalno distribuirana, F i t-test ne mogu se primijeniti. c) Visoka p-vrijednost znači da je parametar signifikantno različit od nule. d) Ako su odstupanja autokorelirana ili heteroskedastična, ocijenjeni parametri neće biti nepristrani ili BLUE. e) P-vrijednost je vjerojatnost da je nulta hipoteza točna. Kada biste trebali odabrati procjenitelja parametra čija svojstva nisu u skladu s Gauss Markovim teoremom, a) Što biste od sljedećeg odabrali: 1. nepristrani procjenitelj koji nema minimalnu varijancu 2. pristrani procjenitelj s minimalnom varijancom? b) bi li odgovor bio isti ako bi se radilo: za 1. o vrlo velikoj varijanci te za 2. o vrlo maloj, ali ne i minimalnoj varijanci?
4.
Ocijenjen je model prodaje jedne vrste kave u 12 trgovina na temelju podataka za mjesec ožujak, , gdje je Y: količina prodanog proizvoda, X1: cijena proizvoda u kunama:
1800, 0 67 82,3116237, 21,89 76, 70,9 9667,3,8504 851049 82 8 2
Izračunajte t vrijednosti i testirajte signifikantnost ocijenjenih parametara uz nezavisnu 5.
varijablu. Razina signifikantnosti 5%. Analizira se regresijski model
potražnje stanovništva za kreditima u RH na osnovi godišnjih podataka za razdoblje 1996. – 2003., a varijable su Y: potražnja stanovništva za kreditima u milijunima kuna, te X1:te kamatne stope na kunske kredite (% godišnje). Varijable Y i X1 iskazane su u stalnim cijenama 1996. Ocijenjeni regresijski model glasi:
6.
Primijenite jednostrani t-test za testiranje parametra uz nezavisnu varijablu. Razina signifikantnosti 5%. Dane su nezavisna varijabla i zavisna varijabla Y te model . Uz pomoć modela i podataka u tablici: Y X1
-11 -10
-7 -7
4 -3
4 -1
11 2
17 5
21 6
25 8
koeficijenta. a) Izračunajte standardnu grešku ocjene regresijskog koeficijenta. b) Testirajte statističku značajnost nagiba, odnosno nultu hipotezu da je vrijednost parametra jednaka nuli (razina signifikantnosti signifikantnosti 5%).
52
7. Poglavlje: Testiranje hipoteza u modelu jednostavne linearne regresije
II. DIO REGRESIJSKA ANALIZA
RJEŠENJA ZADATAKA 1.
b) Xi i 2+Xi
2. 3.
Točne su tvrdnje pod b) i d).
4. 5. 6.
a) Bolje je odabrati nepristrani ocjenjivač koji nema minimalnu varijancu. b) Nepristrani procjenitelj s jako velikom varijancom ima veliku vjerojatnost da bude daleko od stvarne vrijednosti. Zato bi bolji izbor bio pristrani ocjenjivač s vrlo malom prist ranosti i minimalnom varijancom. Hipoteze dvostranog testa: , odnosno, . . Nulta se hipoteza odbacuje. Hipoteze ljevostranog testa: , odnosno, . . . Nulta se hipoteza odbacuje. a) ; b)
|| 22,1,5232 (,6) 2,0,44709 ;
: 0 : ≥ 0
: ≠ 0 || 10,826,1010 2,228 : < 0 || 8,1775,150 2,015
. Nagib funkcije je statistički značajan, te se
nulta hipoteza odbacuje.
53
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
akon ocjenjivanja ekonometrijskog modela pristupa se vrednovanju dobivenih ocjena
parametara sa stajališta ekonomskih, statističkih i ekonometrijskih kriterija. Ekonomski kriteriji predmet su istraživanja ekonomske teorije. Ekonometrijski kriteriji ili testovi drugog reda predmet su razmatranja u kasnijim poglavljima. U ovom poglavlju biti će riječi o statističkim kriterijima.
Usporedba ocijenjenih vrijednosti zavisne varijable Y s empirijskim podacima daje sliku
prilagođenosti regresijskog modela. No, postoje preciznije statističke mjere prilagođenosti, a koje se temelje na usporedbi koliko bolje regresijski model, koji je ocijenjen pomoću metode najmanjih kvadrata, objašnjava vrijednosti zavisne varijable Y, od jednostavnog pokazatelja – prosječne vrijednosti .
Dva najčešća statistička testa u ekonometriji su koeficijent determinacije, koji mjeri moć linearne regresije u objašnjavanju varijacija zavisno promjenjive varijable, te test statističke značajnosti ocjenjenih vrijednosti parametara, zasnovan na statističkim pogreškama dobivenih ocjena parametara koji mjeri pouzdanost ocjena.
Za mjerenje prilagođenosti ocijenjenih vrijednosti stvarnim, empirijskim podacima , ekonometričari koriste odstupanja empirijskih podataka od njihove sredine . Rastavljanje tih odstupanja služi kao osnova za definiranje statističkih mjera prilagođenosti. Dokazano je da je, na temelju t-testa, regresijski koeficijent u primjeru funkcije izdataka iz primjera 6
statistički značajan, što ukazuje da je izračunata regresijska funkcija uzorka «razumno» dobra kako to prikazuje sljedeća slika. Slika 17: prilagođenost regresijskog pravca funkcije izdataka empirijskim podacima 40 y = 7,6182+0,0815x
35 30 25 Y 20
15 10 5 0 0
50
100
150
200
250
300
350
400
X
No, vidljivo je kako na regresijskoj funkciji uzorka ne leže sve vrijednosti varijable Y. To je stoga, što reziduali
nisu svi jednaki nuli; neki su pozitivni, a neki negativni. Postavlja se, stoga
pitanje, može li se odrediti neka opća mjera «dobre prilagođenosti», koja nam govori kako dobro procijenjeni regresijski regresijski pravac pristaje stvarnim vrijednostima od Y? Takva mjera postoji, postoji, a zove se koeficijent determinacije, R2.
54
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
8.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE
Poznato je da je odnosno
(55) (56)
Ako se od jednadžbe (5 6) oduzme s obje strane dobije se ili
(57) (58)
Odstupanja empirijskih podataka Yi od njihove sredine zovu se ukupna odstupanja. Ova dekompozicija ukupnog odstupanja prikazana je za samo jedno odstupanje. Ako se za sva opažanja u uzroku kvadriraju i zbroje obje strane jednakosti (5 8), dobije se sažeta mjera za sva opažanja. Suma kvadrata odstupanja zove se varijacija: n
Y Y
2
i
n
n
e
Y i Y
i 1
ˆ
2
n 2
i
i 1
i 1
2 Y 1 Y ei
(59)
i 1
Kako je zadnji pribrojnik na desnoj strani relacije (59) jednak nuli, imamo: n
Y Y
2
i
i 1
n
Y Y
2
ˆ
i
i 1
n
ei
2
(60)
i 1
ili riječima: ukupna suma kvadrata
=
objašnjena suma kvadrata
TSS
ESS
+
neobjašnjena (rezidualna) suma kvadrata RSS
gdje je: TSS =
ESS =
ukupna suma kvadrata ili ukupna varijacija ( Total Sum of Squares) koja predstavlja mjeru ukupne varijacije varijable Y oko njezine srednje vrijednosti;
objašnjena suma kvadrata ili objašnjena varijacija ( Estimated Sum of Squares), odnosno dio ukupne varijacije varijable Y oko njezine sredine koji je objašnjen varijacijama varijable X;
RSS =
rezidualna suma kvadrata ili rezidualna ili neobjašnjena varijacija ( Residual Sum of Squares), odnosno dio ukupne varijacije varijable Y koji se može pripisati slučajnim utjecajima.
NAPOMENA: Termini varijacija i varijanca nisu sinonimi. Varijacija je suma kvadrata odstupanja varijable od njene srednje vrijednosti dok je v arijanca suma podijeljena s odgovarajućim stupnjevima slobode (varijacija/s.s.).
Varijacije varijable Y djelomice se mogu predstaviti pomoću varijacija varijable X, a djelomice su posljedica slučajnih odstupanja. Čim je relativno manji udio neobjašnjenih rezidualnih varijacija (RSS) u ukupnim (TSS), to je ocijenjena regresijska funkcij a bolje prilagođena empirijskim podacima. Ako sve stvarne vrijednosti leže na regresijskoj funkciji uzorka, objašnjena varijacija izjednačava se s ukupnim varijacijama, a rezidualna varijacija iznosi nula. Obrnuto, ukoliko regresijska funkcija uzorka loše prikazuje podatke, rezidualna varijacija biti će velika, veća od objašnjene varijacije. U ekstremnom slučaju, ako varijacije varijable X uopće ne objašnjavaju varijacije varijable Y oko njezine sredine, objašnjena
55
II. DIO REGRESIJSKA ANALIZA
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
varijacije biti će nula, a rezidualna jednaka ukupnoj varijaciji varijable Y. Metoda koja minimizira u danim ukupnim varijacijama rezidualne varijacije, donosno maksimizira
objašnjene varijacije, je metoda najmanjih kvadrata. Slika 18: Objašnjena i neobjašnjena komponenta opažanja Yi
U praksi je uobičajeno da ni ESS niti RSS nisu jednake nuli.
8.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA DETERMINACIJE
Već je spomenuto da, ukoliko je ESS veća od RSS, regresijska funkcija uzorka objašnjavat će veći dio varijacija u Yi. Ako je RSS veći, RFU će objašnjavati tek dio spomenutih varijacija.
Sve ove kvalitativne tvrdnje jednostavnu su razumljive i lako se mogu kvantificirati. Dobije se tako koeficijent determinacije, , kao kvantitativna mjera uspješnosti prilagodbe ocijenjene funkcije empirijskim podacima.
Budući da je TSS=ESS+RSS
(61)
dijeljenjem izraza (61) s TSS dobije se
1 ∑ 1 1 ∑
(62)
Koeficijent determinacije iznosi:
(63)
Ovako definirani R 2 poznat je kao koeficijent determinacije (uzorka) i najčešće je korištena
mjera prilagođenosti ocijenjene funkcije empirijskim podacima, koja mjeri proporciju modelom protumačenog dijela zbroja kvadrata u ukupnom zbroju kvadrata. Protumačeni dio kvadrata j ednak je zbroju kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable, a ukupan zbroj kvadrata odnosi se na zbroj kvadrata odstupanja
vrijednosti zavisne varijable od njezine aritmetičke sredine. Koeficijent determinacije kreće se u granicama od jedan do nule. Po pravilu, model je reprezentativniji, što je koeficijent 56
II. DIO REGRESIJSKA ANALIZA
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
determinacije bliži jedinici. Što je RSS manja, veće je ESS , a R 2 je po vrijednosti bliži jedinici.
→ 1
Ako je
što znači da empirijske vrijednosti leže na ocijenjenoj linearnoj funkciji (slika 18). Koeficijent determinacije, operativno je mjerilo koje nema podlogu u statističkom zaključivanju. Uspješnost prilagodbe relativan je pojam, zavisno o onom što se istražuje. Nema jednostavne metode koja određuje granicu uspješnosti. To je uglavnom stvar iskustva istraživača. Kada je R2=0,50, znači da je 50% varijacija zavisne varijable objašnjeno pomoću ocijenjenog regresijskog modela. Za podatke vremenskog niza to je obično loš pokazatelj, no za podatke vremenskog presjeka može se smatrati dobrim. Slika 19: Koeficijent determinacije kao mjera uspješnosti prilagodbe linearne funkcije empirijskim podacima
(a) 2
R
1
(a)
R
2
0 , 90
(b)
R
2
0
(c)
Potrebno je spomenuti dva osnovna svojstva koeficijenta determinacije:
Radi se o ne negativnoj vrijednosti. Kreće se u intervalu 0 R21, jer ESS dio ne može biti veći od TSS dijela. R 2 = 1 označava savršenu prilagodbu (cjelokupna varijacija Y objašnjena je ocijenjenim regresijskim modelom). R2=0 označava nepostojanje veze između varijabli Y i X. PRIMJER 11
Izračun koeficijenta determinacije za primjer funkcije izdataka iz primjera 6.
∑ 5 1, 8 909 1 1 1 ∑∑ 394 0,8683
Dobiveni koeficijent determinacije dovoljno je visok, što znači da u primjeru varijabla X (dohodak) objašnjava oko 86% varijacija u izdacima. KOEFICIJENT KORELACIJE KORELACIJE
Korelacijska analiza sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakost i statističke veze među pojavama. Ako je povezanost po obliku linearna govori se o linearnoj korelaciji. Standardizirana mjera jakosti statističke veze između pojava predočenih dvjema kvantitativnim varijablama je koeficijent korelacije:
∑
(64)
Koeficijent korelacije može poprimiti vrijednosti od 1. Vrijednost koeficijenta korelacije jednaka nuli označava nepostojanje linearne korelacije među pojavama, vrijednost od +1 57
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
označava potpunu korelaciju pozitivna smjera, a vrijednost od - 1 označava postojanje potpune korelacije negativnoga smjera. Što je koeficijent korelacije po apsolutnoj vrijednosti bliži jedinici to je veza među varijablama uža. Mala vrijednost koeficijenta korelacije ne mora nužno značiti da je slaba veza među pojavama, jer povezanost pojava može biti krivolinijska, pa je upotreba koeficijenta linearne korelacije neprimjerena. Koeficijent linearne korelacije jednak je drugom korijenu koeficijenta koeficijent a determinacije, a predznak linearne korelacije uvijek je
jednak predznaku koeficijenta regresije. Koeficijent korelacije može se, stoga izračunati i putem koeficijenta determinacije i to:
∓
(65)
PRIMJER 12
Izračun koeficijenta korelacije za primjer funkcije izdataka iz primjera 6.
U primjeru funkcije izdataka gdje su u odnos stavljene varijable izdaci (Y) i raspoloživi dohodak (X) koeficijent linearne korelacije izračunat je kao drugi korijen koeficijenta de terminacije i to:
∓√ 0,0,8638
=0,9318
Koeficijent korelacije iznosi +0,9318. Za uočiti je da je predznak koeficijenta linearne korelacije jednak predznaku koeficijenta regresije. Varijable su usko povezane, a korelacija ima pozitivan smjer.
8.3. STANDARDNA GREŠKA REGRESIJE
Sposobnost modela da objašnjava «ponašanje» zavisne varijable ocjenjuje se na osnovi greške (reziduala) tog modela. Pojam standardne pogreške uveden je u poglavlju 6.1. Već je ranije spomenuto, da čim je manji udio rezidualnih odstupanja u ukupnim varijacijama (TSS), bolja je prilagođenost modela empirijskim podacima. Mjera te prilagođenosti izvodi se iz
1 ∑ 1
procijenjene varijance regresije
, koja je omjer rezidualne varijacije i stupnjeva slobode koji su joj pridruženi, a zove se standardna greška regresije (Standard Error of the Regression): (66)
gdje je n broj opažanja, k broj regresorskih varijabli u modelu. Iz varijance s 2 računa se standardna greška regresije s:
1 ∑ 1
(67)
Ova je mjera izražena u jedinicama zavisne varijable, no iz praktičnih razloga računa se kao relativni pokazatelj, tj. koeficijent varijacije:
∙ 100
(68)
Koeficijent varijacije od 20% ili više iskustvena je vrijednost prihvatljivosti ocijenjenog regresijskog modela.
58
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
8.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA
mjeri stupanj prilagođenosti regresijskog modela empirijskim podacima, on ne daje odgovor o razini statističke značajnosti te prilagodbe. Drugim riječima, postavlja se pitanje odražava li koeficijent determinacije stvarnu povezanost među varijabla ma modela ili je slučajan rezultat korištenih podataka iz odabranog uzorka. Statistička značajnost prilagođenosti modela testira se F-testom, pri čemu se koristi analiza varijance. Dok
Analiza varijance za model jednostavne regresije oslanja se na raščlambu z broja kvadrata odstupanja vrijednost zavisne varijable od njezine aritmetičke sredine. Navedena se raščlamba temelji na sljedećim postavkama: ukup kupni zbr zbroj oj kva kvadrat drata a
protumačeni dio zbroja kvadrata
=
+ neprotumačeni dio zbroja kvadrata
rezidualni zbroj kvadrata: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti
zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable
zbroj kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine
TSS=ESS+RSS
Procjena varijance i komponenti (sredine kvadrata, mean squares) određuje se tako da se
pojedini zbrojevi kvadrata podijele s pripadajućim stupnjevima slobode:
ukupnom zbroju kvadrata pridružuje se (n -1) stupanj slobode, protumačenom zbroju 1 stupanj slobode, rezidualnom zbroju kvadrata (n-k-1) stupnja slobode gdje je n broj opažanja, a k je broj nezavisnih varijabli. Varijacije iz izraza (61) dijele se s pripadnim stupnjevima slobode (d.f.), tj. brojem nezavisnih opažanja na kojima su temeljene. Tako je ukupnoj varijaciji pridružen broj ( n-1), objašnjenoj k, a neobjašnjenoj (n-k-1). Prema relaciji (61), dakle vrijedi:
1 1 1
(69)
Varijacija, podijeljena s pripadnim stupnjevima slobode, procjena je varijance na bazi uzorka. Postupak dekomponiranja varijacija zove se analiza varijance u regresiji ili ANOVA (Analysis of Variance), a prikazuje se u karakterističnoj tablici. Tablica 11: ANOVA izvor varijacije
objašnjena regresijom
neobjašnjena regresijom (rezidualna odstupanja)
suma kvadrata
ili
∑
Ukupna
stupnjevi slobode
k
n-k-1
sredina kvadrata
∑ 2
F-vrijednost
∑ ⁄ ⁄ 1 2 ∑ 2 1 1 ili
n-1
59
II. DIO REGRESIJSKA ANALIZA
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu.
TEST HIPOTEZE O SIGNIFIKANTNOSTI REGRESIJSKE FUNKCIJE
Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu. Testiranje hipoteze o značajnosti regresorske varijable X provodi se F-testom. U modelu jednostavne linearne regresije F-test ekvivalentan je t-testu. Hipoteze za taj test jesu:
:: ≠ 00
gdje:
H0: sadrži tvrdnju da je regresorska varijabla X suvišna u modelu (nije signifikantna), odnosno da su svi parametri uz regresorsku varijablu u modelu jednaki nuli.
H1: sadrži tvrdnju da prisutnost regresorske varijable (signifikantna je) objašnjava varijacije zavisne varijable Y. Tvrdnja alternativne hipoteze ekvivalentna je tvrdnji da je barem jedan parametar osnovnog skupa različit od 0.
Test veličina je empirijska F vrijednost koja je omjer procjena objašnjene i neobjašnjene varijance:
∑ ⁄ ⁄ 1
(70)
pripada F-distribuciji s k stupnjeva slobode u brojniku i (n-(k+1)) stupnjeva slobode u nazivniku. Odluka se donosi usporedbom empirijskog F-omjera s teorijskom vrijednosti Fdistribucije za razinu signifikantnosti i broj stupnjeva slobode. Nulta se hipoteza prihvaća ako je empirijski F-omjer manji od teorijske vrijednosti F-distribucije, u protivnome se ista ne prihvaća. Odluka se ekvivalentno donosi na temelju p-vrijednosti (ako je p-vrijednost manja od razine signifikantnosti , nulta se hipoteza ne prihvaća; nulta se hipoteza prihvaća ako je p-vrijednost veća od ). PRIMJER 13
Analiza prilagođenosti regresijskog modela - analiza varijance i testiranje statističke značajnosti regresijskoga modela za primjer 7 koji analizira odnos prihoda od prodaje u ovisnosti o izdacima za promidžbene aktivnosti programskom potporom potporom Gretl
Sljedeća tablica prikazuje rezultate analize varijance (ANOVA tablica). Tablica 12: Tablica analiza varijance (ispis Gretl)
60
II. DIO REGRESIJSKA ANALIZA
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
Rezultati računalnoga ispisa interpretiraju se kako slijedi: Protumačena suma kvadrata , odnosno objašnjena suma kvadrata-ESS (engl. Regression Sum of Square) iznosi 44804100 (4,48041e+007) je zbroj kvadrata odstupanja procijenjenih ili regresijskih vrijednosti od prosjeka.
Neprotumačena suma kvadrata , odnosno neobjašnjena regresijom -RSS (engl. Residual Sum of Square ) iznosi 1065510 (1,06551e+006) je zbroj kvadrata rezidualnih odstupanja (zbroj kvadrata odstupanja
opaženih od regresijskih vrijednosti). Ukupna suma kvadrata , TSS (engl. Total Sum of Square ) iznosi 4586900 (4,58696e+0,07) je zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od prosjeka.
Nadalje, sredina kvadrata neprotumačenih odstupanja varijancu regresije
te iznosi 106551.
jednaka je 1065510 −− 10 i predstavlja
procijenjenu
Koeficijent determinacije (engl. R^2) iznosi 0,976771, a tumači se kao proporcija odstupanja
protumačenih regresijskim modelom. Testira li se značajnost regresorske varijable u modelu, hipoteze testa su:
0: 1 0 1: 1 ≠ 0 // 4 4804100/1 / 420,495 1 1 0,1065510/10 05 0,1;0150 4,96 > −− <α
Empirijska vrijednost test veličine (engl. F) na temelju ANOVA tablice je:
, tada je u konkretnom slučaju ( n=12) teorijska Ako se test provodi uz razinu signifikantnosti . Budući da je vrijednost F-distribucije za (n-k-1)=(12-1-1)=(10,1) stupnjeva slobode: empirijski F-omjer nulta se hipoteza odbacuje uz danu razinu signifikantnosti. Alternativno, ako se odluka donosi temeljem p-vrijednosti (engl. p-value), tada se nulta hipoteza odbacuje kao neistinita jer je p-vrijednost .
8.5. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE Postoji više načina ispisa i predočavanja rezultata regresijske analize. Odabir pokazatelja koji će se prikazati zavisi od potreba konkretnog istraživanja. Prije pojave računala i programskih potpora postojao je standardizirani način prikazivanja rezultata regresijske analize. Taj će način biti prikazan na sljedećem primjeru1. PRIMJER 14
Rezultati regresijske analize za primjer izdataka
7,3,601820, 8 14 523 523 0, 0 112 0,8682 2,4958 0,07,372 23726240,0,0001 001 .. 8
(71)
U izrazu (71) brojevi u prvom skupu zagrada predstavljaju ocijenjene standardne pogreške (se) ocijenjenih regresijskih koeficijenata. Brojevi u drugom skupu zagrada predstavljaju ocijenjene t vrijednosti pod pretpostavkom nulte hipoteze da je stvarna populacijska 61
II. DIO REGRESIJSKA ANALIZA
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
vrijednost svakog regresijskog koeficijenta pojedinačno jednaka nuli (dane t vrijednosti jednostavno su odnos ocijenjenih regresijskih koeficijenata i njihovih standardnih grešaka). Vrijednosti u trećem skupu zagrada predstavljaju p-vrijednosti izračunatih t vrijednosti. Prema konvenciji, ukoliko se ne specificira određena nulta hipoteza, pretpostavlja se nulta hipoteza da vrijednosti populacijskih parametara iznose nula. Te ako se nulta hipoteza
odbaci (u slučaju signifikantnosti statističkog testa), to znači da su stvarne populacijskih parametara različite od nule. Prednost ovakvog predočavanja regresijskih rezultata je što se na prvi pogled može odrediti da li su ocijenjeni regresijski parametri pojedinačno statistički signifikantni, odnosno signifikantno različiti od nule. Određivanjem p vrijednosti može se odrediti točna razina signifikantnosti ocijenjene t vrijednosti. U primjeru 6 o izdacima u odnosu na dohodak t vrijednosti regresijskog koeficijenta iznosi 7,2624, a njegova je p vrijednost praktički nula. Što je manja p vrijednost, jači su dokazi odbacivanja nulte hipoteze.
Napominje se da je, prilikom odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze, potrebno unaprijed odrediti p vrijednost koju se je spremni prihvatiti (kritična p vrijednost), te usporediti izračunatu p vrijednost s kritičnom p vrijednošću. Ukoliko je izračunata p vrijednost manja od kritične p vrijednosti, nulta hipoteza se odbacuje. Ukoliko je izračunata p vrijednost veća od kritične p vrijednosti nulta hipoteza se ne smije odbaciti. Tradicionalno se kritična p vrijednost fiksira na razini od 1, 5 ili 10 %. U izrazu (71) stvarna p vrijednost t koeficijenta od 7,2624 iznosi 0,0001. Ukoliko bi odabrana kritična razina p vrijednosti iznosila 5%, nulta hipoteza bi se odbacila, jer je izračunata p vrijednost od 0,0001 mnogo manja od 5% (0,05).
Ocjenjivanje modela i regresijska analiza radi se danas skoro isključivo uz pomoć računala i programske potpore. Potrebno je naučiti čitati računalno izvješće i znati korektno interpretirati ključne rezultate regresijske analize. Postoji dosta statističkih ili ekonometrijskih programskih paketa s kojima se može obavljati ekonometrijska ocjena i analiza. Najčešće upotrebljavani statistički paketi su: SAS, SPSS, STATISTICA, a od ekonometrijskih RATS; TSP; EVIEWS, SHAZAM, SORITEC.
62
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
ZADACI ZA VJEŽBU 1.
128, 128,94 0,9113 113
Na osnovi godišnjih podataka za razdoblje od 1969. do 1978. godine ocijenjen je jednostavni regresijski model: . Raspolažemo sa sljedećim
∑ 0,987312, 9 3 66
podacima:
2.
. Temeljem navedenih podataka: a) Izračunajte standardnu grešku regresije. b) Ispunite ANOVA tablicu. c) Provedite test o značajnosti re gresije. Razina signifikantnosti je 0,05. Ocijenjen je modeli prodaje jedne vrste vrste kave u 12 12 prodavaonica na temelju podataka u
mjesecu ožujku, i to
. Varijable modela su Y: količina prodane kave
u kg te X: cijena kave u kunama. Rezultati provedene regresijske analize su dani u
sljedećoj tablici.
^const X1 (t-vrij.) R2 F
MODEL 18846,4 -247,92 (-5,06) 0,6910 25,60
a) Testirajte značajnost nezavisne varijable u modelu. Razina signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti je 5%. c) Na osnovi raspoloživih pokazatelja napišite da li je model prihvatljiv i zašto. 3.
Y X 4.
79,1915,657 2,57831,7335
Izračunajte koeficijent determinacije i ocijenite reprezentativnost funkcije ako te podacima iz tablice: raspolažete s ocijenjenim modelom: 78 0
88 1
Ocijenjen je sljedeći model
91 2
94 3
98 4
111 5
. Za dani model:
a) Odredite koeficijent determinacije, te b) Ispitajte signifikantnost funkcije uz =5%,
ukoliko raspolažemo sljedećim pokazateljima TSS=4,5067 ESS=4,4952 RSS=0,0115 n=3
63
II. DIO
8. Poglavlje: Mjerenje pouzdanosti regresijskog modela
REGRESIJSKA ANALIZA
RJEŠENJA ZADATAKA 1.
a) s = 104,71 b) izvor varijacije
suma kvadrata 2480714,42 87312,93 2568027,35
objašnjena neobjašnjena ukupna
stupnjevi slobode 1 8 9
sredina kvadrata 2480714,42 10914,12 285336,37
Fvrijednost 227,294
c) H0:1= 0, HA:1 ≠ 0, F =227,294; F 0,05(1, 8)=5,32. Nulta hipoteza se ne prihvaća. 2.
a) H0: a1= 0; HA :a1≠ 0; t 0,05 (10)=2,228. Nulta hipoteza se ne prihvaća. Nezavisna varijabla X1 značajna je za model. b) H0: a1= 0; HA :a1≠ 0; F=25,60, F 0,05(1, 10) =4,96. Nulta hipoteza se ne prihvaća. c) Model je prihvatljiv, jer je nezavisna varijabla X 1 značajna za model. Model
objašnjava preko 69% varijacija zavisne varijable, što je dobar pokazatelj za podatke vremenskog presjeka. Model je također i statistički signifikantan. 3.
Y
X
78 88 91 94 98 111
Y 2
R
y i
0 1 2 3 4 5
Y n
Y i Y
ˆ ˆ
79,191 84,848 90,505 96,162 101,819 107,476
560 6
2
ˆ ˆ
ˆ
Y
Y i
-14,142 -8,485 -2,825 2,829 8,486 14,143
Y
TSS
ESS
RSS
-1,191 3,159 0,495 -2,162 -3,819 3,524
235,1 28,44 5,442 0,445 21,78 312,123 603,33
199,996 71,995 7,997 8,003 72,012 200,024 560,03
1,418 9,935 0,245 4,674 14,584 12,418 43,274
ˆ
i
93 ,333
yi Y 2 TSS Y i Y
ESS
-15,333 -5,333 -2,333 0,667 4,667 17,667
Y i
560 ,01 0 ,92821 603 ,33
92,82% varijacija zavisne varijable objašnjeno je pomoću nezavisne varijable. 4.
a) b)
R
2
F
ESS
TSS
4 ,4952
4 ,5067
0 ,997448
ESS /( k )
RSS /( n
k 1 )
4 ,4952 / 1
0 ,0115 /( 3 1 1 )
390 ,88
H0:1=2=0 H1:1=2≠0 F0,05(1,1)=161 F FC. Funkcijska veza je signifikantna.
64
II. DIO REGRESIJSKA ANALIZA
9. Poglavlje: Višestruki linearni regresijski model
prethodnim poglavljima razmatran je linearni regresijski model s dvije varijable, sastavljen
od jedne nezavisne i jedne zavisne varijable. Takav se model sada proširuje pa se razmatra mogućnost da više nezavisnih varijabli utječu na zavisnu varijablu. Regresijski model s više od jedne nezavisne varijable poznat je kao višestruki regresijski model; višestruki upravo zbog višestrukih utjecaja (eksplanatornih varijabli) koje djeluju na zavisnu varijablu. Rasprava o višestrukom regresijskom modelu sastojat će se u pronalaženju odgovora na sljedećih nekoliko pitanja: 1. Kako se procjenjuje višestruki regresijski mode? Da li je postupak procjene drugačiji od postupka
procjene regresijskog modela s dvije varijable? 2. Da li se postupak testiranja hipoteza razlikuje od onog u modelu s dvije varijable? 3. Postoji li neka specifična obilježja višestruke regresije koja se ne susreću u modelu s dvije varijable?
Za dobiti odgovore na ova i dodatna pitanja razmotrit će se najjednostavniji višestruki regresijski model: model s tri varijable u kojem se ponašanje zavisne varijable Y analizira u odnosu na dvije nezavisne varijable X 1 i X 2.
9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE
Regresijska funkcija populacije za model s tri varijable u nestohastičkom obliku piše se te u stohastičkom obliku
gdje je
(72)
(73)
1
zavisna varijabla nezavisne varijable slučajno odstupanje t-to opažanje (u slučaju podataka vremenskog presjeka upotrebljava se indeks i) konstantni član, odnosno odsječak na ordinati, a predstavlja prosječnu vrijednost
2 i 3
kada su X 2 i X 3 jednaki nuli Y kada parcijalni regresijski koeficijenti
Y X 2 i X 3 u t
Izraz (73) daje uvjetnu prosječnu vrijednost Y, uvjetnu za dane ili fiksirane vrijednosti varijabli X2 i X3. Stoga je, kao i u modelu s dvije varijable, višestruka regresijska analiza uvjetna regresijska analiza, uvjetna za dane vrijednosti nezavisnih varijable. Dobije se tako 65
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
prosječna ili srednja vrijednost Y za fiksirane vrijednosti varijabli X. Stohastički oblik, izraz (73) tvrdi da se svaka pojedinačna vrijednost Y može prikazati kao zbroj dviju komponenti:
sustavne ili determinističke komponente
), koja predstavlja srednju
vrijednost E(Yt), te ut, koja predstavlja nesustavnu ili stohastičnu komponentu, određenu čimbenicima drugačijima od X2 i X3.
ZNAČENJE PARCIJALNIH REGRESIJSKIH KOEFICIJENATA
Regresijski koeficijenti 2 i 3 iz izraza (72) poznati su kao parcijalni regresijski koeficijenti ili parcijalni koeficijenti smjera. 2 mjeri promjenu u srednjoj vrijednosti Y, E(Y), za jedinicu promjene u varijabli X 2, kada je vrijednost varijable X 3 konstantna. Analogno, 3 mjeri promjenu u srednjoj vrijednosti Y za jedinicu promjene u X 3, kada je vrijednost X 2
konstantna. Ovo je specifična značajka višestruke regresije. U regresijskom modelu s tri varijable mora se utvrditi koji dio promjene u srednjoj vrijednosti Y, može biti pripisan varijabli X2, a koji varijabli X3. PRIMJER 15
Pretpostavimo da imamo sljedeću regresijsku funkciju populacije:
1515 1,2 0,88
(74)
Pretpostavimo nadalje, da je vrijednost varijable X 3 fiksirana na konstantnoj vrijednosti od 10. Uvrštavanjem dane vrijednosti u izraz (7 4) dobije se
1515 151,28 10,,28∙10 2323 1,2 2 1,2 15 199,2∙ 05,80, 8
(75)
označava da srednja vrijednost Y opada za 1,2 za svaku jediničnu Koeficijent nagiba promjenu varijable X2, kada je X3 konstantna. Ovakav koeficijent nagiba naziva se parcijalni regresijski koeficijent. Analogno, ako je vrijednost X 2 konstantna na vrijednosti od 5 dobije se (76)
Koeficijent nagiba 3= 0,8 označava da srednja vrijednost Y raste za 0,8 za svaku jediničnu promjenu varijable X3, kada je X2 konstanta. I ovaj je regresijski koeficijent parcijalni regresijski koeficijent.
Parcijalni regresijski koeficijent odražava (parcijalni) utjecaj jedne od nezavisnih varijabli na srednju vrijednost zavisne varijable, kada su vrijednosti ostalih nezavisnih varijabli,
uključenih u model održavane konstantnima. Ovakvo specifično obilježje višestruke regresije, omogućava, ne samo uključivanje većeg broja nezavisnih varijabli u model, već i «izoliranje» utjecaja svake pojedine varijable X na varijablu Y od ostalih X varijabli uključenih u model.
9. 2. PRETPOSTAVKE MODELA
VIŠESTRUKOG LINEARNOG REGRESIJSKOG
Kao i u slučaju jednostavnog linearnog regresijskog modela, regresijska analiza višestrukog modela započinje procjenom parametara. U svrhu dobivanja ocjena parametara djeluje se u 66
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
okvirima klasičnog linearnog regresijskog modela (CLRM) uvedenog u prijašnji m poglavljima te se, za ocjenu regresijskih parametara, upotrebljava metoda najmanjih kvadrata (OLS metoda). Za model iz izraza (73) vrijede sljedeće pretpostavke: P1
Regresijski model je linearan u parametrima te je korektno specificiran.
P2
Objasnidbene varijable X2 i X 3 nisu korelirane sa slučajnim odstupanjima u, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli. Ukoliko su X 2 i X3 nestohastične ova je pretpostavka automatski ispunjena.
P3
i)=0. Očekivana vrijednost odstupanja jednaka je nuli: E(u )=0
P4
Homoskedastičnost: Homoskedastičnost: varijanca slučajne varijable u konstanta je i jednaka 2.
P5
Odsutnost autokorelacije: vrijednosti slučajne varijable u međusobno su nekorelirane slučajne veličine, tj. njihova je kovarijanca je dnaka nuli: cov(u ,u i j )=0, i≠j.
P6
Odsutnost multikolinearnosti: ne postoji egzaktna linearna kombinacija nezavisnih varijabli, tj. ne postoji ovisnost oblika.
P7
Slučajna odstupanja su normalno distribuirana s matematičkim očekivanjem jednakim nula i homoskedastičnom homoskedastičnom varijancom 2: ui N(0, N(0, 2 )
Navedene pretpostavke, osim pretpostavke P6, iste su kao za model s dvije varijable.
9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE Za procjenu parametara iz izraza (73) koristi se metoda najmanjih kvadrata.
9.3.1. OLS PROCJENITELJI
Za definiranje OLS ocjenjivača potrebno je napisati regresijsku funkciju uzorka koja odgovara regresijskoj funkciji populacije iz izraza (73), kako slijedi:
∑ .
(77)
procjenitelje populacijskih koeficijenata. Prema načelu metode najmanjih kvadrata vrijednosti nepoznatih parametara odabrane su na način da je suma kvadrata reziduala što je moguće manja: Algebarskim izračunima dobiju se izrazi za OLS ocjenjivače parametara:
gdje
predstavlja rezidual, a
2
3
m y 2 m33
m22 m33 m y 3 m22
m22 m33
m y 3 m23 m 2 23
m y 2 m23
m
1 ˆ
Y 2 X 2
2
(78)
23
3 X 3 67
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
gdje je: m yk ( Y i Y )( X ik X k ) i
(79)
m jk ( X ij X j )( X ik X k ) i
PRIMJER 16
Izračun parcijalnih regresijskih koeficijenata
Pretpostavimo da moramo ocijeniti vezu između cijene određenog turističkog aranžmana (X 3), troškova oglašavanja za dati turistički aranžman (X2) te broj prodanih turističkih aranžmana (Y) u 12 uzastopnih dana. Dan je model višestruke linearne regresije:
Podaci o varijablama dani su u tablici 13.
Tablica 13: Broj prodanih aranžmana, cijena aranžmana i troškovi oglašavanja
cijena aranžmana
broj prodanih
troškovi oglašavanja
aranžmana 55 70 90 100 90 105 80 110 125 115 130 130
100 90 80 70 70 70 70 65 60 60 55 50
5,50 6,30 7,20 7,0 6,30 7,35 5,60 7,15 7,50 6,90 7,15 6,50
Tablica međurezultata za izračun ocijenjenih parametara. Tablica 14: Tablica međurezultata Y
X2
X3
55 70 90 100 90 105 80 110 125 115 130 130
100 90 80 70 70 70 70 65 60 60 55 50
5,50 6,30 7,20 7,0 6,30 7,35 5,60 7,15 7,50 6,90 7,15 6,50
( Y i Y ) -45 -30 -10 0 -10 5 -20 10 25 15 30 30
m y 2
( X 2i X 2 ) 30 20 10 0 0 0 0 -5 -10 -10 -15 -20
-1350 -600 -100 0 0 0 0 -50 -250 -150 -450 -600 -3550
Σ
( X 3i X 3 ) -1,2 -0,4 0,5 0,3 -0,4 0,65 -1,1 0,45 0,8 0,2 0,45 -0,2 0,45
m33 1,4 0,16 0,25 0,09 0,16 0,42 1,21 0,20 0,64 0,04 0,20 0,04 4,81
m y 3 54 12 -5 0 4 3,25 22 4,5 20 3 13,5 -6 125,25
m23 -36 -8 5 0 0 0 0 -2,25 -8 -2 -6,75 4 -54
m22 900 400 100 0 0 0 0 25 100 100 225 400 2250
m yy 2025 900 100 0 100 25 400 100 625 225 900 900 6300
Rezultati osnovnih izračuna su sljedeći: Y
100
X 2
70
X 3
6 ,7
m22=2250 m33=4,81 m23=-54 my2=-3550 my3=125,25 myy=6300 k=3 (dvije objasnidbene i jedna zavisna varijabla)
68
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
Iz izraza (78) računaju se vrijednosti parametara:
2
m y 2 m33
m22 m33
m y 3 m23
m
2
3
m y 3 m22
m22 m33
23
3550 4,81 125,25 54
2250 4,81 54
1,3
m y 2 m23
1
m 2 23
ˆ
125 ,25 2250 3350 54 2
2250 4 ,81 54
2
Y 2 X 2
100 1 ,3 70 11 ,3 6 ,7
115 ,29
3 X 3
11 ,3
Prema tome, ocijenjena jednadžba regresije glasi: Y i ˆ
115 ,29 1 ,3 X i 2
11 ,3 X 13
i
To znači da ocjenjujemo ocjenjujemo da bi se smanjenje cijene turističkog aranžmana od jedne novčane jedinice, uz nepromijenjene troškove oglašavanja, odrazilo na povećanje broja prodanih aranžmana za 1,3, dok bi porast troškova oglašavanja za jednu novčanu jedinicu, uz nepromijenjene cijene, prouzrokovao povećanje prodaje za 11,3 turističkih aranžmana.
9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA
Nakon određivanja OLS procjenitelja konstantnog člana i parcijalnih regresijskih koeficijenata, mogu se izračunati njihove varijance i standardne pogreške. Varijance i standardne pogreške daju uvid o varijabilnosti procjenitelja od uzorka do uzorka. Kao i u slučaju linearnog regresijskog modela s dvije varijable standardne pogreške potrebne su za: (1) određivanje intervala povjerenja za stvarne vrijednosti parametara te za (2) testiranje hipoteza. Izrazi za određivanje varijance i standardne pogreške konstantnog člana i parcijalnih regresijskih koeficijenata su: 1 X 22 X 2 X 32 X 2 2 X 2 X 3 x x 3t 2t 2t 3t 2 var( 1 ) 2 2 2 n x2t x3t x2t x3t
(80)
se( 1 ) var( 1 )
(81)
x32t 2 var( 2 ) 2 2 2 x2t x3t x2t x3t
(82)
ˆ
ˆ
ˆ
ˆ
se( 2 ) ˆ
var 2 ˆ
x22t 2 var( 3 ) 2 2 2 x2t x3t x2t x3t ˆ
se( 3 ) ˆ
var( 3 ) ˆ
NAPOMENA: u izrazima (80) do (85) mala slova označavaju devijaciju srednjih
je
(83)
(84)
(85)
vrijednosti uzorka pa
.
U izrazima (80) i (85) 2 je homoskedastična varijanca slučajnog odstupanja ut OLS-ove nepoznate varijance je: ˆ
2
e
2
t
n3
(86) 69
II. DIO REGRESIJSKA ANALIZA
9. Poglavlje: Višestruki linearni regresijski model
Drugi korijen ocijenjene varijance iz izraza (86 ) daje standardnu grešku ocjene: ˆ
2
ˆ
(87)
Izraz (87 ) daje vrijednost standardne pogreške regresije, koja predstavlja standardnu devijaciju vrijednosti Y oko procijenjenog regresijskog pravca.
9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R 2 U jednostavnom linearnom regresijskom modelu s dvije varijable koeficijent determinacije
predstavlja mjeru prilagođenosti regresijskog pravca uzorka, odnosno predočuje proporciju ukupnih varijacija u zavisnoj varijabli Y koje su objašnjene nezavisnom varijablom. U slučaju linearne regresije s tri varijable kao u izrazu (73) , želimo znati koliki je udio varijacija u zavisnoj varijabli posljedica objašnjenih varijacija zbog nezavisnih varijabli X 2 i X3. Taj je pokazatelj dan koeficijentom višestruke determinacije, R 2 (ili r2). Kao u slučaju modela s dvije varijable, vrijedi jednakost: TSS=ESS+RSS
(88)
gdje je:
ukupan zbroj kvadrata zavisne varijable objašnjeni zbroj kvadrata (objašnjen od svij nezavisnih varijabli) rezidualni zbroj kvadrata Koeficijent višestruke determinacije dan je izrazom:
TSS ESS RSS
∑ 1 1 ∑∑
(89)
Tako definirani koeficijent determinacije je omjer zbroja kvadrata protumačenoga modelom i ukupnog zbroja kvadrata, te predstavlja opći pokazatelj kvalitete modela. Napominje se da je drugi korijen koeficijenta višestruke determinacije, koeficijent višestruke korelacije, r. KORIGIRANI KOEFICIJENT DETERMINACIJE DETERMINACIJE
Osnovni problem koeficijenta determinacije jest da dodavanjem novih objasnidbenih varijabli u funkciju, R 2 raste, čak i onda kada nova objasnidbena varijabla ništa ne znači za
model. Taj se nedostatak rješava korigiranim koeficijentom determinacije. Korigirani koeficijent determinacije dan je izrazom:
1 1 11 1 1
(90)
Korigirani koeficijent determinacije jednak je koeficijentu višestruke (multiple) determinacije
ili je manji od njega. Pri računanju korigiranog koeficijenta determinacije uzima se u obzir broj stupnjeva slobode, koji za fiksno n zavisi o broju nezavisnih varijabli u modelu.
Uvođenjem varijable koja je nerelevantna za model, smanjuje se vrijednost korigiranog koeficijenta determinacije, pa ona može postati čak i negativna, naročito ako se u funkciju uvodi više nerelevantnih varijabli, a R 2 ima malu vrijednost.
70
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
PRIMJER 17
Ocjena parametara u modelu višestruke linearne regresije na primjeru a ukcijskih cijena antiknih satova
Poznata njemačka tvrtka održava godišnju aukciju antiknih satova. Podaci za 32 antikna sata (starost sata, broj ponuđača te cijena sata) dani su u tablici . Tablica 15: Aukcijski podaci o cijenama, starosti satova i broju ponuđača broj
starost u godinama
cijena
opažanja
broj
broj
ponuđača
opažanja
starost u godinama
cijena
broj
ponuđača
1
1235
127
13
20
1545
175
8
2
1080
115
12
21
729
108
6
3
845
127
7
22
1792
179
9
4
1552
150
9
23
1175
111
15
5
1047
156
6
24
1593
187
8
6
1979
182
11
25
1147
137
8
7
1822
156
12
26
1092
153
6
8
1253
132
10
27
1152
117
13
9
1297
137
9
28
1336
126
10
10
946
113
9
29
785
111
7
11
1713
137
15
30
744
115
7
12
1024
117
11
31
1356
194
5
13
2131
170
14
32
1262
168
7
14
1550
182
8
15
1884
162
11
16
2041
184
10
17
854
143
6
18
1483
159
9
19
1055
108
14
Neka je zavisna varijabla Y aukcijska cijena, X2 = starost sata, X3= broj ponuđača. A priori se očekuje
pozitivna veza između Y i dvije nezavisne varijable. U primjeru je pretpostavljeno da cijena pobjedničke ponude zavisi o starosti sata – što je sat stariji to je viša a ukcijska cijena, ceteris paribus – tako da se očekuje pozitivan odnos dvije varijable. Analogno, što je veći broj ponuđača to je cijena sata viša, jer veći broja ponuđača za određeni sat, sugerira da je dani sat vrjedniji, što rezultira pozitivnim odnosom između dviju varijabli. Iz podataka iz tablice 15 dobiveni su sljedeći rezultati regresijske analize upotrebom MSExcel i Gretl programske potpore. Slika 20: Rezultati regresijske analize primjenom MsExcel programske potpore
SUMMARY OUTPUT Regression Statistics
Multiple R
0,94
R Square Adjusted R Square Standard Error
0,89 0,88 134,61
Observations
32
ANOVA df
Regression
SS
MS
2
4278295
2139147
Residual
29
525462,2
18119,38
Total
31
4803757
F
Significance F
118,06
0,00
71
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
Coefficients
Intercept
Standard Error
Pvalue
t Stat
Lower 95%
Upper 95%
Lower 95,0%
Upper 95,0%
-1336,05
175,27
-7,62
0,00
-1694,52
-977,58
-1694,52
-977,58
starost
12,74
0,91
13,97
0,00
10,88
14,61
10,88
14,61
ponude
85,76
8,80
9,74
0,00
67,76
103,77
67,76
103,77
RESIDUAL OUTPUT Predicted Observation cijena
Residuals
Observation
Predicted cijena
Residuals
1
1397,04
-162,04
20
1579,81
-34,81
2
1158,38
-78,38
21
554,60
174,40
3 4
882,45 1347,03
-37,45 204,97
22 23
1716,53 1364,71
75,47 -189,71
5
1166,19
-119,19
24
1732,70
-139,70
6
1926,29
52,71
25
1095,63
51,37
7
1680,78
141,22
26
1127,97
-35,97
8
1203,45
49,55
27
1269,63
-117,63
9
1181,40
115,60
28
1127,01
208,99
10
875,60
70,40
29
678,59
106,41
11
1695,98
17,02
30
729,56
14,44
12
1098,10
-74,10
31
1564,60
-208,60
13
2030,68
100,32
32
1404,85
-142,85
14
1669,00
-119,00
15
1671,46
212,54
16
1866,01
174,99
17
1000,55
-146,55
18
1461,71
21,29
19
1240,72
-185,72
Slika 21: Rezultati regresijske analize primjenom MsExcel programske potpore
Model 1: OLS, using observations 1-32; Dependent variable: cijena Coefficient Std. Error t-ratio p-value const -1336,05 175,272 -7,6227 <0,00001 starost_ 12,7414 0,912356 13,9654 <0,00001 ponude 85,7641 8,80199 9,7437 <0,00001 Mean dependent var Sum squared resid R-squared F(2, 29) Log-likelihood Schwarz criterion
1328,094 525462,2 0,890614 118,0585 -200,7068 411,8108
S.D. dependent var S.E. of regression Adjusted R-squared P-value(F) Akaike criterion Hannan-Quinn
393,6495 134,6083 0,883070 1,16e-14 407,4136 408,8711
Sažeti rezultati regresijske analize dani su sljedećim izrazom:
1336, 0 4912, 7 41 85, 85 , 7 64 175, 2 72 0, 9 12 8, 8 02 7,0,060001 226 13, 9 653 9, 7 437 0, 0, 0 0001 0001 0, 0 0001 0001 0,89191 118,058058 .... 2; 29
(91)
72
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
Aukcijska cijena pozitivno je korelirana s obje nezavisne varijable, cijenom sata i brojem ponuđača.
Interpretacija koeficijenta smjera od 12,741 znači da, održavajući ostale varijable konstantnima, ako se starost sata povećava za jednu godinu, prosječna aukcijska cijena raste za 12,74 1 boda. Analogno, održavajući ostale varijable konstantnima, ako se broj ponuđača poveća za jedan, aukcijska cijena sata raste za 85,764 boda. Negativna vrijednost konstantnog člana nema ekonomskog značenja. Vrijednost R2 od 0,891 znači da dvije nezavisne varijable procjenjuju oko 89% varijacija u aukcijskoj cijeni. Značenje F vrijednosti biti će objašnjeno dalje u tekstu.
9.5. TESTIRANJE REGRESIJE
HIPOTEZA U MODELU VIŠESTRUKE LINEARNE
Iako koeficijent višestruke determinacije mjeri prilagođenost ocijenjenog regresijskog modela, ne pokazuje da li su ocijenjeni parcijalni regresijski koeficijenti statistički značajni, odnosno statistički različiti od nule. Prvi korak u statističkoj analizi modela višestruke linearne regresije sastoji se u procjeni parametara. Na postupak procjene parametara
nadovezuje se postupak testiranja hipoteza. Postoji više testova, a najčešće se koriste sljedeći testovi: (1) Test značajnosti regresije, odnosno svih parametara u modelu, ili što je isto test značajnosti prisutnosti svih regresorskih varijabli u modelu – skupni test. (2) Test o značajnosti jednog parametra (jedne regresorske varijable u modelu) –
pojedinačni test. (3) Test značajnosti podskupa parametara (test značajnosti prisutnosti podskupa regresorskih varijabli u modelu) – parcijalni test. U nastavku će biti objašnjeni postupci provođenja pojedinačnog i skupnog testa. TEST O ZNAČAJNOSTI JEDNOG PARAMETRA – POJEDINAČNI TEST
Za postupak testiranja potrebno je odrediti sampling distribuciju za
kao procjenitelja od k. U slučaju modela s dvije varijable dokazano je kako su OLS procjenitelji normalno
distribuirani pod pretpostavkom da slučajno odstupanje u slijedi normalnu distribuciju. U poglavlju o pretpostavkama višestrukog linearnog regresijskog modela u pretpostavci P7, također se pretpostavlja da slučajno odstupanje u slijedi normalnu distribuciju sa očekivanjem nula i konstantnom varijancom 2. Zbog te i ostalih pretpostavki, može se dokazati da slijede normalnu distribuciju. No, kao i u slučaju modela s dvije varijable, ako se, stvarna, ali nepoznata varijanca 2 zamijeni njenim nepristranim ocjenjivačem danim
2
ˆ
izrazom (86), OLS procjenitelj slijedi t distribuciju sa ( n-3) stupnja slobode: 1 1 ˆ
t
se( 1 )
~ t n-3
ˆ
2 ˆ
t
2
se( 2 )
~ t n-3
(92)
ˆ
3 ˆ
t
3
se( 3 )
~ t n-3
ˆ
73
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
PRIMJER 18
Testiranje hipoteze o značajnosti jednoga parametra
Pretpostavimo da želimo istražiti hipotezu da starost sata ne utječe na njegovu cijenu. Drugim riječima, želimo testirati nultu hipotezu:
01:: 22 ≠ 00
U režimu nulte hipoteze, starost antiknih satova nema utjecaja na njihovu cijenu, dok alternativna hipoteza tvrdi suprotno: starost satova ima utjecaja, pozitivnog ili negativnog, na njihovu cijenu. Testiranje sustava hipoteza počinje izračunom t vrijednosti: 2 ˆ
t
2
se( 2 )
~ t n-3
ˆ
(93)
Napomena: 2=0 Izračunata t-vrijednost slijedi t distribuciju s (n-3)=29 stupnjeva slobode, budući je n=32 u razmatranom primjeru. Iz rezultata rezultata regresijske analize iz izraza (93) imamo:
12,2,0,741794112 0 13,97
(94)
Temeljem izračunate t vrijednosti donosi se zaključak o odbacivanju ili prihvaćanju nulte hipoteze da starost sata ne utječe na njegovu aukcijsku cijenu. Iz tablice Studentove t-distribucije očitamo kritične t vrijednosti za dvostrani test za 29 stupnjeva slobode za 0,05 razinu signifikantnosti, a ta vrijednost iznosi: 2,045. U tablici 9 o načinu donošenja odluka, u slučaju dvostranog t-testa, vidimo da ukoliko je izračunata tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti,
odbacujemo nultu hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 13,97 veća od kritičnih vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,00001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta koeficijenta regresije jednaka nuli, pogriješili jednom u 10 000 slučajeva. TEST O ZNAČAJNOSTI SVIH PARAMETARA U MODELU – SKUPNI TEST
Test o značajnosti regresije oslanja se na sljedeće hipoteze 0 : 2
3
0
(95)
U nultoj hipotezi sadržana je tvrdnja da niti jedna regresorska varijabla nije signifikantna u modelu, ili, što je isto, da su svi parametri uz regresorske varijable u modelu jednaki nuli. Alternativna hipoteza sadrži suprotnu tvrdnju, odnosno da postoji barem jedna regresorska varijabla koja je signifikantna za objašnjenje varijabilnosti zavisne varijable, tj. da postoji barem jedan parametar i različit od nule. Sadržaj nult e hipoteze da niti jedna regresorska varijabla nije signifikantna u modelu isto je kao i tvrditi da: 0 : R
2
0
(96)
odnosno da dvije nezavisne varijable objašnjavaju 0% varijacija u zavisnoj varijabli. Hipoteza dana izrazom (95) testira se tehnikom poznatom pod imenom analiza varijance (ANOVA).
74
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
Tablica 16: ANOVA tablica za regresijski model s 3 varijable izvor varijacije
objašnjena regresijom
neobjašnjena regresijom (rezidualna odstupanja) ukupna
stupnjevi slobode
suma kvadrata
k
n-k-1
sredina kvadrata
F-vrijednost
∑ ⁄ ∑ ⁄ 1 1 1
n-1
Test veličina je empirijski F omjer:
⁄ ⁄ 1 1⁄⁄ 1
(97)
Brojčane vrijednosti za izračunavanje test veličine dane su u tablici ANOVA. Ako je nulta hipoteza istinita i ako varijable u modelu imaju opisana svojstva, tada se može pokazati da se test veličina ravna po F distribuciji s k i n-(k+1) stupnjeva slobode. Testira li se na razini signifikantnosti , odluka se donosi usporedbom empirijske test veličine i teorijske vrijednosti F -distribucije. Područje prihvaćanja nulte hipoteze jest . Područje odbacivanja nulte hipoteze jest . Prihvaćanjem nulte hipoteze prihvaća se
< ,,,−− −−
> ,,,−− −−
pretpostavka da regresorske varijable nisu signifikantne u modelu. Ne prihvati li se nulta hipoteza, to znači da barem jedna od k regresorskih varijabli značajno pridonosi objašnjavanju varijacije zavisne varijable. PRIMJER 19
U primjeru o aukcijskim cijenama antiknih satova Gretl programskom potporom dobivena je sljedeća ANOVA tablica. Tablica 17: ANOVA tablica za regresijski model aukcijskih cijena antiknih satova Analysis of Variance: Sum of squares
df
Mean square
4,27829e+006 525462 4,80376e+006
2 29 31
2,13915e+006 18119,4 154960
Regression Residual Total
R^2 = 4,27829e+006 / 4,80376e+006 = 0,890614 F(2, 29) = 2,13915e+006 / 18119,4 = 118,058 [p-value 1,16e-014]
Iz tablice je vidljivo da izračunata F vrijednosti iznosi 118,058 119. Pod nultom hipotezom da su 2=3=0, te pod danim pretpostavkama klasičnog standardnog linearnog regresijskog modela, znamo da izračunata F vrijednost slijedi F distribuciju s 2 stupnja slobode u brojniku i 29 stupnjeva slobode u nazivniku. Kritična F vrijednost iznosi 3,33. Izračunata F vrijednost veća je od kritične F vrijednosti te se nulta hipoteza odbacuje. PRIMJER 20
Višestruka linearna regresija – Analiza odnosa ostvarenog prometa u ugostiteljstvu u razdoblju od 1997.-2006. godine te broja poslovnih jedinica i indeksa neto plaća programskom potporom Gretl Varijable u analiziranom modelu su:
ostvareni promet u ugostiteljstvu u milijunima HRK, zavisna varijabla broj poslovnih jedinica, nezavisna varijabla 75
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
indeks neto plaća, 2002=100, nezavisna varijabla
Potrebni podaci navedeni su u sljedećoj tablici. Tablica 18: Broj poslovnih jedinica u ugostiteljstvu, ostvareni promet i indeksi neto plaća
godina 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
jedinice 12919 12139 11406 11529 11190 13082 12725 13364 12772 12183
promet 2816,625 2649,857 2434,779 2781,05 2839,454 3242,059 3428,835 3736,535 3826,388 3980,57
plaća 79,2 83,9 92,4 95,5 97 100 103,8 108 109,6 111,7 111 ,7
Programskom potporom Gretl procijenjen je model višestruke linearne regresije metodom najmanjih
kvadrata. Neki od rezultata navedeni su u sljedećoj tablici. Tablica 19: Broj poslovnih jedinica u ugostiteljstvu, ostvareni promet i indeksi neto plaća
0,291367
4193,370,291367 38,4688 4688 38,4688 12919 79,2 4193, 4193 , 3 7 7 0, 2 91367 913 67 38, 4688 4 68 8 419 4193,3,37 37 0,2913 29136767∙∙ 1291 129199 38,38,4688688 ∙79∙ 79,,2 2617, 261129197,5252 79, 2 2617, 5 2
. Prvi regresijski koeficijent Procijenjena jednadžba glasi tumači se na sljedeći način: Poveća li se broj poslovnih jedinica za jedan, a indeksi neto plaća ostanu nepromijenjeni, nepromijenjeni, promet će se u prosjeku povećati za 0,291367 milijuna HRK. Slično, drugi regresijski koeficijent tumači se kao prosječno povećanje prihoda u milijunima HRk za povećanje indeksa indeksa neto plaća za jedan indeksni indeksni poen, uz pretpostavku pretpostavku da je broj poslovnih jedinica jedinica konstantan. Prva se regresijska vrijednost prometa dobiva se tako da se u procijenjenu jednadžbu uvrsti prva vrijednost
neto plaća, pa je:
za broj poslovnih jedinica i prva vrijednost
za indekse
Dobivena regresijska vrijednost interpretira se na sljedeći način: Za poslovnih jedinica i vrijednost indeksa neto plaća (2002=100) , očekivana vrijednost prometa je mil. odstupanje. HRK. Stvarni promet iznosi 2816,625 mil. HRK, a razliku čini rezidualno odstupanje. Temeljem rezultata regresijske analize provedeni su i jednosmjerni testovi o značajnosti pojedine regresorske varijable gornju granicu.
Testiranje značajnosti regresorske varijable broj poslovnih jedinica u ugostiteljstvu
1,895
:: > 00 91367 3,132 0, 0,029303000 0, 0 5 5% > 2
2 2 ,7
Ako se test provodi uz razinu signifikantnosti , tada je za n=12, . Budući da je proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta
76
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
hipoteza odbacuje, tj. ne prihvaća se pretpostavka da je varijabla broj poslovnih jedinica u ugostiteljstvu suvišna u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p -vrijednosti (engl. p-value). Iz ispisa proizlazi da je:
0,0166 < 0,05 → 1:: 11 > 00 2 22 36,8,543605688 5,886 >0,052 5%
,
tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti signifikantnosti α. Testiranje značajnosti regresorske varijable indeksi neto plaća
2 2 ,7 1,895
Ako se test provodi uz razinu signifikantnosti s ignifikantnosti
, tada je za n=12,
. Budući da je proizlazi zaključak, da se uz razinu signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da je varijabla broj poslovnih jedinica u ugostiteljstvu suvišna u modelu. Analogno, odluka o ishodu testa može se donijeti i na temelju p -vrijednosti (engl. p-value). Iz ispisa
proizlazi da je:
0,0006 < 0,05 →
,
tj. nulta se hipoteza odbacuje uz bilo koju uobičajenu razinu signifikantnosti signifikantnosti α. U programskom paketu Gretl izvršena je i analiza varijance. Rezultati su dani u sljedećo j tablici. Tablica 20: Tablica analize varijance za model višestruke linearne regresije
Procijenjena varijanca regresije iznosi:
RSS 297153 σ nk1 7 42450
Procijenjena varijanca znači da je prosječno kvadratno odstupanje od empirijskih regresijskih vrijednosti prometa 42450 mil. HRK. Koeficijent determinacije (engl. R^2) iznosi 0,889015 što znači da je odabranim modelom protumačeno 88,9% svih odstupanja. Proveden je i skupni test za podatke. Rezultati su sljedeći:
H : β β 0 H: ∃βj ≠ 0, J 1, 2.2. F 28, 0 357 ,F; 4,74 α 0,05 F > F−−
. Ako se test Empirijska vrijednost test veličine (engl. F) na temelju ANOVA tablice je provodi uz razinu signifikantnosti , tada je u konkretnom slučaju teorijska vrijednost F. Budući da je empirijski F-omjer distribucije iznosi nulta se hipoteza odbacuje uz danu razinu signifikantnosti, odnosno zaključuje se da uz razinu signifikantnosti od 5% barem jedna regresorska varijabla ima signifikantnoga utjecaja na varijacije prometa. Alternativno, ako se odluka donosi temeljem p-vrijednosti (engl. p-value), tada se nulta hipoteza odbacuje kao neistinita jer dane empirijske razine signifikantnosti signifikantnosti ( p p = 0,0005), zaključuje se da se je p-vrijednost < α. Polazeći od dane nulta hipoteza odbacuje za bilo koj u razinu signifikantnosti veću od 0,0005.
77
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
ZADACI ZA VJEŽBU 1.
Služba za marketing kompanije Ratex ispituje opseg prodaje proizvoda FIT u 2002. godini po segmentima tržišta. Pretpostavlja se da su glavni čimbenici (varijable) koje utječu na prodaju izdaci za reklamu (u 000 eura)-X2 i prodajna cijena (u eurima)-X3. Podaci o prodaju, izdaci za reklamu i prodajne cijene dani su u tablici. područje prodaja u 000 komada, izdaci za reklamu u 000 prodajna cijena u Y eura, X2 eurima, X3 I 331 220 129 II 299 285 138 III 301 256 121 IV 398 395 139 V 402 317 127 VI 487 500 111 VII 601 432 103 VIII 614 599 122 IX 703 701 101 X 711 794 110 XI 799 802 100 XII 927 980 99 XIII 990 1021 97 XIV 1015 1128 95 Ispitivanje vrši pomoću modela višestruke linearne regresije programskom potporom te su
dobiveni sljedeći rezultati regresijske analize: Model 1: OLS, using observations 1-14 Dependent variable: prodaja_u_000_komada__Y prodaja_u_000_komada__Y
const izdaci_za_reklamu_ u_000_eura__X prodajna_cijena_u_e urima__X
2.
Coefficient 611,17 0,669347
Std. Error 180,713 0,0652303
t-ratio 3,3820 10,2613
p-value 0,00612 <0,00001
-3,53077
1,29091
-2,7351
0,01940
Mean dependent var 612,7143 S.D. dependent var 253,7198 Sum squared resid 18665,68 S.E. of regression 41,19320 R-squared 0,977696 Adjusted R-squared 0,973640 F(2, 11) 241,0875 P-value(F) 8,24e-10 Log-likelihood -70,23283 Akaike criterion 146,4657 Schwarz criterion 148,3828 Hannan-Quinn 146,2882 Temeljem dobivenih rezultata: a) Odredite status varijabli u modelu. b) Kako glasi model višestruke regresije za ovaj primjer? parametrima i protumačite je. c) Napišite jednadžbu s procijenjenim parametrima d) Ispod procjena parametara naznačite vrijednosti njihovih standardnih pogrešaka. e) Koliko je koeficijent determinacije i korigirani koeficijent determinacije za analizirani primjer modela? Interpretirajte rezultate. Ocijenjen je model prodaje jedne vrste kave u 12 prodavaonica na temelju podataka u mjesecu ožujku: Y i b0 b1 X 1i b2 X 2i ui . Varijable modela su: Y – količina prodane kave u kg X1 – cijena kave u kunama X2 – broj reklamnih oglašavanja Rezultati regresijske analize dani su tablicom:
78
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
MODEL ^const X1 (t-vrijednost) X2 (t-vrijednost) R
F
2
18006,0 -237,07 (-2,88) 3,7022 (0,17) 0,6578 11,57
a) Testirajte značajnost nezavisnih varijabli. Razina signifikantnosti je 5%. signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti c) Uz poznatu F vrijednost i standardnu pogrešku regresije s=991,734 ispunite tablicu ANOVA.
79
II. DIO
9. Poglavlje: Višestruki linearni regresijski model
REGRESIJSKA ANALIZA
RJEŠENJA ZADATAKA 1.
a) Iskustvo i teorija poslovanja pokazuju da na opseg prodaje utječe velik broj faktora
od kojih su izdvojeni izdaci za reklamu i prosječne cijene. Opseg prodaje je zavisna varijabla. To je numerička varijabla čije se vrijednosti (njih 14 ) odnose na prodaju po područjima. Budući da se varijacije prodaje po tržišnim segmentima (područjima) objašnjavaju pomoću izdataka za reklamu i prosječnih cijena, to su ovdje nezavisne varijable, izdaci za reklamu i prosječne cijene. Varijable su numeričk e, a njihove se vrijednosti (14 po svakoj varijabli) odnose na segmente tržišta. Vrijednosti su povezane s područjima, a vremenski su vezane za isto razdoblje, 2002. godinu (cross-sectional dana, mješoviti podaci). b) Model je osnovnog skupa: Y i ˆ
1 2 X 2i ˆ
ˆ
3 X 3i ˆ
Y 1
1 2 X 2i
3 X 3i
ui
dok je model uzorka:
ei .
c) Y 611,170 0,669 X 2 3,531X 3 d) se (180,713) (0,065) (1,291) e) Koeficijent determinacije iznosi 0,978, a korigirani koeficijent determinacije 0,974. ˆ
i
i
i
Koeficijent determinacije pokazuje da je primjenom modela protumačeno oko 97,8% varijacija zavisne varijable, pa je po tome pokazatelju model reprezentativan. Korigirani koeficijent determinacije blizu je njegove maksimalne vrijednosti.
Primjena ovog koeficijenta važna je u postupku odabira modela s različitim brojem nezavisnih varijabli. 2.
a) H0:b1=0, HA:b1≠, t=2,88, t 0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna
varijabla X1 značajna je za model. H0:b2=0, HA:b2≠, t=0,17, t 0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna varijabla X1 značajna je za model. b) H0:b1=b2=0, HA: bj≠0, j=1,2, F=11,57, F 0,05(2,9)=4,26. Nulta hipoteza se ne prihvaća. Ne može se prihvatiti pretpostavka da varijable cijena kave i broj reklamnih oglašavanja nisu signifikantne u objašnjavanju varijacija količine prodane kave. izvori varijacija
suma kvadrata
objašnjena neobjašnjena ukupna
22759030,66 8851826,97 31610857,63
stupnjevi slobode 2
sredina kvadrata 11379515,33
9 11
983536,33 2873714,33
F vrijednost 11,57
80
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
Č
ovom će se poglavlju razmatrati problemi koji se javljaju u slučaju kada nisu ispunjene polazne pretpostavke klasičnog linearnog regresijskog modela. Razmatrat će se problemi multikolinearnosti, heteroskedastičnosti, autokorelacije grešaka relacije te normalnosti grešaka relacije. Uz svaki će se problem navesti posljedice do kojih dolazi zbog njegova prisustva, načini utvrđivanja postojanja navedenih problema te načini njihova ublažavanja.
10.1. MULTIKOLINEARNOS MULTIKOLINEARNOST T
Jedna od pretpostavki klasičnog standardnog linearnog regresijskog modela je odsustvo savršene mulitkolinearnosti – odsutnost egzaktne linearne kombinacije nezavisnih varijabli u višestrukoj regresiji. Problem multikolinearnosti je prisutan ako su barem dvije regresorske koja varijable linearno zavisne ili približno linearno zavisne (uključujući i varijablu generira konstantni član). Jedna od pretpostavki klasičnog linearnog regresijskog modela je odsustvo mulitkolinearnosti između dviju ili više eksplanatornih varijabli. Razlikuju se savršena i nesavršena multikolinearnost. U praksi se rijetko susreće savršena multikolinearnost , dok je češća nesavršena multikolinearnost, odnosno približna linearna
1
zavisnost.
Savršena multikolinearnost pojavljuje se kada se varijacije jedne zavisne varijable mogu potpuno objasniti varijacijama druge zavisne varijable, tj. ako se, na primjer, u modelu:
nezavisna varijabla
(98)
može prikazati kao linearna funkcija druge nezavisne varijable, tj. (99)
U praksi je češća nesavršena multikolinearnost, odnosno približna linearna zavisnost, koja označava vezu među varijablama koja nije egzaktna, već uključuje i odstupanje : Izraz (100) znači da se varija cije varijable
mogu predstaviti varijacijama varijable
u potpunosti, već neke neobjašnjene varijacije još postoje.
(100) , ali ne
Vrlo često makroekonomski podaci vremenskih serija uključuju multikolinearnost, jer pokazuju slične tendencije rasta u određenome vremenskome razdoblju. Posljedice savršene i nesavršene multikolinearnosti pokazat će se na primjerima. PRIMJER 21
Primjer savršene multikolinearnosti
Potrebno je ocijeniti linearni model potražnje za računalima uz pomoć podataka iz tablice 21. 81
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
Tablica 21: Potražnja za osobnim računalima
Y
količina 49 45 44 39 38 37 34 33 30 29
X2 cijena 1 2 3 4 5 6 7 8 9 10
X3 tjedni dohodak (procjena) 298 296 294 292 290 288 286 284 282 280
X4 tjedna zarada (stvarne vrijednosti) 297,5 294,9 293,5 292,8 290,2 289,7 285,8 284,6 281,1 278,8
Tablica 21 prikazuje podatke za količinu potražnje za osobnim računalima u odnosu na cijenu (X 2) i na dvije mjere tjedne raspoložive količine novca, (X 3) kao procjena tjednog dohotka i (X 4) kao podaci za stvarno raspoloživu količinu novca. Za razlikovanje varijabli X 3 i X4 nazvane su tjedni dohodak i
tjedna zarada. Kako je, pored cijene, dohodak važna determinanta potražnje proširena funkcija potražnje može se pisati kao: Y i
A1 A2 X 2i A3 X 3i
Y i
B1 B2 X 2i B3 X 3i
ui
ui
(101) (102)
Prikazane funkcije potražnje razlikuju se u korištenim mjerama dohotka. A priori se očekuje da A 2 i B2 imaju negativan predznak, dok se za koeficijente A 3 i B3 očekuje da su pozitivni. Kada se temeljem podataka tablice 21 i pomoću programske potpore želi ocijeniti model (101), računalo «odbija» procijeniti regresiju. Zašto? Uvrštavanjem podataka za cijenu (X2) i tjedni dohodak (X3) u dijagram dobije se sljedeća slika. Slika 22: Dijagram rasipanja varijabli dohodak (X3)i cijene (X2)
Izračunom regresije varijable (X2 ) cijene i dohotka (X 3) dobiju se sljedeći rezultati: X 3 R
2
300 1 ,00
2 X 2i
(103)
Varijabla (X3) se može prikazati kao linearna funkcija varijable (X 2). Drugim riječima, tjedni dohodak (X3) i cijena (X2) savršeno su linearno korelirane, postoji dakle savršena multikolinearnost. Zbog
odnosa u izrazu (103), izraz (101) se ne može procijeniti. Supstituiranjem izraza (103) u izraz (101) dobije se:
82
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
Y i A1 A2 X 2 i A3 ( 300 2 X 2i ) ui
(A1
C 1
300A3 ) (A2 C 2 X 2i
ui
C A1
2A3 )X 2i
ui
(104) 300A3
C A2 - 2A3
Izraz (104) pokazuje zašto se izraz (101) nije mogao procijeniti: ne radi se o slučaju višestruke regresije, već o jednostavnoj regresiji s dvije varijable Y i X 2. No, iako se izraz (104) može procijeniti te dobiti procjene za C1 i C2, iz njega nije moguće dobiti procjene za originalne parame tre A1, A2 i A3, jer u izrazu (104) imamo samo dvije jednadžbe i tri nepoznanice. Rezultati procjene regresije ( 104) su: Y i ˆ
49 ,667 2 ,1576 X 2 i
se t
Kao što je vidljivo
C 1 iznosi ˆ
(105)
(0,746) (0,1203)
(66,583) (-17,935)
49,667 a
C 2 ˆ
R
2
0 ,9757
-2,1756. Iz ovih vrijednosti nije moguće dobiti vrijednosti za
tri nepoznanice A1, A2 i A3.
U slučaju savršene multikolinearnosti, savršene linearne veze, među nezavisnim varijablama nije moguće dobiti jedinstvene procjene parametara. A budući da se parametri ne mogu procijeniti, nije moguće pristupiti testiranju hipoteza i bilom kakvom drugom postupku statističkog zaključivanja o njima temeljem određenog uzorka. PRIMJER 22
Primjer nesavršene multikolinearnosti
Za objašnjenje nesavršene multikolinearnosti razmotrimo podatke iz tablice 21 te ocijenimo izraz (102) sa tjednom zaradom u stvarnim vrijednostima (X4). Rezultati regresije su: Y i 145 ,37 2 ,7975 X 2i 0 ,3191 X 4 i ˆ
se t
(106)
(120,06) (0,8122) (0,4003)
(1,2107) (-3,4444) (-0,7971)
R
2
0 ,9778
Rezultati su zanimljivi iz nekoliko razloga: 1. Iako regresiju (101) nije moguće procijeniti, moguće je procijeniti regresiju (102), iako su razlike
između dviju dohodovnih varijabli neznatne. 2. Prema očekivanjima, cjenovni koeficijenti su negativni. Svaki je cjenovni koeficijent statistički značajno različit od nule. No t vrijednost cjenovnog koeficijenta u izrazu (105 ) puno je veći od t vrijednosti u izrazu (106), odnosno standardna pogreška cje novnog koeficijenta manja je u izrazu 3. 4.
(105) od one u izrazu (106). Vrijednost R2 u izrazu (105) s jednom nezavisnom varijablom iznosi 0,9757, dok u izrazu (106) s dvije nezavisne varijable iznosi 0,9778, te raste za tek 0,0021. Koeficijent dohotka (tjedne zarade) statistički je nesignifikantan, no što je zanimljivije ima
negativan predznak. Za većinu dobara, dohodak pozitivno utječe na količinu potražnje. 5. Unatoč neznačajnosti dohodovne varijable testiranjem hipoteze 2= 3=0 (hipoteza da je R2=0), ona se lako može odbaciti primjenom F testa. Drugim riječima, cijena i zarada imaju značajnog utjecaja na količinu potražnje. Kako se objašnjavaju tako neobični rezultati? Uvrštavanjem u dijagram rasipanja podataka za varijablu X2 i X 4, cijena nasuprot tjednoj zaradi dobije se sljedeća slika.
83
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
Slika 23: Odnos tjedne zarade (X4)i cijene (X2) 300
295 a d a r a z a n d e j t
290
X4 =299,92 -2,0055X2
285
280
275 0
1
2
3
4
5
6
7
8
9
10 10
cijena
Iz slike je vidljivo da, iako cijena i tjedna zarada nisu egzaktno linearno povezane, među njima postoji visok stupanj zavisnosti. Navedeno se mož e potvrditi i iz rezultata regresije X 4 i
2999 ,92 2 ,0055 X 2i
ei
se (0,6748) (0,1088) t (444,44) (-18,44) R
(107) 2
0 ,9770
Kako rezultati regresije pokazuju, cijena i tjedna zarada usko su povezane: koeficijent korelacije iznosi -0,9884, što je slučaj skoro savršene multikolinearnosti.
POSLJEDICE MULTIKOLINEARNOSTI
Govorit će se o nesavršenoj multikolinearnosti s kojom se uglavnom u praksi često i susrećemo. Ocjene parametara su efikasne i nepristrane, dakle još uvijek imaju svojstva da su najbolje linearne nepristrane, tj. BLUE, no postoji niz drugih posljedica: 1. Velike varijance i standardne pogreške parametara. Velika standardna greška znači i širi
interval pouzdanosti te je stoga, teže procijeniti pravu vrijednost parametara, tj. pada preciznost ocjene parametara. 2. Nesignifikantne t-vrijednosti koje su posljedica velikih standardnih pogrešaka, zbog
kojih će se kod testiranja hipoteze o značajnosti pojedine regresorske varijable prihvatiti H 0 hipoteza (da je važna varijabla nesignifikantna). 3. Visok R2 i niske t-vrijednosti jasan su pokazatelj multikolinearnosti. 4. Ocjene parametara i njihove standardne greške postaju vrlo nestabilne i vrlo osjetljive na male promjene u podacima. 5. Pogrešan predznak parametara jest čest slučaj upravo zbog neefikasne i neprecizne ocjene parametra. 6. Nije moguće utvrditi zasebne utjecaje svake nezavisne varijable u objašnjenoj varijaciji, odnosno u R2. Ako postoji multikolinearnost prilagođenost se ne mijenja značajno, ali se
ne može utvrditi uloga pojedine nezavisne varijable. OTKRIVANJE MULTIKOLINEARNOSTI
Ne postoji test ili točno definiran način za otkrivanje multikolinearnosti. Nije bitno praviti
razliku između prisutnosti i odsutnosti multikolinearnosti, već između različitih stupnjeva multikolinearnosti. Za to postoje različiti indikatori: 1. VISOK R2 , A NISKE T-VRIJEDNOSTI T-VRIJEDNOSTI
Ako je R2 visok, npr. viši od 0,8 F testom će se odbaciti hipoteza da su svi parametri u
funkciji jednaki nuli. Tako je i kod multikolinearnosti, međutim ono što je kontradiktorno, 84
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
pojedini t-testovi pokazuju da niti jedan parametar (il i samo neki od njih) nije statistički
različit od nule. 2. VISOKI KOEFICIJENT KORELACIJE IZMEĐU EKSPLANATORNIH VARIJABLI
Ako su koeficijenti korelacije među nezavisnim varijablama visoki (recimo iznad 0.8), to može biti znak visoke koreliranosti među tim varijablama. Međutim, taj pokazatelj nije uvijek pouzdan, jer može biti nizak, a da multikolinearnost u modelu ipak postoji. Naime, moguće je da nezavisne varijable u grupi djeluju multikolinearno. Zato je, kada se radi o modelu s više od dvije nezavisne varijable, potrebno računati koeficijent parcijalne korelacije. Na primjer u modelu: Y i
0
1 X 1i
2 X 2i
3 X 3i
ui
(108)
koeficijent parcijalne korelacije r 12,3 jest koeficijent korelacije između X1 i X2, držeći utjecaj varijable X3 konstantnim. Iako koeficijent jednostavne linearne korelacije r 12 može biti nizak, koeficijent parcijalne korelacije r 12,3 može biti visok, a to znači da je, ne uzimajući u obzir utjecaj varijable X 3, korelacija između varijabli X 1 i X2 visoka. Ukratko, visoki koeficijent
jednostavne linearne korelacije među eksplanatornim varijablama pokazatelj je postojanja multikolinearnosti, ali samo ako se radi o modelu s dvije nezavisne varijable. 3. POMOĆNE REGRESIJE
Kako se kod multikolinearnosti jedna ili više eksplanatornih varijabli može prikazati kao linearna kombinacija ostalih eksplanatornih varijabli u modelu, da bi se utvrdilo postoji li ta
linearna funkcijska veza među nezavisnim varijablama ocjenjuju se tzv. pomoćne regresije: ocjenjuje se regresija za svaku od nezavisnih varijabli X i i računa pripadni Ri2. Testirajući hipotezu Ri2=0, ispitujemo tvrdnju da nema kolinearnosti među X i i preostalih nezavisnih varijabli u modelu. Pri tome se koristi F test: test: F
R 2 k
( 1 R ) n
2
(109)
k 1
gdje je n broj opažanja, a ( n-k-1) broj parametara u modelu. Iako R2 nije jako visok, prema F
testu može biti signifikantno različit od nule. 4. INFLACIJSKI FAKTOR VARIJANCE (VIF)
Ri2 dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti. Varijanca
parametar uz nezavisnu varijablu računa se prema izrazima var( 1 ) var( 2 )
2
X 1i X 1
2
1 R1
(110)
(111)
2
2
X 2i X 2
2
1 R2
2
Među standardnim pokazateljima multikolinearnosti u programskim paketima, među ostalim pokazateljima postoji i faktor inflacije varijance VIF (eng. Variance Inflation Factor ) definiran izrazom: , (112)
VIF − 1,2,…, … , .
gdje je koeficijent determinacije u modelu višestruke linearne regresije u kojemu je j-ta regresorska varijabla zavisna, a preostali regresori nezavisne varijable. Kako se omjer naziva inflacijski faktor varijance (VIF), varijance iz izraza (110) i (111)
−
mogu se pisati kao:
85
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
var( 1 )
var( 2 )
2
X 1i X 1
2
2
X
2i
X
2
VIF
(113)
VIF
(114)
2
Ako je Ri2=0 znači da nema multikolinearnosti, VIF=1. Kako Ri2 raste, povećava se varijanca i standardna pogreška parametra, a i VIF. Varijanca parametra ne ovisi samo o nego i o varijanci odstupanja 2 i o varijaciji podataka nezavisne varijable X i oko njezine sredine , zato visok Ri2 dobiven iz pomoćnih regresija može biti samo grubi pokazatelj prisustva multikolinearnosti. Ozbiljan problem mulikolinearnosti je prisutan ako je , odnosno . dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti. Ako je =0 znači da nema multikolinearnosti, VIF=1. Kako raste, povećava se varijanca i standardna pogreška parametra, a i VIF. U slučaju visoke korelacije regresorske varijable s ostalim regresorskim varijablama koeficijent determinacije .
VIF > 5
≈ 1
> 0,8
PRIMJER 23
Otkrivanje postojanja mulitkolinearnosti putem inflacijskog faktora varijance (VIFa)
Za primjer 20 u kojemu se analizira ostvareni promet u ugostiteljstvu ovisno o broju poslovnih jedinica i indeksa neto plaća, dobiveni su, programskom potporom EViews, s ljedeći pokazatelji multikolinearnosti: Slika 24: Pokazatelj multikolinearnosti VIF
1,057302
Iz ispisa rezultata vidljivo je da ne postoji ozbiljan problem multikolinearnosti. Faktor inflacije varijance (engl. Variance Factor) iznosi , tj manji je od 5. 11.1.3. RJEŠAVANJE PROBLEMA MULTIKOLINEARNOSTI
Problem multikolinearnosti često se pojavljuje u empirijskim istraživanjima i više je pravilo nego izuzetak, pogotovo u vremenskim regresijskim modelima, tj. modelima koji kao
varijable sadrže vremenske nizove uključenih pojava. Egzaktno rješenje problema mulitkolinearnosti ne postoji. Međutim, problem multikolinearnosti moguće je ublažiti:
Povećanjem broja podataka (povećanjem uzorka) s obzirom da je multikolinearnosti problem uzorka, a ne populacije. Time će se obuhvatiti više varijacija promatranih varijabli. Ipak, nije moguće uvijek dobiti veći uzorak podataka. Postoji i mogućnost transformacije podataka. Kako je multikolinearnost svojstvena podacima vremenskog niza, korištenjem diferenciranja podataka za varijable
−
∗
zapravo dobivamo nizove koji predstavljaju promjene podataka od razdoblja do razdoblja. Na taj se način rješavamo trenda u opažanj ima za pojedinu varijablu, a koji je
često uzrok prisutnosti multikolinearnosti. Potrebno je imati na umu da transformiranjem podataka transformiramo i model, a time i ocijenjeni parametri imaju
drugačiju ekonomsku interpretaciju.
86
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
multikolin earnosti jest izbaciti regresorsku regresorsk u varijablu Jedan od načina rješavanja problema multikolinearnosti ili varijable koje su korelirane. To nije jednostavno rješenje jer može prouzrokovati specifikacijsku pogrešku i sve posljedice koje ona nosi. 10.2. AUTOKORELACIJA
Riječ je o posljedicama kršenja treće (odsutnost autokorelacije) pretpostavke klasičnog linearnog regresijskog modela, tj. o pojavi autokorelacije ili serijske korelacije odstupanja ui. Autokorelacija ostavlja takve posljedice na model da on postaje nepogodan za prognoziranje.
Važno je stoga, razumjeti o kakvom se problemu radi, kakve on posljedice ostavlja na ocijenjeni model te kako ga riješiti. Autokorelacija postoji kada su vrijednosti slučajne varijable u međusobno korelirane veličine ( ui , u j ) 0 ,
(i j)
(115)
Izraz (115) znači da je očekivana vrijednost umnoška između dviju različitih komponenata varijable u različita od nule. Autokorelacija je češće prisutna kod ocjenjivanja modela na osnovi podataka vremenski nizova nego u slučaju ocijenjenog modela na osnovi podataka vremenskog presjeka. Stoga, kada se raspravlja o autokorelaciji, u literaturi je uobičajen o uz varijable stavljati oznaku t (za vrijeme) umjesto oznake i. Prema tome, kada su odstupanja
autokorelirana piše se ( ut ,ut s ) 0 ,
(t s)
(116)
Taj izraz znači da je odstupanje koje se zbilo u vremenu t povezano s odstupanjem u vremenu (t-s). Npr. pri proučavanju potražnje za nekim proizvodom na temelju mjesečnih podataka, neautokoreliranost odstupanja znači da je posljedica zastoja u isporuci proizvoda privremena, tj. utječe samo na potražnju tekućeg vremena. Najjednostavnija je i najčešća autokorelacija prvog reda koja se može izraziti autoregresijskom funkcijom AR(1): ut
ut -1 t
(117)
gdje je: ut - odstupanje u razdoblju t ut-1 - odstupanje u prethodnom razdoblju - jednostavni korelacijski koeficijent koeficij ent između ut i ut-1 , <1 <1 vt - normalno distribuirana nezavisna odstupanja koja su u skladu s klasičnim pretpostavkama, tj. t N(0, N(0, 2 )
Tada kažemo da se odstupanja ponašaju prema autoregresijskom procesu 1. reda, tj. ut AR(1). Postoje dvije vrste autokorelacije: pozitivna i negativna. Kod pozitivne odstupanja ui obično imaju isti predznak. Kod negativne autokorelacije pozitivna odstupanja slijede negativna, pa opet pozitivna, itd. Kada je autokorelacija prisutna, vizualno odstupanja kroz vrijeme pokazuju određeno pravilo ponašanja, odnosno sistematičnost kao na s lici 12. Postoji
više razloga zbog kojih se autokorelacija pojavljuje. Često je uzrok sadržan u samim podacima uzorka na osnovi kojeg se model ocjenjuje. To je tzv. prava autokorelacija. Ekonomski podaci pokazuju kroz vrijeme ciklično kretanje. Iz recesije preko razdoblja
oporavka, podaci vremenske serije idu po uzlaznoj putanji i u svakoj točki im je vrijednost veća nego u prethodnoj, sve dok se nešto ne dogodi slijedom ekonomskih ciklusa. Tako sukcesivne vrijednosti opažanja izgledaju međusobno korelirane, bilo da pratimo bruto društveni proizvod, proizvodnju, zaposlenost, kretanje cijena itd. Razlog može biti i «friziranje» statističkih podataka, npr. umjesto prikupljanja podataka za razna vremenska razdoblja, oni se izračunavaju kao prosjeci iz kraćih vr emenskih razdoblja. Zato podaci 87
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
izgledaju «izglađeno», pa odstupanja pokazuju pravilnost pojavljivanja, tj. autokorelaciju. Čest razlog je specifikacijska pogreška, a to je izostavljena signifikantna varijabla ili odabir pogrešne funkcijske veze. To je tzv . neprava autokorelacija. Odstupanja na sebe preuzimaju tu pogrešku, nisu više slučajna, nego se ponašaju po određenom pravilu, što je moguće vidjeti iz dijagrama rasipanja. POSLJEDICE AUTOKORELACIJE
Pod pretpostavkama klasičnog regresijskog modela, ocjene parametara su najbolje linearne nepristrane ocjene (BLUE). Znači da imaju minimalnu varijancu (efikasne su) i nepristrane su. Dogodi li se da pretpostavka o autokorelaciji nije zadovoljena, to ostavlja ozbiljne posljedice na ocijenjeni model. Ocjene parametara su nepristrane, ali su nepouzdane jer:
Nisu više efikasne (tj. nemaju minimalnu varijancu, nisu više BLUE). Podcijenjena je varijanca i standardna pogreška parametra, zbog toga t i F test nisu pouzdani pokazatelji. Podcijenjena je ocijenjena rezidualna varijanca
2 , pa R nije pouzdan pokazatelj. Model nije pogodan za predviđanje jer su i varijanca i standardna pogreška predviđanja 2
ˆ
neefikasne. OTKRIVANJE AUTOKORELACIJE
Kako je pojava autokorelacije povezana s pogreškama rela cije koja nam je nepoznata, otkrivanje i analiza autokorelacije oslanja se na procijenjene pogreške, tj. rezidualna odstupanja. Postoji više načina za otkrivanje autokorelacije, među kojima se spominju grafička metoda i formalni testovi. GRAFIČKA METODA
Ozbiljna autokorelacija često je očita iz dijagrama rasipanja rezidualnih odstupanja Grafička metoda sastoji se u prikazivanju raspršenosti reziduala kroz vrijeme iz kojeg je moguće vidjeti postoji li neka pravilnost ili su odstupanja stvarno slučajno distribuirana.
PRIMJER 24
Otkrivanje autokorelacije grafičkom metodom
Radi lakšeg razumijevanja ocijenit će se model stvarnih plaća i produktivnosti rada u poslovnom sektoru u SAD-u od 1959. do 2002. Iz makroekonomske teorije očekuje se pozitivan odnos između plaća i produktivnosti rada : što je viša produktivnost rada, veća je i plaća. U tablici 22 prikazani su podaci o plaćama i produktivnosti rada za navedeno razdoblje.
88
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
Tablica 22: Plaće i produktivnost rada u SAD-u za razdoblje od 1959. do 2002. godine godina 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980
plaća (W) 59,2 60,7 62,5 64,6 66,1 67,7 69,1 71,7 73,6 76 77,2 78,6 80,1 82,3 84,1 83,1 83,9 86,2 87,4 88,9 89,1 88,9
produktivnost (P) 48,6 49,5 51,3 53,6 55,7 57,6 59,7 62,1 63,5 65,5 65,8 67,1 70 72,2 74,5 73,2 75,8 78,4 79,7 80,6 80,5 80,3
godina 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
plaća (W) 89 90,5 90,4 90,7 92,1 95,2 95,6 97 95,5 96,3 97,4 100 99,9 99,7 99,4 99,8 100,7 104,8 107,2 111 112,1 113,5
produktivnost (P) 81,9 81,6 84,5 86,8 88,5 91,2 91,6 93 93,9 95,3 96,4 100 100,5 101,7 102,3 105,1 107,4 110,2 113 116,5 118,8 125,1
Iz podataka iz tablice 22 dobiju se sljedeći regresijski rezultati: W 29 ,5749 0 ,7005 P se ( 1 ,4605 ) (0,0171) t (20,2496) (40,9181) R
2
(118)
0 ,9755
d 0,2136
Prema očekivanjima postoji pozitivna veza između plaća i produktivnosti rada. t vrijednosti i R2 su visoki. No, prije prihvaćanja ovih rezultata kao zadovoljavajućih potrebno je testirati mogućnost postojanja autokorelacije. Kao i u slučaju heteroskedastičnosti, grafički prikaz OLS reziduala može dati vrijednu sliku o postojanju autokorelacije me đu slučajnim varijablama. Postoji više načina grafičkog prikazivanja reziduala. Reziduali se mogu prikazati u dijagramu rasipanja u odnosu na vrijeme kao na slici 25. Slika 25: Reziduali regresije iz izraza (118)
i l a u d i z e r
vrijeme
Iz slike (25) vidljivo je da reziduali ni su slučajno distribuirani. U početku su negativni, pa pozitivni, pa opet negativni.
89
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
Tablica 23: Reziduali i pripadajući podaci iz regresije plaće i produktivnost rada
et -4,42361 -3,55414 -3,0152 -2,52656 -2,49779 -2,22891 -2,30015 -1,38157 -0,46239 0,53643 1,526253 2,015487 1,483778 2,142481 2,331126 2,241892 1,220359 1,698827 1,988061 2,857531 3,12759 3,067707 2,046765 3,756941 1,625232 0,313877 0,522875 1,731284 1,851048 2,270223 0,139693 -0,04113 0,288219 0,366098 -0,0842 -1,1249 -1,84526 -3,40691 -4,11826 -1,97991 -1,54156 -0,19363 -0,70498 -3,71869
et-1 -4,42361 -3,55414 -3,0152 -2,52656 -2,49779 -2,22891 -2,30015 -1,38157 -0,46239 0,53643 1,526253 2,015487 1,483778 2,142481 2,331126 2,241892 1,220359 1,698827 1,988061 2,857531 3,12759 3,067707 2,046765 3,756941 1,625232 0,313877 0,522875 1,731284 1,851048 2,270223 0,139693 -0,04113 0,288219 0,366098 -0,0842 -0,08 42 -1,1249 -1,12 49 -1,84526 -3,40691 -4,11826 -1,97991 -1,54156 -0,19363 -0,70498
D=et-et-1 0,86947 0,538939 0,488645 0,028762 0,26888 -0,07124 0,918586 0,919175 0,998821 0,989823 0,489234 -0,53171 0,658703 0,188645 -0,08923 -1,02153 0,478468 0,289234 0,86947 0,270059 -0,05988 -1,02094 1,710177 -2,13171 -1,31136 0,208998 1,208409 0,119764 0,419175 -2,13053 -0,18083 0,329352 0,077878 -0,45029 -1,04071 -0,72035 -1,56165 -0,71136 2,13835 0,43835 1,347937 -0,51136 -3,01371
D2 0,755977 0,290455 0,238773 0,000827 0,072297 0,005075 0,8438 0,844883 0,997644 0,97975 0,23935 0,282715 0,43389 0,035587 0,007963 1,043528 0,228931 0,083656 0,755977 0,072932 0,003586 1,042324 2,924705 4,544184 1,719653 0,04368 1,460252 0,014343 0,175708 4,53916 0,032698 0,108473 0,006065 0,202765 1,083071 0,518909 2,438751 0,506027 4,57254 0,192151 1,816935 0,261484 9,082465
et2 19,56833 12,63192 9,091443 6,383492 6,23898 4,968061 5,290701 1,908727 0,213806 0,287757 2,329448 4,062186 2,201596 4,590225 5,434146 5,026078 1,489277 2,886014 3,952387 8,165482 9,781817 9,410829 4,189245 14,11461 2,64138 0,098519 0,273398 2,997343 3,426379 5,153912 0,019514 0,001692 0,08307 0,134027 0,007089 1,265409 3,404976 11,60702 16,96009 3,920058 2,376418 0,037491 0,496999 13,82869
predznak od e + + + + + + + + + + + + + + + + + + + + + + + + -
Isto se može uočiti ukoliko se reziduali et iz prve kolone tablice (23) usporede s rezidualima e t-1 iz druge kolone (slika 26). Slika 26: Reziduali et u odnosu na et-1 regresije iz izraza (118)
Opći trend slike ukazuje da su sukcesivni reziduali pozitivno korelirani, što ukazuje na pozitivnu autokorelaciju.
et-1
et
90
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
DURBIN-WATSONOV DURBIN-WATSONOV TEST
Durbin-Watsonov d test najpoznatiji je test za otkrivanje autokorelacije. Njegova prednost je
što je jednostavan za primjenu i uključen u sve ekonometrijske pakete. Test veličina je n
( et et 1 )
2
d
t 2
(119)
n
e
2 t
t 1
koja predstavlja omjer zbroja kvadrata prvih diferencija rezidualnih odstupanja i zbroja
kvadrata rezidualnih odstupanja. Zbog diferenciranja u brojniku se gubi jedno opažanje, pa sumiranje kreće od drugog opažanja (t=2). DW test se može upotrijebiti ako su zadovoljene sljedeće pretpostavke: 1. Koristi se za otkrivanje autokorelacije 1. reda. 2. Regresijski model uključuje konstantu (odsječak na ordinati). Ne može se primijeniti
na regresiju kroz ishodiše. 3. Nezavisne varijable su nestohastične, znači imaju fiksne vrijednosti kod ponovljenih uzoraka. 4. Regresijski model ne uključuje vrijednosti zavisne varijable s pomakom u vremenu kao eksplanatorne varijable, tj. test nije primjenjiv na modele kao Y t 0 1 X t 2Y t 1 ut poznate pod nazivom autoregresijski modeli.
Izraz (119) može se približno pisati kao : d
2( 1
)
ˆ
(120)
gdje je: n
e
t
ˆ
et 1
t 2
(121)
n
e
2
t
t 1
autoregresijske funkcije dane izrazom (117). koji je procjenjivač koeficijenta autokorelacije autoregresijske Kada ispitujemo je li autokorelacija prisutna u ocijenjenom modelu, tada zapravo testirano hipotezu je li autokorelacijski parametar iz relacije (117) jednak ili različit od nule. Ako je = 0 u relaciji (117), tada je ut= t, pa odstupanja u regresijsk oj jednadžbi neće biti = autokorelirana. Zato za nul hipotezu da nema autokorelacije, možemo upotrijebiti 0: = 0. > 0 ili < 0 ili ≠ 0. U većini Za alternativnu hipotezu možemo upotrijebiti A: A: A: ekonomskih empirijskih istraživanja koristi se A:>0 jer je pozitivna autokorelacija u praksi
najčešća. Kako je -1 0 vrijedi:
0 , d2, nema autokorelacije 1 , d0 postoji savršena pozitivna autokorelacija 1 , d4 postoji savršena negativna autokorelacija Izračunati d kreće se u intervalu [0,4]. Što je bliže vrijednosti 0, pokazatelj je pozitivne autokorelacije, a čim je bliže vrijednosti 4, pokazatelj je negativne autokorelacije. Kada se vrijednost od d kreće oko 2, znači da autokorelacije n ema. No postoje i vrijednosti kada ˆ
ˆ
ˆ
nismo sigurni za postojanje autokorelacije (tablica 24). 91
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
Tablica 24: Durbin- Watsonov Watsonov pokazatelj (test (test veličine)
POZITIVNA AUTOKORELACIJA (odbaciti H0)
0
NEMA AUTOKORELACIJE PRVOG REDA (prihvatiti H0)
?
dL
dU
dU – gornja vrijednost u DW tablici dL – donja vrijednost u DW tablici
2
NEGATIVNA AUTOKORELACIJA (odbaciti H0)
?
4- dU
4-dL
4
H0: nema autokorelacije
U DW tablicama nalazimo dvije kritične vrijednosti: dL donju i dU gornju. Te vrijednosti ovise o broju opažanja n i o broju eksplanatornih varijabli k. Durbin-Watsonov test provodi se u nekoliko koraka: 1. Ocijeniti model pomoću metode najmanjih kvadrata i izračunati reziduale et. 2. Izračunati Durbin-Watsonovu d vrijednost iz formule (119). Obično je to rutina
uključena u ekonometrijski programski paket, koja se iskazuje u rezultatima regresijske analize. 3. Naći kritične vrijednosti dL i dU u tablicama za danu veličinu uzorka i broj eksplanatornih varijabli. 4. Zaključak o prisutnosti autokorelacije donosi se prema pravilima u tablici ( 24) odnosno (25). Tablica 25: Način donošenja odluke kod Durbin-Watsonovog testa VRIJEDNOST DW 0 < d < dL dL d dU dU < d 4 4 d 4 - dU 4 - dU d 4 - dL 4 – d L< d < 4
ODLUKA odbaciti H 0: prisutna pozitivna autokorelacija bez odluke prihvatiti H 0: nema autokorelacije prihvatiti H 0: nema autokorelacije bez odluke odbaciti H 0: prisutna negativna autokorelacija
Iz primjera o plaćama i produktivnosti rada regresijski rezultati dali su d vrijednost od 0,2136 (izraz 118). Iz Durbin-Watsonove tablice vidimo da je za n=45 i jednu eksplanatornu varijablu, dL=1,475 a dU =1,566 =1,566 na razini signifikantnosti od 5%. Kako je izračunati d=0,2136
ispod donje kritične vrijednosti od 1,475 zaključujemo da postoji pozitivna autokorelacija u rezidualima regresije o plaćama i produktivnosti rada. BREUSCH-GODFREYJEV BREUSCH-GODFREYJEV TEST
⋯ − − ⋯−
εt
postoji autokorelacije greške višega reda, po slučajna , gdje je greška koja ispunjava sve pretpostavke klasičnog linearnog regresijskog modela o stohastičnosti (sredina nula i konstantna varijanca), u testu autokorelacije greške polazi se
Ako u modelu autoregresijskom procesu reda ρ :
od hipoteze da nema autokorelacije. Stoga je, nulta hipoteza o nepostojanju autokorelacije:
⋯ 0
Koraci provođenja Breusch-Godfreyeva testa su:
ut
Ocijeniti polazni model metodom najmanjih kvadrata tako da se dobiju reziduali . 92
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
u −, −,…t−
Regresirati
na sve regresore (nezavisne varijable) polaznog modela, ali i na (reziduale s pomakom u vremenu).
Poznat još i kao LM (Lagrange Multiplier) test, nije ograničen na testiranje postojanja autokorelacije prvog reda, a može se upotrijebiti i kada su u model uključene i varijable s pomakom u vremenu. Primjenjiv je i u slučaju autokorelacije prema procesu pomičnih prosjeka. Problem testa je što se ne zna unaprijed red autokorelacije te je potrebno isprobati distribuciji. Ukoliko je empirijska vrijednost razine. LM test veličina pripada za danu razinu signifikantnosti nulta se hipoteza odbacuje. veća od kritičke vrijednosti
PRIMJER 25
Rezultati Breusch-Godfreyevoga Breusch-Godfreyevoga testa za podatke iz primjera 20, (n=10, k=2). Slika 27: Breusch-Godfrey test za primjer 20 (ispis EViews 8.)
0 11 22 11 22 353,6082 0,2016813 1 1,6433802 0,2000851 0,5246812 0,158808 1 2 0 ∃() ≠0, 10∙0,158808 1, 2.2. 1,58808
Pretpostavljen je model oblika:
,
tj. pretpostavlja se da su greške relacije autokorelirane reda 2. Procijenjen model na osnovi uzorka je:
s koeficijentom determinacije
. Hipoteze o autokorelaciji grešaka relacije glase:
,
Test veličina (engl. Obs*R-squared) iznosi . Empirijska razina signifikantnosti (engl. prob. Chi-square(2)) je 0,452015, što znači da test veličina pada u područje prihvaćanja nulte hipoteze. Zaključuje se da ne postoji problem autokorelacije prvoga i drugoga reda.
93
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
LJUNG-BOX Q-TEST
Ukoliko se pretpostavi da postoji autokorelacija grešaka relacije reda višega od 1, a što se može uočiti promatranjem autokorelacijske funkcije reziduala, može se koristiti Ljung Boxova Q-test veličina. Q-vrijednost za pomak k je test veličina Ljung-Boxovoga testa za
1 2 ⋯ 0 ∃() ≠ 0, 1,2,…, … , 2= 1 ∑ = ∑+= ̂̂̂−−
nultu hipotezu da nema autokorelacije do reda k (tj. da su svi koeficijenti autokorealcije
jednaki nuli, te da je niz grešaka g rešaka relacije čisti slučajni proces ili bijeli šum). Ako se s označi koeficijent autokorelacije reda i, tada su hipoteze Ljung-Boxovog testa: ,
Q test veličina računa se prema izrazu:
(122)
pri čemu je n veličina uzorka. U gore navedenom izrazu,
su procjene koeficijenata autokorelacije i-toga reda
izračunate temeljem niza rezidualnih odstupanja sljedećim izrazom:
pri čemu
̂
(123)
označava rezidualno odstupanje u trenutku t.
Varijable Q je distribuirana po
-distribuciji s k stupnjeva slobode.
U nastavku je dan primjer prikaza autokorelacijske (AC) i parcijalne autokorelacijske funkcije (PAC), izračunate su Ljung-Boxove Q-test veličine te njihove empirijske razine signifikantnosti. PRIMJER 26
≤9
Autokorelacijska funkcija (ACF) i parcijalna autokorelacijska funkcija (PACF) reziduala, test veličine Q za , te pridružene empirijske empirijske razine signifikantnosti za podatke iz primjera 20. pomnake Slika 28: ACF i PACF, Q i p-vrijednosti za primjer 20 (ispis EViews 8.)
Procjene koeficijenata autokorelacije (kao i procjene koeficijenata parcijalne autokorelacije) ne ). Provede li se odstupaju značajno od nule (nalaze se unutar istaknutih 2 -sigma granica Ljung-Boxov test za pomak k=9, hipoteze glase:
∓2∙ √
94
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
0: 1 2 … 9 0, 1: ∃ ≠ 0, 1,2,…, … .9. 2 2= 1 1 14,690
Test veličina je:
≤0,095
a pridružena empirijska razina signifikantnosti iznosi 0,1000, pa se uz razinu signifikantnosti signifikantnosti prihvaća hipoteza , tj. da ne postoji autokorelacija grešaka relacije za sve pomake ili
0,01
0
.
OTKLANJANJE AUTOKORELACIJE
Autokorelacija se otklanja generaliziranom metodom najmanjih kvadrata (GLS - Generalized Least Squares). Generalizirana metoda najmanjih kvadrata koristi tehniku kvazidiferenciranja kako bi se autokorelirana odstupanja ut zamijenila odstupanjima vt koja su neautokorelirana. GENERALIZIRANA METODA NAJMANJIH KVADRATA
Uz pretpostavku da odstupanja slijede autoregresijski proces 1. reda, tj. da vrijedi izraz (117) i kada je poznat , autokorelacija se može riješiti ako da se izračunaju generalizirane diferencije vrijednosti zavisne varijable po formuli Y t- Y Yt-1 , t -1 ,
(124)
pri čemu je Y t
0
1 X t ut
(125)
Generalizirana diferencijska jednadžba piše se kao Y t *
0 ( 1 ) 1 X * 1t t
(126)
gdje je
vt =ut- ut-1 Y t* =Y t- Y Y t-1 t-1 * X t =X 1t Xt-1 1t- X t -1
najbolje su nepristrane linearne Ocijeni li se jednadžba (124) pomoću OLS, parametri i ocjene, a DW vrijednost je blizu 2. GLS metoda pomaže u ispravljanju autokorelacije, no postoje slučajevi kada ju nije uputno upotrebljavati: 1. Kada se radi o nepravoj autokorelaciji, tj. kada je uzrok autokorelacije specifikacijska
pogreška. Tada je rješenje ispravljanje specifikacijske pogreške. 2. Kada se radi o malim uzorcima teško je naći dobru ocjenu i, ako se koristi loša ocjena , pomoću GLS može se dobiti lošije ocjene parametara modela nego što su ˆ
ˆ
bile, a kako znamo, kod prisutnosti autokorelacije ocjene parametara dobivene metodom najmanjih kvadrata, neefikasne su, ali nisu pristrane.
95
II. DIO REGRESIJSKA ANALIZA
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
METODE PROCJENJIVANJA PROCJENJIVANJA
Procjenjivanje autoregresijskog parametra nije problem, budući da ekonometrijski programski paketi to rade automatski. Ukoliko se radi o malom uzorku podataka, moguće je da će izračunavanje pomoću poznatog d i relacije (120) dati bolju ocjenu nego generiranjem pomoću računalne procedure. Postoji nekoliko pristupa procjenjivanju vrijednosti među kojima se mogu spomenuti:
Cochran-Orcutt procedura Hildret-Lu procedura Cochran-Orcutt procedura: Radi se o iterativnoj proceduri kojom računalo izračunava niz vrijednosti sve dok razlike među njima nisu zadovoljavajuće male. ˆ
Hildret-Lu procedura: Zasniva se na definiranju mogućih vrijednosti za i ocjenjivanju ˆ
nekoliko regresija pomoću GLS kak bi se našlo transformaciju koja minimizira RSS.
10.3. HETEROSKEDASTIČNOST HETEROSKEDASTIČNOST
Problem heteroskedastičnosti prisutan je kada je narušena pretpostavka o nepromjenjivosti varijance slučajnih varijabli u linearnom regresijskom modelu. S obzirom da je varijanca mjera rasipanja ili disperzije, pod pojmom heteroskedastičnosti podrazumijeva se nejednaka varijanca sluča jnih varijabli. Heteroskedastičnost je problem koji je uglavnom povezan s podacima vremenskog presjeka. Proučavamo li vezu između dohotka zaposlenih i potrošnje, interpretacija ocijenjenih parametara zavisit će o tome odnose li se podaci na godine ili zaposlenike, tj. pratimo li vezu kroz vrijeme ili u određenom vremenskom trenutku. Ako se podaci odnose na zaposlenike, ocijenjeni regresijski parametar uz varijablu dohodak zavisit će o distribuciji dohotka. Naime, potrošač s većim dohotkom troši više neko on aj s manjim
dohotkom. Zbog toga ćemo imati različitu raspršenost (heteroskedastičnost) odstupanja oko regresijske funkcije, koja ostavlja teške posljedice na ocijenjeni model, koje trebamo znati otkriti i pokušati riješiti. Kada četvrta pretpostavka klasičnog linearnog regresijskog modela nije poštivana, varijanca odstupanja je promjenjiva, tj. zavisi o opažanju i, tj. var( ui ) i2
(127)
tada kažemo da su odstupanja heteroskedastična. Ukoliko je ova varijanca stalna, ona ne zavisi o opažanju i, tj. var( ui ) 2
(128)
tada kažemo da su odstupanja homoskedastična. POSLJEDICE HETEROSKEDASTIČNOSTI
Heteroskedastičnost ostavlja ozbiljne u slične posljedice na ocijenjeni model kao i autokorelacija, tako su ocjene parametara su nepristrane, ali:
Nisu više efikasne, tj. nemaju minimalnu varijancu (nisu više BLUE). Ocjena varijance parametara je pristrana, što proizlazi iz pristranosti varijance odstupanja; no ne znamo je li podcijenjena ili precijenjena; zbog toga t i F test nisu valjani. 96
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
OTKRIVANJE HETEROSKEDASTIČNOSTI
Otkrivanje heteroskedastičnosti nije lak zadatak. To je zbog toga što nam je stvarna varijanca i2 nepoznata, jer ne raspolažemo podacima za cijelu populaciju. Ne postoji opći efikasan i siguran test za otkrivanje heteroskedastičnosti. Među metodama otkrivanja heteroskedast ičnosti spominju se grafička metoda te postupci testiranja. GRAFIČKA METODA
Ova je metoda jednostavan početni način za utvrđivanje heteroskedastičnosti. Mogu se prikazati reziduali prema pojedinoj nezavisnoj varijabli ili u slučaju kada više nezavisnih varijabli zajedno uzrokuje heteroskedastičnost, koristi se prikaz reziduala prema ocijenjenoj vrijednosti zavisne varijable. Reziduale je korisno prikazati u (X, Y) prostoru i u (X, u)
prostoru. Takvi prikazi daju istu informaciju, ali iz različite perspektive i korisni su i onda kada nismo sigurni koja je od nezavisnih varijabli u višestrukoj regresiji uzrokovala heteroskedastičnost. Katkad je korisno umjesto reziduala ei, prikazati njegove kvadrirane vrijednosti ei2. Iako to nisu stvarne vrijednosti u i2, ei2 su njihova dobra zamjena, pogotovo ako
se radi o velikom uzorku. Kraći način u višestrukoj regresiji ispitivanje je grafičkog odnosa između ei2 i zato što je linearna kombinacija nezavisnih varijabli, X k. PRIMJER 27
Grafička metoda otkrivanja postojanja heteros kedastičnosti Tablica 26: Izdaci za obrazovanje (% GDP), GDP (mlrd $) i broj stanovnika (mil) za grupu zemalja 1980. godine. zemlja Urugvaj Singapur Irska Izrael
Mađarska Novi Zeland Portugal Hong Kong
Čile Grčka Finska
Norveška Danska Turska Austrija
Švicarska Saud. Arabija Belgija
Švedska Australija Argentina Nizozemska Meksiko
Španjolska Brazil Kanada Italija Vel. Britanija Francuska
Njemačka Japan
izdaci za obrazovanje 0,22 0,32 1,23 1,81 1,02 1,27 1,07 0,67 1,25 0,75 2,80 4,90 4,45 1,60 4,26 5,31 6,40 7,17 11,22 8,66 5,56 13,41 5,46 4,79 8,92 18,90 15,95 29,90 33,59 38,62 61,61
GDP 10,13 11,34 18,88 20,94 22,16 23,83 24,67 27,56 27,57 40,15 51,62 57,71 66,32 66,97 76,88 101,65 115,97 119,49 124,15 140,98 153,85 169,38 186,33 211,78 249,72 261,4 395,52 534,97 655,29 815,00 1040,45
broj stanovnika 2,90 2,39 3,44 3,87 10,71 3,10 9,93 5,07 11,10 9,60 4,78 4,09 5,12 44,92 7,51 6,37 8,37 9,86 8,31 14,62 27,06 14,14 67,40 37,43 123,03 23,94 57,04 55,95 53,71 61,56 116,78
97
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
U grupi zemalja su i male i velike zemlje, koje imaju različite mogućnosti izdvajanja za obrazovanje i ta izdvajanja se kreću od 1,9% do 9% GDP. Ocijenjeni model glasi Oi
0 ,3159 0 ,05373Gi
ˆ
t
(129)
(-0,471) (24,844) R 2
0 ,9551
F 617,23
Model izgleda dobro prilagođen podacima. i F vrijednosti su visoke, predznak parametra uz nezavisnu varijablu slaže s a priori očekivanjima. Ipak, budući da se radi o podacima vremenskog presjeka, realno je očekivati prisutnost heteroskedastičnosti. Jasno je da će veće zemlje imati veću varijaciju u izdvajanju za obrazovanje nego one manje. U prvom koraku pogledat ćemo grafove reziduala. Na slici 29 prikazan je dijagram raspršenosti podataka izdvajanja za obrazovanja. R2
Slika 29: Reziduali ocijenjene funkcije izdataka za obrazovanje
5,7 3,7 i l 1,7 a u d i z -0,3 e R
0
200
400
600
-2,3
800
1000
1200
GDP
-4,3 -6,3
Vidimo da raspršenost raste kako raste GDP. Slika 30: Reziduali i ocijenjene vrijednosti funkcije izdataka za obrazovanje 70 60 ej n
50 a v o
40 z a r b
30 o a
20 z i c
10 a d zi
0 -10
1
2
3
4 5
6
7
rezidu reziduali ali
8
9 10 11 12 13 14 15 15 16 16 17 17 18 18 19 19 20 21 22 23 24 25 26 27 27 28 29 30 31 ocijen ocijenjen jene e vrijed rijedno nosti sti
stvar stvardi di poda podaci ci izdvajan ajanja ja za obra obrazov zovan anje je
To je još očitije na gornjoj slici gdje je na dnu prikazana krivulja reziduala, a gornje dvij e krivulje predstavljaju ocijenjene vrijednosti i stvarne podatke izdvajanja za obrazovanje. Zemlje su poredane
po veličini GDP. Očito je da rezidualna varijanca raste od 18. podatka. Iako slike ukazuju na postojanje heteroskedastičnosti, heteroskedastičnosti, pouzdaniji su pokazatelji testovi.
Grafička metoda ne omogućuje precizno ispitivanje heteroskedastičnosti već je potrebno koristiti rigoroznije metode. Neki od t estovi koji se uobičajeno koriste za otkrivanje heteroskedastičnosti jesu: White test, Park test, Goldfeld-Quandt test, Glejser test, BreuschPagan test, CUSUMSQ test, te Peak test.
98
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
GOLDFELD-QUANDT TEST
Ovaj se test vrlo često koristi za otkrivanje heteroskedastičnosti. Jednostavan je i ne zahtijeva poznavanje oblika funkcijske veze između reziduala i nezavisne varijable koja je uzrok heteroskedastičnosti. Osnovna ideja jest da je varijanca pridružena velikim vrijednostima varijable X, značajno različita od varijance pridružene malim vrijednostima varijable X (za koju se pretpostavlja da je razlog heteroskedastič nosti). Ta pretpostavka se testira F testom, gdje je nul hipoteza da je varijanca konstantna (postojanje homoskedastičnosti). Koraci primjene Goldfeld-Quandt testa su: 1. Složiti empirijske podatke varijable X (za koju se pretpostavlja da je razlog
heteroskedastičnosti) prema veličini. 2. Izbaciti srednji dio ( d) opažanja, obično petinu opažanja. 3. Ocijeniti dvije zasebne regresije, posebno za niske vrijednosti Xi i posebno za visoke vrijednosti varijable X. Svaka regresija imat će (n -d)/2 podataka i [(n-d)/2]-2 stupnjeva slobode. Izračunati RSS 1 i RSS2 iz dviju regresija. 4. Izračunati omjer RSS 2/RSS1 tako da budu u brojniku RSS za niz većih vrijednosti X i. Taj omjer je F vrijednosti sa (n-d-4)/2 stupnjeva slobode za brojnik i nazivnik. Ako je
veći od kritične tablične F vrijednosti, nul hipoteza da postoji homoskedastičnost se odbacuje. PRIMJER 28
Primjena Goldfeld-Quandtova testa za otkrivanje heteroskedastičnosti
Pokazat ćemo primjenu Goldfeld -Quandt testa. U tablici 26 zemlje su već poredane po veličini GDP. Izbacit ćemo 7 zemalja u sredini niza i ocijeniti dvije regresije, za prvu grupu s manjim GDP i za drugu grupu s većim GDP. Rezultati za obje regresije dani su u tablici 27. Tablica 27: Rezultati dviju regresija (Ispis Excel)
SUMMARY OUTPUT
ZEMLJE S NIŽIM DOHOTKOM: 1-12 Regression Statistics Multiple R 0,822157 R Square 0,675942 Adjusted R 0,643536 Square Standard 0,767811 Error Observations 12
ANOVA df
Regression Residual Total
1 10 11 Coefficients
Intercept X Variable 1
-0,57305 0,071864
SS 12,29689 5,895339 18,19223
MS 12,29689 0,589534
F 20,85866
Significance F 0,001031
Standard Error 0,493851 0,015735
t Stat
P-value
Lower 95%
-1,16037 4,567128
0,272849 0,001031
-1,67342 0,036804
Upper 95% 0,527317 0,106924
Lower 95,0% -1,67342 0,036804
Upper 95,0% 0,527317 0,106924
99
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
SUMMARY OUTPUT
ZEMLJE S NIŽIM DOHOTKOM: 20-31 Regression Statistics Multiple R 0,968981 R Square 0,938925 Adjusted R Square 0,932817 Standard Error 4,504387 Observations 12
ANOVA df
1 10 11
SS 3119,168 202,895 3322,063
Coefficients -2,30991 0,05672
Standard Error 2,249359 0,004575
Regression Residual Total
Intercept X Variable 1
MS 3119,168 20,2895
F 153,7331
Significance F 2,15E-07
t Stat -1,02692 12,39892
P-value 0,328658 2,15E-07
Lower 95% -7,32179 0,046527
Upper 95% 2,701977 0,066913
Lower 95,0% -7,32179 0,046527
Upper 95,0% 2,701977 0,066913
Omjer RSS za drugu skupinu zemalja i RSS za prvu skupinu zemalja iznosi 34,41, a kritična Fvrijednost uz 5% signifikantnosti za (n-7-4)/2=10 stupnjeva slobode iznosi 2,97. Kako je kritična vrijednost manja od izračunate, odbacuje se nul hipoteza da postoji homoskedastičnost. homoskedastičnost. WHITE TEST
Pretpostavimo model
̂
sa konstantnim članom i dva regresora.
Koraci provođenja White testa su: Izračunati reziduale polaznog modela metodom najmanjih kvadrata; Procijeniti pomoćne regresijske jednadžbe u kojoj su kvadrirani reziduali iz polaznog modela
̂
vrijednosti zavisne varijable, a regresorske varijable su: regresorske varijable
polaznog modela, njihovi kvadrati te njihovi međusobni umnošci:
: ⋯ 0
.
Nultom se hipotezom pretpostavlja homoskedastičnost, tj. nepromjenjivost varijance: . Test veličina Whiteovog testa je (130)
pri čemu je n veličina uzorka, a je koeficijent determinacije pomoćne regresijske distribuciji s r stupnjeva slobode, gdje je r broj jednadžbe. W test veličina pripada regresorskih varijabli u pomoćnoj regresijskoj jednadžbi, odnosno broj parametara ne računajući konstantni član. Ako je izračunata W veličina uz zadanu razinu signifikantnosti α viša od tablične vrijednosti odbacuje se nulta hipoteza o homoskedastičnosti. OTKLANJANJE HETEROSKEDASTIČNOSTI
Kod otkrivanja heteroskedastičnosti dobro je u praksi primijeniti više metoda s obzirom da niti jedna od njih nije sasvim pouzdana. Znamo da su ocjene parametara kod prisutnosti heteroskedastičnosti neefikasne i zato ukoliko se utvrdi njeno postojanje model je potrebno 100
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
transformirati kako bismo dobili odstupanja koja se ponašaju homoskedastično. Način transformacije modela zavisi o tome je li stvarna varijanca pogreške i2 poznata ili nije. Uklanjanje heteroskedastičnosti heteroskedastičnosti kada je varijanca poznata. Vagana metoda najmanjih kvadrata Kada je varijanca odstupanja i2 poznata, heteroskedastičnost je lako riješiti. Objasnit ćemo to na modelu jednostavne regresije: Y i
0
1 X 1
ui
(131) kojeg transformiramo tako da cijelu jednadžbu podijelimo sa i kojeg dobivamo iz poznate varijance i2:
1 u X 0 1 1 i i i i i Odstupanja su sada transformirana i označavaju se sa v t: Y i
vt
ui
(132)
(133)
i
Kada se upotrijebi metoda najmanjih kvadrata za ocjenu modela (131 ), kaže se da se koristi vagana metoda najmanjih kvadrata (WLS-Weighted Least Squares). PRIMJER 29
Primjena vagane metode najmanjih kvadrata za uklanjanje heteroskedastičnosti
Prikazat će se primjena vagane metode najmanjih kvadrata za uklanjanje heteroskedastičnosti otkrivene u primjeru 27. Radi se o izdvajanju koje ovisi o visini GDP, a znamo da zemlje s brojnijom populacijom uglavnom imaju i veći GDP, a i veća ulaganja u obrazovanje. Zbog toga očekujemo da je
varijanca proporcionalna varijabli broj stanovnika (P). Primijenit ćemo vaganu metodu najmanjih kvadrata tako da ćemo cijelu funkciju podijeliti s varijablom P, tj. Oi p
0
1 P i
1
Gi P i
ui P i
(134)
odnosno ako uvedemo nove oznake O/P=OP, i/P=RP, G/P=GP i u/P=v, imat ćemo nove varijable: OP: izdvajanje za obrazovanje po stanovniku, GP bruto društveni proizvod po stanovniku, tj. GDP PC, a RP je recipročna vrijednost varijable broj stanovnika, OP 0 RP 1GP vi i i i
(135)
Sada imamo regresiju kroz ishodište. Rezultati su u tablici 28. Tablica 28: Rezultati vagane metode najmanjih kvadrata
SUMMARY OUTPUT Regression Statistics Multiple R 0,905689 R Square 0,820273 Adjusted R Square 0,779593 Standard Error 0,15437 Observations 31
101
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
ANOVA df
Regression Residual Total
GP RP
2 29 31
SS 3,15405 0,691072 3,845122
Coefficients 0,062988 -0,1457
Standard Error 0,003988 0,21865
MS 1,577025 0,02383
F 66,17795
Significance F 2,45E-11
t Stat 15,7927 -0,66638
P-value 8,83E-16 0,510433
Lower 95% 0,05483 -0,59289
Upper 95% 0,071145 0,301485
Lower 95,0% 0,05483 -0,59289
Upper 95,0% 0,071145 0,301485
Ako usporedimo slike reziduala, vidimo da su onu ravnomjernije raspršeni oko nule. Slika 31: Reziduali ocijenjene funkcije izdataka za obrazovanje 0,5 i l a u d i z e R
0,3 0,1
-0,1 0
5
10
15
20
-0,3 GDPpc
Ocijenjeni parametri originalnog modela i transformiranog modela vrlo su slični po veličini, nešto su veći kod transformiranog modela, dok su t vrijednosti manje. Zaključujemo da je heteroskedastičnost heteroskedastičnost u originalnom modelu podcijenila standardne pogreš ke. R2 je visok, ali nije usporediv jer su u transformiranom modelu radi o drugoj zavisnoj varijabli. Primijenjen je ponovo Goldfeld-Quandt test na transformirani model. Prije toga je bilo potrebno ponovno sortirati podatke jer se radi o novoj varijabli, a to je GDPPC. Opet su ocijenjene dvije regresije i kroz ishodište, za prvih 12 i posljednjih 12 zemalja rangiranih prema GDP PC. Dobili smo da je RSSS omjer 0,3875. To je nešto veći iznos od tablične kritične vrijednosti F C = C=2,987 2,987 za 10 d.f . i 5% signifikantnosti, no, ako uzmemo signifikantnost od 1%, F C C= 4,85, prihvaćamo nul hipotezu da je
prisutna homoskedastičnost. homoskedastičnost. Uklanjanje heteroskedastičnosti kada varijanca nije poznata
Na žalost, u praksi je stvarna vrijednost varijance pogreške i2 rijetko poznata. Zbog toga smo prisiljeni pretpostavljati oblik heteroskedastičnosti i transformirati model kako bi imao odstupanja sa svojstvom homoskedastičnosti. Te transformacije su u literaturi poznate pod nazivom transformacije stabiliziranja varijance. Neke od tih transformacija su: varijanca pogreške je proporcionalna varijabli X te varijanca pogreške je proporcionalna X 2.
Varijanca pogreške je proporcionalna varijabli X2
Ako je graf raspršenosti reziduala ocijenjenog model sličan slici ( 29), onda to može biti pokazatelj da je varijanca pogreške proporcionalna varijabli X 2. Tada transformiramo originalni mode tako da obje strane jednadžbe podijelimo s X.
102
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
10.4. NORMALNOST GREŠAKA RELACIJE
Normalna distribuiranost grešaka relacije nije nužna u postupku procjene parametara, no pretpostavka o normalnosti neophodna je pri testiranju hipoteza i izračunavanju intervalnih procjena parametara. F-tes, t-test i -test polaze od pretpostavke normaln e razdiobe grešaka
relacije. Intervalne procjene parametara zavise o normalnoj distribuiranosti parametara preko t-distribucije. Ako nije ispunjena pretpostavka o normalnosti, procjene parametara metodom najmanjih kvadrata i dalje su najbolje nepristrane procjene, no t-test, F -test -test i -test
više nisu pouzdani, a nenormalnost može naročito utjecati na intervalne procjene, posebno ako je distribucija grešaka relacije asimetrična. OTKRIVANJE NENORMALNOSTI GREŠAKA RELACIJE
Nenormalnost grešaka relacije može se ispitati, između ostaloga i provođenjem Jarque -Bera testa. JARQUE-BERA TEST
Pretpostavka o normalnosti grešaka relacije može se ispitati i pomoću Jarque -Beraovog testa. Ovim se testom, koji koristi koeficijent asimetrije i koeficijent zaobljenosti reziduala
procijenjenih metodom najmanjih kvadrata, ispituje odstupaju li procijenjene veličine značajno od vrijednosti tih mjera za normalnu distribuciju. Pri tome je poznato da je za
0 3 6 24
normalnu distribuciju koeficijent asimetrije
Test veličina je:
, a koeficijent zaobljenosti
Jarque-Bera (JB) test veličina, pod pretpostavkom normalnosti, pripada
3
. (136)
distribuciji s 2
stupnja slobode. Nulta hipoteza: „greške relacije su normalno distribuirane “ odbacuje se kao ili alternativno ako je empirijska razina signifikantnosti p manja od lažna ako je
> 2
teorijske razine signifikantnosti. PRIMJER 30
Testiranje normalnosti grešaka relacije Jarque -Bera testom
Testiranje normalnosti grešaka relacije pokazat će se na rezidualima iz primjera 20. Rezultati testa prikazani su na sljedećoj slici. Slika 32: Histogram rezidualnih odstupanja i rezultati Jarque-Bera testa (Ispis EViews 8)
0, 8 24082 nulta se hipoteza prihvaća kao moguća. Alternativno, 0,386972 < 2 5,99 S obzirom da je empirijska razina signifikantnosti
.
103
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
ZADACI ZA VJEŽBU 1.
Ocijenjeni su modeli kumulativnih troškova održavanja strojeva (O) u tvornici za vrijeme od 27 tjedana. Kao nezavisne varijable uzete su starost strojeva (G) i sati rada strojeva (S). Ocijenjeni su modeli: Ot ˆ
Model A:
630 ,15 8 ,48Gt
t
(22,2) R 2
Ot ˆ
Model B:
875 ,05 50 ,25S t
t
(16,25) R 2
Ot ˆ
Model C:
0 ,897
0 ,843
7 ,56 25 ,63Gt 149 ,15 S t
t
(1,75) R
2
(-0,49) 0 ,942
a) Kakve predznake parametara očekujete? b) Koji biste model prihvatili i zašto? c) Koeficijent jednostavne linearne korelacije između varijabli G i S iznosi 0.996
vodeći računa o ostalim pokazateljima u modelu C. obrazložite postojanje multikolinearnosti. 2.
U tablici su dati podaci o količini prodanih proizvoda (X) i ukupnog prihoda poduzeća (Y): Y X
175 5
370 10
520 15
640 20
795 25
859 30
854 35
840 40
782 45
640 50
525 55
a) Ocijenite linearnu regresijsku funkciju. b) Testirajte ocijenjenu funkciju na prisutnost autokorelacije prvog reda uz signifikantnost 5%. c) Prikažite graf raspršenosti reziduala. d) Na osnovi grafičkog prikaza zaključite što je uzrok autokorelacije. e) Kako se takva autokorelacije zove.? f) Može li se primijeniti GLS za otklanjanje ove vrste autokorelacije? 3.
Na osnovi podataka popisa stanovništva ocijenjen je model Oi 0 1Y i ui za 59 popisnih područja, gdje je O omjer broja domaćinstava s vlastitim stambenim prostorom i broja domaćinstava s iznajmljenim stambenim prostorom, a Y dohodak domaćinstava. Ocijenjeni model glasi: Oi ˆ
t
2 ,22 0 ,000297 Y i
(-3,64) (3,50) R 2
0 ,597 n 59
a) Obrazložite očekujete li prisutnost heteroskedastičnosti u modelu. b) Kako biste primijenili WLS metodu na ovaj model.
104
10. Poglavlje: Ocjenjivanje u uvjetima neispunjenih pretpostavki klasičnog modela
II. DIO REGRESIJSKA ANALIZA
RJEŠENJA ZADATAKA 1.
a) Parametri uz obje nezavisne varijable bi trebali imati pozitivan predznak, jer porast godina starosti, a isto tako i sati rada strojeva utječu na trošenje pa tako i na izdatke
za održavanje strojeva. b) Prihvatljiv su modeli A i B, dok model C nije. Nezavisna varijabla u modelu A ima očekivani predznak i značajna je za objašnjenje kumulativnih troškova održav anja. 90% varijacija tih troškova objašnjeno je modelom. Isto tako je i s modelom B , samo
što ima nešto manji koeficijent determinacije. U modelu C varijabla S ima neočekivani predznak, a nije značajna za model , kao ni varijabla G. c) Jednostavni koeficijent korelacije pokazuje da se radi o visoko koreliranim varijablama, koje zapravo mjere istu pojavu, tj. istrošenost strojeva. Visoka vrijednost R2 i niske t-vrijednosti nezavisnih varijabli su pokazatelji jake multikolinearnosti. Posljedica je promijenjen predznak uz varijablu S i neefikasne ocjene parametara. 2.
Y i 530 ,530 2 ,03497 X i ˆ
a)
t n 12 R
(0,464) 2
0 ,0211 DW 0,3994 F 0,215
b) H0:=0. HA:≠0. dL=0.971. d U=1.331. d
pretpostavku da su pogreške autokorelirane. c) Dijagram raspršenosti reziduala
s l a u d i s e R
X
d) Ocijenjena je linearna funkcija umjesto polinoma. e) Neprava autokorelacija. f) Ne. Potrebno je ispraviti grešku specifikacije koja je uzrok autokorelacije. 3.
a) Radi se o podacima vremenskog presjeka i očekujemo različitu raspršenost
podataka po popisnim područjima. b) Viša razina dohotka utječe na veću raspršenost zavisne varijable. Vaganu metodu najmanjih kvadrata primijenit ćemo tako da cijeli model podijelimo varijablom dohodak, koja je uzrok heteroskedastičnosti.
105
III. DIO
UVOD U ANALIZU VREMENSKIH NIZOVA
III. DIO
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
11.
I
zučavanje pojava koje se mijenjaju, variraju u vremenu seže daleko u povijest. Postoje dokazi o zapažanju kretanja i variranja geofizičkih, astronomskih i društvenih pojava nekoliko stoljeća unazad. Prva tjedna statistička praćenja broja umrlih u Londonu potječu iz 1532. godine. U Francuskoj službena praćenja krštenja, vjenčanja i broja umrlih započinju 1539. godine. Činjenica da sve pojave, u većoj ili manjoj mjeri, evoluiraju i da se mijenjaju u vremenu, kao i sve veći zahtjevi za upoznavanjem i analizom tih pojava, stimulirali su razvoj velikog broja metoda i tehnika. Te su
tehnike i metode u počecima imale za cilj jednostavnu dokumentaciju i opisivanje pojava koje variraju u vremenu. Vremenom, te su se metodologije mijenjale, prilagođavale i razvijale (i još se razvijaju). Danas postoji cijeli niz sofisticiranih metodologija visokog potencijala i širokog dijapazona primjene koje se koriste u analizi vremenskih nizova.
Podaci o pojavama u gospodarstvu, ekonomiji i drugim područjima istraživanja često se prikupljaju kao vremenski nizovi (vremenske serije). Vrijednosti pojave u pravilu se odnose
na jednake vremenske intervale, kao na primjer mjesečne vrijednosti industrijske proizvodnje u Republici Hrvatskoj, ili se odnose na jednako udaljene vremenske točke, na primjer stanje štednih uloga Zagrebačke banke na dan 31. 12. Analiza takvih nizova ukazuje na potrebu definiranja analitičkog izraza ili modela kojim se opisuje mehanizam generiranja vrijednosti pojave (stohastičkog procesa) u vremenu. DEFINICIJA VREMENSKIH NIZOVA
Vremenski niz ili vremenska serija (engl. Time Series) je
skup kronološki uređenih vrijednosti varijable koja predočuje pojavu ili statistički proces u vremenu. Vrijednosti niza nazivaju se članovima niza, a po pravilu se odnose na jednake vremenske intervale ili jednako udaljene vremen ske točke. Broj članova predočava njegovu duljinu. Slika 33:
Primjer vremenskog niza: Broj nezaposlenih osoba u Australiji: veljača 1978-kolovoz 1995 1200000
hi
1000000 800000 le
n s p
o
600000 a z e j
n
400000 o r b
200000 0 1
20
39
58
77
96
1 1 5 13 13 4 1 5 3 1 7 2 1 9 1
mjesec
107
III. DIO UVOD U ANALIZU
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
VREMENSKIH NIZOVA
U vremenskom nizu uređenje numeričkih vrijednosti varijable nije slučajno. Spoznaja važnosti takvog ne slučajnog uređenja, karakteristika je po kojoj se analiza vremenskih serija razlikuje od ostalih statističkih analiza. U vremenskom nizu pretpostavlja se da postoji zavisnost među vrijednostima idućih varijabli te da je ta zavisnost povezana s položajem opažanja u seriji. Istraživanje i modeliranje takve zavisnosti, te njeno korištenje u svrhe predviđanja, predstavljaju ključne elemente analize vremenskih serija. Dinamička struktura vremenskog niza može se istraživati ne temelju jedne jednadžbe ili predmet analize može biti uzročno-posljedična povezanost više vremenskih nizova, koja se provodi na temelju vektorskih modela. CILJEVI ANALIZE VREMENSKIH NIZOVA
Razumijevanje analize vremenskih nizova, zahtijeva prije svega definiranje njenih ciljeva.
Statistička analiza vremenskih nizova ima za cilj uočavanje i definiranje mehanizma koji je niz generirao, opisivanje karakteristika i osobina niza, i svakako predvi đanje evolucije pojave u vremenu.
Cilj analize vremenskih serija je opisivanje razvoja pojave u vremenu, objašnjavanje varijacija pojave te predviđanje buduće razine pojave. Stoga se ciljevi analize vremenskih ciljeva mogu sažeti kao: Opisivanje: sastoji se u sintetičkom opisu kretanja pojave. U te svrhe koristi se grafičko prikazivanje serije u odnosu na vrijeme, odnosno grafikon točaka ( t, yt), t=1,…,n. Iz grafičkog prikaza vremenskog niza moguće je dobiti prve informacije o karakteristikama razmatranog niza; dinamika kretanja niza ili postojanje outliera (stršećih vrijednosti).
Objašnjavanje: Objašnjavanje: svodi se na uočavanje mehanizma koji generira pojavu i odnosa koji povezuju varijable.
Predviđanje: sastoji se u prognoziranju budućeg stanja i kretanja pojave temeljem prošlih Predviđanje: vrijednosti varijabli sa što manjom pogreškom prognoze. Predviđanje zahtijeva postojanje modela koji će opisati vremenski niz. Model (matematički model ili proces) je sustav jednadžbi koji može proizvesti «umjetni» skup podataka vremenskog niza. Osnovni koraci predviđanja su slijedeći: odabir skupine modela vremenskog niza; odabire se onaj model čiji skup
podataka najbolje odgovara empirijskom vremenskom nizu, procjena odabranog modela (unutar skupine), predviđanje određene očekivane vrijednosti budućega ponašanja procijenjenog modela; granice predviđanja su granice intervala povjerenja; ako je model
uspješan, buduća će se vrijednost sa npr. 95% vjerojatnosti, nalaziti u tom intervalu.
Postoji cijeli niz tehnika predviđanja kretanja vremenskog niza: metoda pomičnih prosjeka ( Moving Moving Average Method), metoda eksponencijalnog izglađivanja (Exponential Smoothing Method), Holt-Wintersova metoda eksponencijalnog izglađivanja (Holt-Winters Exponential Smoothing Method), prognoze vremenske serije po metodi dekompozicije-ekstrapolacija trenda i mnoge druge. Prognoziranje putem metode dekompozicije zasnovano je na prilagođavanju određene funkcije vremena podacima i na njenoj ekstra polaciji u
budućnost. Drugim riječima, prognoziranje se temelji na ekstrapolaciji trenda, odnosno na produžavanju funkcije trenda u budućnost. Osnovna pretpostavka prilikom prognoziranja vremenske serije uporabom metode dekompozicije jest da će čimbenici koji su djelovali na razinu serije u prošlosti i sadašnjosti djelovati i u budućem razdoblju 108
III. DIO UVOD U ANALIZU
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
VREMENSKIH NIZOVA
na isti način, približno istim intenzitetom, u istom smjeru i bez značajnijeg utjecaja novih čimbenika. Radi se dakle, o mehaničkoj projekciji ponašanja pojave iz prošlog i sadašnjeg perioda u budućnost.
Filtriranje: svodi se na upotrebu podataka vremenskog niza s ciljem procjenjivanja neopaženih komponenata samog niza. Kontroliranje: analiza vremenskog niza omogućava kontrolu procesa koji generiraju niz. Zadaće statističke analize vremenskih nizova mogu se definirati i kao: deskripcija proteklog razvoja pojave u vremenu, objašnjenje njezine varijacije pomoću drugih pojava, predviđanje i kontrola dinamičkih procesa, testiranje pretpostavki o postavkama gospodarske teorije, objašnjenje varijacije jedne varijable pomoću drugih varijabli, uklanjanje sustavne razvojne komponente (trenda) radi usporedbe kovarijacija različitih
serija (De-Trending), kvantifikacija sezonske komponente i drugih sustavnih komponenti (desezoniranje), kvantitativno ispitivanje gospodarskih ciklusa TE ispitivanje strukturnih promjena.
PODJELA VREMENSKIH NIZOVA
Vremenski nizovi koji se susreću praksi dolaze iz različitih područja ljudskog ili prirodnog djelovanja. Moguća podjela vremenskih nizova s obzirom na područje nastajanja je slijedeća: ekonomski vremenski nizovi, fizički vremenski nizovi, demografski vremenski nizovi, vremenski nizovi koji nastaju kontrolom procesa, vremenski nizovi koji nastaju kontrolom binarnih procesa i vremenski nizovi koji nastaju kontrolom procesa u određenoj točki. S obzirom na obilježja postoje slijedeći vremenski nizovi: opisni vremenski nizovi, redoslijedni vremenski nizovi i numerički vremenski nizovi. Vremenski niz je dakle, slijed vrijednosti varijabli u kojem je svaki podatak združen s
određenim trenutkom ili vremenskim intervalom, pa s obzirom na nastanak postoje: intervalni vremenski niz ( aggregate, flow, accumulate series): vrijednosti pojave zbrajaju se po vremenskim intervalima, posjeduju svojstvo kumulativnosti. Primjer intervalnog vremenskog niza dan je godišnjom finalnom potrošnjom obitelji, godišnja količina izvoza
ili mjesečni broj nezaposlenih osoba kroz vrijeme. trenutačni vremenski niz ( stock series, series of instantaneous values): vrijednosti su kronološki uređene i u vezi s određenim vremenskim točkama. T akvi nizovi ne posjeduju svojstvo kumulativnosti. Primjer trenutačnog vremenskog niza dan je populacijom određenog područja u danoj vremenskoj točci s danom količinom novca prisutnog u ekonomskom sustavu u određenom vremenskom trenutku. Ako se u svakoj pojedinoj vremenskoj točci ili intervalu opaža jedna pojava, vremenski niz koji nastaje zove se univarijatni vremenski niz. Ako se opažaju dvije ili više pojava, dobije se višestruki (multivarijatni) vremenski niz. 109
III. DIO UVOD U ANALIZU
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
VREMENSKIH NIZOVA
Vremenski parametar t, koji definira uređenje podataka u vremenskom nizu pripada skupu T , koji može biti diskretan ili kontinuiran. S obz irom na vremenski parametar niz može biti: diskretan vremenski niz: mjerna varijabla poprima konačan broj vrijednosti, kontinuiran vremenski niz: mjerna varijabla poprima vrijednosti iz nekog intervala.
Slijedeća važna podjela dijeli vremensk e nizova na: determinističke vremenske nizove: nizove: vremenski niz je deterministički ukoliko se razine pojave niza mogu, temeljem njegovih članova, egzaktno predvidjeti; stohastičke (statističke) vremenske nizove: nizove: većina vremenskih nizova je stohastičke prirode, što znači da se buduća stanja pojave mogu tek procijeniti, a ne egzaktno predvidjeti. Postoje još i: izvorni vremenski nizovi: vrijednosti takvog niza izražene su u izvornim jedinicama , i izvedeni vremenski nizovi: članovi takvog niza dobiju se brojčanim operacijama n ad vrijednostima izvornog niza ili više njih. S obzirom na domenu analize, vremenski nizovi dijele se na: modele u vremenskoj domeni: polaze od klasične podijele vremenskog niza ili dolaze iz skupine linearnih stohastičkih modela, koji se odnose na stacionarne procese;
vremenska je serija stacionarna ako ne sadrži trend komponentu (razina pojave ne mijenja se s vremenom), ako u nizu nisu prisutne striktno periodične varijacije, te
ako mu varijanca ne ovisi o vremenu. modele u domeni frekvencija (spektralni modeli): opisuju podjelu varijance stacionarnog
stohastičkog procesa. GRAFIČKO PRIKAZIVANJE VREMENSKE SERIJE
Cilj grafičkog prikaza vremenske serije jest njen vizualni pregled. Na osnovu grafičkog prikaza vremenske serije može se zaključiti da li vremenska serija pokazuje tendenciju rasta ili pada, da li postoje izražene sezonske varijacije i da li je karakterizi rana nestabilnom varijancom. Da bi se uočila prisutnost nestandardnih opažanja korisno je da se prikaže i prva diferencija date serije. Prema grafikonu prve diferencije jednostavnije je primijetiti da li se pojavljuju podaci koji nisu suglasni s prethodnim tijekom vremenske serije.
Intervalni vremenski nizovi prikazuju se površinskim i linijskim grafikonima, trenutačni vremenski nizovi linijskim grafikonima. Usporedba dvaju ili više vremenskih nizova na istom grafikonu moguća je ako su vrijednosti nizova izražene u istim mjernim jedinicama, u protivnome konstruira se polulogaritamski grafikon. Za prikazivanje sezonskih pojava
koriste se i polarni dijagrami. Osim grafičkog prikaza korisne informacije dobiju se izračunom sredine niza te analizom varijacija. PRISTUPI ANALIZI VREMENSKIH SERIJA
Metode analize vremenskih serija mogu se podijeliti na kvalitativne i kvantitativne. Kvalitativni modeli koriste se kada podaci o nekoj pojavi nisu dostupni ili se ne mogu
kvantificirati. Zasnivaju se na procesu usklađivanje mišljenja stručnjaka. Jedna od najpoznatijih kvalitativnih metoda analize vremenske serije je Delphi metoda. Nasuprot kvalitativnim metodama, preduvjeti primjene kvantitativnih metoda su, prije svega,
da se informacije o pojavi koju analiziramo mogu kvantificirati, da su podaci u prošlom i sadašnjem periodu dostupni i da oslikavaju pravu prirodu promatrane pojave. Pr imjena kvantitativnih metoda zasniva se na općoj pretpostavci da će se pojava u budućnosti ponašati na približno isti način kao i u prošlom periodu. Sve kvantitativne metode mogu se svrstati u dvije osnovne skupine: 110
III. DIO UVOD U ANALIZU
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
VREMENSKIH NIZOVA
metode statističke analize vremenskih nizova i kauzalne (uzročne) metode. S obzirom na navedenu podjelu postoje dva osnovna pristupa analizi vremenskih nizova:
statistički (klasični, tradicionalni) i ekonometrijski (moderni, kauzalni).
Metode statističke analize vremenske serije, odnosno statistički pristup orijentirane su na analizu osnovnih karakteristika pojedinačne vremenske serije i na prognoziranje njenih budućih vrijednosti isključivo na osnovi vrijednosti iz prošlog i sadašnjeg perioda. U ovu grupu metoda spadaju metode dekompozici je, je, različite metode izglađivanja i Box-Jenkinsvoa metoda. Kauzalne metode (ekonometrijski pristup) spadaju u domenu regresijske analize vremenskih serija.
Opći stohastički model koji opisuje proces koji generira podatke vremenskog niza se odnosi na varijablu Y dan je funkcijom:
=
koji
(137)
Pretpostavlja se da se dani vremenski niz sastoji iz: (a) determinističkog dijela f (t) koji predstavlja sustavni dio niza i (b) slučajnih varijabliut koje predstavljaju stohastički dio niza i ponašaju se prema
određenom zakonu vjerojatnosti. Klasični (statistički) pristup analizi vremenskih nizova pretpostavlja da postoji «zakon vremenske evolucije» pojave predstavljen sa f(t). Slučajna varijabla ut predstavlja skup varijabli ne zamjetne vrijednosti koje se ne žele ili se ne mogu explicite promatrati u Y t. Reziduali od Y t koji nisu objašnjeni sa f(t) smatraju se stoga slučajnima i definiraju se kao slučajne pogreške. Stohastički promatrajući, to je ekvivalentno hipotezi da je stohastička komponenta modela generirana procesom bijeloga šuma (white-noise procesom), odnosno slijedom slučajnih varijabli, jednako distribuiranih, nezavisnih, s očekivanjem 0 i konstantnom varijancom. Takav proces, sintetički notiran sa i ima:
~0, 0 ∀∀ , 0 ∀ , , ≠
(138)
(139)
Dakle, u klasičnom pristupu analizi vremenskih nizova pažnja se poklanja determinističkoj komponenti f(t), dok se (u ) t) zanemaruje smatrajući se procesom nekoreliranih komponenti. U
klasičnom pristupu koriste se metode raščlambe vremenskog niza na komponente. U modernom pristupu analizi vremenskih nizova pretpostavlja se da f(t) nedostaje ili je već ranije procijenjena. Pažnja se posvećuje stohastičkoj komponenti modela (u ) t) za koju se pretpostavlja da je proces sa koreliranim komponentama tipa ut Y t 1, Yt-2 ,... t 1 , t 2 ,... t
kojeg treba analizirati adekvatnim statističkim metodama. Navedeni pristup polazi od pretpostavke da je vremenska serija konačna realizacija stohastičkog procesa. Uvodi se tako stohastička (vjerojatnosna) komponenta koja omogućava formalizaciju inferencij alne sheme u temelju opažanih podataka. Moderni pristup služi se modelima za analizu empirijskih vremenskih nizova. Primjena modela vremenskih serija je dvostruka: 111
III. DIO
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
(a) razumjeti mehanizam i strukturu veza koji generiraju vremenski niz te (b) prilagoditi model te ga koristiti za predviđanje, praćenje ili kontroliranje vremenskog niza. KOMPONENTE VREMENSKOGNIZA – KLASIČNA DEKOMPOZICIJA VREMENSK OGA NIZA
Modeliranje vremenskih serija temelji se na raščlambi serije na komponente koje pokazuju specifične oblike kovarijacija pojave s vremenom. Klasična metoda dekompozicije vremenskih serije polazi od pretpostavke da na razvojnu komponentu vremenske serije
određeni čimbenici utječu postojano u određenom pravcu, dok ostali čimbenici uzrokuju odstupanja od te osnovne putanje serije. Tradicionalno se za vremenske nizove ekonomskih pojava generiranih funkcijom Y t f ( t ) u t
pretpostavlja da je njihov sistematski dio f(t) rezultat djelovanja slijedećih komponenata: komponente trenda sezonske komponente komponente ciklusa Na razvoj vremenske serije utječu i nesistematski čimbenici, pa se uz sistematske komponente pojavljuje i stohastička (iregularna, slučajna komponenta) komponenta) koja predstavlja slučajnu varijablu
određenih svojstava. Komponenta trenda pokazuje dugoročni tijek razvoja pojave u vremenu. Izražava se funkcijom
vremena, a prema obliku funkcije trend može biti: linearni, parabolični, eksponencijalni. Trend se obično očituje kao posljedica promjene u razini prihoda, populacije, tehnologijama ili kulturnih običajima. Slika 34: Broj noćenja, kućanstva- sobe, apartmani, kuće za odmor, seoska kućanstva, 2001-2011 30000 20000 10000 0 2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Sezonska komponenta očituje se u obnavljanju pojave unutar jedne godine, a pojavljuje se kao posljedica klimatskih uvjeta, društvenih faktora, proizvodnih ciklusa i td. Slika 35: Broj turista u Hrvatskoj: siječanj 2003- siječanj 2011. 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
I 3 0 0 2
I V 3 0 0 2
I X 3 0 0 2
V I 4 0 0 2
X I 4 0 0 2
I I 5 0 0 2
I I V 5 0 0 2
I I X 5 0 0 2
V 6 0 0 2
X 6 0 0 2
I I I 7 0 0 2
I I I V 7 0 0 2
I 8 0 0 2
I V 8 0 0 2
I X 8 0 0 2
V I 9 0 0 2
X I 9 0 0 2
I I 0 1 0 2
I I V 0 1 0 2
I I X 0 1 0 2
112
III. DIO
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
Ciklična komponenta pokazuje obnovljeno kretanje pojave u vremenu od dvije ili više godina. Teže se identificira od komponente trenda te je stoga i teže predvidiva. Na relativno kratkom vremenskom intervalu ona se teško identificira pa se kod kratkih vremenskih serija ne razdvaja od komponente trenda. Iregularna ili slučajna ili rezidualna komponenta izražava nesistematske utjecaje na razvoj
pojave, a predstavlja varijaciju u podacima ili nastaje zbog nepredvidljivih događanja kao što su štrajkovi, nevremena, politički nemiri, poplave, potresi i sl. Kratkog je trajanja, ne ponavlja se, ne prati određene zapažene zakonitosti te je stoga teško predvidiva. MODELI VREMENSKIH NIZOVA KOJI POLAZE OD STANDARDNE DEKOMPOZICIJE
Modeli služe za opisivanje evolucije pojave u vremenu, odnosno prikazivanje zavisnosti tekuće vrijednosti pojave o njezinim proteklim vrijednostima te o tekućim i proteklim vrijednostima slučajne varijable. Usporedo se analizira i autokorelacijska struktura (stupanj i smjer međusobne zavisnosti članova vremenskog niza razmaknutih za jedno ili više vremenskih razdoblja).
Klasična raščlamba empirijskih vremenskih nizova temelji se na pretpostavci da se svaki vremenski niz može predočiti kombinacijom pojedinih komponenti vremenske serije. Stoga, u pogledu djelovanja komponenti na kretanje vremenske serije razlikuju se tri osnovne grupe modela: aditivan multiplikativan
mješoviti (pseudoaditivan)
ADITIVNI MODEL
Opći oblik aditivnog modela je: gdje je:
(140)
je empirijska serija, Y je vrijednost trenda, T vrijednost C vrijednost cikličke komponente, S vrijednosti sezonske komponente i slučajna varijabla. Sve su komponente izražene u istim mjernim jedinicama kao i vrijednosti serije Y t. Trend i ciklus komponenta često se ne razdvajaju pa se govori o jedinstvenoj trend-ciklus komponenti, a takav se model predočuje izrazom
odnosno
(141) (142)
u kojem T predstavlja trend-ciklus komponentu.
Pri primjeni aditivnog modela pretpostavlja se da sezonska i iregularna komponenta ne zavise o trendu, da se amplituda sezonskih varijacija ne mijenja s vremenom te da je tijekom godine prosjek sezonskih fluktuacija jednak nuli. Dakle, aditivni model pogodan je za analizu vremenskih nizova čije se amplitude sezonskih varijacija ne mijenjaju s vremenom. 113
III. DIO
11. Poglavlje: Temeljni pojmovi analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
MULTIPLIKATIVNI MULTIPLIKATIVNI MODEL
Multiplikativni model karakterističan je po tome što su komponente faktori umnoška, a u općem obliku model glasi:
∙ ∙ ∙
(143)
Ako vremenski niz sadrži sve pozitivne vrijednosti multiplikativni model se može logaritamskom transformacijom prevesti u aditivni model (log-aditivni) oblika (144)
U ovom je modelu samo komponenta trenda izražena u mjernim jedinicama pojave Y t. Ostale su komponente dane u relativnom iznosu (indeksi nepomnoženi sa sto). Dekompozicija predočena multiplikativnim modelom oslanja se na pretpostavke da je amplituda sezonske komponente upravno proporcionalna razini trenda (povećava li se trend, povećava se i amplituda sezonske komponente, i obrnuto), te da je varijanca iregularne komponente upravno proporcionalna veličini trend-ciklus i sezonske komponente. Multiplikativni model se koristi kada se amplitude sezonskih varijacija
povećavaju ili smanjuju proporcionalno s vremenom što je karakteristika većine vremenskih serija u ekonomiji. Multiplikativni, odnosno log-aditivni model ne može se primijeniti ukoliko serija sadrži 0 ili negativne vrijednosti, u kojem se slučaju kao alternativan rabi pseudoaditivni model. PSEUDOADITIVNI MODEL
Pseudoaditivni model predstavlja kombinaciju aditivnog i multiplikativnog modela. Pretpostavka njegove prim jene je da su sezonska i iregularna komponenta međusobno
nezavisne, ali da obje zavisne o trendu. Opći oblik mješovitog modela je odnosno
1 1 1
(145) (146)
U navedenom modelu vrijednosti varijable Y jesu vrijednosti serije, T je komponenta trend-
ciklus koja je izražena u mjernim jedinicama vrijednosti niza, a sezonska i iregularna komponenta izražene su kao koeficijenti umnoška (varijabilnost izražena u relativ nom iznosu). Uz trend (trend- ciklus) komponentu, u model se kadšto uvodi i komponenta koja izražava varijacije kalendarski varijacija istoimenih vremenskih jedinica (mjeseci, kvartali) re raspored nacionalnih praznika.
114
III. DIO
12. Odabrani modeli vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
etoda dekompozicije polazi od pretpostavke da pojava slijedi jedan isti obrazac ponašanja tijekom vremena. Nakon definiranja osnovnih komponenti vremenske serije pristupa se njihovoj procjeni.
MODELI TRENDA
Modelima trenda statistički se opisuje dugoroč na kovarijacija pojave s vremenom. Ako se pretpostavi da serija ne sadrži periodične komponente, model trenda u općem obliku je : aditivni: multiplikativni:
gdje je
~0, .
∙
je pojava predočena vremenskom serijom, T komponenta trenda predočena nepoznatom funkcijom vremena , a ε su nepoznata slučajna odstupanja od trenda s obilježjima slučajnih varijabli. Pretpostavi li se da se parametri u modelima trenda ne mijenjaju s vremenom, riječ je o globalnom, odnosno determinističkom modelu trenda. Lokalnom modelu trenda svojstvena je promjenjivost parametara. U sklopu analize vremenskih serija uvodi se i specifičan model trenda koji se naziva stohastičkim trendom. U navedenim izrazima
U praksi je relativno česta upotreba linearnog trenda, eksponencijalnog trenda te nekih asimptotskih modela. Njihova se analiza provodi metodama regresijske analize. Model trend polinoma K-tog stupnja je oblika:
= … exp exp =
(147)
a model eksponencijalnog trenda:
odnosno:
(148) (149)
Exp označava bazu prirodnog logaritma. Eksponencijalni modeli trenda lineariziraju se
logaritamskom transformacijom radi pojednostavljenja numeričke analize. Oblici modela trenda iz navedenih skupina i skupine asimptotskih modela koji se relativno često primjenjuju dani su sljedećoj tablici.
115
III. DIO
12. Odabrani modeli vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
Tablica 29: Oblici modela trenda NAZIV MODELA
OBLIK TRENDA
Model linearnog trenda (model trend polinoma prvog stupnja)
Parabolični trend drugog stupnja Eksponencijalni trend (jednostavni) Eksponencijalni trend- složeni, logaritamska logaritamska parabola Modificirani eksponencijalni trend Gompertzov trend
Logistički trend
+ +, +, ++, + , , 0 < < 1 ,0 <<1, , 0 < < 1 1 ,0 < < 1, 1⁄ 1,2,2,… ,
U navedenim izrazima su vrijednosti vremenske serije, je varijabla vrijeme koja odgovorno poprima vrijednosti prvih n prirodnih brojeva , su vrijednosti slučajne varijable e, a α, β, β 1 su parametri. Izbor tipa modela zavisi o danom
slučaju primjene. Izbor trenda proizlazi iz kvalitativne analize, grafičkog prikaza serije, analize prvih ili viših diferencija originalnih ili logaritamskih vrijednosti serije te statističkoanalitičkih postupaka. Numerička analiza modela obuhvaća procjenu nepoznatih parametara, određivanje pokazatelja reprezentativnosti i ispitivanje kvalitete modela. Pretpostavi li se da će trend biti postojan i u prognostičkom horizontu, model s procijenjenim parametrima može se iskoristiti u prognostičke svrhe. Kadšto trend komponentu valja ukloniti kako bi se mogao primijeniti odgovarajući model. Trend komponenta uobičajeno se otklanja pomoću diferencija serije, diferencija vrijednosti logaritama ili drugih prikladno transformiranih vrijednosti serije. Može se pokazati da se prvim diferencijama odstranjuje linearni trend, drugim diferencijama trend polinom drugog stupnja, odnosno opć enito k-tim diferencijama eliminira se trend polinom k-tog stupnja. Diferencijama logaritama eliminira se eksponencijalni trend. Uklanjanje trend komponente provodi se i tako da se od vrijednosti vremenske serije oduzmu vrijednosti trenda izračunate na tem elju modela trenda s
procijenjenim parametrima. U tom je slučaju izvedena serija jednaka seriji rezidualnih odstupanja. ODABIR TIPA FUNKCIJE TRENDA
Analizi trenda prethodi utvrđivanje oblika funkcije vremena. Prvi korak u analizi determinističkog trenda jest ispitati da li vremenska serija uopće posjeduje izraženi trend. Nakon toga, ako trend postoji, ispituje se koja se funkcija trenda najbolje prila gođava empirijskim podacima. Izbor funkcije trenda podrazumijeva odabir linearne, parabolične, eksponencijalne ili neke druge nelinearne funkcije koja najbolje odgovara vremenskoj seriji. funkcije trenda. Neke o od tih metoda Postoji više metoda kojima se vrši ispi tivanje odabira funkcije su: grafičko prikazivanje, metoda diferencija, s rednja kvadratna pogreška, te metoda
pomičnih prosjeka. 116
III. DIO UVOD U ANALIZU
13. Metode izglađivanja vremenskoga niza
VREMENSKIH NIZOVA
Đ
etode izglađivanja omogućavaju analizu osnovne tendencija vremenskog niza, ali imaju i široku primjenu u prognoziranju kretanja njegovih budućih vrijednosti. Dvije najjednostavnije metode izglađivanja vremenskoga niza jesu metoda pomičnih prosjeka i metoda eksponencijalnog izglađivanja. 13.1. METODA POMIČNIH PROSJEKA
Metoda pomičnih prosjeka spada među metode izglađivanja koje omogućavaju analizu osnovne tendencija vremenske serije, ali imaju i široku primjenu u prognoziranju budućih vrijednosti same serije. Tom se metodom slučajna odstupanja u podacima ublažavaju njihovim svođenjem na prosjek, s ciljem da se na tako izglađenim podacima prepozna pravilno ponašanje na temelju kojeg se može izvesti prognoza. To se postiže tako da se točne vrijednosti iz vremenskog niza zamjenjuju prosjekom te vrijednosti i nekoliko susjednih
vrijednosti. Serija pomičnih prosjeka je zapravo serija aritmetičkih sredina. Ova je metoda korisna ukoliko se može pretpostaviti da će potražnja na tržištu ostati stabilna tijekom vremena, te se koristi kada je trend komponenta mala ili je uopće nema. Pomični prosjeci su aritmetičke sredine M uzastopnih vrijednosti članova vremenske serije (M
broj turista 2000000
pomični prosjeci m=3
1500000
pomični prosjeci m=6
1000000
pomični prosjeci m=12
500000 0 1 5 9 13 1 7 21 21 2 5 29 29 3 3 37 37 4 1 45 45 4 9 53 53 5 7 61 61 6 5 69 69 7 3 77 77 8 1 85 85 8 9 93 93
Razlikuju se j ednostavni pomični prosjeci od vaganih pomičnih prosjeka.
117
III. DIO
13. Metode izglađivanja vremenskoga niza
UVOD U ANALIZU VREMENSKIH NIZOVA
JEDNOSTAVNI JEDNOSTAVNI POMIČNI POMIČNI PROSJECI PROSJECI
Jednostavni pomični prosjeci jednostavne su aritmetičke sredine M uzastopnih vrijednosti članova vremenske serije. Ako je broj članova pomičnog prosjeka neparan, to jest M=2m+1, računaju se pomoću izraza:
1 ∗ =− + , 1, 2, … , ∗
(150)
su vrijednosti pomičnih prosjeka, a vrijednosti članova serije. Vrijednost prosjeka pridružuje se razdoblju središnjeg člana pomičnog prosjeka. Kada je broj članova pomičnog prosjeka M paran broj, to jest M=2m, provodi se postupak centriranja. Centrirani prosjeci računaju se u obliku dvostrukih pomičnih prosjeka, to jest određivanjem jednostavnih pomičnih po mičnih prosjeka od prethodnih pomičnih prosjeka prosjek a od po dva člana. Formula je za izravno računanje centriranih prosjeka: U navedenom izrazu
− 1 1 ∗ 2 − =−− + 12 +,, 1, 2,… ,
(151)
Za prvih m i posljednjih m razdoblja ne mogu se izračunati vrijednosti pomičnih prosjeka. S
obzirom na to da su jednostavni pomični prosjeci nevagane aritmetičke sredine, svaka vrijednost serije ima jednak ponder.
VAGANI POMIČNI PROSJECI Kada je u vremenskoj seriji prisutan trend ili neka druga zakonitost, koriste se težinski
faktori, ponderi, tako da se jači naglasak stavi na svježije podatke, a stariji se podaci smatraju manje važnima. Vagani pomični prosjeci jesu vagane aritmetičke sredine M uzastopnih vrijednosti članova serije, to jest:
∗ =− +, 1, 2,… ,
(152)
U vaganom pomičnom prosjeku značaj jednog člana niza određen je njegovim ponderom. Ponderi su obično unaprijed poznati i tabelirani. Oni su simetrični u odnosu na središ nji, a njihov je zbroj jednak nuli. Ponderi određuju se na različite načine. Uobičajena je primjena modela lokalnog trenda, odnosno pomičnog regresijskog modela. Postupak se sastoji u tome da se najprije odredi jednadžba trend polinoma određenog stupnja na temelju prvih M=2m+1 vrijednosti članova serije. Pomoću te jednadžbe izračuna se vrijednost trenda za (m+1) točku ili se, što je isto, odredi vrijednost trenda za središnje razdoblje od M razdoblja. Slijedi određivanje trend polinoma istog stupnja za sljedeću skupinu od M uzastopnih članova (bez prvog člana niza, a s uključenim M+1 članom) te računanje vrijednosti trenda središnjeg razdoblja. Postupak se nastavlja sve do posljednje skupine od M=2m+1 člana. Vrijednosti trenda ekvivalentno se određuju u obliku linearne kombinacije koeficijenata i odgovarajućih vrijednosti članova serije. Koeficijenti ili, što je isto, ponderi izvode se iz normalnih jednadžbi lokalnih polinom trenda. Postojani su i tabelirani za dano M i K
(stupanj polinoma). Za koeficijente kojima se ponderiraju vrijednosti serije uzimaju se
katkada binomni koeficijenti, ili su to vrijednosti prvih M prirodnih brojeva, pri čemu je najveći ponder za M-tu vrijednost serije i sl. Nad pomičnim prosjecima provode se različite operacije. Primjerice, računaju se višestruki prosjeci (prosjeci prosjeka), pomični se prosjeci zbrajaju i računaju njihovi prosjeci itd. 118
III. DIO UVOD U ANALIZU
13. Metode izglađivanja vremenskoga niza
VREMENSKIH NIZOVA
Postoje pomični prosjeci specifičnih svojstava. Takvi su Hendersonovi i Spencerovi pomični prosjeci. Riječ je o pomičnim prosjecima sa simetričnim ponderima kojima se aproksimira polinom trenda drugoga i trećega stupnja. Osim u brojčanom opisivanju tendencije razvoja, uporaba pomičnih prosjeka važna je u postupcima analize sezonskih (cikličkih) pojava. Pomičnim prosjecima izražava se komponenta trenda. Ako je broj članova jednostavnog pomičnog prosjeka jednak periodu obnavljanja ili višekratniku tog perioda, niz pomičnih prosjeka neće biti periodičan. Tom operacijom u cijelosti se odstranjuje periodična komponenta. Osim u brojčanom opisivanju tendencije razvoja, uporaba pomičnih prosjeka važna je u postupcima analize sezonskih (cikličkih) pojava. Pomičnim prosjecima izražava se komponenta trenda. Ako je broj članova jednostavnog pomičnog prosjeka jednak periodu obnavljanja ili višekratniku tog perioda, niz pomičnih prosjeka neće biti periodičan. Tom operacijom u cijelosti se odstranjuje periodična komponenta. I jednostavni i vagani pomični prosjeci efektivni su u izglađivanju iznenadnih fluktuacija u dijagramu potražnje kako bi se jamčile stabilne prognoze. Ipak kod pomičnih prosjeka postoje tri problema:
Povećanje veličine n (broj uprosječenih razdoblja) bolje izglađuje fluktuacije, no čini metodu manje osjetljivom na realne promjene podataka.
Pomični prosjeci dovoljno dobro ne osjećaju trend. Naime, budući da se radi o prosjecima, uvijek ostaju unutar prošlih razina i ne predviđaju promjene u pravcu viših ili nižih razina, stoga zaostaju za stvarnim vrijednostima. Zahtijevaju značajnu količinu povijesnih podataka.
13.2. METODA EKSPONENCIJALNOG EKSPONENCIJALNOG IZGLAĐIVANJA
Metoda eksponencijalnog izglađivanja srodna je metodi pomičnih prosjeka. Radi se o metodi koja koristi trenutačne i prošle vrijednosti vremenskoga niza za predviđanje njegovih budućih vrijednosti. Vrijednosti serije izglađuju se ponderiranjem članova niza nejednakim ponderima. Izglađena vrijednost tekućeg razdoblja t vagana je sredina vrijednosti prethodnih razdoblja. Eksponencijalno izglađivanje može biti jednostavno ili višestruko. S obzirom na komponente koje sadrži vremenska serija primjenjuju se različite metode eksponencijalnog izglađivanja. Sljedeća tablica prikazuje odabir metode eksponencijalnog izglađivanja s obzirom na komponente vremenske serije. Tablica 30: Modeli eksponencijalnog izglađivanja
Jednostavno eksponencijal eksponencijalno izglađivanje (Single Exponential Smoothing, SES)
Dvostruko eksponencijalno izglađivanje i zglađivanje (Double Exponential Smoothing, DES) Trostruko eksponencijalno izglađivanje (Triple Exponential Smoothing, TES ) Holt-Wintersovi aditivni i multiplikativni modeli
Stacionarni vremenski niz (prisutna samo iregularna komponenta) Prisutna trend komponenta Prisutne trend i sezonska s ezonska komponenta
Jednostavno eksponencijalno izglađivanje koristi se za prognozirane budućih razina pojave kod stacionarnih vremenskih nizova, dvostruko eksponencijalno izglađivanje primjereno je kod vremenskih nizova s izraženom trend komponentom. Trostruko eksponencijalno 119
III. DIO
13. Metode izglađivanja vremenskoga niza
UVOD U ANALIZU VREMENSKIH NIZOVA
izglađivanje može se koristiti kod vremenskih nizova koji pokazuju trend, ali i sezonsku komponentu. Ako vremenska serija sadrži trend, izglađene vrijednosti dobivene jednostavnim eksponencijalnim izglađivanjem sistematski će precjenjivati ili podcjenjivati razinu pojave. Zbog toga se u slučaju prisutnosti trenda rabi model dvostrukog, trostrukog odnosno višestrukog eksponencijalnog izglađivanja. JEDNOSTAVNO JEDNOSTAVNO EKSPONENCIJA EKSPONENCIJALNO LNO IZGLAĐIVANJE IZGLAĐIVANJE
Postupak jednostavnog eksponencijalnog izglađivanja svodi se na izračunavanje vagane sredine sadašnjih i ranijih vrijednosti, pri čemu vrijednost tekućeg razdoblja ima najveći ponder. Vrijednosti pondera proteklih razdoblja smanjuju se eksponencijalno. Opći izraz za izračunavanje izglađenih vrijednosti je:
∗ 1 ∗ −∗ , 0 < < 1 0 < < 1 ∗ 1 1 − 1 − ⋯ ⋯1
(153)
vrijednost serije razdoblja t, eksponencijalno izglađena vrijednost razdoblja t, α . Uzastopnom supstitucijom navedeni izraz postaje: je konstanta izglađivanja, gdje je
,
(154)
Budući da je konstanta izglađivanja broj između nule i jedan, vidljivo je da se ponderi vrijednosti članova serije eksponencijalno smanjuju. U postupku je potrebno odrediti konstantu izglađivanja i izglađenu vrijednost nultog razdoblja (inicijalne vrijednosti). Konstanta izglađivanja obično se određuje iterativnim postupkom (vrijednosti se mijenjaju u koracima 0,1, 0,01 i sl., a za svaku se vrijednost izračuna veličina pogreške). Odgovarajuća je veličina konstante izglađivanja ona za koju je pogreška najmanja. Za izglađenu vrijednost nultog razdoblja često se uzima da je ta vrijednost jednaka prvoj vrijednosti serije. Model eksponencijalnog izglađivanja predstavlja model „zaborava prošlosti“. Ponderi čine eksponencijalno opadajući niz, na način da kronološki posljednja vrijednost u nizu ima najveći ponder u formiranju prognostičke vrijednosti. Što je vrijednost niza udaljenija od vremena za koje se prognozira, to je njen utjecaj na prognostičku vrijednost manji. Prognostičke vrijednosti za jedno razdoblje nakon tekućega (jedno razdoblje unaprijed), unutar vremenske serije utvrđuju se izrazom:
α
gdje je
+ ∙ 1 , 0 < < 1
(155)
konstanta izglađivanja prognostička vrijednost za prvo razdoblje, inicijalna prognostička vrijednost (najčešće je jednaka prvoj stvarnoj vrijednosti ili aritmetičkoj sredini vremenske serije)
WINTERSOV MODEL EKSPONEN EKSPONENCIJALNOG CIJALNOGA A IZGLAĐIVANJA IZGLAĐIVANJA HOLT- WINTERSOV Holt-Wintersov model eksponencijalnog izglađivanja za pojave s trendom ima slijedeći oblik:
∗ ∗ 1∗ 1 −∗ − <α<1,− 0<β<1 −
(156) (157)
0
gdje je:
∗
α i i β
stvarna razina pojave u vremenu t
izglađena vrijednost procjena utjecaja trenda
konstante izglađivanja 120
III. DIO
13. Metode izglađivanja vremenskoga niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Da bi se proveo postupak izglađivanja, potrebno je utvrditi inicijalne vrijednosti za razinu pojave i efekta trenda te konstante izglađivanja. Da bi se proveo postupak izglađivanja, potrebno je utvrditi inicijalne vrijednosti za razinu pojave i efekta trenda te konstante
izglađivanja. Taj se izbor provodi na različite načine. Primjerice, za razinu pojave nultog razdoblja uzima se konstantni član u jednadžbi linearnog trenda, a za efekt trenda toga razdoblja koeficijent uz varijablu vrijeme. Inicijalne se vr ijednosti kadšto određuju i ovako: izglađena vrijednost drugoga razdoblja jednaka je vrijednosti drugog člana serije, to jest . Za procjenu početne vrijednosti efekta trenda uzima se diferencija druge i prve
∗
vrijednosti niza, odnosno
.
Konstante izglađivanja određuju se od slučaja do slučaja, pri čemu se polazi od različitih kriterija, kao što je primjerice, srednje apsolutno odstupanja stvarnih od izglađenih vrijednosti. Odabire se za konstantu za koju je to odstupanje najmanje.
Pri primjeni metoda eksponencijalnog izglađivanja potrebno je donijeti različite odluke koje se ne oslanjaju samo na poznavanje općih svojstava metoda već i svojstava serije. Na odluku o broju članova pomičnog prosjeka (M) i njegovu obliku utječe priroda pojave koju serija predočuje. Međutim, ne postoje egzaktni egzaktni kriteriji koji omogućuju izbor tih veličina. Broj članova pomičnog prosjeka ovisi o stupnju varijabilnosti i o namjeni prosjeka. S povećanjem stupnja varijabilnosti potrebno je, u načelu, povećati i broj članova prosjeka. Odstranjuje li se periodična komponenta, broj članova pomičnog prosjeka jednak je periodu obnavljanja pojave. Iskoristi li se izglađena serija u drugim postupcima, primjerice u regresijskog analizi, trena imati na umu da serija pom ičnih prosjeka može očitovati osobitosti koje nisu svojstvene izvornoj seriji (periodičnost, autokorelacija). Stanovitu poteškoću čini i nedostatka vrijednosti pomičnih prosjeka na početku i na kraju serije. Kada je riječ o modelima eksponencijalnog izglađivanja, valja istaknuti problem izbora konstanti izglađivanja i odgovarajućih inicijalnih vrijednosti u postupku. Metode izbora konstanti i inicijalnih vrijednosti nisu jedinstvene, a o njima ovise rezultati izglađivanja. Primjenom različitih algoritama, kadšto se dobivaju rezultati koje se znatno razlikuju. Metode pomičnih prosjeka eksponencijalnog izglađivanja primjenjuju se na modificirani način u prognostičke svrhe. 13.3. METODE ANALIZE ANALIZE SEZONSKIH SEZONSKIH POJAVA POJAVA
Sezonske su periodične pojave one koje se obnavljaju na isti ili približno isti način s periodom od jedne godine. Temelj su numeričke analize modeli koji polaze od dekompozicije serije na trend-cikličnu, sezonsku i iregularnu komponentu. Kako je već navedeno, u analizi se uobičajeno polazi od aditivnog modela, multiplikativnog modela i njegova lineariziranog (logaritamskog) oblika ili od pseudoaditivnog modela. U općem su obliku ti modeli: (1) (2) (3)
,,,
∙ ∙, 1 ,
,
.
U navedenim izrazim a Y predočuje vrijednosti vremenske serije, T trend -ciklus komponentu, , vrijednosti iregularne (slučajne) komponente. Uz komponentu trenda (trend -ciklus) i iregularnu komponentu u model se kadšto uvodi i komponenta koja izražava varijacije is tih vremenskih jedinica (mjeseci, kvartali) te raspored nacionalnih praznika.
Dva su temeljna pristupa analizi sezonskih pojava. Prvi se pristup sastoji u raščlanjivanju sezonske pojave na komponente pomoću pomičnih prosjeka (filtriranje, ad hoc pristup) i u 121
III. DIO UVOD U ANALIZU
13. Metode izglađivanja vremenskoga niza
VREMENSKIH NIZOVA
osnovi ima obilježja neparametarske statistike. Drugi se pristup oslanja na modele u kojima se analitički izražavaju komponente serije (trend, sezonska, iregularna), odnosno definira model stohastičkog procesa koji generira seriju. Postoji više metoda analize sezonskih pojava u sklopu navedenih pristupa. Relativno je jednostavna metoda odnosa prema pomičnim prosjecima, zatim regresijski model sa sezonskim indikator-varijablama. Posebno je raširena CENSUS metoda i njene varijante, primjerice X-12 ARIMA, koju rabi veći broj državnih zavoda za statistiku, te TRAMO/SEATS, STAMP i druge.
Svrha je analize sezonskih pojava izmjeriti sezonski utjecaj i veličine drugih prisutnih komponenti te analitički (modelom) izraziti njihov razvoj. Postupci desezoniranja pruž aju važne informacije za prosudbu gospodarskih kretanja, odnosno za vođenje poslovne i gospodarske politike. S obzirom na to da različite metode analize sezonskih pojava često daju različite rezultate, nužno je poznavati temelje svake od njih i osobitosti analiziranih pojava kako bi se prosudila kvaliteta dobivenih statističkih pokazatelja. Metoda odnosa prema pomičnim prosjecima uobičajeno polazi od multiplikativnog modela
∙ ∙
. U navedenom izrazu T je vrijednost trenda, rezidualnih odstupanja.
je sezonski faktor, a
faktor
Prvi se korak u analizi navedenog modela metodom odnosa prema pomičnom prosjeku sastoji u procjeni trend komponente vrijednostima pomičnih prosjeka . Za kvartalne podatke, određuju se vrijednosti četveročlanih centriranih pomičnih prosjeka. U drugom koraku izračunavaju se prve procjene sezonskih faktora. One su dane omjerima . odgovarajućih vrijednosti serije i pripadajućih pomičnih prosjeka, to jest
∗
̃ ⁄∗
Procjene sezonskih faktora istih mjeseci (kvartala) variraju. Da bi se dobio sezonski faktor (konstanta) za svaki mjesec ili kvartal valja odrediti prosječnu vrijednost prvih procjena sezonskih faktora istih mjeseci (kvartala). Za prosjek se uzima medijan, modificirana
aritmetička sredina (isključuju se najmanja i najveća vrijednost) ili jednostavna aritmetička sredina. Zbroj sezonskih faktora mora biti jednak 4 odnosno 12. U protivnome, navedene prosjeke istoimenih kvartala (mjeseci) valja korigirati, to jest njihov zbroj svesti na 4 odnosno 12.
⁄
Treći se korak sastoji u izračunavanju vrijednosti očišćenih od sezonskih utjecaja. Taj se postupak provodi dijeljenjem vrijednosti serije sa sezonskim faktorima, odnosno
.
Četvrti korak u analizi odnosi se na izračunavanje rezidualnih faktora. Oni se određuju tako da se desezonirane vrijednosti pojave podijele s pomičnim prosjecima kao procjenama trenda, to jest . Rezidualni faktori pomnoženi sa sto nazivaju se indeks ima
⁄∗
rezidualnih odstupanja.
Metoda X-12-ARIMA ubraja se među filtarske metode. Određivanje vrijednosti komponenti i desezoniranje (ostvarivanje sezonskog utjecaja na razinu pojave) u sklopu te metode temelji
se na vremenskoj seriji koja sadrži najmanje tri ciklusa, odnosno 12 kvartalnih i 36 mjesečnih vrijednosti. Analiza se provodi na temelju aditivnog, multiplikativnog ili pseudoaditivnog modela.
Postupak desezoniranja gospodarskih serija najčešće polazi od multiplikativnog modela. Sam se postupak provodi koracima i sadrži vrlo velik broj različitih brojčanih operacija te konstrukciju grafičkog prikaza. Opisni koraci su u nastavku. U prvom koraku se utvrđuju inicijalne procjene komponenti, u drugom se one revidiraju odnosno poboljšavaju. U trećem se koraku daju konačne procjene komponenti i mnogobrojnih statističko-analitičkih pokazatelja kakvoće rezultata. Inicijalna procjena trenda predočuje se centriranim pomičnim prosjecima po 4 člana (za kvartalne serije) ili 12 članova (za mjesečne serije). U nizu pomičnih prosjeka nedostaju 122
III. DIO UVOD U ANALIZU
13. Metode izglađivanja vremenskoga niza
VREMENSKIH NIZOVA
vrijednosti na njegovu početku (za dva prva, odnosno prvih šest razdoblja) i na kraju niza (za posljednja dva, odnosno posljednjih šest razdoblja). Omjer originalnih vrijednosti i procjene trenda predočuju inicijalnu (zajedničk u) procjenu sezonske i iregularne komponente.
Da bi se dobila prva procjena sezonske komponente, za navedene omjere određuju se vagani pomični prosjeci, a preliminarna procjena sezonske komponente slijedi korekcijom prve procjene tako da zbroj vrijednosti te komponente iznosi 4 ili 12 za multiplikativni model, a 0 za aditivni. Dijeljenjem originalnih vrijednosti serije s preliminarnim procjenama vrijednosti sezonske komponente dobivaju se preliminarne desezonirane vrijednosti pojave. Slijede postupci revidiranja preliminarnih procjena radi poboljšanja njihovih svojstava.
Poboljšanje procjene trenda postiže se Hendersonovim pomičnim prosjecima po 9, 13 ili 23 člana preliminarnih desezoniranih vrijednosti serije. Broj članova prosjeka zavisi o stupnju varijabilnosti serije. Dijeljenjem vrijednosti originalne serije s navedenim pomičnim prosjecima dobiva se druga procjena sezonske i iregularne komponente. Slijedi procjena vrijednosti koje nedostaju na
početku i na kraju serije odgovarajućim (asimetričnim) pomičnim prosjecima. Konačna procjena sezonske komponente dobiva se primjenom odgovarajućih pomičnih prosjeka i njihovom korekcijom tako da im je zbroj jednak 4, odnosno 12 ili 0 u aditivnom modelu.
Dobivenim vrijednostima utvrđuju se desezonirane vrijednosti. Konačna procjena trend komponente slijedi iz primjene Hendersonovih pomičnih prosjeka od 9, 13 ili 23 člana na desezoniranim serijom, koja je prethodno modificirana za ekstremne vrijednosti. Konačna procjena iregularne komponente dobije se tako da se vrijednosti trend komponente podijele s vrijednostima desezonirane serije. Metoda X-12- ARIMA je iterativna metoda, a uključuje primjenu mnogobrojnih statističko -
analitičkih pokazatelja i postupaka (prosjeci, standardne devijacije, modifikacije zbog pojave atipičnih-ekstremnih vrijednosti, testiranje hipoteza o značajnosti sezonske komponente, procjene efekata varijacija kalendara pomoću regresijske analize i dr.). Navedena metoda je programski podržana, a cjelokupni izlaz obrade sastoji se od tabelarno prikazanih rezultata i grafičkih prikaza. Za razliku od X-12- ARIMA metode desezoniranja, koja se ubraja među filtarske metode, metode analize sezonskih pojava TRAMO/SEATS, STAMP temelje se na modelima vremenskih serija u vremenskoj domeni. Od modela analize sezonskih pojava rabi se i Holt-Wintersov model izglađivanja za sezonske pojave. Model može biti aditivni, multiplikativni i mješoviti. Pođe li se od pretpostavke da
serija sadržava trend sezonsku i slučajnu komponentu i da je prikladan multiplikativni model, tada analiza pojave počiva na trima jednadžbama: prvom jednadžbom izglađuje se razina pojave, drugom jednadžbom trend komponenta, a trećom sezonska komponenta. Te jednadžbe su sljedeće:
∗ ∗ 1∗ −∗ − − 1 − ∗ 1 −−
,
,
.
(158)
123
III. DIO UVOD U ANALIZU
13. Metode izglađivanja vremenskoga niza
VREMENSKIH NIZOVA
, ∗
U navedenim su jednadžbama konstante izglađivanja. To su vrijednosti između 0 i 1. L je 4 ili 12 i predočuje sezonski period. je izglađena srednja razina pojave. su vrijednosti
5⁄2 1 ∗ 21 −⁄ 2(−−⁄+ ⋯++⁄−) +⁄; ⁄2 1, … , 5⁄2 .
trenda.
je sezonski faktor.
Prvo razdoblje s izglađenom vrijednosti srednje razine pojave jest
i ona je:
Inicijalne vrijednosti za faktor trenda i sezonski faktor i ovdje se određuju na različite načine , primjerice:
⁄ ∗ ⁄ ∗⁄−, ⁄− 12 ∗⁄⁄−− ∗⁄⁄−− , 0,1, … ,, 1.
124
III. DIO
13. Metode izglađivanja vremenskoga niza
UVOD U ANALIZU VREMENSKIH NIZOVA
ZADACI ZA VJEŽBU 1.
a) Dane su vremenske serije ( je varijabla vrijeme, a vrijednosti su nizova u stupcima) xt
1 2 3 4 5 6 7 8
Niz 1. 25 30 35 40 45 50 55 60
Niz 2. 29 31 31 29 25 19 11 1
Niz 3. 31 47 85 157 275 451 697 1025
Niz 4. 105,0000 110,2500 115,7625 121,5506 127,6282 134,0096 140,7100 147,7455
Niz 5. 99,75000 89,79931 72,95925 53,49767 35,40272 21,14392 11,39677 5,54402
Napišite analitički oblik funkcija kojima se generiraju podaci. Za serije u tablici odredite sljedeće
∆∆ ∆∆ ∆, /−
vrijednosti (1) (2) (3) (4) (5)
2.
Što zaključujete? Stanovništvo SAD-a (u milijunima, stanje sredinom godine) Godina
1989. 1990. 1991. 1992. 1993. 1994. 1995. 1996. 1997. 250 253 255 258 261 263 266 268 Stanovništvo 247 (a) Prikažite navedeni niz linijskim grafikonom. Što zaključujete na temelju grafa o trendu broja stanovnika? (b) Analizirajte model linearnog trenda tako da odredite trend vrijednosti i rezidualna
odstupanja. Kolika je standardna devijacija, koeficijent varijacije trenda i standardne pogreške procjena? Liniju trenda ucrtajte u grafikon. Protumačite značenje procjena parametara i drugih izračunatih veličina. (c) Testirajte hipotezu o pozitivnoj autokorelaciji pogrešaka relacije. Primijenite Durbin Wattsononv test. Razina signifikantnosti 5%. DW=2,281 3.
Godišnji prihod tvrtke XX u milijunima kuna Godina 1995. 1996. 1997. 1998. 1999. 2000. 2001. 2002. Prihod 22 19 20 23 25 26 30 39 a) Navedeni niz prikažite linijskim grafikonom. Što se na temelju grafičkog prikaza može
zaključiti o obliku trenda? b) Odredite jednadžbu trenda i druge uobičajene veličine. Testirajte hipotezu o značajnosti kvadratnog člana u mo delu. Razina signifikantnosti 5%. c) Dobiveni trend polinom prikažite na linijskom grafikonu. (a)
4.
5.
Prodaja svježeg mlijeka (u 000 litara) u lancu trgovina XC. Godina 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2000. 2001 2002. Prodaja 199 250 313 403 525 678 900 1153 1428 1825 a) Navedeni niz prikažite linijskim grafikonom. b) Izaberite prikladni model trenda i analizirajte ga. Proizvodnja maslinovog ulja u RH (u 000 hl) Godina 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Proizvodnja 23,7 5,8 30,6 27,0 13,1 25,1 54,5 22,9 15,7 31,7 52,8 23,5 a) Izračunajte (1) trogodišnje pomične prosjeke, (2) četverogodišnje pomične prosjeke, (3)
petogodišnje pomične prosjeke. b) Usporedite originalnu seriju i serije izračunatih pomičnih prosjeke ja jednom grafikonu. Što zaključujete? 125
III. DIO
13. Metode izglađivanja vremenskoga niza
UVOD U ANALIZU VREMENSKIH NIZOVA
6.
Kamatne stope poslovnih banaka na kratkoročne devizne kredite 2001. godine Mjesec Kamatna stopa (%)
VI. 5,27
VII. 6,22
VIII. VIII. 5,36
IX. 6,07
X. 5,25
XI. 5,25
XII, 5,78
Izračunajte izglađene vrijednosti serije. Primijenite postupak jednostavnog eksponencijalnog izglađivanja. Konstanta izglađivanje je 0,3. 7.
a) Primijenite postupak izglađivanja Holt -Wintersovim dvoparametarskim modelom za pojave s
linearnim trendom polazeći od ovih podataka: Godina, kvartal 2001, I. Prodaja (u 000) 95
8.
II. 111
III. IV. 2002, I. II. III. IV. 129 133 147 155 174 171
Konstante su izglađivanja: α= 0,3, β=0,4. Izračunajte izglađene vrijednosti primijenivši postupak jednostavnog eksponencijalnog eksponencijalnog izglađivanja. Konstanta izglađivanja jednaka je 0,3. Za izglađenu vrijednost nultog razdoblja uzmite vrijednosti prvog člana serije. b) Prikažite na istom grafikonu originalnu seriju te serije izglađenih vrijednosti. Vrijednosti prodaje tvrtke XX po godinama i kvartalima (u 000 €) Godina I. kvartal II. kvartal III. kvartal IV. kvartal 1998 2758 1151 250 887 1999 3140 1449 211 452 2000 3665 1290 389 596 2001 3611 1321 371 645 2002 3902 1151 302 693 polazeći od multiplikativnog multiplikativnog modela. modela. Trend i cikličnu a) Analizirajte navedenu seriju polazeći kao jednu. Primijenite postupak odnosa prema pomičnom prosjeku. komponentu uzmite
Interpretirajte pomične prosjeke, sezonske i iregularne faktore. b) Niz iz tablice, pomične prosjeke i desezoniranu seriju prikažite na istom grafikonu.
126
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
RJEŠENJA ZADATAKA 1.
a) Sve su navedene vremenske vremenske serije determinističke. determinističke. (1) PRVA VREMENSKA SERIJA Model Summary and Parameter Estimates Dependent Variable: y
Model Summary Equation Linear
R Square 1,000
F
Parameter Estimates
.
df1 1
df2 6
Sig. .
Constant 20,000
b1 5,000
Logarithmic
,919
67,974
1
6
,000
20,375
16,691
Exponential
,985
383,433
1
6
,000
23,483
,123
Model koji generira niz je:
2020 5
Slika 1.: Prikaz prve vremenske serije i modela koji seriju generira 80 y = 5x + 20
60 40 20 0 1
2
3
4
5
6
7
8
(2) DRUGA VREMENSKA SERIJA Model Summary and Parameter Estimates Dependent Variable: y2
Equation Linear Quadratic Growth
Model Summary R Square ,800
F
Parameter Estimates
df1 df2 Sig. Constant 24,000 1 6 ,003 40,000
b1 -4,000
b2 -1,000
1,000
5742936909539640,000
2
5 ,000
25,000
5,000
,570
7,939
1
6 ,030
4,397
-,362
127
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Model koji generira niz je:
2525 5
Slika 2.: Prikaz druge vremenske serije i modela koji seriju generira 40 30 20
y = -x 2 + 5x + 25
10 0 1
2
3
4
5
6
7
8
(3) TREĆA VREMENSKA SERIJA Model Summary and Parameter Estimates Dependent Variable: y3
Model Summary Equation Linear
R Square ,870
F
Parameter Estimates
df1 df2 40,200 1 6
Sig. Constant ,001 -266,000
b1 136,000
Logarithmic
,646
10,928
1
6
,016
-194,749
407,935
Quadratic
,997
936,869
2
5
,000
124,000
-98,000
1,000
10671458238996350,000
3
4
,000
25,000
5,000
Compound
,995
1302,934
1
6
,000
18,474
1,679
Growth
,995
1302,934
1
6
,000
2,916
,518
Exponential
,995
1302,934
1
6
,000
18,474
,518
Cubic
b2
b3
26,000 -1,000 2,000
128
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Model koji generira niz je:
2525 5 2
Slika 3.: Prikaz treće vremenske serije i modela koji seriju generira 1200 1000 800 y = 2x 3 - x2 + 5x + 25
600 400 200 0 1
2
3
4
5
6
7
8
(4) ČETVRTA VREMENSKA SERIJA Model Summary and Parameter Estimates
Dependent Variable: y4 Model Summary Equation Linear Logarithmic
R Square ,998
F
Parameter Estimates
df1 df2 2523,967 1 6
Sig. Constant ,000 97,885
b1 6,099
b2
b3
,892
49,656
1
6
,000
98,706
20,086
Quadratic
1,000
1130471,790
2
5
,000
100,115
4,762
,149
Cubic
1,000
1299886433,089
3
4
,000
99,995
4,886
,116 ,002
Compound
1,000 1590160522810,629
1
6
,000
100,000
1,050
Growth
1,000 1590160522810,629
1
6
,000
4,605
,049
Exponential
1,000
1
6
,000
100,000
,049
1590160522810,629
Model koji generira niz je:
100100 ∙ 1,0505
(5) PETA VREMENSKA SERIJA
Riječ je eksponencijalnom polinomu drugog stupanja. Vrijednosti varijable x su prirodni brojevi. Model koji generira niz je:
100100 ∙ 1,0505 ∙ 0,9595
Diferencije polinoma prvog stupnja, polinoma drugog i trećeg stupnja navedene su u pomoćnoj tablici.
129
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Pomoćna tablica xt
1 2 3 4 5 6 7 8
Niz 1.
Niz 2.
∆ ∆ ∆
25 30 35 40 45 50 55 60
* 5 5 5 5 5 5 5
29 31 31 29 25 19 11 1
* 2 0 -2 -4 -6 -8 -10
* * -2 -2 -2 -2 -2 -2
31 47 85 157 275 451 697 1025
Niz 3.
∆ ∆ ∆ * 16 38 72 118 176 246 328
* * 22 34 46 58 70 82
* * * 12 12 12 12 12
Iz tablice je vidljivo da su prve diferencije polinoma prvog stupnja konstantne. Prve diferencije polinoma
drugog stupanja zavise o varijabli vrijeme (varijabilne su), a druge su diferencije konstante. Treće su diferencije polinoma trećeg stupanja konstante. Može se pokazati da su K -te diferencije polinoma K-tog stupnja konstantne, a (K+1) su jednake nuli.
Četvrti niz čine vrijednosti eksponencijalne funkcije, odnosno eksponencijalnog polinoma prvog stupnja, a peti vrijednosti eksponencijalnog polinoma drugog stupnja. Vrijednosti polinoma
, njihove logaritamske
vrijednosti te verižni indeksi vrijednosti i verižni indeksi verižnih indeksa, diferencije logaritamskih vrijednosti dani su u sljedećoj pomoćnoj tablici. Pomoćna tablica x t
Niz 4.
∆ − ∆
1
105,0000
2
110,2500
3 4
Niz 5.
*
2,021189
*
105
2,042379
0,02119
89,79931
115,7625
72,95925 105
2,063568
0,02119
105
2,084757
0,02119
121,5506
5
127,6282
6
134,0096
7
140,7100
8
147,7455
99,75000
53,49767 35,40272 105
2,105947
0,02119 21,14392
105
2,127136
0,02119 11,39677
105
2,148325
0,02119 5,54402
105
2,169514
0,02119
*
90,0 2 81,2 5 73,3 3 66,1 8 59,7 2 53,9 0 48,6 5
*
*
∆
*
1,99891
*
1,95327
-0,04564
90,25
1,86308
-0,09019
-0,04455
90,25
1,72833
-0,13475
-0,04455
90,25
1,54904
-0,17930
-0,04455
90,25
1,32519
-0,22385
-0,04455
90,25
1,05678
-0,26840
-0,04455
90,25
0,74382
-0,31296
-0,04455
*
Verižni indeksi 4. niza, koji predočuje vrijednosti eksponencijalnog polinoma prvog stupanja, konstantni. Konstantne su i prve diferencije logaritamskih vrijednosti toga niza. Peti niz se odnosi na eksponencijalni
polinom drugog stupanja. Iz tablice je vidljivo da su verižni indeksi verižnih indeksa toga niza konstantni. Također su konstantne druge diferencije logaritamskih vrijednosti toga niza. Na temelju navedenih rezultata može se zaključiti da diferencije serije, diferencije njihovih logaritama ili drugih prikladno transformiranih vrijednosti članova serije mogu poslužiti kao pomoćno sredstvo pri izboru trenda. Pri tome valja imati na umu da empirijske vremenske serije nisu determinističke, jer na razvoj pojave u vremenu utječu slučajne varijacije, odnosno model razvoja razine pojave osim determinističke funkcije vremena sadrži i slučajnu varijablu. 2.
a)
Slika 4.: Prikaz vremenske serije stanovništva SAD-a, stanje sredinom godine 285 , o a v t m265 š i i u n j i v l o i 245 n m a u t s
Stanovništvo 1989 1990 1991 1992 1993 1994 1995 1996 1997
130
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Grafički prikaz pokazuje da postoji približna linearna kovarijacija broja stanovnika s vremenom. To potvrđuju i prve diferencije serije (pomoćna tablica), koje su istoga predznaka i ne variraju na izrazito različitim vrijednostima, pa se može iskoristiti model linearnog trenda.
b)
Godina
Stanovništvo (u milijunima) 247
Prve diferencije
1989 1990
Varijabla vrijeme 1
∆ *
250
2
3
1991 1992
253
3
3
255
4
2
1993 1994
258
5
3
261
6
3
1995 1996
263
7
2
266
8
3
1997 ukupno
268 2321
9 45
2
Model linearnog trenda identičan je modelu jednostavne linearne regresije u kojem je vrijeme nezavisna varijabla. Oblika je . Model linearnog trenda s procijenjenim parametrima glasi . Procjene parametara, standardne pogreške procjena i drugi rezultati dani su u sljedećoj tablici. SUMMARY OUTPUT Regression Statistics Multiple R
0,999013
R Square Adjusted R Square
0,998028 0,997746
Standard Error
0,342725
Observations
9
ANOVA df
SS
Regression
1
416,0667
MS 416,066 7
Residual
7
0,822222
0,11746
Total
8
416,8889
Coefficient s
Standard Error
Intercept
244,7222
0,248984
X Variable 1
2,633333
0,044246
t Stat
982,884 59,5162 9
F 3542,18 9
P-value 2,98E19 9,92E11
Significance F
9,92E-11
Upper 95%
Lower 95,0%
244,1335
245,311
244,1335
245,311
2,528709
2,737958
2,528709
2,737958
Lower 95%
Upper 95,0%
RESIDUAL OUTPUT Predicted Y
Observation
Residuals
1
247,3556
-0,35556
2
249,9889
0,011111
3
252,6222
0,377778
4
255,2556
-0,25556
5
257,8889
0,111111
6
260,5222
0,477778
7
263,1556
-0,15556
131
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Durbin-Watson
8
265,7889
0,211111
9
268,4222 2,281
-0,42222
Model linearnog trenda s procijenjenim parametrima i oznakama glasi:
1,1988. 244,70,2204425 2,633, 33 , 0,13% 0,34272 4425 0,2,9980281
Uz jednadžbu trenda s procijenjenim parametrima navode se uobičajene oznake (vrijeme za početnu vrijednost varijable x, jedinica mjere vremena, jedinica mjere vrijednosti članova niza). Jednadžbom trenda s procijenjenim parametrima metodom najmanjih kvadrata opisuje se razvoj pojave u vremenu u smislu prosjeka. Koeficijent (isto što i regresijski koeficijent u modelu linearne regresije) pokazuje
prosječnu linearnu promjenu razine pojave za jedinični porast vrijednosti varijable vrijeme. U primjeru koeficijent pokazuje da se broj stanovnika povećao u prosjeku linearno 2,6 milijuna godišnje. Konstantni član iznosi 244,7 i predstavlja vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu, to jest za godinu 1988.
Slika 5.: Prikaz linearnog trenda i vremenske serije stanovništva SAD-a, stanje sredinom godine 270 a m i 265 u j i l i m u 260 , o v t 255 š i n v o n 250 a t s
245
y = 2,6333x + 244,72
R² = 0,998 Stanovništvo Trend vrijednosti
9 8 9 1
0 9 9 1
1 9 9 1
2 9 9 1
3 9 9 1
4 9 9 1
5 9 9 1
6 9 9 1
7 9 9 1
Pomoću jednadžbe linearnog trenda s procijenjenim parametrima i vrijednosti varijable vrijeme izračunavaju se vrijednosti trenda. Vrijednosti trenda procjene su razine pojave prema trendu i isto su što i regresijske vrijednosti. Rezidualna odstupanja su razlike vrijednosti vremenskog niza i vrijednosti trenda te upućuju na disperziju oko trenda kao srednje vrijednosti. Vrijednosti trenda i rezidualna odstupanja dani su u pomoćnoj tablici. Rezidualna odstupanja podloga su za izračunavanje varijance, odnosno standardne
devijacije trenda, kojom se predočuje veličina disperzije oko linije trenda. Osim parametara, trend vrijednosti i rezidualnih odstupanja, procjenjuju se standardna devijacija,
koeficijent varijacije, standardne pogreške procjena i druge veličine. Dio spomenutih veličina temelji se na analizi varijance, koja je za linearni trend jednaka analizi varijance modela jednostavne linearne regresije.
Koeficijent determinacije iznosi 0,998028 te pokazuje da je modelom linearnog trenda objašnjeno 99,8% odstupanja, pa je prema tom pokazatelju model reprezentativan. Standardna pogreška procjene
parametara uz varijablu vrijeme iznosi 0,04425. Testira se hipoteza o značajnosti te varijable, primjerice t-testom, pripadajuća p -vrijednost=9,9233E-11, što je mnogo manje od razine signifikantnoti i što pokazuje da se ne može prihvatiti pretpostavka da varijabla vrijeme u modelu nije signifikantna. Granice intervala procjene upućuju na zaključak da su procjene precizne.
0,05
0,34272 0,13%
Standardna devijacija (Standard Error of the Estimate-procjena standardne devijacije trenda) i koeficijent varijacije iznose . ; Vrijednost trenda broja stanovnika za 1989. iznosi 247,4 milijuna. Stvarni je broj stanovnika za tu godinu 247, a razlika predočuje rezidualno o dstupanje, koje iznosi -0,4. Budući da trend predočuje
kovarijaciju u smislu prosjeka, njegova se reprezentativnost prosuđuje standardnom devijacijom i koeficijentom varijacije. Standardna devijacija trenda iznosi 0,34272 milijuna, koliko je prosječno odstupanje stvarnog broja stanovnika od vrijednosti trenda. U relativnom je iznosu to 0,13%.
Standardna devijacija trenda i koeficijent varijacije upućuje na veliku reprezentativnost trenda.
132
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
c)
… ≤ 0, … > 0.0.
Hipoteze su za Durbin-Watsonov test o autokorelaciji pogrešaka rel acije u modelu linearnog trenda:
>
Kritične su vrijednosti testa: n=9, K=1, α=0,05 , dL=0,824, dU =1,320 =1,320. Test veličina je DW=2,281. Budući da je , prihvaća se nulta hipoteza: greške relacije nisu autokorelirane. Slika 6.: Rezidualna odstupanja 0,6 0,4 0,2 0,0 1
2
3
4
5
6
7
8
9
-0,2 -0,4 -0,6
Grafički prikaz rezidualnih odstupanja također ne upućuje na postojanje autokorelacije, odnosno ne upućuje na sustavno raspoređivanje rezidualnih odstupanja. 3.
a) Slika 7.: Prikaz vremenske serije 40 35 30 25 20 15 1995
1996
1997
1998
1999
2000
2001
2002
Prikaz niza pokazuje da bi se mogao primijeniti model paraboličnog trenda drugog stupanja. b)
Pomoćna tablica Parameter Estimates
y
Cnf.Lmt Cnf.Lmt Beta (ß) St.Err.ß Cnf.Lmt Cnf.Lmt
Param.
Std.Err
t
p
y
y
y
-95,00% +95,00% y
y
-95,00% +95,00% y
Intercept 23,85714 2,233062 10,68360 0,000124 18,11687 29,59741 x
-2,94048 1,138509 -2,58274 0,049268 -5,86711 -0,01385 -1,11140 0,430316 -2,21756 -0,005234
x^2
0,58333
0,123489 4,72378 0,005225 0,26590
0,90077
2,03272 0,430316 0,92656
3,138880
Test of SS Whole Model vs. SS Residual Multiple R y 0,977972
Multiple R2 0,956430
Adjusted R2 0,939002
SS model 281,190 2 5
Df model
MS model
SS residual
140,5952
12,80952
Df residual 5
MS residual 2,561905
F
p
54,8791 0,00039 8 6
Observed, Predicted, and Residual Values Observed y Predicted y Resid y
133
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
1995 22,00000
21,50000
0,50000
1996 19,00000
20,30952
-1,30952
1997 20,00000
20,28571
-0,28571
1998 23,00000
21,42857
1,57143
1999 25,00000
23,73810
1,26190
2000 26,00000
27,21429
-1,21429
2001 30,00000
31,85714
-1,85714
2002 39,00000
37,66667
1,33333
Model paraboličnog trenda drugog stupnja jednak je modelu regresijskog polinoma drugog stupanja u
kojemu je varijabla vrijeme nezavisna. Model je oblika: . Nepoznati parametri procjenjuju se metodom najmanjih kvadrata. Osim procjena parametara, programom za regresijsku analizu regresijskog polinoma drugog stupnja dobivene su i druge statističko -analitičke veličine. Jednadžba s
odabranim veličinama glasi:
23,85714 5714 2, 9 4048 40 48 0, 0, 5 8333 833 3 1,03851 3851 12349 2349 0,0,90,5643 ,, , 4, 7 24. 24 . ⁄2 1 1 88 2 1 5
Ako su ispunjene pretpostavke o prirodi stohastičkog člana u modelu, značajnost kvadratnog člana testira se pomoću t-testa. Test veličina je omjer procjene parametara uz kvadratni član i standardne pogreške procjene, to jest Teorijska vrijednost testa je veličina t -varijabla za vjerojatnost α , odnosno
, i broj stupnjeva slobode
. Teorijska vrijednost je 2,571. Ne
može se prihvatiti pretpostavka da je kvadratni član u modelu suvišan. Upotrebom jednadžbe trenda s procijenjenim parametrima izračunate su vrijednosti trenda i rezidualnih odstupanja kao razlika vrijednosti vremenske serije i vrijednosti trenda. c) Slika 8.: Prikaz vremenske serije 40 y = 0,5833x2 - 2,9405x + 23,857
35
R² = 0,9564
30 25 20 15 1995
1996
1997
1998
Prihod
4.
1999
2000
2001
2002
Trend v vrrijednosti
a) Slika 9.: Prikaz vremenske serije 2000 1500 1000 500 0 1
2
3
4
5
6
7
8
9
10 10
Grafički prikaz upućuje na to da se može primijeniti model eksponencijalnog trenda.
134
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Godine
Prodaja
1993
199
1994
Pomoćna tablica
1
2,288605
194,358944
*
2,298853
250
125,6281
2,39794
2
2,397383
249,679795
1995
313
125,2
2,495544
3
2,506162
320,746752
1996
403
128,754
2,605305
4
2,614941
412,041666
1997
525
130,273
2,720159
5
2,72372
529,32207
1998
678
129,1429
2,83123
6
2,832499
679,984275
1999
900
132,7434
2,954243
7
2,941278
873,529824
2000
1153
128,1111
3,061829
8
3,050057
1122,1647
2001
1428
123,8508
3,154728
9
3,158835
1441,56913
2002
1825
127,8011
3,261263
10
3,267614
1851,88639
Izračunati verižni indeksi svi su veći od 100 i variraju na približno istoj razini, što govori u prilog izboru modela eksponencijalnog trenda. b)
Model jednostavnog eksponencijalnog trenda u općem obliku glasi:
.
, a u lineariziranom (logaritamskom) obliku: Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U lineariziranom se modelu umjesto originalnih vrijednosti serije rabe njihovi logaritmi. Parametri se procjenjuju metodom najmanjih kvadrata, a druge statističko -analitičke veličine dobiju se na način opisan pri analizi linearnog trenda. Pri tome se uvijek polazi od rezultata dobivenih na temelju logaritamskih oblika modela.
SUMMARY OUTPUT Regression Statistics
Multiple R
0,999647
R Square Adjusted R Square
0,999295
Standard Error
0,009281
0,999206
Observations
10
ANOVA df
SS
Regression
1
0,976209
Residual
8
0,000689
Total
9
0,976899 Standard Error
Coefficients
Intercept
2,179826
0,00634
X Variable 1
0,108779
0,001022
MS 0,9762 09 8,61E05
t Stat 343,80 82 106,45 58
F 11332, 84
Pvalue 5,74E18 6,77E14
Significanc eF
6,77E-14
Lower 95%
Upper 95%
Lower 95,0%
Upper 95,0%
2,165205
2,194446
2,165205
2,194446
0,106423
0,111135
0,106423
0,111135
RESIDUAL OUTPUT Predicted Y
Observation
Residuals
1
2,288605
0,010249
2
2,397383
0,000557
3
2,506162
-0,01062
135
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
4
2,614941
-0,00964
5
2,72372
-0,00356
6
2,832499
-0,00127
7
2,941278
0,012965
8
3,050057
0,011773
9
3,158835
-0,00411
10
3,267614
-0,00635
2,179720,10878 151,25857∙1,28464
Jednadžbe modela s procijenjenim parametrima u logaritamskom i nelogaritamskom obliku glase: odnosno
Uz jednadžbu trenda navode se uobičajene oznake. U jednadžbi trenda procjena parametara α, jest procjena razine pojave razdoblja prije prvoga i ona je jednaka 151,3 milijuna litara.
5.
a)
Trogodišnji su pomični prosjeci s neparnim brojem članova, M= 3, m=1, a izraz je za njihovo računanje:
∗ 13 + , 2,3,3,… ,11 =− ∗ 13 =− 13 23,23,75,830,6 20,03 ∗ 13 5,5,830,…….627,0 21,13 ∗ 13 13 31,31,752,823,5 36,00
Prosjek za prvo i posljednje razdoblje ne može se izračunati. Prosjeci su navedeni u trećem stupcu pomoćne tablice. Četverogodišnji su pomični prosjeci s parnim brojem članova. Svaki pomični prosjek s parnim brojem članova mora se centrirati kako bi se mogao pridružiti odgovarajućem razdoblju. Kako je M=4, m=2, za četverogodišnji centrirani su prosjeci:
∗ 14 12 − + 12 +, 3,4,…,10 12 ∙23,75,830,627,0 12 ∙ 13,1]1] 20,45 ∗ 14 [12 12 ] =− 14 [……… ∗ 14 [12 12 ] 14 [12 ∙22,915,731,752,8 12 ∙ 2,5] 30,85
Četverogodišnji (centrirani) pomični prosjeci navedeni su u četvrtom stupcu tablice. Petogodišnji pomični prosjeci jednostavne su aritmetičke sredine pet uzastopnih članova serije i navedeni su u posljednjem stupcu tablice. Godina
Proizvodnja
Pomični prosjek M=3
Pomični prosjek M=4
1989
23,7
*
∗4
Pomični prosjek M=5
*
∗5 *
1990
5,8
20,03
*
*
1991
30,6
21,13
20,45
20,04
1992
27
23,57
21,54
20,32
1993
13,1
21,73
26,94
30,06
∗3
136
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
1994
25,1
30,90
29,41
28,52
1995
54,5
34,17
29,23
26,26
1996
22,9
31,03
30,38
29,98
1997
15,7
23,43
30,99
35,52
1998
31,7
33,40
1999
52,8
36,00
30,85 *
29,32 *
2000
23,5
*
*
*
b)
Slika 10.: Pomični prosjeci s različitim brojem članova 60 50 40
Proizvodnja
30
M=3 M=4
20
M=5
10 0 19 1989 89 19 1990 90 19 1991 91 19 1992 92 19 199 93 19 199 94 19 1995 95 199 996 6 19 1997 97 19 1998 98 19 1999 99 20 2000 00
Iz grafičkog broja prikaza jasno se uočava da su serije pomičnih prosjeka manje varijabilne od originalnog niza. Što je dimenzija pomičnog prosjeka (broj njegovih članova) veća, to je manja varijabilnost dobivenih vrijednosti. Iz toga slijedi i praktično pravilo: za izglađivanje serije većeg broja stupnja varijabilnosti rabit će se pomični prosjek s većim brojem članova, i obrnuto.
∗
U postupku izglađivanja uzet će se da je izglađena vrijednost nultog razdoblja jednaka prvoj vrijednosti . Izglađene su vrijednosti dane u pomoćnoj tablici.
serije, to jest da je 6.
Mjesec
7.
a)
Pomoćna tablica Izglađene vrijednosti serije Kamatna stopa
VI.
5,27
5,27
VII.
6,22
5,555
VIII.
5,36
5,4965
IX.
6,07
5,66855
X.
5,25
5,542985
XI.
5,25
5,45509
XII.
5,78
5,552563
Holt-Wintersov model eksponencijalnog izglađivanja za pojave s trendom ima sljedeći oblik:
∗ 1 −∗ −, ∗ −∗ 1 −, 0 < < 1,0 < < 1 89,0714311,17857 ∗ 11,89,107857 7143
Inicijalne vrijednosti za primjenu Holt-Wintersova modela u ovom primjeru odredi t će se pomoću
jednadžbe linearnog trenda prodaje koja glasi . Početna je izglađena vrijednost (izglađena vrijednost nultog razdoblja) jednaka je konstantnom članu u toj jednadžbi, to jest 89,07143, a procjena efekta trenda toga razdoblja jednaka je koeficijentu uz varijablu vrijeme 11,17857. Prema tome:
137
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
0,3; 0,4 ∗ 0,3 0,7−∗ −, 0,4∗ −∗ 0,6−. ∗ 0,3 0,7∗ , 95,∗ 89,07143, 11,17857,∗ 98,675 0,4∗ ∗ 0,6, 11,17857, ∗ 89,07143,∗ 98,675,75, 10,54857 ∗ 0,3 0,7∗ , 111, 111, ∗ 98,675,75, 10,54857,∗ 109,75650 0,4∗ ∗ 0,6,, 10,54857, ∗ 98675, 98675, ∗ 109,75650, 10,76174
Konstante izglađivanja su
. Model je u primjeru:
Izglađena vrijednost prodaje za prvo razdoblje (t=1):
.
Procjena efekta trenda za spomenuto razdoblje je:
.
Izglađena vrijednost za drugo razdoblje (t=2) je:
.
Procjena efekta trenda za spomenuto razdoblje je:
.
Primjenom navedenog postupka izračunate su i preostale izglađene vrijednosti i procjene efekta trenda. b)
Postupak jednostavnog izglađivanja proveden je na već objašnjeni način. Izglađene vrijednosti prikazane su u trećem stupcu tablice. Usporedbom stvarnih vrijednosti prodaje s izglađenim vrijednostima uočava se sistemska pogreška (podcjenjivanje razine), što je i razumljivo jer serija iskazuje tendenciju porasta. Te su vrijednosti navedene u četvrtom i petom stupcu tablice. Pomoćna tablica Godina, kvartal
Prodaja (u 000)
Vrijeme
2001., I.
1
Jednostavno
Izglađene vrijednosti
izglađene vrijednosti (α=0,3)
(Holt-Wintersov model
95
95,00
α= 0,3, β= 0,4)
∗
Procjene efekta trenda
98,68
10,54857
II.
2
111
99,80
109,76
10,76174
III.
3
129
108,56
123,06
11,77955
IV.
4
133
115,89
134,29
11,55847
5
147
125,22
146,19
11,69670
II.
6
155
134,16
157,02
11,34986
III.
7
174
146,11
170,06
12,02508
IV.
8
171
153,58
178,76
10,69473
2002., I.
c) Slika 11.: Prikaz serije i vrijednosti jednostavnog eksponencijalnog izglađivanja i vrijednosti na temelju Holt-Wintersova modela 200 Prodaja (u 000)
150
Jednostavno izglađene
100
vrijednosti ( α=0,3)
50
Izglađene vrijednosti (Holt Wintersov model α= 0,3, β=
0
0,4)
1
2
3
4
5
6
7
8
138
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
Na temelju grafičkog prikaza uočljiva je neprikladnost primjene modela jednostavnog eksponencijalnog izglađivanja te adekvatnost primjene Holt -Wintersova modela. 8.
a)
Multiplikativni je model
. Procjena trend-ciklus komponente dana je vrijednostima
pomičnih prosjeka. Podaci su kvartalni, pa su određene vrijednosti četveročlanih centriranih pomičnih prosjeka. Centrirani pomični prosjeci nalaze se u trećem stupcu tablice. Pomoćna tablica Godina, kvartal 1998, I
Proda ja 2758
II
1151
III
250
IV
887
1999, I
3140
II
1449
III
211
IV
452
2000, I
3665
II
1290
III
389
IV
596
2001, I
3611
II
1321
III
371
IV
645
2002, I
3902
II
1151
III
302
IV
693
Pomični prosjeci
Prve procjene sezonskih faktora
*
*
*
0,19094902
1394,250
0,63618433
1426,625
2,20099886
1367,375
1,05969467
1378,625
0,15305105
1424,375
0,31733216
1426,750
2,56877519
1467,000
0,8793456
1478,250
0,26314899
1475,375
0,40396509
1477,000
2,44482058
1480,875
0,89204018
1523,375
0,2435382
1538,500
0,41923952
1508,625
2,58646118
1506,000 * *
Desezonirana serija
0,8975
* 1309,250
Sezonski faktori 2,44662
0,76427623
0,21236 0,44352 2,44662 0,8975 0,21236 0,44352 2,44662 0,8975 0,21236 0,44352 2,44662 0,8975 0,21236 0,44352 2,44662 0,8975 0,21236
*
0,44352
*
Rezidualni faktori
1127,2695
*
1282,4513
*
1177,2462
0,899176
1999,9098
1,434398
1283,4032
0,899608
1614,4847
1,180718
993,59578
0,720715
1019,1198
0,715486
1497,985
1,049928
1437,3259
0,979772
1831,7951
1,239165
1343,7951
0,910816
1475,9137
0,999265
1471,8663
0,993917
1747,0333
1,146818
1454,2749
0,945255
1594,8533
1,057157
1282,4513
0,851561
1422,1134
*
1562,5
*
Prve procjene sezonskih faktora dane su omjerima odgovarajućih vrijednosti serije i pripadajućih pomičnih prosjeka. Te procjene navedene su u četvrtom stupcu tablice. Procjene sezonskih faktora istih kvartala variraju, valja odrediti prosječnu vrijednost prvih procjena sezonskih faktora istih kvartala. Prve su procjene prikazane u sljedećoj tablici. Godina 1998. 1999. 2000. 2001. 2002. Prosjek Sezonski faktori
I. kvartal * 2,2009989 2,5687752 2,4448206 2,5864611 2,45026395 2,44662154
II. kvartal * 1,0596947 0,8793456 0,8920402 0,7642762 0,89883918 0,89750302
III. kvartal 0,1909490 0,1530510 0,2631490 0,2435380 * 0,21267175 0,21235561
IV. kvartal 0,6361843 0,3173321 0,4039651 0,4192395 * 0,44418025 0,44351996
Sezonski faktor za svaki kvartal prosječna je veličina. Prosjek je računan u obliku jednostavne aritmetičke sredine prvih procjena sezonskih faktora istoimenih kvartala. Prosjek za prvo kvartal je 2,45026395, za drugi
0,89883918, itd. Zbroj sezonskih faktora mora biti jednak sezonskom periodu, tj. dvanaest ili četiri. U primjeru zbroj treba iznositi 4. Zbroj aritmetičkih sredina je 4,005955275 i veći je od 4. Stoga prosjeke treba korigirati kako bi njihov zbroj bio jednak 4. U tu se svrhu svaki izračunati prosjek množi korektivnim faktorom 4/4,005955275, koji izosi 0,998513463. Sezonski su faktori: za I. kvartal 2,44662, za II. kvartal
0,89750, itd. sezonski faktor pomnožen sa sto naziva se sezonskim indeksom. Vrijednosti očišćene od
139
III. DIO
14. Poglavlje: Metode izglađivanja vremenskog niza
UVOD U ANALIZU VREMENSKIH NIZOVA
sezonskih utjecaja dobivene su dijeljenjem vrijednosti članova niza sa sezonskim faktorima. Vrijednosti očišćene od sezonskih utjecaja u šestom su stupcu t ablice. Rezidualni faktori navedeni su u sedmom stupcu tablice. Rezidualni faktori pomnoženi sa sto nazivaju se indeksima rezidualnih odstupanja. Sezonski su indeksi u primjeru: I. kvartal II. kvartal III. kvartal IV. kvartal ezonski indeksi 244,662 89,750 21,236 44,352 Indeks 244,662 pokazuje da je razina pojave u I. kvartalu svake godine zbog sezonskih utjecaja u prosjeku
veća za 144,662%. Razina pojave II. kvartala u prosjeku je manja za 10,25% zbog sezonskih utjecaja, a u III. je manja za 78,764%, u četvrtom za 55,648%. Indeks rezidualnih utjecaja u III. je kvartalu 1998. godine 89,919, što znači da je razina pojave tog kvartala zbog rezidualnih utjecaja u prosjeku bila manja za 10,081%. Indeks rezidualnih utjecaja u IV. kvartalu iste godine iznosi 143,440. Razina pojave u tom razdoblju bila je veća za 43,440% zbog rezidualnih utjecaja.
Pomoću dobivenih veličina razina pojave može se raščlaniti na komponente. Razina pojave u I. kvartalu 1999. iznosi 3140. Ta je veličina peta u nizu, a rastavljena n a faktore ona je:
1426,625∙2,44662∙0,98861 3140 b)
Slika 12.: Prodaja, pomični prosjeci (procjene trenda), desezonirana serija prodaje 4500 4000 3500 3000
Prodaja
2500
Pomični prosjeci
2000 1500
Desezonirana serija
1000 500 0 1
2
3
4
5
6
7
8
9 10 11 1 1 12 1 2 13 1 3 14 1 4 15 1 5 16 1 6 17 1 7 18 1 8 19 1 9 20 20
140
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
K
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
lasični pristup analizi vremenskih nizova pretpostavlja da je proces koji generira podatke te se naglasak stavlja na deterministički dio vremenski niz , , dakle, na trend, sezonsku i ciklus komponentu, zanemarujući stohastičku komponentu modela. Za određene vremenske serije navedeni pristup analizi nije najoptimalniji zbog neprisutnosti spomenutih komponenti ili zbog prisutnosti kretanja koja se ne mogu modelirati dosada upotrebljavanim
metodama. U takvim je slučajevima korisnije nastojati modelirati stohastičku komponentu pretpostavljajući da je mehanizam koji generira podatke podložan vjerojatnosnim zakonima. Takav e konometrijski pristup. Osnovna značajka pristup analizi an alizi vremenskih vre menskih serija s erija poznat pozn at je kao moderni ili ekonometrijski tog pristupa je što stohastička komponenta nije više smatrana procesom bijelog šuma, već procesom autkoreliranih komponenti. Navedeno upućuje da cilj analize nije više procjena komponenti vr emenske emenske serije, već određivanje probabilističkog modela koji opisuje evoluciju pojave u vremenu, modela dakle, koji će biti korišten u deskriptivne i prediktivne svrhe.
14.1. OSNOVNI POJMOVI U EKONOMETRIJSKOJ EKONOMETRIJSKOJ ANALIZI VREMENSKIH VREMENSKIH SERIJA Osnovni pojmovi na kojima se temelji moderni pristup analizi vremenskih nizova su: stohastički (slučajni) proces vremenski niz stacionarnost
Neki postupci analize pojave u vremenu usredotočeni su na statistički opis razvoja razine dane pojave, a najčešće se koriste metode regresijske analize. Svrha analize kadšto se sastoji u opisu dinamičke strukture pojave. Primjerice, prikladnim analitičkim izrazom, odnosno modelom potrebno je izraziti zavisnost tekuće vrijednosti pojave o njezinim proteklim vrijednosti ma. Za razliku od regresijskog modela, u kojem se zavisna varijabla objašnjava nezavisnim varijablama, model kojim se analitički izražava izražava odnos međusobno razmaknutih članova iste serije ne sadrži nezavisne varijable. Njihovu ulogu imaju vrijednosti iste s erije s pomakom u vremenu. Kako razvoj pojava u vremenu nije deterministički, osim proteklih vrijednosti pojave u model se uključuje i slučajna varijabla (njene tekuće i protekle vrijednosti). S obzirom na to, proces koji stvara pojavu u vremenu, odnosno generira njezine
vrijednosti, ima obilježja stohastičkog procesa.
Proces koji generira podatke jedne vremenske serije može se zapisati kao: Dekompozicija vremenske serije na razne komponente, trend, ciklus ili sezonsku komponentu, naglasak stavlja na deterministički dio vremenske serije f(t), zapostavljajući
stohastičku komponentu serije. Za neke vremenske serije takav pristup nije pogodan, jer vremenska serija ne mora sadržati neke od gore navedenih komponenti ili se kretanja vremenske seri je je ne mogu modelirati. U takvim se slučajevima pristupa modeliranju stohastičke komponente vremenske serije pretpostavljajući da je mehanizam generiranja 141
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
podatka podložan vjerojatnosnim zakonitostima. Takav se pristup naziva modernim (ekonometrijskim ili kauzalnim) pristupom analizi vremenskih serija. Pažnja se poklanja ε t komponenti te se pretpostavlja da se analizom stohastičke komponente vremenske serije mogu proizvesti potrebne informacije. Stoga, se stohastička komponenta ne smatra white noise procesom, već procesom s koreliranim komponentama zbog kojih vrijedi za svaki Cilj Cilj analize stoga, nije više dobiti procjenu komponenata vremenske serije, već uočiti probabilistički model koji opisuje evoluciju pojave. Potrebno je stoga, uvesti pojam stohastičkog
, ≠ 0
≠ .
procesa. POJAM STOHASTIČKOG PROCESA
Teorija stohastičkih procesa predstavlja unificirani pristup analizi vremenskih serija, omogućavajući formalizaciju, uvođenjem određenih vjerojatnosnih svojstava, širokog vjerojatnosnog instrumentarija prikazivanja realnih situacija. Poveznica navedenoga je
definicija vremenske serije kao konačne realizacije stohastičkog procesa. Među osnovnim pojmovima teorije vjerojatnosti, koji čine podlogu modeliranju, je pojam stohastičkog procesa. Općenito govoreći, stohastički proces je pojava koja se u vremenu razvija prema zakonima vjerojatnosti.
, 0,0, ±1, ±2, … , 0,±1,±2,… , 0,0, ±1,±1, ±2, …
Stohastički proces s diskretnim parametrom t je familija vremenski indeksiranih slučajnih definiranih nad prostorom događaja Ω. varijabli Za fiksnu vrijednost vremenskog parametra t, Yt(ω) je slučajna varijabla, za fiksnu vrijednost je funkcija vremena koja se naziva realizacija procesa ili funkcija ωϵΩ, uzorka. Populacija ili skup svih mogućih realizacija (funkcija uzoraka) naziva se stohastički proces ili ansambl. s diskretnim vremenskim parametrom t Stohastički proces beskonačna je familija slučajnih varijabli. Iz navedenog slijedi da se vremenska serija može tretirati kao konačna realizacija nekog
stohastičkog procesa, odnosno da se može promatrati kao uzorak u odnosu na populaciju. Pojednostavljeno rečeno, može se reći da je stohastički proces kolekcija slučajnih varijabli indeksiranih vremenom Stohastički proces opisuje se pomoću prva dva momenta slučajne varijable. Promjenom parametra t, očekivanje, varijanca i kovarijanca definiraju sljedeće funkcije: Funkcija očekivanja: Funkcija varijance: Funkcija autokovarijance: Funkcija kovarijance nije ništa drugo već kovarijanca među slučajnim varijablama istog stohastičkog procesa međusobno udaljenih jednim vremenskim pomakom k=[t2-t1]. Funkcija varijance se stoga može interpretirati ako autokovarijanca za k=0.
, , , … ,
POJAM VREMENSKOGA NIZA
U literaturi ne postoji jedinstven stav oko toga što je vremenska serija. Izdvajaju se sljedeća dva predominantna mišljenja. 1. Vremenska serija predstavlja jednu realizaciju st ohastičkog procesa. U tom smislu odnos vremenske serije i stohastičkog procesa odgovara odnosu uzorka i populacije u 142
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
standardnoj teoriji statističkog zaključivanja. Kao što uzorak predstavlja dio populacije na osnovu koje se izvode zaključci o karakteristikama populacije, tako i analiza konkretne vremenske serije mora omogućiti sagledavanje karakteristika stohastičkog procesa. 2. Ne postoji razlika između stohastičkog procesa i vremenske serije. To znači da se
vremenska serija može smatrati nizom slučajnih varijabli koje su uređene u odnosu na vrijeme. Dakle, termini stohastički proces i vremenska serija smatraju se sinonimima te se koriste alternativno. POJAM STACIONARNOSTI
, 0,0,±1,,±,…, 2,…
Ekonomska pojava, kao na primjer zalihe gotovih proizvoda ili indeksi industrijske . Proces i sve proizvodnje, može se definirati kao stohastički proces njegove vrijednosti smatraju se populacijom, a vremenski niz je njegova
realizacija, odnosno uzorak. Kako bi se adekvatno istražile i razumjele specifične karakteristike vremenskih serija, potrebno je definirati osnovne pojmove koji se najčešće koriste u analizi. Jedno od najvažnijih svojstava stohastičkog procesa je svo jstvo stacionarnosti.
Ključna podjela vremenskih serija jest podjela na stacionarne i nestacionarne vremenske serije. Općenito govoreći stacionarnost je svojstvo vremenske serije čije se kretanje tijekom vremena odvija po ustaljenom obrascu u smislu nepromjenjivosti srednje vrijednosti i varijance.
Za stacionarne stohastičke procese karakteristično je da se njihova vjerojatnosna svojstva ne mijenjaju tijekom vremena (očekivana vrijednost i varijanca su postojane, a postojana je i korelacijska struktura). Suprotno, ukoliko su parametri kretanja vremenske serije funkcija vremenskog trenutka,
tada je ona nestacionarna. Ova podjela vremenskih serija značajna je zbog razlikovanja vremenskih serija koje se različito ponašaju tijekom vremena, što zahtijeva prim jenu različitih metoda analize. Za primjenu ekonometrijskih metoda u analizi vremenskih serija nužno je da bude zadovoljeno svojstvo stacionarnosti. Postoje dva koncepta stacionarnosti: 1. Koncept stroge stacionarnosti (striktna, jaka, potpuna stacionarnost ili stacionarnost u
užem smislu) i 2. Koncept slabe stacionarnosti (stacionarnost u širem smislu , kovarijantna stacionarnost ili stacionarnost durgoga reda).
Stroga stacionarnost vremenskoga niza
(, ,…,)
Za vremensku seriju kažemo da je strogo stacionarna, ak o za bilo koja dva prirodna broja i i slučajni nizovi n i k i bilo koju n-torku prirodnih brojeva imaju istu raspodjelu vjerojatnosti.
, ,…, (, ,…,) , < ∞
Budući da je za striktno stacionarni proces (ili vremensku seriju) funkcija distribucije jednaka za sve t, t= 0, 1, 2, …, očekivana vrijednost procesa , je konstantna ako je
143
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
||| < ∞
||| < ∞
. Analogno, uz uvjet da je je konstantna za svako t.
varijanca procesa:
Vremenska serija je strogo stacionarna ako se njena svojstva ne mijenjaju transliranjem u
vremenu. To znači da slučajne varijable koje pripadaju strog stacionarnoj vremenskoj seriji posjedu ju identičnu očekivanu vrijednost, varijancu, kao i momente višeg reda. Kako je, ,za svaki pomak k, k=1,2,…, kovarijanca između dvaju i razmaknutih članova procesa također je samo funkcija njihove vremenske
,, ,, + , + + + , + , . udaljenosti k, tj.
.
Isto tako, korelacija između
i
također je samo funkcija vremenske udaljenosti k, tj.
Iz navedenog proizlazi da za striktno stacionarni proces (za koji su prva dva momenta konačna) funkcije kovarijance i korelacije zavise samo o vremenskom pomaku k (međusobnoj udaljenosti članova procesa). Iz definicije stroge stacionarnosti proizlazi da je striktno stacionarni proces, za koji su prva dva momenta konačna, ujedno i slabo stacionarni
proces. Međutim postoje i striktno stacionarni procesi koji nemaju konačna prva dva momenta pa prema tome nisu stacionarni u širem smislu. Primjer takvog procesa je proces nezavisnih jednako distribuiranih Cauchyjevih slučajnih varijabli. Takav je proces striktno stacionaran, ali nije stacionaran u širem smislu jer prvi moment (očekivana vrijednost) Cauchyjeve distribucije nije konačan. Stroga ili striktna stacionarnost podrazumijeva dakle, da su očeki vanje i varijanca procesa nezavisne o vremenu, već da i momenti viših redova ne zavise o vremenskom pomaku k. Takav uvjet je veoma jak pa se u analizi vremenskih nizova češće koristi nešto blaži pojam stacionarnosti, tj. stacionarnost u širem smislu ili sl aba stacionarnost. Slaba stacionarnost vremenskoga niza
, , 1, 2, 2 , … , 1, 2 , … , + − , 1,1,2, … , 1,1,2, …
Vremenski niza 1. 2. 3.
je slabo stacionaran ukoliko zadovoljava sljedeće uvjete:
Navedeni uvjeti slabe stacionarnosti sugeriraju sljedeće: Očekivana vrijednost i varijanca slabo stacionarne vremenske serije se ne mijenjaju tijekom vremena.
Kovarijanca između svaka dva člana slabo stacionarne vremenske serije je samo funkcija vremenskog pomaka između njih. Za danu vrijednost pomaka kovarijanca je, kao i očekivana vrijednost i varijanca, invarijantna u odnosu na vrijeme.
Kakav je odnos između koncepta stroge stacionarnosti i slabe stacionarnost? Ako je vremenska serija strogo stacionarna, onda je ista ta serija i slabo stacionarna jedino ako
posjeduje konačnu varijancu. Obrnuto, slabo stacionarna vremenska serija ne mora biti i strogo stacionarna. To se dešava onda kada slabo stacionarna vremenska serija nema stabilne momente većeg reda od 2.
144
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
Gaussov slučajni proces Stohastički proces je normalan ili Gaussov slučajni proces, ako je zajednička funkcija distribucija normalna. Kako je normalna distribucija jedinstveno određena svojim prvim i drugim momentom, pojmovi striktne stacionarnosti i slabe stacionarnosti u slučaj u normalne distribuiranosti procesa su ekvivalentni. Dakle, konstantnost srednje vrijednosti i varijance
članova Gaussovog slučajnog niza podrazumijeva i konstantnost njihove zajedničke raspodjele. U većini rezultata statističkih analiza, pa tako i u anali zi vremenskih serija, pretpostavlja se normalnost distribuiranosti procesa.
Proces bijelog šuma Najjednostavniji stacionarni slučajan proces naziva se bijeli šum (White Noise Process), . Čisti slučajni proces ili proces bijelog šuma je proces nekoreliranih, jednako distribuiranih slučajnih varijabli s očekivanom vrijednošću nula i konstantnom varijancom. Po definiciji, vrijedi da je čisti slučajni proces ako za svako
~0,
je;
, 0,±1,±2,… 0,1,1, ±2,±2, … 0, , 0, 0, ≠
očekivana vrijednost procesa jednaka n uli, tj. i varijanca procesa konstantna, tj. . kovarijanca između i jednaka nuli. Cov Ukoliko se navedenim uvjetima doda i uvjet da su članovi niza bijeli šum nezavisne slučajne varijble, čija je zajednička distribucija normalna, tada je razmatrani proces slučajan proces Gaussov bijeli šum. Čisti slučajni proces ne sadrži sistematske komponente, a zbog međusobne nekoreliranosti članova procesa, budući se članovi ne mogu predvidjeti na osnovi prethodnih članova. Takvim se procesom obično opisuje dinamika slučajne komponente. Proces bijelog šuma je potpuno slučajan proces, koji na izvjestan način korespondira slučajnoj pogrešci klasičnog linearnog regresijskog modela. Sam termin bijeli šum preuzet je iz spektralne analize bijele svjetlosti. Naime, spektar bijele svjetlosti karakteriziran je
doprinosom svih sedam osnovnih boja spektra. Drugim riječima, ukupna energija bijele svjetlosti sadrži jednak utjecaj komponenti na različitim frekvencijama, što se može tvrditi i za proces bijelog šuma. 14.2. AUTOKORELACIJSKA AUTOKORELACIJE
FUNKCIJA
I
FUNKCIJA
PARCIJALNE
U ovom se dijelu uvode pojmovi autokorelacijske funkcije i parcijalne autokorelacije
stohastičkog procesa. Njihove su procjene izračunate na bazi uzorka (vremenske serije) osnovni alat analize vremenskih serija u domeni vremena. Da bi se provela analiza procesa na temelju njegove realizacije, odnosno empirijske vremenske serije, potrebno je utvrditi oblik modela. Izbor oblika modela slijedi iz kvalitativne analize te statistiko-analitičkih kriterija. Među najvažnijim sredstvima odabira
modela stohastičkog procesa jest autokovarijančna, odnosno autokorealcijska funkcija i funkcija parcijalne autokorelacije.
Uz analizu razvoja pojave u vremenu prediktivnim izrazom, usporedo se brojčano izražavaju stupanj i smjer međusobne zavisnosti članova iste vremenske se rije razmaknutih jedno razdoblje ili više njih. Tako izražena međusobna kovarijacija predočuje njegovu 145
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
autokorelacijsku strukturu. Teorijska autokorelacijska funkcija i funkcija parcijalne autokorelacije zavise o karakteristikama procesa. Za dane oblike procesa poznati su i njihovi
oblici (analitički izrazi). AUTOKORELACIJSKA FUNKCIJA
Autokorelacijska funkcija dana je izrazom:
− , 0,1, … ; 1 ≤ ≤ 1
Vrijednosti autokorelacijske funkcije
(159)
procesa nazivaju se koeficijentima autokorelacije.
Njima se mjeri stupanj i smjer linearne statističke povezanosti članova procesa razmaknutih τ razdoblja. Ovisno o veličini razmaka, razlikuje se koeficijent autokorelacije nultog i prvoga reda te općenito reda τ . Vrijednosti autokorelacijske funkcije procesa mogu biti pozitivne ili negativne, a kreću se u zatvorenom intervalu . Za k=0,1,2,…, niza koeficijenata autokorelacije , kao funkcije vremenskog pomaka k, čini autokorelacijsku funkciju stacionarnog stohastičkog procesa, koja se označava s ACF (engl. Auto Correlation Function). Grafički prikaz autokorelacijske funkcije naziva se korelogram. Na temelju oblika
0, 1, 2, …
1,1
korelograma definiraju se modeli kojima se nastoji opisati dinamika empirijskih pojava.
Autokorelacijska funkcija poprima različite oblike, ovisno o karakteristikama procesa koji generira podatke. Teorijske autokorelacijske funkcije stohastičkih procesa poznata su oblika. nisu poznate pa se koriste vrijednosti U empirijskim istraživanjima, dakako, vrijednosti
vremenske serije (uzorka) kako bi se procijenila autokorelacijska funkcija procesa. Procijenjena funkcija naziva se empirijs ka autokorelacijska funkcija i označava se sa SACF (engl. Sample AutoCorrelation Function). Za vremenski pomak k, vrijednosti empirijske autokorelacijske funkcije su procjene koeficijent autokorelacije i izračunavaju se formulom:
pri čemu je
∑=
∑ =+∑= −
(160)
aritmetička sredina vremenske serije.
Kako bi se odredio analitički izraz koji se opisuje dinamika promatrane pojave, u empirijskim se analizama oblik empirijske autoko relacijske funkcije uspoređuje s poznatim oblicima teorijskih funkcija. Stoga je empirijska autokorelacijska funkcija važan alat pri identifikaciji modela stohastičkih procesa. FUNKCIJA PARCIJALNE AUTOKORELACIJE
Osim autokorelacijske funkcije, u analizi procesa važnu analitičku ulogu ima funkcija parcijalne korelacije. Koeficijent parcijalne autokorelacije reda k pokazatelj je statističke zavisnosti procesa i procesa uz neutraliziran utjecaj autokorel acije člana procesa u
−
vremenu t i pomakom (lagom) u vremenu manjim od k. Koeficijent parcijalne autokorelacije
∅, 1,1,2, …
usporedivi su s koeficijentima parcijalne korelacije. Vrijednosti funkcije kreću se u
1,1
zatvorenom intervalu . Niz koeficijenta parcijalne autokorelacije , kao funkcija pomaka k, definira parcijalnu autokorelacijsku funkciju koja se označava s PACF ( engl. Partial Autocorrelation Function). Formalno, koeficijenti parcijalne autkorelacijske funkcije definiraju se formulom: 146
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
∅ , +|+, +,…,+−, 1,1,2, …
(161)
14.3. MODELI STACIONARNIH VREMENSKIH SERIJA
Zadaće analize vremenskih serija sastoji se u pronalaženju analitičkog izraza (modela) kojim se opisuje stohastički proces koji generira pojavu. Takav se analitički izraz naziva modelom stohastičkog procesa. Važnu skupinu modela čine linearni modeli stacionarnih stohastičkih procesa u vremenu. Najvažniji modeli stacionarnih procesa su: model čistog slučajnog procesa autoregresijski model reda p, AR(p); model pomičnih prosjeka reda q, MA(q); mješoviti model reda (p,q), ARMA (p,q), te ČISTI SLUČAJNI PROCES
Proces koji se rijetko pojavljuje u praksi, ali je važan sastavni dio svakog modela vremenskih serija je čisti slučajni proces ili proces bijelog šuma ( engl. White Noise Process). U analizama se obično pretpostavlja da su pogreške relacije ekonometrijskih modela generirane takvim procesom. Takav se proces definira kao niz nekoreliranih jednako distribuiranih slučajnih varijabli s konačnim očekivanjem (za koje se najčešće pretpostavlja da je . Nekoreliranost jednako nuli) i s konačnom varijancom i označava se s za za svaki . procesa znači da je kovarijanca između i jednaka nuli, tj. Uobičajena je i pretpostavka o normalnoj distribuiranosti procesa, tj. da je čisti slučajni proces ujedno i Gaussov proces. Iz definicije čistog slučajnog procesa proizlazi da je proces
, 0,0, ±1, ±2, …
~0, , 0,
≠
10 ≠ 00 ∅ 10 ≠ 00
stacionaran s autokorelacijskom funkcijom:
,
i parcijalnom autokorelacijskom funkcijom:
.
≠ 0 0 ∅ 1
Prema tome, karakteristika čistog slučajnog procesa je da su njegove funkcije, ACF i PACF, jednake nuli za svaki pomak k, . Jedino za k=0 vrijednosti funkcija jednake su jedan. Kako po definiciji za svaki stohastički proces, u analizama autokorelacijskih funkcija i funkcija parcijalne autokorelacije, analiziraju se samo vrijednosti i različite od nule, . S obzirom da se vremenska serija sastoji od konačnog broja opaženih
≠0
0 ∅
vrijednosti od interesa je pronalaženje parametarskih modela s konačnim brojem parametara. Među njima se najčešće primjenjuju: autoregresijski model reda p - AR( p), model pomičnih prosjeka reda q – MA(q) i mješoviti model – ARMA ( p, q) koji povezuje AR( p) proces s MA( q) procesom. 15.3.2. AUTOREGRESIJSKI MODEL REDA p, AR(p)
Autoregresijskim se modelima opisuju stohastički procesi koji generiraju vremenske serije čije su vrijednosti autokorelirane. Autoregresijski model reda p je oblika:
∅− ∅− ⋯∅−
(162)
147
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
odnosno:
to jest:
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
∅− ∅− ⋯∅− ∅ , ∅ 1 ∅ ∅ ⋯∅
(163)
(164)
Iz oblika AR(p) modela vidljivo je da se može usporediti s regresijskim modelom. Član procesa , u razdoblju t zavisi o članovima procesa u p prethodnih razdoblja i o slučajnoj varijabli . Pretpostavlja se da je proces čisti slučajni proces i naziva se proces pogrešaka relacije, proces inovacija ili šokova. šokova. Kako se član procesa „regresira“ na p prethodnih članova
−, −, − ∅, ∅,…,∅ , 0,1 … , , −, −,…, −
procesa model se stoga i naziva autoregresijski model. su autoregresijski parametri, a je konstantni ko nstantni član. Pri analizama se konstantni član u modelu najčešće zanemaruje. B je operator pomaka. Operator pomaka pomiče vremenski indeks t za 0,1, 2,…, p jediničnih p jediničnih razdoblja unatrag (backshift operator ),), to jest: (165)
AUTOREGRESIJSKI PROCES PRVOG REDA – AR(1)
Autoregresijski proces prvog reda je:
∅ − −
(166)
AR(1) proces naziva se i Markovljev proces. Tekuća vrijednost procesa određena je s pa je proces prikladan za modeliranje vrijednošću procesa u prethodnom razdoblju, stacionarnih vremenskih serija kod kojih su povezani susjedni članovi serije. MODEL POMIČNIH PROSJEKA REDA q, MA(q)
Model pomičnih prosjeka je model kojim se opisuju stohastički procesi koji generiraju vremensku seriju čije je vrijednost tekućeg perioda povezana s greškama relacije tekućeg i prethodnih razdoblja. Model pomičnih prosjeka reda q, MA(q):
− − ⋯− , 1 1 ⋯ , 0,1, . . ,
(167)
Model je bez konstantnog člana u alternativnoj notaciji:
(168)
je čisti slučajni proces. Prema modelu, tekući član procesa linearna je kombinacija tekućeg člana , čistog slučajnog procesa i njegovih parametrima ponderiranih proteklih članova.
Gdje je
operator pomaka,
su parametri, a
M JEŠOVITI MODEL MODEL REDA pq, ARMA(p,q) ARMA(p,q)
Pođemo li od pretpostavke da tekući član procesa zavisi o njegovim proteklim članovima, o tekućem članu čistog slučajnog procesa i o njegovim proteklim članovima, dobivamo mješoviti model ARMA(p,q) oblika: 148
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
− − ⋯− − − ⋯−
(169)
odnosno:
(170)
14. 3. SVOJSTVA AUTOKORELACIJSKE FUNKCIJE I FUNKCIJE PARCIJALNE
AUTOKORELACIJE ODABRANIH MODELA STOHASTIČKIH PROCESA Svojstva autokorelacijske funkcije i funkcije parcijalne korelacije vremenske serije generirane analiziranim modelima dane su u nastavku: 1) Klasa AR( p) procesa posjeduje autokorelacijsku funkciju sa eksponencijalno ili
oscilatorno opadajućim vrijednostima koeficijenata. Parcijalni autokorelacijski koeficijenti poprimaju nenulte vrijednosti za pomake 1,2,…, p p i jednaki su nuli za pomake koje su veće od reda autoregresijskog procesa p. 2) Klasu MA(q) procesa karakterizira autokorelacijska funkcija koja posjeduje nenulte vrijednosti u pomacima 1,2,…, q. vrijednosti autokorelacijskih koeficijenata jednake su nuli za pomake veće od reda procesa q. Koeficijenti parcijalne autokorelacijske funkcije lagano opadaju tijekom vremena. 3) Autokorelacijski koeficijenti klase ARMA( p,q) modela pokazuju tendenciju opadanja, i to nakon prvih (q-p) pomaka kod autokorelacijske i nakon ( p-q p-q) pomaka kod parcijalne autokorelacijske funkcije. Tablica 31: Autokorelacijska funkcija i parcijalna funkcija autokorelacija AR(p), MA(q) i ARMA(p,q) modela Model
Čisti slučajni
ACF: Autokorelacijska funkcija Sve vrijednosti jednake nula.
PACF: Funkcija parcijalne autkorelacije Sve vrijednosti jednake nula. Konačna i iščezava nakon pomaka p.
Vrijednosti su različite od nule samo za AR(p)
MA(q)
Konačna i iščezava nakon pomaka q.
Beskonačna i opadajuća. Vrijednosti opadaju
Vrijednosti opadaju tijekom vremena i jednake
tijekom vremena po eksponencijalnoj ili sinusoidnoj putanji. Beskonačna, opadajuća nakon pomaka p-q. Vrijednosti opadaju tijekom vremena. Prvih p
su nuli za pomake veće od reda procesa q. Beskonačna, opadajuća nakon pomaka q-p. ARMA(p,q)
≠ ≤ >
Sve vrijednosti opadaju tijekom vremena po eksponencijalnoj ili sinusoidnoj putanji.
pomake koji su manji ili jednaki redu procesa p, ). Posljednji nenulti koeficijent je koeficijent na pomaku p, koji je jednak autoregresijskom parametru na pomaku p.
Beskonačna i opadajuća.
Vrijednosti opadaju tijekom vremena. Prvih q koeficijenata je određeno parametrima AR i MA
komponente, dok za pomake veće od q
koeficijenata je određeno parametrima AR i MA komponente, dok za pomake veće od p
koeficijenti zavise samo do AR komponente
koeficijenti zavise samo od MA komponente.
U empirijskim istraživanjima, za određivanje reda AR(p) modela, analiziraju se grafički prikazi empirijskih funkcija. Na temelju vremenske serije izračunavaju se empirijska autokorelacijska funkcija (SACF) i empirijska parcijalna autokorelacijska funkcija (SPACF). Dobiveni oblici korelograma uspoređuju se s teorijskim funkcija, a kako bi se donijela odluka 149
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
o prikladnom modelu. Ako su vrijednosti SPACF statistički značajne za pomake koji su manji ili jednaki p, a za pomake veće od p približno jednake nuli (tj. odstupaju od očekivane vrijednosti za manje od dvije standardne pogreške), te ako vrijednosti SACF opadaju, odgovarajući model je AR( p) model. Primjerice AR(1) model odabrat će se u slučajevima kada su vrijednosti SPACF približno jednake nuli nakon pomaka k=1, a SACF eksponencijalno pada ili/i ima oblik prigušene sinusoide. Općenito, za MA(q) proces vrijednosti autokorelacijske funkcij e iščezavaju nakon pomaka q. Navedeno svojstvo je ključno u empirijskim analizama. Na temelju njega je moguće zaključiti da je vremenska serija generirana MA( q) procesom. Parcijalna autokorelacijska funkcija MA(q) procesa opada eksponencijalno ili/ i u obl iku prigušene sinusoide s vrijednostima pomaka k. Za određivanje reda q modela pomičnih prosjeka analiziraju se grafički prikazi
empirijskih funkcija. Koristeći vremensku seriju izračunavaju se empirijske funkcije: SACF i SPACF. Kako bi se donijela odluka o prikladnom modelu, oblici funkcija uspoređuju se s teorijskim. Ako su vrijednosti SACF statistički značajne samo za pomake koji su manji ili jednaki q, a za ostale pomake (veće od q) su približno jednake nuli (tj. odstupaju od očekivane vrijednosti za manje od dvije standardne greške), te ako vrijednosti SPACF opadaju s pomakom k, odgovarajući je MA( q) model. Primjerice, kao adekvatan model odabrat će se MA(1) model u slučajevima kada su vrijednosti SACF približno jednake nuli nakon pomaka k=1, a SPACF eksponencijalno pada ili /i ima oblik prigušene sinusoide. Odabir odgovarajućeg modela temelji se na usporedbi empirijskih funkcija s teorijskim funkcijama procesa. Karakteristični slučajevi koji se pojavljuju u praksi su sljedeći: a) Ako su vrijednosti SACF značajno različite od nule, tj. imaju šiljke za pomake k= 1,2,…, q
i iščezavaju nakon toga, odgovarajući model je MA(q) model. b) Ako su vrijednosti SPACF značajno različite od nule, tj. imaju šiljke za pomake k=1,2,…,p i iščezavaju nakon toga, odgovarajući je AR(p) model. Slučajevi a) i b) su relativno jednostavni i odabir modela ne predstavlja veći problem. Međutim, problem određivanja odgovarajućeg modela nastaje kada istovremeno vrijedi i a) i b), što je gotovo pravilo u empirijskim istraživanjima. Tada s e promatra koja od funkcija „brže“ iščezava. Ako je to empirijska autokorelacijska funkcija, odabrat će se MA(q) mode. Ako je to empirijska parcijalna autokorelacijska funkcija, odabrat će se AR( p p) modela. Ako obje funkcije jednako „brzo“ iščezavaju, anali ziraju se oba modela i odabire bolji. c) Vrijednosti empirijske autokorelacijske funkcije počinju opadati nakon pomaka q, a
vrijednosti empirijske parcijalne autokorelacijske funkcije počinju opadati nakon pomaka p. Tada je odgovarajući model ARMA( p,q) model. Odabir duljine pomaka p i q u ARMA( p,q) modelu zahtijevan je posao i ponekad iziskuje
veliko iskustvo istraživača. Iskustvo istraživača često je presudan faktor u odabiru modela. MA procesi velikog reda rijetki su u praksi. S druge strane AR procesi v elikog reda (većeg od
dva) najčešće su posljedica nestacionarnosti procesa. Shodno tome. Ako se odabiru AR ili MA modeli, obično se koriste modeli manjeg reda. Od mješovitih modela, ARMA(2,0) i ARMA(1,1) su modeli koji se najčešće koriste u ekonometrijskim istraživanjima i pokazuju se odgovarajućim modelima u opisivanju dinamike velikog broja ekonomskih pojava.
150
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
ZADACI ZA VJEŽBU 1.
− − − − − − − − − − − − − − − −
Dani su modeli stacionarnih procesa: 1) 2) 3) 4) 5) 6) 7) 8) 9) 10)
O kakvim je modelima riječ? Predočite ih odgovarajućom oznakom. 2.
Dnevne cijene jednog proizvoda u prosjeku ne mijenjaju razinu niti su prisutne periodične varijacije, a postojan je i stupanj varijabilnosti. Pođe li se od pretpostavke da je proces koji generira vremensku seriju AR(1), kako glasi model procesa? klnlnlčjnkljhnklnllll
(b)
3.
Navedeni niz prikažite linijskim grafikonom.
t
1 48
2 55
3 54
4 54
5 51
6 55
7 54
8 57
9 58
10 52
11 50
12 52
13 51
14 52
15 56
16 58
17 54
18 55
19 56
20 55
a) b) Koliki je koeficijent autkorelacije nultog reda? Izračunajte vrijednosti koeficijenta
autokorelacije prvog, drugog,…, sedmoga reda. c) Nacrtajte korelogram. 4.
Tjedne zaključne cijene dionica kompanije kompanije XX za jednu godinu su: 61,000 61,625 61,000 64,000 63,750 63,375 63,875 61,875
61,500 61,625 62,125 61,625 61,000 61,875 61,625 59,625 58,750
58,750 58,250 58,500 58,500 57,750 57,125 57,750 58,875 58,000
57,875 58,000 57,125 57,250 57,375 57,125 57,500 58,375 58,125
56,625 56,250 56,250 55,125 55,000 55,125 53,000 52,375 52,875
53,500 53,375 53,375 53,500 54,000 53,125 51,875 52,250
a) Navedeni niz prikažite linijskim grafikonom. b) Odredite vrijednosti empirijske autokorelacijske funkcije. Komentirajte rezultate.
151
21 54
22 56
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
RJEŠENJA ZADATAKA 1.
2)
3)
4) 5)
su slučajne varijable (pogreške relacije), koje imaju obilježja čistoga stacionarnoga stohastičkog procesa. Prema modelu, član procesa zavisi o članu , parametru i članu procesa . Model se označava kao AR(1). Alternativno se može označiti kao ARMA(1,0). Model (2) je model pomičnih prosjeka prvog reda. Član procesa linearna je kombinacija člana slučajnog procesa , parametra i člana slučajnog procesa u vremenu (t -1). Model se označava kao MA(1), odnosno ARMA(0,1). Značenje modela pomičnih prosjeka u sklopu modela stacionarnih stohastičkih procesa razlikuje se od pomičnih prosjeka kao metode izglađivanja. Model (3) je model autoregresijskog procesa drugog reda. Član procesa linearna je kombinacija parametara člana istog procesa u vremenu (t -1) i vremenu (t-2) te člana slučajnog procesa . Model se označava kao AR(2) ili ARMA(2,0). Model (4) je mješo viti model. Autoregresijski dio je prvog reda, a prvog reda je i dio koji se odnosi na pomični prosjek. Model se označava kao ARMA(1,1). Model (5) je model pomičnih prosjeka reda q=2, a označava se kao MA(2) ili ARMA(0,1).
1) Model (1) je autoregresijski model prvog reda,
−
−
2.
. Prema modelu, cijena tekućeg razdoblja AR(1) ili ARMA(1,0) model glasi: linearna je kombinacija cijena prethodnog razdoblja, nepoznatih parametara i nepoznate vrijednosti tekućeg razdoblja slučajne varijable .
3.
a) Slika: Prikaz vremenske serije bez sistematskih komponenti 65 60
y 55 50 45 1 2 3 4 5 6 7 8 9 10 1 11 1 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 21 21 22 22
t
Prema grafikonu, moguće je da vremenska serija ne sadrži sistematske komponente (komponente (komponente trenda ili periodične varijacije) b) Broj podataka u primjeru nije dovoljno velik (n=22), a koeficijenti će se račun ati samo radi
ilustracije metode računanja. Koeficijent autokorelacije nultog reda jednak je jedan. Vrijednost koeficijenta autokorelacije prvog reda računa se izrazom:
∑ = ̅ ∑= − , , , , … , , −, … , , 955 15553, 5553, 4853,4853, 95555 955555453, 9 55 55 5553, 9 55 55 ⋯ 5653, 9 55 55 5453, 9 55 0,22406 554853, 5553,95555 ⋯ 5653,95555
, odnosno (55, 48), (54, 55),…,(56, 54). Aritmetička sredina niza je 53,955. Koeficijent autokorelacije niza je:
Parovi su vrijednosti
Koeficijent je autokorelacije drugog reda:
152
III. DIO
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
UVOD U ANALIZU VREMENSKIH NIZOVA
̅ ∑= ∑= − , , , , … , , −, … , , 955 15453, 4853,4853, 95555 955555453, 955 555553, 5553, 9 55 55 ⋯ 5653, 9 55 55 5553, 9 55 0,04256 554853, 5553, 95555 ⋯ 5653,95555 0,1,2,3,…,7
, odnosno (54, 48), (54, 55),…,(56, 55). Aritmetička sredina niza je 53,955. Koeficijent autokorelacije niza je:
Parovi su vrijednosti
Vrijednosti su empirijske autokorelacijske funkcije ( Pomak (lag)
)
Koeficijent autokorelacije 1,0000 0,2241 -0,0426 -0,1149 -0,1227 -0,3308 0,0359 0,0274
0 1 2 3 4 5 6 7
c) Prikaz koeficijenata autokorelacije naziva se korelogram. Graf je linijski, s dužinama,
površinski (s pravokutnicima) ili znakovima. Slika: Korelogram 1 e j i t c n a 0,5 e l j i r e c i o f k e 0 o o k t u a
1
2
-0,5
4.
3
4
5
6
7
pomak
a) Slika: Prikaz nestacionarne vremenske serije 65
a c i n o i d 60 e n e j i 55 c e n č u j 50 l k a z
1 3 5 7 9 11 13 13 15 15 17 17 19 19 21 21 23 23 25 25 27 27 29 29 31 31 33 33 35 35 37 37 39 39 41 41 43 43 45 45 47 47 49 49 51 51 t
b) Grafički prikaz pokazuje da zaključne cijene dionica na sistematski način kovariraju s
vremenom, to jest očituje se pojava trenda, pa se prema tome ne može izravno upotrijebiti model stacionarnih procesa, što se odražava i na obilježja empirijske autokorelacijske funkcije.
153
III. DIO UVOD U ANALIZU VREMENSKIH NIZOVA
14. Poglavlje: Osnove ekonometrijske analize vremenskih nizova
Autocorrelations VAR00001
Lag Autocorrelation Std.Error(a) 1,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
,932 ,858 ,809 ,743 ,675 ,612 ,547 ,483 ,416 ,346 ,265 ,206 ,164 ,113 ,066 ,032 Partial Autocorrelations
,135 ,133 ,132 ,131 ,129 ,128 ,127 ,125 ,124 ,122 ,121 ,119 ,118 ,116 ,115 ,113
0,5
F C 0,0 A
-0,5
-1 0
VAR00001
Partial Lag Autocorrelation 1 ,932 2 -,088 3 ,166 4 -,199 5 ,026 6 -,076 7 -,021 8 -,046 9 -,062 10 -,066 11 -,152 12 ,144 13 ,015 14 -,030 15 -,023 16 ,021 Empirijske vrijednosti autokorelacijske funkcije originalnih vrijednosti serije usporeno se 1,0
0,5
F C A l a 0,0 i t r a P
-0,5
-1,0
približavaju nuli, što je posljedica prisutnosti trenda cijena. Grafički prikaz serije i koeficijenti autkorelacije upućuju na zaključak o potrebi eliminiranja tren da, odnosno transformacije podataka pomoću diferencija. Na to upućuju i vrijednosti empirijske funkcije parcijalne autkorelacije, čije se vrijednosti nakon pomaka 1 smanjuju i ne razlikuju se signifikantno od nule.
154
IV. DIO
PROGNOZIRANJE
IV. DIO
15. Poglavlje: Pregled kvantitativnih metoda prognoziranja
PROGNOZIRANJE
P
rognoziranje se može definirati kao predviđanje budućih događaja koje se zasniva na objektivnim i provjerenim činjenicama uz pomoć provjerenih znanstvenih metoda. Prognoziranje se sastoji u organiziranju informacija o prošlosti određene pojave kako bi se mogla predvidjeti njena budućnost. Kvantitativno istraživanje i prognoziranje sastoji se u korištenju različitih matematičkih modela koji se oslanjaju na prošle podatke i/ili pridružene varijable u svrhu prognoziranja budućih vrijednosti. Takve se metode koriste kada je situacija „stabilna“ i kada su nam na raspolaganju povijesni podaci.
Kvantitativne metode prognoziranja i istraživanja mogu se podijeliti u dvije osnovne skupine i to metode prognoziranja na osnovi vremenskih serija i kauzalne prognostičke metode. Tablica 32: Pregled kvantitativnih metoda KVANTITATIVNE METODE METODE PROGNOZIRANJA NA OSNOVI VREMENSKIH SERIJA
NAIVNI MODELI MODELI JEDNOSTAVNIH I LINEARNIH
POMIČNIH PROSJEKA
KAUZALNI MODELI
REGRESIJSKA ANALIZA STRUKTURALNI EKONOMETRIJSKI MODELI
MODELI JEDNOSTRUKOG I VIŠESTRUKOG EKSPONENCIJALNO IZGLAĐIVANJA STANDARDNA DEKOMPOZICIJA VREMENSKE SERIJE AUTOREGRESIJA BOX-JENKINS METODOLOGIJA
Modeli vremenske serije temelje se na pretpostavci da je budućnost funkcija prošlosti te da će
čimbenici koji su djelovali u prošlosti i koji djeluju u sadašnjosti nastaviti djelovati na vremensku seriju i u budućnosti. Vremenska serija je dakle prognostička tehnika koja koristi seriju podataka iz prošlosti za izradu prognoze. Kauzalni modeli uključuju varijable ili čimbenike koji bi mogli imati utjecaja na veličinu prognoze.
Uz vremenske serije i kauzalne modele, u prognoziranju turističke potražnje pojavljuje se i skupina metoda prognoziranja: metode umjetne inteligencije ( AI techniques): genetski algoritmi,
neuronske mreže, ekspertni sustavi, fuzzy metoda (neizrazita metoda). Osnovna je prednost ovih metoda što ne zahtijevaju preliminarne i dodatne informacije o distribuciji i vjerojatnosti podataka. 156
IV. DIO
15. Poglavlje: Pregled kvantitativnih metoda prognoziranja
PROGNOZIRANJE
15.1. ODABIR NAJBOLJEG MODELA PROGNOZIRANJA
Zbog postojanja velikog broja kvantitativnih prognostičkih metoda, često je potrebno pribjeći kriterijima kojima se uspoređuje odabir optimalnog modela, kao što su vjerodostojnost modela, prihvatljivost modela, moć objašnjavanja modela, ekonomičnost i efikasnost modela. Odabir najbolje metode istraživanja ili prognoziranja zavisi od konkretnog slučaja, no postoje neke općeprihvaćene smjernice koje pomažu i usmjeruju istraživača ka naj boljoj metodi. prognostičke metode Slika 37: Vodič za odabir odgovarajuće prognostičke Da li su podaci dostupni? dostupni?
Ne
Kvalitativne Kvalitativne metode
Da
Horizont prognoziranja prognoziranja veći od od 2 godine?
Ne
Da
Da li se očekuju velike velike promjene u okrzuženju? okrzuženju?
Ne
Prognostičke metode metode na bazi vremenskih serija
Da
Da li postoje pouzdane pouzdane informacije informacije o odnosima među varijablama? varijablama ?
Ne
Da
Da li je dostupan dostupan dovoljan dovoljan broj podataka o kauzalnim varijablama varijablama??
Ne
Regresijska analiza analiza
Da
Ekonometrijski Ekonometrijski model
Odabir prognostičke metode vrši se temeljem analize i uočavanja osnovnih komponenti vremenske serije.
Sljedeća tablica prikazuje odabir najprimjerenije prognostičke metode, s obzirom na komponente prisutne u vremenskoj seriji. Tablica 33: Odabir prognostičke metode u zavisnosti od prisutnih komponenti u vremenskoj seriji Naivni model I (status quo) Stacionarni vremenski niz (nema
sistemskih komponenti već samo slučajnu komponentu)
Jednostavna (ažurirana) (ažurirana) aritmetička aritmetička sredina Jednostavni i vagani vagani pomični prosjeci prosjeci Modeli jednostavnog eksponencijalnog eksponencijalnog izglađivanja
ARMA (engl. Autoregressive Moving Average) model (iz skupine Box-Jenkins modela) Naivni model II (status quo diferencije) i Naivni model IIa (status quo stope)
Vremenski niz koji očituje trend (i iregularnu komponentu)
Dvostruki (linearni) pomični prosjeci Pomični prosjeci s linearnim trendom Jednostavno eksponencijalno eksponencijalno izglađivanje s trendom Dvostruko eksponencijalno izglađivanje s trendom Jednostavna linearna regresija regresija na bazi vremenske serije
157
IV. DIO PROGNOZIRANJE
15. Poglavlje: Pregled kvantitativnih metoda prognoziranja
Vremenski niz koji očituje trend, sezonsku i iregularnu komponentu
ARIMA model (engl. Autoregressive Integrated Moving Average) model (iz skupine Box-Jenkins modela) Holt-Wintersov aditivni model (engl. Holt-Winters Additive Algorithm, HWA) Holt-Wintersov multiplikativni model (engl. Holt-Winters Multiplicative Algorithm, HWM)
Model višestruke regresije Vremenski niz koji očituje trend, cikličnu, sezonsku i iregularnu
ARIMA model (engl. Autoregressive Integrated Moving Average model) ili Box-Jenkins model Ekonometrijski modeli i modeli prognoziranja na bazi vodećih („leading“) indikatora
komponentu
Primjerenije i točnije prognoze smanjuju rizik prilikom odlučivanja. Smatra se stoga da je u prognoziranju potražnje, efikasnost, jedan od važnijih kriterija evaluacije i odabira modela. 15.2. MJERE EFIKASNOSTI PROGNOSTIČKIH METODA
Primjeren je model dobro prilagođen podacima. Kako bi se usporedila primjerenost i kakvoća različitih modela (procijenjenim istom metodom procjene), promatraju se kriteriji uspješnosti prilagođavanja modela empirijskim podacima kao što su procjena varijance i standardne devijacije ili koeficijent determinacije. U analizi vremenskih serija koeficijent
determinacije često poprima visoke vrijednosti, što može biti posljedica trenda, sezonskih utjecaja ili na velikog broja varijabli uključenih u model, a koje ne moraju uvijek biti sve statistički značajne. U takvim slučajevima koeficijent determinacije nije adekvatna mjera primjerenosti modela.
Nakon što je izvršeno modeliranje putem neke od metoda prognoziranja, dobiveni modeli koriste se u svrhu dobivanja što pouzdanijih prognoziranih vrijednosti promatrane pojave, stoga je potrebno izvršiti evaluaciju u svrhu ispitivanja njihove kvalitete. ˝Prema istraživanju brojnih turističkih eksperata, najvažniji kriterij uspješnosti u prognoziranju je točnost. Mjere ocjenjivanja točnosti temelje se na razlikama između stvarnih i prognostičkih vrijednosti. Što je izražena veća razlika, prognoze su manje uspješne, i obratno.˝ Dakle, pouzdanost prognoze ovisi o tome koliko su bliske prognoze varijable stvarnim vrijednostima iste varijable. Razlika između stvarne i prognozirane vrijednosti, poznata pod nazivom
prognostička pogreška, definirana je izrazom:
gdje je: t e A F
(171)
vremensko razdoblje, interval
prognostička pogreška stvarna vrijednost promatrane pojave prognozirana vrijednost promatrane pojave
Ukoliko se odabrani model koristi u prognostičke svrhe, za odabir optimalnog modela mogu poslužiti i mjere prediktivne efikasnosti modela. U tu se svrhu, na temelju odabranih modela i originalnih vrijednosti niza ( ) izračunavaju prognostičke vrijednosti ( ), a potom i prognostičke pogreške. Model s najmanjom prognostičkom
, ,…,
, ,…,
158
IV. DIO PROGNOZIRANJE
15. Poglavlje: Pregled kvantitativnih metoda prognoziranja
pogreškom (koji zadovoljava dijagnostičku provjeru) odabire se kao konačan model. ˝U teoriji, ukoliko je model korektno specificiran, prognostičke pogreške bit će serija slučajnih varijabli s očekivanom vrijednošću nula. Bitno je za naglasiti da ponekad modeli koji ostvaruju nekvalitetne prognoze mogu generirati izrazito mal u prognostičku pogrešku. Uzrok tomu je što se pozitivne i negativne prognostičke pogreške poništavaju. Kako bi se izbjegla takva mogućnost prognostičke pogreške iz izraza (171) često puta se gledaju u apsolutnom iznosu, ili kvadrirano, tj. općenito vrijedi da čim je manja suma ili, to je prognoza bolja. U literaturi se navode brojni pokazatelji koji se mogu koristiti u evaluaciji prognostičkih vrijednosti. Tablica u nastavku daje pregled nekih od najčešće korištenih mjera
prognostičkih pogrešaka. Tablica 34: Najčešće korištene prognostičke prognostičke pogreške
Srednjekvadratna prognostička pogreška (engl. Mean Square Error-MSE)
Srednjekvadratno apsolutno odstupanje (engl. Mean Abosulte Deviation- MAD)
Korijen srednjekvadratne prognostičke pogreške (engl. Root Mean Square Error-RMSE)
Prosječna apsolutna postotna pogreška (engl. Mean Absolute Percentage Error- MAPE)
gdje je
T
1 = 1 | | =
√ | | 1 = ∙100%
broj podataka koji se koristi pri procjeni opažena vrijednost niza u trenutku t prognostička vrijednost niza u trenutku t
Srednje apsolutno odstupanje mjera je kojom se eliminira mogućnost poništavanja pozitivnih
i negativnih pojedinačnih pogrešaka. U literaturi se često može naći i pod nazivom srednja apsolutna devijacija (Mean Absolute Deviation). S obzirom da ova vrsta pogreške izražava pogrešku u mjernim jedinicama pojave koja se analizira, srednje apsolutno odstupanje nije mjera prikladna za usporedbu rezultata prognoziranja različitih pojava, izraženim u različitim jedinicama mjere. Prednost je pogrešaka koje su izražene u vidu postotka ta što su neovisne o mjernim jedinicama pojave, pa tako omogućavaju usporedbu rezultata prognoziranja različitih vremenskih serija. Prosječna postotna apsolutna pogreška — Mean Absolute Percentage Error , jedna je od takvih mjera. Negativno je obilježje mjere prosječne postotne apsolutne pogreške što u njoj svako odstupanje, bilo malo, bilo veliko, ima jednak ponder, odnosno jednak utjecaj na veličinu prosjeka. Prosječna postotna apsolutna pogreška se, s obzirom da je mjera pogreške izražena u postotku, može koristi ti kao gruba skala pouzdanosti modela ili
159
IV. DIO PROGNOZIRANJE
15. Poglavlje: Pregled kvantitativnih metoda prognoziranja
prognoze. Razine pouzdanosti ovisno o veličini prosječne postotne apsolutne pogreške dane su u tablici u nastavku.
prognostičkih modela Tablica 35: MAPE i razina pouzdanosti prognostičkih MAPE <10% 11–20% 21–50% >50%
Pouzdanost prognoze visoko pouzdano dobro
zadovoljavajuće nepouzdano
Prema tablici 35 može se zaključiti kako se modeli čije su vrijednosti prosječne postotne
apsolutne pogreške manje od 10% visoko pouzdani modeli. Pouzdanost modela čija je 20% dobra je, dok se vrijednost prosječne postotne apsolutne pogreške u rasponu od 11 ‒ 20% pouzdanost modela čija vrijednost prosječne postotne apsolutne apsolutne pogreške iznosi od 21 do 50% zadovoljavajuća. Modeli čije su vrijednosti prosječne postotne apsolutne pogreške veći od 50% pripadaju skupini nepouzdanih modela. Korijen sredine kvadratne pogreške (RMSE) mjera je pogreške izvedena iz srednje kvadratne
prognostičke pogreške (MSE). U toj mjeri sadržani su kvadrati prognostičkih pogrešaka, prilikom čega veće prognostičke vrijednosti imaju i veći utjecaj na vrijednost prosjeka. Iz tog se razloga mjera srednje kvadrirane prognostičke pogreške i korijen sredine kvadratne pogreške u istraživanjima smatraju puno boljim pokazateljem pogreške. U literaturi se kao najprikladnije obično navode prosječna apsolutna postotna pogreška i korijen sredine kvadratne pogreške kao najčešće korištene metode evaluacije modela.
160
IV. DIO
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PROGNOZIRANJE
ĆU
nastavku će biti prikazane osnove prognoziranja upotrebom najjednostavnijih metoda koje se temelje na analizi vremenskih nizova te prognoziranje upotrebom regresijske analize kao jedne često korištenih kauzalnih kvantitativnih metoda prognoziranja.
16.1. NAIVNI PROGNOSTIČKI MODELI Za stabilne vremenske nizove naivni modeli pretpostavljaju da je razina pojave za razdoblje za koje se prognozira jednaka vrijednosti razine pojave iz posljednjeg dostupnog razdoblja.
Među naivne prognostičke modele spadaju:
Naivni model I (status quo) – koristi se kod pojava koje nemaju sistemskih
komponenti (horizontalni tijek pojave); Naivni model II (status quo diferencije) –koristi se kod pojave koje očituju linearni trend; Naivni model IIa (status quo stope) –koristi se kod pojava koje očituju eksponencijalni trend.
NAIVNI MODEL I (status quo)
Za prognoziranje razine pojave za jedno razdoblje nakon tekućega i za razdoblja nakon tekućega, odnosno posljednjega u nizu. Formalna notacija Naivnog modela I je
−
gdje je: A F t
(172)
sadašnja vrijednost prognozirana vrijednost vremensko razdoblje
Izraz (172 ) naziva se i model slučajne šetnje, jer utjelovljuje ideju da je vremenski niz
slučajan, te da ne pokazuje komponentu trenda ili bilo koju drugu komponentu.
τ
Ovaj se model koristi za prognoziranje razine pojave za jedno razdoblje nakon tekućega i za razdoblja nakon tekućega, odnosnog posljednjeg u nizu:
∆ −, ∆ ≈ 0
Točnije, promjena u vrijednosti niza iz jednog razdoblja u drugo je slučajna. Stoga, je posljednja dostupna vrijednost razine pojave je najbolja prognoza sljedeće vrijednosti. Slijedi da vrijednosti koje se na vremenskoj liniji nalaze prije posljednje nemaju nikakve vrijednosti
u prognoziranju budućih vrijednosti vremenskog niza. 161
IV. DIO
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PROGNOZIRANJE
Navedena je metoda najjednostavnija metoda prognoze, i kao takva često se koristi kao sredstvo za uspoređivanje različitih prognostičkih modela. Postoje još dvije verzije naivnih modela koji se često koriste. To su takozvani naivni modeli II i IIa. NAIVNI MODEL II (status quo diferencije)
Ovaj se model još naziva i sezonski naivni model, može se upotrebljavati sa sezonskim podacima te postulira da je vrijednost idućeg razdoblja jednaka vrijednosti istog razdoblja u prethodnoj godini. Formalna notacija sezonskog naivnog modela je:
−
gdje je: A F t m/
(173)
sadašnja vrijednost prognozirana vrijednost vremensko razdoblje broj razdoblja u godini (kvartali, mjeseci)
τ
Sezonski naivni model koristi se za prognoziranje razine pojave za jedno razdoblje nakon
tekućega i za razdoblja nakon tekućega, odnosno posljednjega u nizu:
+ −,
NAIVNI MODEL IIa (status quo stope)
Naivna prognozirana vrijednost definira se kao umnožak sadašnje vrijednosti i stope rasta sadašnje i prošle vrijednosti. Ovaj se model često koristi kao alat u prognoziranju vremenskih nizova koji pokazuju trend rasta ili pada. Formalno se naivni model IIa notira kao:
− ∙ −−
gdje je: A F t
τ
(174)
sadašnja vrijednost prognozirana vrijednost vremensko razdoblje
Navedeni se model koristi za prognoziranje razine pojave za jedno razdoblje nakon tekućega i za razdoblja nakon tekućega, odnosno posljednjeg u nizu:
+ − ,
162
IV. DIO
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PROGNOZIRANJE
PRIMJER 31
Prognoziranje broja gostiju u hotelu Mirta – Naivni model I, Naivni model II i navini model IIa te usporedba
prognostičkih pogrešaka Tablica 36: Prognoziranje broja gostiju Naivnim modelima i prognostičke pogreške
U nastavku prikazana je originala serija broja gostiju u hotelu Mirta te vrijednosti iste prognozirane naivnim modelima.
Slika 38: Broj gostiju u hotelu Mirta i prognozirane vrijednosti 250 200 Model I
150
Model II 100
Model IIa Broj gostiju
50 0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 1 8 19 20
163
IV. DIO
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PROGNOZIRANJE
16.2. PROGNOZIRANJE POMOĆU MODELA POMIČNIH PROSJEKA
Metoda pomičnih prosjeka je prognostička metoda koja koristi srednju vrijednost podataka za n najsvježijih vremenskih razdoblja da bi se prognozirala potražnja za naredno vremensko razdoblje. Jednostavni pomični prosjeci najčešće se primjenjuju kod odstran jivanja sezonskih i cikličkih komponenti iz strukture vremenskog niza, ili u slučaju da se pojava razvija približno po linearnom trendu. U suprotnom pomični će prosjeci (izglađivanjem) sistematski precjenjivati ili podcjenjivati prisutni trend u vremenskom nizu. U takvoj se situaciji umjesto
jednostavnih koriste vagani pomični prosjeci. prosj eci. PRIMJER 32
Prognoziranje broja turista u kampu Tamaris – model jednostavnih pomičnih prosjeka
Prognoziranje broja turista za sedamnaesti dan pomoću tročlanih pomičnih prosjeka Tablica 37: Prognoziranje Prognoziranje broja turista pomoću tročlanih pomičnih prosjeka
U nastavku prikazana je originala serija broja turista u kampu Tamaris te vrijednosti iste prognozirane
jednostavnim pomičnim pomičnim prosjecima. prosjecima. Slika 39: Broj turista u kampu Tamaris: stvarne i prognozirane vrijednosti 380 375 370 365 360
1
2
3
4
5
6
Broj gostiju Yt
7
8
9
10
11
12
13
14
15
16
17
Jednostavni pomični prosjeci MA=3
164
IV. DIO PROGNOZIRANJE
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PRIMJER 33
Prognoziranje broja postelja u Hrvatskoj – model vaganih pomičnih prosjeka
Prognoziranje broja postelja u Hrvatskoj za 2011. godinu uz pomoć vaganih tročlanih pomičnih prosjeka. Ponderi su 1, 2, 3. Tablica 38: Prognoziranje Prognoziranje broja postelja u Hrvatskoj pomoću vaganih tročlanih pomičnih prosjeka
U nastavku prikazana je originala serija broja postelja u Hrvatskoj te vrijednosti iste prognozirane
vaganim pomičnim prosjecima. Slika 40: Broj postelja u Hrvatskoj: stvarne i prognozirane vrijednosti 1.200.000 1.000.000 a j l e t s o p j o r B
800.000 600.000 Postelje
400.000
Vagani pomični prosjeci
200.000 0
Godina
165
IV. DIO PROGNOZIRANJE
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
16.3. PROGNOZIRANJE POMOĆU MODELA EKSPONENCIJALNOG EKSPONENCIJALNOG
IZGLAĐIVANJA Model jednostavnog eksponencijalnog izglađivanje koristi se za prognozu pojava bez sistemskih komponenti (vremenske serije u kojima je prisutna samo iregularna komponenta).
Ako vremenski niz sadrži trend, izglađene vrijednosti dobivene jednostavnih eksponencijalnim izglađivanjem sustavno će precjenjivati ili podcjenjivati razinu pojave. Stoga se, u slučaju prisutnosti trenda upotrebljava model dvostrukoga, trostrukoga odnosno višestrukoga eksponencijalnoga izglađivanja. Među takve modele ubrajaju se Brownov model dvostrukoga, trostrukoga eksponencijalnog izglađivanja, Holt-Wintersov model i drugi. PRIMJER 34
Prognoziranje broja putovanja u Hrvatskoj – model jednostavnog eksponencijalnog izglađivanja
Prognoziranje broja putovanja u Hrvatskoj za 2011. godinu uz pomoć jednostavnog eksponencijalnog eksponencijalnog izglađivanja. Konstanta izglađivanja je .
0,9
Tablica 39: Prognoziranje broja putovanja u Hrvatskoj pomoću eksponencijalnog izglađivanja
U nastavku prikazana je originala serija broja putovanja u Hrvatskoj te vrijednosti iste prognozirane eksponencijalnim eksponencijalnim izglađivanjem ( ).
,,
166
IV. DIO PROGNOZIRANJE
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
Slika 41: Broj putovanja u Hrvatskoj: stvarne i prognozirane vrijednosti Putovanja
Eksponencijalno izglađivanje
4.000.000 3.500.000 3.000.000 2.500.000 2.000.000 1.500.000 1.000.000
16.4. PROGNOZIRANJE POMOĆU MODELA TRENDA
Prognoziranje pomoću modela trenda biti će prikazano na modelu linearnog trenda . Model linearnog trenda istovjetan je modelu jednostavne regresije. Kao nezavisna varijabla pojavljuje se vrijeme. PRIMJER 35
Prognoziranje broja posjetitelja nacionalnog parka Morski slapovi – model linearnoga trenda
Prognoziranje broja posjetitelja nacionalnoga parka Morski slapovi – izračun linearnog trenda i prognoziranje broja posjetitelja za 2011. godinu. Tablica 40: Izračun linearnoga trenda
167
IV. DIO
16. Poglavlje: Prognoziranje uz pomoć odabranih modela vremenskih nizova
PROGNOZIRANJE
R2 = 0,888 β0 =914.377,9 β1 =24.407,7
Jednadžba trenda trenda glasi: Ŷ=914.377,9+24.407,7x x=1, u 2001. godini
U nastavku prikazana je originala serija broja posjetitelja te vrijednosti linearnog trenda i prognoza za 2011. godinu. Slika 42: Broj posjetitelja: stvarne i prognozirane vrijednosti Posjetitelji
Predicted Yt
1.500.000 1.000.000 500.000 0 1
2
3
4
5
6
7
8
9
10
11 11
168
PRILOZI
Statističke Tablice
16. 5. PROGNOZIRANJE POMOĆU ODABRANIH KAUZALNIH METODA
Prognoziranje pomoću regresijske analize pokazano je temeljem podatka iz primjera 7 za jednostavni regresijski model te temeljem podatka iz primjera 20 za višestruki regresijski model. JEDNOSTAVNI JEDNOSTAVNI REGRESIJSKI REGRESIJSKI MODEL MODEL PRIMJER 36
Prognoziranje prihoda od prodaje proizvoda u zavisnosti o izdacima za promidžbene aktivnosti u trgovinama na
malo – model jednostavne regresijske analize
Tablica 41: Stvarne i prognozirane vrijednosti
Slika 43: Prihodi od prodaje: stvarne i prognozirane vrijednosti
169
PRILOZI
Statističke Tablice
VIŠESTRUK I REGRESIJSKI MODEL PRIMJER 37
Prognoziranje ostvarenog prometa u ugostiteljstvu u zavisnosti od broja poslovnih jedinica i indeksa neto plaća
– višestruki regresijski model
Tablica 42: Prognoza ostvarenog prometa
Slika 44: Ostvareni promet: stvarne i prognozirane vrijednosti
170
Statističke Tablice
PRILOZI
STATISTIČKE TABLICE distribucije Kritične vrijednosti Studentove t distribucije dvostrani test
s,s,
1
0,10 0,05 0,025 0,01 6,314
12,706
31,821
63,657
2
2,920
4,303
6,965
9,925
3
2,353
3,182
4,541
5,841
4
2,132
2,776
3,747
4,604
5
2,015
2,571
3,365
4,032
6
1,943
2,447
3,143
3,707
7
1,895
2,365
2,998
3,499
8
1,860
2,306
2,896
3,355
9
1,833
2,262
2,821
3,250
10
1,812
2,228
2,764
3,169
11
1,796
2,201
2,718
3,106
12
1,782
2,179
2,681
3,055
13
1,771
2,160
2,650
3,012
14
1,761
2,145
2,624
2,977
15
1,753
2,131
2,602
2,947
16
1,746
2,120
2,583
2,921
17
1,740
2,110
2,567
2,898
18
1,734
2,101
2,552
2,878
19
1,729
2,093
2,539
2,861
20
1,725
2,086
2,528
2,845
21
1,721
2,080
2,518
2,831
22
1,717
2,074
2,508
2,819
23
1,714
2,069
2,500
2,807
24
1,711
2,064
2,492
2,797
25
1,708
2,060
2,485
2,787
26
1,706
2,056
2,479
2,779
27
1,703
2,052
2,473
2,771
28
1,701
2,048
2,467
2,763
29
1,699
2,045
2,462
2,756
30
1,697
2,042
2,457
2,750
40
1,684
2,021
2,423
2,704
50
1,676
2,009
2,403
2,678
60
1,671
2,000
2,390
2,660
70
1,667
1,994
2,381
2,648
80
1,664
1,990
2,374
2,639
90
1,662
1,987
2,368
2,632
100
1,660
1,984
2,364
2,626
120
1,658
1,980
2,358
2,617
∞
1,645
1,960
2,326
2,576
0,05 0,025 0,01 0,005
171
PRILOZI
Statističke Tablice jednostrani test
172
Statističke Tablice
PRILOZI
Kritične vrijednosti F distribucije pri razini značajnosti
n
,,
1
2
3
4
5
6
7
8
9
10
20
30
120
1
161,4
199,5
215,7
224,6
230,2
234,0
236,8
238,9
240,5
241,9
248,0
250,1
253,3
254,3
2
18,51
19,00
19,16
19,25
19,30
19,33
19,35
19,37
19,38
19,40
19,45
19,46
19,49
19,50
3
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
8,66
8,62
8,55
8,53
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5,80
5,75
5,66
5,63
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
4,56
4,50
4,40
4,37
6
6,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
3,87
3,81
3,70
3,67
7
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
3,44
3,38
3,27
3,23
8
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
3,15
3,08
2,97
3,93
9
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
2,94
2,86
2,75
2,71
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
2,77
2,70
2,58
2,54
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
2,65
2,57
2,45
2,40
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
2,54
2,47
2,34
2,30
13
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
2,46
2,38
2,25
2,21
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
2,39
2,31
2,18
2,13
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
2,33
2,25
2,11
2,07
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
2,28
2,19
2,06
2,01
17
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
2,23
2,15
2,01
1,96
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
2,19
2,11
1,97
1,92
19
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
2,16
2,07
1,93
1,88
20
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
2,12
2,04
1,90
1,84
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
2,05
1,96
1,87
1,81
22
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
2,07
1,98
1,84
1,78
23
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
2,05
1,96
1,81
1,76
24
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
2,03
1,94
1,79
1,73
25
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
2,01
1,92
1,77
1,71
26
4,23
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,27
2,22
1,99
1,90
1,75
1,69
27
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,31
2,25
2,20
1,97
1,88
1,73
1,67
28
4,20
3,34
2,95
2,71
2,56
2,45
2,36
2,29
2,24
2,19
1,96
1,82
1,71
1,65
29
4,18
3,33
2,93
2,70
2,55
2,43
2,35
2,28
2,22
2,18
1,94
1,81
1,70
1,64
30
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
1,93
1,79
1,68
1,62
40
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
1,84
1,69
1,58
1,51
60
4,00
3,15
2,76
2,53
2,37
2,25
2,17
2,10
2,04
1,99
1,75
1,59
1,47
1,39
120
3,92
3,07
2,68
2,45
2,29
2,17
2,09
2,02
1,96
1,91
1,66
1,50
1,35
1,25
∞
3,84
3,00
2,60
2,37
2,21
2,10
2,01
1,94
1,88
1,83
1,57
1,39
1,22
1,00
m
∞
173
Statističke Tablice
PRILOZI
Kritične vrijednosti
s.s.
1
0,995
0,99
-
-
0,975
distribucije
0,95
0,90
0,10
0,05
0,025
0,01
0,005
0,001
0,004
0,016
2,706
3,841
5,024
6,635
7,879
2
0,010
0,020
0,051
0,103
0,211
4,605
5,991
7,378
9,210
10,597
3
0,072
0,115
0,216
0,352
0,584
6,251
7,815
9,348
11,345
12,838
4
0,207
0,297
0,484
0,711
1,064
7,779
9,488
11,143
13,277
14,860
5
0,412
0,554
0,831
1,145
1,610
9,236
11,070
12,833
15,086
16,750
6
0,676
0,872
1,237
1,635
2,204
10,645
12,592
14,449
16,812
18,548
7
0,989
1,239
1,690
2,167
2,833
12,017
14,067
16,013
18,475
20,278
8
1,344
1,646
2,180
2,733
3,490
13,362
15,507
17,535
20,090
21,955
9
1,735
2,088
2,700
3,325
4,168
14,684
16,919
19,023
21,666
23,589
10
2,156
2,558
3,247
3,940
4,865
15,987
18,307
20,483
23,209
25,188
11
2,603
3,053
3,816
4,575
5,578
17,275
19,675
21,920
24,725
26,757
12
3,074
3,571
4,404
5,226
6,304
18,549
21,026
23,337
26,217
28,300
13
3,565
4,107
5,009
5,892
7,042
19,812
22,362
24,736
27,688
29,819
14
4,075
4,660
5,629
6,571
7,790
21,064
23,685
26,119
29,141
31,319
15
4,601
5,229
6,262
7,261
8,547
22,307
24,996
27,488
30,578
32,801
16
5,142
5,812
6,908
7,962
9,312
23,542
26,296
28,845
32,000
34,267
17
5,697 5, 697
6,408
7,564
8,672 8,67 2
10,085
24,769 24, 769
27,587
30,191
33,409 33 ,409
35,718 35,71 8
18
6,265 6, 265
7,015
8,231
9,390 9,39 0
10,865
25,989 25, 989
28,869
31,526
34,805 34 ,805
37,156 37,15 6
19
6,844
7,633
8,907
10,117
11,651
27,204
30,144
32,852
36,191
38,582
20
7,434
8,260
9,591
10,851
12,443
28,412
31,410
34,170
37,566
39,997
21
8,034
8,897
10,283
11,591
13,240
29,615
32,671
35,479
38,932
41,401
22
8,643
9,542
10,982
12,338
14,041
30,813
33,924
36,781
40,289
42,796
23
9,260
10,196
11,689
13,091
14,848
32,007
35,172
38,076
41,638
44,181
24
9,886
10,856
12,401
13,848
15,659
33,196
36,415
39,364
42,980
45,559
25
10,520
11,524
13,120
14,611
16,473
34,382
37,652
40,646
44,314
46,928
26
11,160
12,198
13,844
15,379
17,292
35,563
38,885
41,923
45,642
48,290
27
11,808
12,879
14,573
16,151
18,114
36,741
40,113
43,195
46,963
49,645
28
12,461
13,565
15,308
16,928
18,939
37,916
41,337
44,461
48,278
50,993
29
13,121
14,256
16,047
17,708
19,768
39,087
42,557
45,722
49,588
52,336
30
13,787
14,953
16,791
18,493
20,599
40,256
43,773
46,979
50,892
53,672
40
20,707
22,164
24,433
26,509
29,051
51,805
55,758
59,342
63,691
66,766
50
27,991
29,707
32,357
34,764
37,689
63,167
67,505
71,420
76,154
79,490
60
35,534
37,485
40,482
43,188
46,459
74,397
79,082
83,298
88,379
91,952
70
43,275
45,442
48,758
51,739
55,329
85,527
90,531
95,023
100,425
104,215
80
51,172
53,540
57,153
60,391
64,278
96,578
101,879
106,629
112,329
116,321
90
59,196
61,754
65,647
69,126
73,291
107,565
113,145
118,136
124,116
128,299
100
67,328
70,065
74,222
77,929
82,358
118,498
124,342
129,561
135,807
140,169
174
Statističke Tablice
PRILOZI
Kritične vrijednosti Durbin‒Watsonova DW testa (pri razini značajnosti α=0,05) k=1
n
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 150 200
k=2
k=3
k=4
k=5
0,610 0,700 0,763 0,724 0,879 0,927 0,971 1,010 1,045 1,077 1,106 1,133 1,158 1,180 1,201 1,221 1,239 1,257 1,273 1,288 1,302 1,316 1,328 1,341 1,352 1,363 1,373 1,383 1,993 1,402 1,411 1,419 1,427 1,435 1,442 1,475 1,503 1,528 1,549 1,567 1,583 1,598 1,611 1,624 1,635 1,645 1,654 1,720 1,758
1,400 1,356 1,332 1,320 1,320 1,32 0 1,324 1,32 4 1,331 1,33 1 1,340 1,34 0 1,350 1,35 0 1,361 1,36 1 1,371 1,37 1 1,381 1,38 1 1,391 1,39 1 1,401 1,40 1 1,411 1,41 1 1,420 1,42 0 1,429 1,42 9 1,437 1,43 7 1,446 1,44 6 1,454 1,45 4 1,461 1,46 1 1,469 1,46 9 1,476 1,47 6 1,483 1,48 3 1,489 1,48 9 1,496 1,49 6 1,502 1,50 2 1,508 1,50 8 1,514 1,51 4 1,519 1,51 9 1,525 1,52 5 1,530 1,53 0 1,535 1,53 5 1,540 1,54 0 1,544 1,54 4 1,566 1,56 6 1,585 1,58 5 1,601 1,60 1 1,616 1,61 6 1,629 1,62 9 1,641 1,64 1 1,652 1,65 2 1,662 1,66 2 1,671 1,67 1 1,679 1,67 9 1,687 1,68 7 1,694 1,69 4 1,746 1,74 6 1,778 1,77 8
0,467 0,559 0,629 0,697 0,658 0,812 0,861 0,905 0,946 0,982 1,015 1,046 1,074 1,100 1,125 1,147 1,168 1,188 1,206 1,224 1,240 1,255 1,270 1,284 1,297 1,309 1,321 1,333 1,343 1,354 1,364 1,373 1,382 1,391 1,430 1,462 1,490 1,514 1,536 1,554 1,571 1,586 1,600 1,612 1,623 1,634 1,706 1,748
1,896 1,777 1,699 1,641 1,604 1,579 1,562 1,551 1,543 1,539 1,536 1,535 1,536 1,537 1,538 1,541 1,543 1,546 1,550 1,553 1,556 1,560 1,563 1,567 1,570 1,574 1,577 1,580 1,584 1,587 1,590 1,594 1,597 1,600 1,615 1,628 1,641 1,652 1,662 1,672 1,680 1,688 1,696 1,703 1,709 1,715 1,760 1,789
0,368 0,455 0,525 0,52 5 0,595 0,59 5 0,658 0,65 8 0,715 0,71 5 0,767 0,76 7 0,814 0,81 4 0,857 0,85 7 0,897 0,89 7 0,933 0,93 3 0,967 0,96 7 0,998 0,99 8 1,026 1,02 6 1,053 1,05 3 1,078 1,07 8 1,101 1,10 1 1,123 1,12 3 1,143 1,14 3 1,162 1,16 2 1,181 1,18 1 1,198 1,19 8 1,214 1,21 4 1,229 1,22 9 1,244 1,24 4 1,258 1,25 8 1,271 1,27 1 1,283 1,28 3 1,295 1,29 5 1,307 1,30 7 1,318 1,31 8 1,328 1,32 8 1,338 1,33 8 1,383 1,38 3 1,421 1,42 1 1,452 1,45 2 1,480 1,48 0 1,503 1,50 3 1,525 1,52 5 1,543 1,54 3 1,560 1,56 0 1,575 1,57 5 1,589 1,58 9 1,602 1,60 2 1,613 1,61 3 1,693 1,69 3 1,738 1,73 8
2,287 2,128 2,016 1,928 1,864 1,816 1,779 1,750 1,728 1,710 1,696 1,685 1,676 1,669 1,664 1,660 1,656 1,654 1,652 1,651 1,650 1,650 1,650 1,650 1,650 1,651 1,652 1,653 1,654 1,655 1,656 1,658 1,659 1,666 1,674 1,681 1,689 1,696 1,703 1,709 1,715 1,721 1,726 1,732 1,736 1,774 1,799
0,296 0,376 0,444 0,512 0,574 0,632 0,685 0,734 0,779 0,820 0,859 0,894 0,927 0,958 0,986 1,013 1,038 1,062 1,084 1,104 1,124 1,143 1,160 1,177 1,193 1,208 1,222 1,236 1,249 1,261 1,273 1,285 1,336 1,378 1,414 1,444 1,471 1,494 1,515 1,534 1,550 1,566 1,579 1,592 1,679 1,728
2,588 1,414 1,41 4 2,283 2,28 3 2,177 2,17 7 1,094 1,09 4 2,030 2,03 0 1,977 1,97 7 1,935 1,93 5 1,900 1,90 0 1,872 1,87 2 1,848 1,84 8 1,828 1,82 8 1,812 1,81 2 1,797 1,79 7 1,785 1,78 5 1,775 1,77 5 1,767 1,76 7 1,759 1,75 9 1,753 1,75 3 1,747 1,74 7 1,743 1,74 3 1,739 1,73 9 1,735 1,73 5 1,732 1,73 2 1,730 1,73 0 1,728 1,72 8 1,726 1,72 6 1,724 1,72 4 1,723 1,72 3 1,722 1,72 2 1,722 1,72 2 1,721 1,72 1 1,720 1,72 0 1,721 1,72 1 1,724 1,72 4 1,727 1,72 7 1,731 1,73 1 1,735 1,73 5 1,739 1,73 9 1,743 1,74 3 1,747 1,74 7 1,751 1,75 1 1,755 1,75 5 1,758 1,75 8 1,788 1,78 8 1,810 1,81 0
0,243 0,316 0,379 0,445 0,505 0,562 0,615 0,664 0,710 0,752 0,792 0,829 0,863 0,895 0,925 0,953 0,979 1,004 1,028 1,050 1,071 1,090 1,109 1,127 1,144 1,160 1,175 1,190 1,204 1,218 1,230 1,287 1,335 1,374 1,408 1,438 1,464 1,487 1,507 1,525 1,542 1,557 1,571 1,665 1,718
2,822 2,645 2,506 2,390 2,296 2,220 2,157 2,104 2,060 2,023 1,991 1,964 1,940 1,920 1,902 1,886 1,873 1,861 1,850 1,841 1,833 1,825 1,819 1,813 1,808 1,803 1,799 1,795 1,792 1,789 1,786 1,776 1,771 1,768 1,767 1,767 1,768 1,770 1,772 1,774 1,776 1,778 1,780 1,802 1,820
175
Literatura
LITERATURA Bahovec, Vlasta, i Nataša Erjavec. Uvod u ekonometrijsku analizu. Zagreb: Element d.o.o., 2009. Baltagi, Badi H. Econometrics. Berlin: Springer, 2011. Belullo, Alen. Uvod u ekonometriju. Pula: Odjel za ekonomiju i turizam ˝Dr.Mijo Mirković˝, 2011. Berenson, Mark L. Basic business statistics. New Jersey: Prentice Hall, 2012. Biljan ‒ August, August, Maja, Snježana Pivac, i Ana Štambuk. Statistička analiza u ekonomiji. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2009.
———. Uporaba statistike u ekonomiji. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2009. Brockwell, Peter J., i Richard A. Davis. Introduction to time series and forecasting. New York: Springer, 2002. Carnot, Nicolas, Vincent Koen, i Bruno Tissot. Econometric forecasting. Great Britain: Palgarve Macmilan, 2005. Castle, Jennifer L., i Neil Shepard. The methodology and oractice of econoemtrics. Oxford: Oxford University Press, 2009. Di Fonzo, Tommaso. Serie storiche economiche. Urbino: Arti Grafiche Editoriali Srl, 2005. Gill, John, i Phil Jonson. Research methods for managers. London: Sage Publication, 2002. Greene, William H. Econometric analysis. New Jersey: Prentice Hall, 2003. Gujarati, Damodar. Essentials of Econometrics. New York: McGraw-Hill, 1992. Hayashi, Fumio. Econometrics. New Jersey: Princeton University Press, 2000. Hubler, Olaf, i Joachim Frohn. Modern econometric analysis. Berlin: Springer, 2006. IHS. EVIews 8 Users Guide II. Irvine CA: IHS Global Inc., 2013.
Jovičić, Milena, i Radmila Dragutinović Mitrović. Ekonometrijski metodi i modeli. Beograd: Univerzitet u Beogradu, Ekonomski fakultet, 2011. Jurun, Elza. Kvantitativne metode u ekonomiji. Split: Ekonomski fakultet Sveučilišta u Splitu, 2007. 176
LITERATURA
Lovrić, Ljiljana. Uvod u ekonometriju. Rijeka: Ekonomski fakultet Sveučilišta u Rijeci, 2005. Lütkepohl, Helmut. New introduction to multiple time series analysis. Berlin: Springer, 2005. Maddala, S. Introduction to Econometrics, Second Edition. New York: Macmillian Publishing Company, 1992.
Mladenović, Zorica, i Aleksandra Nojković. Primenjena analiza vremenskih serija. Beograd: Centar za izdavačku delatnost Ekonomskog fakulteta u Beograd, 2012. Molnar, Alan T. Econometric Forecasting. New York: Nova Science Publisher, 2010. Peracchi, Franco. Econometrics. England: John Wiley & Sons, 2001.
177