Posts Tagged ‘statistika pas Algirdas Javtokas’

Erdvinė struktūrinė ir koreliacinė funkcija

16 gruodžio, 2009

Kiekviename meteorologinio lauko taške analizuojamo parametro dydis xi įgauna vieną ar kitą
reikšmę ir iškyla klausimas kiek ji yra artima gretimų taškų reikšmėms. Praktikoje tai dažniausiai
įvertinama naudojant erdvines struktūrines ir koreliacines funkcijas.
Paprasčiausia charakteristika yra struktūrine funkcija, kuri taikoma vienalyčių ir izotropinių
laukų analizei ir išreiškiama tokia lygtimi:
b_{x}\left ( l \right )=\frac{1}{n}\sum_{i=1}^{n}\left ( x_{i+l}-x_{i} \right )^{2}
čia l – atstumas tarp dviejų analizuojamų taškų. Kai l=0 struktūrinė funkcija lygi nuliui ir didėja
augant atstumui tarp taškų. Kai l=∞, tai bx(∞)=2s²x.
Iš struktūrinės funkcijos galima pereiti į koreliacinę funkciją:
r_{x}\left ( l \right )=\frac{2s^{2}_{x}-b_{x}\left ( l \right )}{2s^{2}_{x}}
Erdvinė koreliacinė funkcija maksimalią reikšmę įgauna kai l=0 ir didėjant atstumui mažėja.
Kai atstumas tarp matavimo punktų yra ypač didelis, koreliacinio koeficiento reikšmė artėja prie 0, t.y
ryšys tarp matavimo rezultatų išnyksta.
Erdvinė koreliacinė funkcijos skaičiavimo algoritmas yra toks:
1. Vidutinių reikšmių ir vidutinių kvadratinių nuokrypių visuose matavimo taškuose
nustatymas;
2. Koreliacijos koeficientų tarp bet kurių dviejų lauko taškų nustatymas (t.y., koreliacinės
matricos sudarymas);
3. Koreliacijos koeficientų vidurkinimas pagal atstumo gradacijas.
4. Regresijos kreivės r=f(l) išbrėžimas ir jos analitinės išraiškos nustatymas.

Objektų panašumo matai

16 gruodžio, 2009

Panašumas – subjektyvus dalykas. Todėl net ir statistikoje, vertinant panašumą, labai daug
priklauso nuo matuojamų požymių tipo, nuo matavimo skalės ir nuo pasirinkto panašumo mato.
Dažniausiai naudojami panašumo matai yra trys:
1. Metriniai atstumo matai;
2. Koreliacijos koeficientai;
3. Asociatyvumo koeficientai.
Kai objektus charakterizuojantys požymiai matuojami pagal intervalų arba santykių skalę
(taip dažniausiai pasitaiko meteorologijoje) gali būti taikomi metriniai atstumo matai arba
koreliacijos koeficientai. Juos ir panagrinėsime plačiau.
Metriniai atstumo matai. Šiuos matus tiksliau būtų vadinti skirtingumo matais – kuo didesnė
reikšmė, tuo objektai mažiau panašūs.
Plačiausiai naudojami atstumai yra šie:
Euklido:

\left \|X-Y \right \|=\sqrt{\sum_{i=1}^{m}\left ( x_{i} -y_{i}\right )^{2}}
Pagrindinis metrinių atstumo matų trūkumas – nevienoda skirtingai matuojamų požymių įtaka.
Kintamieji, kurių sklaidos charakteristikos įgyja dideles reikšmes, gali nustelbti mažai įvairuojančių
kintamųjų įtaką. Pavyzdžiui, jei analizuojami požymiai yra kritulių kiekis ir oro temperatūra, tai be
abejo kritulių kiekio įtaka, dėl didesnės parametro sklaidos, bus žymiai didesnė. Todėl užuot
klasterizavus pačius kintamuosius, būtina naudoti jų standartizuotas reikšmes.
Koreliacijos koeficientai. Jau žinome, kad koreliacijos koeficientai naudojami kaip kintamųjų
panašumo matai. Kartais jais remiantis vertinamas objektų panašumas. Jei duomenys yra kiekybiniai,
objektų panašumui nustatyti galima naudoti elementarų tiesinės koreliacijos koeficientą. Jis
skaičiuojamas taip:

r_{xy}=\frac{\sum_{i=1}^{m}\left ( x_{i} -x\bar{}\right )\left ( y_{i}-y\bar{} \right )}{\sqrt{\sum_{i=1}^{m}\left ( x_{i} -x\bar{}\right)^{2}\sum_{i=1}^{m}\left ( y_{i} -y\bar{ }\right )^{2}}}

Čia: xi yra X objekto i-ojo požymio reikšmė, yj – Y objekto i-ojo požymio reikšmė, m –
matuojamų požymių skaičius.
Vis dėl to šis metodas neturi aiškios statistinė prasmės. Jei koreliacijos koeficientas –0,25, ar
galima teigti, kad objektai labai skiriasi? Be to jei vieno iš objektų kintamųjų reikšmės yra vienodos
(pvz., 5,5,5,5,5,), r skaičiuoti negalima.

Faktorių sukimas ir interpretavimas

16 gruodžio, 2009

Faktorių matrica aprašo faktorių ir atskirų kintamųjų priklausomybę. Iškyla klausimas, kaip
nustatyti, kokie kintamieji nusako faktorių Fj? Šios problemos sprendimo idėja gan paprasta – jeigu
faktorinės analizės modelyje λij yra mažas skaičius, tai kintamasis Xi su faktoriumi Fj nesusijęs.
Peržiūrime kiekvieno faktoriaus svorių įverčius ir jis laikomas pakankamai dideliu jei jis didesnis arba
lygus 0,4.
Kintamieji, kurių svoriai yra teigiami ir neigiami yra vienodai svarbūs. Teigiamas svoris rodo,
kad kintamasis su faktoriumi koreliuoja teigiamai (arba atvirkščiai) ir tai neretai palengvina faktorių
interpretaciją.
Dažnai prasminius faktorius yra sunku identifikuoti, kadangi dažniausiai vyrauja pirmasis
faktorius, be to, net kelių to paties kintamojo faktorių svoriai gali viršyti 0,4, t.t., tas pats kintamasis
gali būti susijęs su keliais faktoriais. Siekiant išspręsti šią problemą vykdomas faktorių sukimas.
Faktorių sukimas – tai faktorių matricos transformavimas suteikiant jai lengviau interpretuojamą
pavidalą.
Sukimo tikslas – supaprastinti faktorių svorių matricos struktūrą, t.y. siekiama, kad tik kelių
kintamųjų visų faktorių svoriai būtų nenuliniai. Tai palengvina faktorius interpretuoti. Be to, siekiama,
67
kad kiekvienas kintamasis turėtų tik kelis nenulinius faktorių svorius (idealu, jei vieną). Tada lengviau
faktorius diferencijuoti – atskirti juos tarpusavyje.
Terminas “faktorių sukimas” atsirado dėl aiškios geometrinės šios procedūros interpretacijos.
Tarkime yra du faktoriai F1 ir F2. Tuomet juo galime įsivaizduoti kaip koordinačių ašis, o
kintamuosius X1, …., Xk atvaizduti plokštumos taškais, kurių koordinatės yra (λ11, λ12),…,(λk1, λk2).
Faktoriai paaiškina tuos kintamuosius, kurių “taškai” yra arčiau faktorių atitinkančios ašies. Pasukdami
koordinačių galime sumažinti kintamųjų, kurių “taškai” arti abiejų ašių, skaičių. Geometrinė sukimo
interpretacija išlieka ir kai faktorių daugiau nei du (šiuo atveju naudojama m-matė koordinačių
sistema). Populiariausias iš sukimų – VARIMAX.
Sukimas nekeičia sprendinio savybių, t.y. bendrumai ir dispersijos paaiškinimo procentas
nesikeičia. Tačiau kiekvieno faktoriaus indėlis kitoks – kokį procentą bendrosios dispersijos paaiškina
konkretus faktorius. Paprastai po sukimo keičiasi ir pačių faktorių interpretacija.
Kaip interpretuojami faktoriai? Yra vertinama bendrųjų faktorių svoriai po sukimo. Žiūrima
kaip atskiri faktoriai koreliuoja su tam tikrais kintamaisiais. Įvardijant bendruosius faktorius
subjektyvumo išvengti gan sunku. Tai priklauso nuo naudojančio faktorinę analizę gebėjimo suvokti
gautų rezultatų kilmę.

Faktorių išskyrimas

16 gruodžio, 2009

Vienas dažniausiai naudojamų faktorių išskyrimo metodų vadinamas pagrindinių
komponenčių analize. Naudojantis koreliacine matrica galima apskaičiuoti faktorių svorių, bendrumų
ir specifiškumų įverčius bei rasti bendruosius faktorius. Tai atliekama šiuolaikiniais statistiniais
paketais SPSS, Statistica ir pan.
Svarbiausias analizės uždavinys nustatyti, kokia bendrosios dispersijos dalis yra paaiškinama
vienos ar kitos komponentės. Pirmoji pagrindinė komponentė yra ta, kuri paaiškina didžiausią
bendrosios dispersijos dalį, antroji mažesnę ir taip toliau mažėjimo tvarka. Bendroji dispersija yra lygi
pradinių kintamųjų dispersijų sumai. Jei analizei naudotume standartizuotas reikšmes, tai normalaus
skirstinio atveju atskirų kintamųjų dispersija būtų lygi 1, o bendroji dispersija kintamųjų skaičiui.
Bendroji kintamųjų dispersija suteikia informacijos apie jų reikšmių sklaidą, t.y. kuo daugiau
bendrosios kintamųjų dispersijos paaiškina pagrindinė komponentė, tuo daugiau informacijos apie
kintamųjų elgesį joje išlieka. Galima sakyti, kad paaiškintas bendrosios dispersijos procentas lemia
pagrindinės komponentės svarbą. Pavyzdžiui, jei komponentė paaiškina 95% bendrosios dispersijos, ji
yra labai svarbi ir dažniausiai interpretuojama taip: vietoj (daugelio) pradinių kintamųjų X1, …, Xk
palikdami šią (vieną) pagrindinę komponentę, išlaikysime 95% informacijos apie pradinių kintamųjų
elgesį (įgyjamų reikšmių sklaidą).
Dažniausiai išskiriant faktorius, faktorių skaičius yra nustatomas iš anksto. Jis dažniausiai būna
numanomas iš anksto, suprantant analizuojamo proceso esmę. Kartais faktorių skaičius parenkamas
taip, kad būtų paaiškinta ne mažiau, kaip iš anksto pasirinktas procentas bendrosios kintamųjų
dispersijos (pavyzdžiui, nemažiau nei 75% visos dispersijos).
Ar kintamasis yra paaiškinamas bendrųjų faktorių, nustatoma pagal pradinių kintamųjų
variacijų dalies, paaiškinamos bendrųjų faktorių, dydį. Jei šis dydis yra didesnis nei 0,20, tai galima
teigti, kad pagrindinėse atrinktosiose komponentėse išliko pakankamai daug informacijos apie
kintamąjį. Vėliau, nustačius faktorių svorius kintamiesiems, mums tenka identifikuoti bendruosius
faktorius.

Dalinė koreliacija

16 gruodžio, 2009

Dalinė koreliacija atskleidžia Y priklausomybę nuo vieno kintamojo, kai
yra eliminuojama kitų kintamųjų įtaka. Tiesinę priklausomybę tarp kintamųjų matuoja koreliacijos
koeficientas, tačiau jis gali būti didelis vien todėl, kad abu kintamieji priklauso nuo kokių nors kitų
kintamųjų. Dalinės koreliacijos koeficientas šių kintamųjų įtakos neatskleidžia. Kaip ir visi koreliacijos
koeficientai, jis nenusako priežastinės priklausomybės. Priežastinė priklausomybė paprastai nustatoma
remiantis tiriamos srities teorinėmis žiniomis arba (ir), specialiai parengtų eksperimentu, o dalinė
koreliacija tėra tik įrankis.
Kintamieji, į kurių įtaką atsižvelgiama vadinami kontroliuojamaisiais kintamaisiais.
Kontroliuojamųjų kintamųjų skaičius vadinamas dalinės koreliacijos eile. Pirmosios eilės dalinės
koreliacijos gaunamos kai yra vienas kontroliuojamas kintamasis, antrosios, kai du ir t.t. Pavyzdžiui,
ry1.2 yra pirmos eilės dalinė Y ir X1 koreliacija, kai kontroliuojamas kintamasis X2; ry2.134 – trečiosios
eilės dalinė Y ir X2 koreliacija, kai kontroliuojamieji kintamieji X1, X3, X4 ir pan.
Dviejų kintamųjų atvejų dalines koreliacijas galima išreikšti empirinėmis koreliacijomis:

r_{y1.2}=\frac{r_{y1}-r_{y2}r_{12}}{\sqrt{\left ( 1-r_{y2}^{2} \right )\left ( 1-r_{12}^{2} \right )}}

r_{y2.1}=\frac{r_{y2}-r_{y1}r_{12}}{\sqrt{\left ( 1-r_{y1}^{2} \right )\left ( 1-r_{12}^{2} \right )}}

Duomenų tikimas faktorinei analizei

16 gruodžio, 2009

Taikydami faktorinę analizę, ieškome stebimų kintamųjų panašumų. Suprantama, kad jei
kintamieji nekoreliuoti, tai ir panašumų nėra. Tokiems duomenims faktorinė analizė nėra taikoma.
Taigi, visų pirma turime įsitikinti, ar stebimi kintamieji tarpusavyje koreliuoja. Pradiniai faktorinės
analizės duomenys – stebėjimų koreliacijų (arba kovariacijų) matrica. Iš jos pavidalo matyti, kurie
kintamieji yra nepriklausomi nuo likusiųjų. Šie kintamieji negrupuojami, t.y. faktiškai jie sudaro
atskirus faktorius. Todėl juos iš faktorinės analizės pradinių kintamųjų sąrašo verta pašalinti.
Ar koreliacijos yra statistiškai reikšmingos ir ar jos gali būti taikomos faktorinei analizei padeda
nustatyti visa eilė kriterijų: Bartleto sferiškumo kriterijus, Kaizerio-Mejerio-Olkino (KMO) matas
ir kt.
Ar iš viso tarp stebėjimo duomenų yra statistiškai reikšmingai koreliuojančių, padeda nustatyti
Bartleto sferiškumo kriterijus (p). Juo naudojantis, tikrinama hipotezė, kad koreliacijų matrica yra
vienetinė, t.y. visi stebimi kintamieji yra nekoreliuoti. Vadinasi jei turimiems duomenims hipotezė
priimama (p≥α, kur α – pasirinktas statistinio reikšmingumo lygmuo), faktorinė analizė neturi prasmės.
KMO – empirinių koreliacijos koeficientų didumų ir dalinių koreliacijos koeficientų didumų
palyginimo matas. Jis skaičiuojamas pagal formulę:

KMO = \frac{\sum \sum_{i\neq j}^{ }r^{2}_{ij}}{\sum \sum_{i\neq j}^{ }r^{2}_{ij}+\sum \sum_{i\neq j}^{ }\widetilde{r}^{2}_{ij}}

čia r_{ij} – koreliacijos koeficientai;\widetilde{r}_{ij} -dalinės koreliacijos koeficientai.
KMO reikšmė maža, tai nagrinėjamų kintamųjų faktorinė analizė nerezultatyvi. Tai rodo, kad
kintamųjų porų koreliacija nėra paaiškinama kitais kintamaisiais. Apytikslė KMO gradacija:
KMO>0,9 – faktorinė analizė puikiai tinka;
0,9>KMO>0,8 – gerai tinka;
0,8>KMO>0,7 – tinka patenkinamai;
0,7>KMO>0,6 – tinka pakenčiamai;
0,6>KMO>0,5 – tinka blogai;
KMO<0,5 – netinka.

Kospektras

3 gruodžio, 2009

Jeigu tarp dviejų laiko sekų egzistuoja koreliacinis ryšys tai dažnai kyla klausimas, kokio
dažnio (žemo ar aukšto) komponentai sekose siejasi. Gali būti taip, kad dvi laiko sekos nekoreliuoja
tarpusavyje kadangi žemo dažnio sudedamosios koreliuoja neigiamai, o aukšto dažnio teigiamai.
Pavyzdžiui šiltuoju metų laikotarpiu oro temperatūros ir kritulių kiekio sezoninės eigos pobūdis
sutampa: didėjant temperatūrai didėja ir kritulių kiekis (žemo dažnio svyravimai). Tačiau jei
analizuotume aukšto dažnio fluktuacijas pamatytume, jog dienos, kada iškrenta gausus kritulių kiekis
yra vėsesnės nei aplinkinės.
Kospektras parodo įvairaus dažnio svyravimų indėlį į kovariaciją tarp dviejų sekų. Tam, kad
apskaičiuoti kospektrą, visų pirma vidurkinama kovariacija esant vėlavimui l ir –l. T. y , nustatomas
kovariacijos koeficientas, kai poslinkis tarp sekų (sakykime x seka yra paslinkta per 3 narius į apačią, o
y seka išliko vietoje) teigiamas bei kai poslinkis yra neigiamas (x seka yra paslinkta per 3 narius į
viršų, o y seka išliko vietoje) ir apskaičiuojamas koeficientų vidurkis. Vėliau sudaroma funkcija,
kurioje nurodoma kovariacijos koeficientų priklausomybė nuo l. Toliau atliekama šios sekos harmoninė
analizė. Tokiu būdu vykdomas procesas atitinka spektrinę analizę tik aukoreliacijos koeficientų vietoje,
sinusų ir kosinusų pagalba analizuojama seka sudaryta iš kovariacijos koeficientų vidurkio. Kospektras
parodo sinchroniškus ryšius tarp dviejų laiko sekų.

Erdvinio vidurkio skaičiavimo metodai

3 gruodžio, 2009

Erdvinis vidurkis naudojamas foninių meteorologinių rezultatų skirtinguose rajonuose
palyginimui arba rodiklių kaitos bei svyravimų rodiklių atskiruose regionuose įvertinimui.
Vidurkinimas – būtinas pradinių duomenų analizės etapas vykdant meteorologinių elementų prognozę,
ypač tuo atveju jei rodiklis pasižymi ypač didele erdvine sklaida (pvz., krituliai).
Erdvinio vidurkio skaičiavimo klausimai tapo ypač aktualiais pradėjus intensyviai taikyti
distancinius meteorologinių elementų matavimo metodus (kosminius, radiolokacinius). Šių metodų
pagalba gauti matavimų rezultatai yra erdviškai suvidurkinti. Todėl tampa ganėtinai sunku lyginti
distancinių ir įprastų meteorologinių matavimų metu gautus duomenis. Pradėjus naudoti distancinius
metodus kinta ir laiko eilučių struktūra, todėl tampa sunku ją interpretuoti.
Iš pirmo žvilgsnio atrodo jog erdviniame vidurkinime nėra nieko sudėtingo. Iš tiesu
meteorologinių laukų vidurkinimas – pakankamai sudėtinga, reikalaujanti kruopščios parengtinės
statistinės, geografinės, klimatinės ir kt. nagrinėjamo rodiklio lauko analizės. Net jei laukas yra
klimatiškai vienalytis atsiranda visa eilė problemų susijusių, pavyzdžiui, su netolygiu matavimo punktų
išsidėstymu teritorijoje, nevienodu jų reprezentuojamos teritorijos dydžiu ir t.t. Kadangi klimatiškai
vienalyčių rajonų rasti sunku, erdvinis vidurkinimas tampa dar sudėtingesniu, nes reikia atkreipti
dėmesį teritorijos landšaftinius, mezoklimatinius ypatumus ir kt.
Tik tuo atveju jei matavimų tinklas yra labai tankus ir teritorijoje išsidėstęs tolygiai vidurkis gali
būti nustatomas elementariai vidurkinant visu stočių duomenis. Tačiau net ir šiuo atveju galimos
nemažos paklaidos ypač kai rodiklis pasižymi didele erdvine sklaida.
Vienas iš paprasčiausių metodų naudojamų erdviniam vidurkinimui yra kvadratų metodas.
Naudojant šį metodą teritorija dalinama į visą eilę kvadratų. Paprasto vidurkinimo būdu surandamas
vidutinis dydis kiekviename kvadrate. Jei kuriame nors kvadrate matavimo punkto nėra, tai to kvadrato
vidutinei reikšmei nustatyti naudojami gretimų besiribojančių kvadratų duomenys. Nepilniems
kvadratams, kuriuos kerta analizuojamos teritorijos ribos, yra įvedami mažesni už 1 svoriniai
koeficientai atitinkantys santykinį kvadrato dydį. Suradus vidutines reikšmes kiekvienam kvadratui
surandame jų aritmetinį vidurkį, tik šiuo atveju analizuojamo parametro sumą daliname ne iš kvadratų
skaičiaus bet iš svorinių koeficientų sumos. Pagrindinis kvadratų metodų privalumas yra jo
paprastumas. Jai vidurkinimas vyksta stacionaraus matavimų tinklo pagrindu, tai galima iš anksto
paskaičiuoti svorinius koeficientus kiekvienam matavimo punktui.
Artimas kvadratų metodui – interpoliacijos į tinklelio susikirtimo taškus metodas. Šiuo
atveju interpoliacijos pagalba nustatome reikšmes tinklelio susikirtimo taškuose ir po to šios reikšmės
vidurkinamos (taip kaip aprašyta kvadratų metode). Vėlgi, kraštiniams taškams įvedami mažesni už 1
svoriniai koeficientai atitinkantys santykinį reprezentuojamos teritorijos dydį. Šis metodas labai
populiarus šiuolaikinėse kompiuterinėse programose, o dažniausiai dabar pateikiamose duomenų
bazėse, vieno ar kito parametro reikšmės pateikiamos geografinio tinklelio susikirtimo taškams, o ne
matavimo punktams.
Kitas erdvinio vidurkio nustatymo būdas – trikampių metodas. Šiuo atveju visa teritorija
dalinama į trikampius, kurių viršūnėse yra matavimo punktai. Po to surandama reikšmė trikampio
centre, kuri apskaičiuojama kaip vidurkis iš viršūnių reikšmių. Gauti dydžiai vidurkinami naudojant
svorinius koeficientus proporcingus trikampių plotui. Trikampių metodas geriau įvertina egzistuojančio
matavimų tinklo tankį ir išsidėstymo specifiką, tačiau svorinių koeficientų skaičiavimas tampa
ganėtinai komplikuotas. Be to teritorijos pakraščiai dažnai lieka neįtraukiami į skaičiavimus. Panašiai
erdvinį vidurkį galima nustatyti ir teritoriją padalinus į trapecijas ar kitokias figūras.
Gana populiarus – poligonų metodas. Matavimo punktai jungiami vienas su kitu tiesiomis
linijomis. Šios linijos dalinamos pusiau ir per vidurio linijas išvedami statmenys. Pastariesiems
susikirtus kiekvienai stočiai gaunamas daugiakampis (poligonas). Suformavus poligonus,
planimetravimo pagalba nustatomas kiekvieno poligono, esančio teritorijos viduje, plotas. Šis metodas
aprėpia visą teritoriją bei ganėtinai tiksliai įvertina kiekvieno matavimo punkto svorinį indėlį į vidutinę
reikšmę teritorijoje.
Dar vienas plačiai paplitęs vidurkinimo būdas – izolinijų metodas. Taikant šį būdą reikia turėti
analizuojamo rodiklio izolinijų žemėlapį. Planimetravimo pagalba nustatomas plotas patenkantis į tarpą
tarp dviejų izolinijų. Nuo šio ploto priklauso ir svorinis koeficientas kuris dauginamas iš rodiklio
vidutinės reikšmės šiame plote (nustatoma kaip vidurkis tarp dviejų izolinijų reikšmių). Vienas šio
metodo privalumų yra tas, kad atliekant interpoliaciją galima įvertinti vietovės landšafto ypatumus,
kurie savo ruožtu įtakoja analizuojamo meteorologinio parametro sklaidą. Tada ir gauti rezultatai bus
žymiai tikslesni.
Šiuolaikinė programinė įranga, dažniausiai naudodama kvadratų ir izolinijų metodus, leidžia
greitai ir ganėtinai tiksliai įvertinti vidutinę rodiklio reikšmę analizuojamoje teritorijoje. Tačiau
automatizuotame procese dažniausiai neatsižvelgiama į atskirų landšafto elementų įtaką (jei nėra
užprogramuota), vykdoma tiesinė interpoliacija, todėl kuo labiau komplikuotas landšaftas tuo mažiau
tikslūs erdvinio vidurkinimo duomenys gali būti gaunami.

Grupuotų duomenų padėties charakteristikos

21 lapkričio, 2009

Daugelį minėtų duomenų padėties charakteristikų (vidurkį, modą, medianą) galima apskaičiuoti
ne tik pagal visus imties elementus, bet ir pagal grupuotus duomenis. Tokiu atveju iš esmės atskirais
elementais laikomi atskirų intervalų, į kuriuos sugrupuoti analizuojami duomenys, vidurio taškai.
Neabejotina, kad tokiu būdu apskaičiuotos duomenų padėties charakteristikos nėra tokios tikslios, kaip
skaičiuojant jas pagal visus imties elementus. Todėl pagal grupuotus duomenis šias charakteristikas
pakankamai tiksliai įmanoma apskaičiuoti tik turint itin dideles imtis. Antai, grupuotų elementų
vidurkis skaičiuojamas taip:
X = Σ(x*j×fj)/n,
kur x*j – j-ojo intervalo vidurio taškas, o fj šio intervalo dažnis. Tą pačią formulę nesunku išreikšti ir
kitaip:
X = Σ(x*j×fj/n).
Taigi kiekvieno intervalo vidurio tašką x*j daugindami iš to intervalo santykinio dažnio fj/n ir
sudėję visas gautas reikšmes taip pat galime apskaičiuoti vidurkį pagal grupuotų elementų imtį.
Grupuotų elementų moda skaičiuojama retai, nes dažniausiai prieš grupuojant sudaroma variacinė
duomenų eilutė, pagal kurią nesunku nustatyti tikrą modą (modas). Jeigu gi pradiniai duomenys
nežinomi, moda laikoma apytiksliai lygia intervalo, į kurį pateko daugiausiai duomenų vidurinei
reikšmei. Grupuotų duomenų mediana nustatoma taip pat: tradicinėse medianos skaičiavimo
formulėse vietoj x įstatomos vidurinės intervalų reikšmės x*.

Faktorinė analizė

21 lapkričio, 2009

Faktorinės analizės tikslas – minimaliai prarandant informacijos pakeisti stebimą reiškinį
charakterizuojančių požymių aibę kelių faktorių rinkiniu. Ko siekiame taikydami faktorinę analizę?
Faktorinė analizė padeda didelio skaičiaus kintamųjų tarpusavio koreliacijas paaiškinti tam tikru
bendrųjų faktorių įtaka. Nuo kintamųjų pereidami prie faktorių, kondensuojame informaciją, padarome
ją labiau aprėpiamą.
Faktorinės analizės pagalba galima nustatyti:
1) kiek latentinių (nematuojamų) faktorių paaiškina tiriamų kintamųjų priklausomybės struktūrą;
2) kokie tie faktoriai;
3) kaip gerai faktoriai paaiškina duomenis.
Faktorinė analizė – gana sudėtinga ir dažnai sunkiai interpretuojama nes:
1) ne visada latentiniai faktoriai realiai egzistuoja ir ne visada patikimai pagal turimus duomenis
galima juos išskirti;
2) tiems patiems duomenims taikydami skirtingus faktorinės analizės metodus, gauname keletą
galimų faktorių rinkinių;
3) išskirtieji faktoriai ne visada lengvai interpretuojami.
Faktorių skaičių, faktorinės analizės metodą ir faktorių pavadinimus pasirenka pats tyrėjas, todėl ir
sakoma, kad faktorinė analizė atsakymus tik pasufleruoja.
Faktorinės analizės etapai
1) patikrinimas, ar duomenys faktorinei analizei tinka;
2) faktorių išskyrimas – faktorių skaičiaus nustatymas bei faktorių skaičiavimo metodo
parinkimas;
3) faktorių sukimas ir interpretavimas;
4) faktorių reikšmių įverčių skaičiavimas.