Erdvinio vidurkio skaičiavimo metodai

3 gruodžio, 2009

Erdvinis vidurkis naudojamas foninių meteorologinių rezultatų skirtinguose rajonuose
palyginimui arba rodiklių kaitos bei svyravimų rodiklių atskiruose regionuose įvertinimui.
Vidurkinimas – būtinas pradinių duomenų analizės etapas vykdant meteorologinių elementų prognozę,
ypač tuo atveju jei rodiklis pasižymi ypač didele erdvine sklaida (pvz., krituliai).
Erdvinio vidurkio skaičiavimo klausimai tapo ypač aktualiais pradėjus intensyviai taikyti
distancinius meteorologinių elementų matavimo metodus (kosminius, radiolokacinius). Šių metodų
pagalba gauti matavimų rezultatai yra erdviškai suvidurkinti. Todėl tampa ganėtinai sunku lyginti
distancinių ir įprastų meteorologinių matavimų metu gautus duomenis. Pradėjus naudoti distancinius
metodus kinta ir laiko eilučių struktūra, todėl tampa sunku ją interpretuoti.
Iš pirmo žvilgsnio atrodo jog erdviniame vidurkinime nėra nieko sudėtingo. Iš tiesu
meteorologinių laukų vidurkinimas – pakankamai sudėtinga, reikalaujanti kruopščios parengtinės
statistinės, geografinės, klimatinės ir kt. nagrinėjamo rodiklio lauko analizės. Net jei laukas yra
klimatiškai vienalytis atsiranda visa eilė problemų susijusių, pavyzdžiui, su netolygiu matavimo punktų
išsidėstymu teritorijoje, nevienodu jų reprezentuojamos teritorijos dydžiu ir t.t. Kadangi klimatiškai
vienalyčių rajonų rasti sunku, erdvinis vidurkinimas tampa dar sudėtingesniu, nes reikia atkreipti
dėmesį teritorijos landšaftinius, mezoklimatinius ypatumus ir kt.
Tik tuo atveju jei matavimų tinklas yra labai tankus ir teritorijoje išsidėstęs tolygiai vidurkis gali
būti nustatomas elementariai vidurkinant visu stočių duomenis. Tačiau net ir šiuo atveju galimos
nemažos paklaidos ypač kai rodiklis pasižymi didele erdvine sklaida.
Vienas iš paprasčiausių metodų naudojamų erdviniam vidurkinimui yra kvadratų metodas.
Naudojant šį metodą teritorija dalinama į visą eilę kvadratų. Paprasto vidurkinimo būdu surandamas
vidutinis dydis kiekviename kvadrate. Jei kuriame nors kvadrate matavimo punkto nėra, tai to kvadrato
vidutinei reikšmei nustatyti naudojami gretimų besiribojančių kvadratų duomenys. Nepilniems
kvadratams, kuriuos kerta analizuojamos teritorijos ribos, yra įvedami mažesni už 1 svoriniai
koeficientai atitinkantys santykinį kvadrato dydį. Suradus vidutines reikšmes kiekvienam kvadratui
surandame jų aritmetinį vidurkį, tik šiuo atveju analizuojamo parametro sumą daliname ne iš kvadratų
skaičiaus bet iš svorinių koeficientų sumos. Pagrindinis kvadratų metodų privalumas yra jo
paprastumas. Jai vidurkinimas vyksta stacionaraus matavimų tinklo pagrindu, tai galima iš anksto
paskaičiuoti svorinius koeficientus kiekvienam matavimo punktui.
Artimas kvadratų metodui – interpoliacijos į tinklelio susikirtimo taškus metodas. Šiuo
atveju interpoliacijos pagalba nustatome reikšmes tinklelio susikirtimo taškuose ir po to šios reikšmės
vidurkinamos (taip kaip aprašyta kvadratų metode). Vėlgi, kraštiniams taškams įvedami mažesni už 1
svoriniai koeficientai atitinkantys santykinį reprezentuojamos teritorijos dydį. Šis metodas labai
populiarus šiuolaikinėse kompiuterinėse programose, o dažniausiai dabar pateikiamose duomenų
bazėse, vieno ar kito parametro reikšmės pateikiamos geografinio tinklelio susikirtimo taškams, o ne
matavimo punktams.
Kitas erdvinio vidurkio nustatymo būdas – trikampių metodas. Šiuo atveju visa teritorija
dalinama į trikampius, kurių viršūnėse yra matavimo punktai. Po to surandama reikšmė trikampio
centre, kuri apskaičiuojama kaip vidurkis iš viršūnių reikšmių. Gauti dydžiai vidurkinami naudojant
svorinius koeficientus proporcingus trikampių plotui. Trikampių metodas geriau įvertina egzistuojančio
matavimų tinklo tankį ir išsidėstymo specifiką, tačiau svorinių koeficientų skaičiavimas tampa
ganėtinai komplikuotas. Be to teritorijos pakraščiai dažnai lieka neįtraukiami į skaičiavimus. Panašiai
erdvinį vidurkį galima nustatyti ir teritoriją padalinus į trapecijas ar kitokias figūras.
Gana populiarus – poligonų metodas. Matavimo punktai jungiami vienas su kitu tiesiomis
linijomis. Šios linijos dalinamos pusiau ir per vidurio linijas išvedami statmenys. Pastariesiems
susikirtus kiekvienai stočiai gaunamas daugiakampis (poligonas). Suformavus poligonus,
planimetravimo pagalba nustatomas kiekvieno poligono, esančio teritorijos viduje, plotas. Šis metodas
aprėpia visą teritoriją bei ganėtinai tiksliai įvertina kiekvieno matavimo punkto svorinį indėlį į vidutinę
reikšmę teritorijoje.
Dar vienas plačiai paplitęs vidurkinimo būdas – izolinijų metodas. Taikant šį būdą reikia turėti
analizuojamo rodiklio izolinijų žemėlapį. Planimetravimo pagalba nustatomas plotas patenkantis į tarpą
tarp dviejų izolinijų. Nuo šio ploto priklauso ir svorinis koeficientas kuris dauginamas iš rodiklio
vidutinės reikšmės šiame plote (nustatoma kaip vidurkis tarp dviejų izolinijų reikšmių). Vienas šio
metodo privalumų yra tas, kad atliekant interpoliaciją galima įvertinti vietovės landšafto ypatumus,
kurie savo ruožtu įtakoja analizuojamo meteorologinio parametro sklaidą. Tada ir gauti rezultatai bus
žymiai tikslesni.
Šiuolaikinė programinė įranga, dažniausiai naudodama kvadratų ir izolinijų metodus, leidžia
greitai ir ganėtinai tiksliai įvertinti vidutinę rodiklio reikšmę analizuojamoje teritorijoje. Tačiau
automatizuotame procese dažniausiai neatsižvelgiama į atskirų landšafto elementų įtaką (jei nėra
užprogramuota), vykdoma tiesinė interpoliacija, todėl kuo labiau komplikuotas landšaftas tuo mažiau
tikslūs erdvinio vidurkinimo duomenys gali būti gaunami.

Grupuotų duomenų padėties charakteristikos

21 lapkričio, 2009

Daugelį minėtų duomenų padėties charakteristikų (vidurkį, modą, medianą) galima apskaičiuoti
ne tik pagal visus imties elementus, bet ir pagal grupuotus duomenis. Tokiu atveju iš esmės atskirais
elementais laikomi atskirų intervalų, į kuriuos sugrupuoti analizuojami duomenys, vidurio taškai.
Neabejotina, kad tokiu būdu apskaičiuotos duomenų padėties charakteristikos nėra tokios tikslios, kaip
skaičiuojant jas pagal visus imties elementus. Todėl pagal grupuotus duomenis šias charakteristikas
pakankamai tiksliai įmanoma apskaičiuoti tik turint itin dideles imtis. Antai, grupuotų elementų
vidurkis skaičiuojamas taip:
X = Σ(x*j×fj)/n,
kur x*j – j-ojo intervalo vidurio taškas, o fj šio intervalo dažnis. Tą pačią formulę nesunku išreikšti ir
kitaip:
X = Σ(x*j×fj/n).
Taigi kiekvieno intervalo vidurio tašką x*j daugindami iš to intervalo santykinio dažnio fj/n ir
sudėję visas gautas reikšmes taip pat galime apskaičiuoti vidurkį pagal grupuotų elementų imtį.
Grupuotų elementų moda skaičiuojama retai, nes dažniausiai prieš grupuojant sudaroma variacinė
duomenų eilutė, pagal kurią nesunku nustatyti tikrą modą (modas). Jeigu gi pradiniai duomenys
nežinomi, moda laikoma apytiksliai lygia intervalo, į kurį pateko daugiausiai duomenų vidurinei
reikšmei. Grupuotų duomenų mediana nustatoma taip pat: tradicinėse medianos skaičiavimo
formulėse vietoj x įstatomos vidurinės intervalų reikšmės x*.

Faktorinė analizė

21 lapkričio, 2009

Faktorinės analizės tikslas – minimaliai prarandant informacijos pakeisti stebimą reiškinį
charakterizuojančių požymių aibę kelių faktorių rinkiniu. Ko siekiame taikydami faktorinę analizę?
Faktorinė analizė padeda didelio skaičiaus kintamųjų tarpusavio koreliacijas paaiškinti tam tikru
bendrųjų faktorių įtaka. Nuo kintamųjų pereidami prie faktorių, kondensuojame informaciją, padarome
ją labiau aprėpiamą.
Faktorinės analizės pagalba galima nustatyti:
1) kiek latentinių (nematuojamų) faktorių paaiškina tiriamų kintamųjų priklausomybės struktūrą;
2) kokie tie faktoriai;
3) kaip gerai faktoriai paaiškina duomenis.
Faktorinė analizė – gana sudėtinga ir dažnai sunkiai interpretuojama nes:
1) ne visada latentiniai faktoriai realiai egzistuoja ir ne visada patikimai pagal turimus duomenis
galima juos išskirti;
2) tiems patiems duomenims taikydami skirtingus faktorinės analizės metodus, gauname keletą
galimų faktorių rinkinių;
3) išskirtieji faktoriai ne visada lengvai interpretuojami.
Faktorių skaičių, faktorinės analizės metodą ir faktorių pavadinimus pasirenka pats tyrėjas, todėl ir
sakoma, kad faktorinė analizė atsakymus tik pasufleruoja.
Faktorinės analizės etapai
1) patikrinimas, ar duomenys faktorinei analizei tinka;
2) faktorių išskyrimas – faktorių skaičiaus nustatymas bei faktorių skaičiavimo metodo
parinkimas;
3) faktorių sukimas ir interpretavimas;
4) faktorių reikšmių įverčių skaičiavimas.

k-vidurkių metodas

21 lapkričio, 2009

Vienas iš hierarchinių klasterinės analizės metodų trūkumų – skaičiavimams naudojama
atstumų matrica. Pavyzdžiui, jei yra 300 objektų, kuriuos norima suskirstyti į klasterius, atstumų
matricą sudaro 90 000 elementų. Skaičiavimai darosi labai komplikuoti. Tad dideliems objektų
masyvams klasterizuoti dažnai naudojami nehierarchiniai klasterizavimo metodai. Paprasčiausias jų k-vidurkių
metodas. Klasterizavimo procedūrą sudaro trys žingsniai:
1. Objektai skirstomi į k pradinių klasterių;
2. Paeiliui apskaičiuojamas kiekvieno objekto atstumas iki klasterių centro (atstumas
paprastai skaičiuojamas naudojantis Euklido atstumų matu arba jo kvadratu). Objektas skiriamas į
artimiausia klasterį. Klasterių centrai perskaičiuojami;
3. 2 žingsnis kartojamas tol, kol perskirstymų daugiau nėra.
Vienas iš k-vidurkių metodų trūkumų – klasterių skaičių reikia nustatyti iš anksto. Yra keletas
argumentų prieštaraujančių išankstiniam klasterių skaičiaus nustatymui:
1. Net jei iš tiesu žinoma, kad objektų populiacijoje yra k klasterių, tiriamojoje objektų
imtyje gali nepasitaikyti atstovų iš k-ojo klasterio;
2. Išskirtys gali sudaryti atskirą klasterį
3. Klasterinės analizės tikslas – egzistuojančių struktūrų paieška, tačiau, nurodant pradinį
klasterių skaičių, struktūra yra primetama.

Klasterinė analizė

8 lapkričio, 2009

Taikydami klasterinę analizę, nustatome objektų panašumą ir suskirstome juos į klasterius.
Klasteris – panašių objektų grupė. Klasterinės analizės tikslas – suskirstyti objektus taip, kad skirtumai
klasterių viduje būtų kuo mažesni, o tarp klasterių – kuo didesni.
Skirstydami objektus į klasterius dažniausiai nežinome, kiek klasterių tiriamoje populiacijoje
realiai egzistuoja (ir ar išvis egzistuoja). Todėl tam tikra prasme klasterinė analizė yra egzistuojančių
struktūrų paieška. Konkretaus metodo parinkimas, rezultatų interpretacija priklauso tik nuo tyrėjo.
Klasterizuojant turime pereiti 5 etapus:
1. Pasirinkti klasterizuojamus objektus;
2. Nuspręsti pagal kokius požymius klasterizuosime;
3. Pasirinkti kiekybinį matą, kuriuo matuosime objektų panašumą;
4. Vienu ar kitu metodu suskirstyti objektus į klasterius;
5. Peržiūrėti gautus rezultatus.
Klasterizuojamų objektų ir klasterizavimo požymių parinkimą lemia konkretaus tyrimo tikslai ir
uždaviniai. Visais atvejais skirstymas į klasterius prasideda tada, kai jau turime objektų aibę ir
kiekvieną objektą aprašančių skaitinių rodiklių aibę. Toliau svarbu pasirinkti kiekybinio panašumo
matą. Nuo pasirinkto mato priklauso klasterizacijos rezultatai. Turėdami kiekybinio panašumo matą,
galime pasakyti, kurios objektų poros yra panašesnės. Klasterizacijos metodas leidžia nustatyti
principus, pagal kuriuos sudaromi klasteriai, ir atsakyti į klausimą ką reiškia klasterių panašumas.
Suskirstę objektus į klasterius, dar turime patikrinti, ar gauti rezultatai neprieštarauja sveikam protui.
Reikia atsiminti jog klasterizuojant:
Visada kyla sunkumų vertinant imties reprezantatyvumą, rezultatų statistinį reikšmingumą;
Klasterinės analizės metodai naudojami įvairioms sritims, todėl juose yra nemažai
specifiškumų. Tiems patiems duomenims taikydami skirtingus klasterinės analizės metodus galime
gauti skirtingus rezultatus.

Persidengiančių epochų metodas

8 lapkričio, 2009

Vienas iš nesudėtingų metodų skirtų ryšiui tarp dviejų kintamųjų nustatyti yra persidengiančių
epochų metodas. Šis analizės metodas ypač patogus tuomet, kai viena iš sekų susideda iš diskretiškų
įvykių, pavyzdžiui pastovios sniego dangos susiformavimas arba nesusiformavimas; rūko buvimas arba
ne ir t.t.
Iš tokių sekų išrenkamos pagrindinės datos, kada vienoks arba kitoks įvykis įvyko. Jeigu
pagrindines datas pažymėti D0, tai vėlesnės sekos datos: D1, D2, D3,…, Dn. Vėliau kiekvienai sekos
datai suskaičiuojame vidutinę kito kintamojo reikšmę. Tai yra, jei mes išrinkome skaičių k pagrindinių
datų, tai kito kintamojo vidutinė reikšmė Y0 apskaičiuojama iš visų Y reikšmių pagrindinėmis datomis
D0. Atitinkamai nustatomos Y1, Y2 ir t.t.
Analizuojant meteorologinius duomenis, mus gali dominti ir Y reikšmės prieš pagrindines
datas. Šiuo atveju atliekami analogiški skaičiavimai.
Pagrindinė šio metodo problema yra ta, kad ganėtinai sunku įvertinti gautų rezultatų statistinį
patikimumą. Tai atliekama lyginant gautus rezultatus su kita atsitiktine imtimi arba kuriuo nors
atsitiktiniu skirstiniu.

Paprastas klausimas

30 spalio, 2009

Štai paprastas, bet įdomus uždavinukas:

Įsivaizduokite, kad žaidžiate loterijoje. Jums reikia pasirinkti iš trijų skrynių:
Vienoje skrynioje slepiasi 1 mln. Lt, kitose dviejose – tuščia. Savaime suprantama ,kad jūs nežinote, kurioje skrynioje yra didysis prizas. Taigi, spėjate.
Tarkime, jūs pasirinkote pirmąją skrynią.
Tuomet žaidimo vedėjas jums sako:
-Aš panaikinsiu vieną skrynią iš tų kitų dviejų (antros ir trečios), tą, kurioje tikrai nieko nėra.
Ir tada žaidimo vedėjas atidaro, tarkime, trečiąją skrynią ir parodo, kad ji tuščia.
Tada jūsų klausia:
-Gal norite pakeisti savo pasirinkimą?
Dabar jums lieka jūsų pasirinktoji pirma skrynia ir antroji skrynia.
Ką pasirinksite ir kodel?

P.S. Jei jau esate girdėję šį uždavinį, tuomet prašyčiau nekomentuoti. Tegul nežinantieji pabando atsakyti.

Aprašomoji statistika

27 spalio, 2009

Aprašomoji statistika vienas iš pradinių ir svarbiausių statistinio uždavinio sprendimo etapų.
Dažnai vien informacijos aprašymas ir duomenų sudarymas leidžia daryti pakankamai pagrįstas išvadas
apie visos populiacijos savybes. Priklausomai nuo to, ar dirbama su visą populiaciją apibūdinančiais
duomenimis, ar tik su imties duomenimis gauti rezultatai vadinami populiacijos parametrais arba imties
statistika.

Pvz., jei praktikos metu surinkti duomenys apie teisės 1 kurso studentų pažangumo balus pateikiami aptariant šių konkrečių studentų pažangumą, turime populiacijos parametrą. Tačiau, jei pagal šiuos duomenis daromos išvados apie pirmakursių teisininkų pažangumą, tai – imties statistika, kurios reprezentatyvumą populiacijos atžvilgiu, o taip pat kartu ir patikimumą tektų tikrinti atskirai.

Komentaras.
Trumpai tariant, kai atliekamas konkretus (lokalus) tyrimas, išvadas galima padaryti labai tikslias ir greitai. Todėl, kad mūsų imtis = populiacija.

Moda ir Mediana

26 spalio, 2009

Moda – dažniausiai duomenų aibėje pasikartojusi reikšmė. Pavyzdžiui,  duomenų aibės 1;1;2;3;4;5 moda Mo = 1. Jeigu visos reikšmės statistinėje eilutėje pasikartoja vienodai dažnai, sakoma, kad pasiskirstymas neturi modos. Pavyzdžiui, duomenų aibė 2,3; 2,3; 3,8; 3,8; 4,5;4,5 modos neturi.
Jeigu kelios gretimos variacinės eilutės reikšmės pasirodo vienodu dažniu ir šis dažnis yra didesnis, negu bet kuris kitas dažnis, tai moda yra šių reikšmių vidurkis. Pavyzdžiui, duomenų aibės 0; 1; 1;
2; 2; 2; 3; 3; 3; 4 moda Mo = (2+3)=2 = 2; 5.  Gali būti kelios modos.  Modą galima skaičiuoti tiek kiekybiniams tiek ir kokybiniams duomenims. Grupuotiems duomenims moda yra intervalo, į kurį pateko daugiausia duomenų, vidurinė reikšmė.
Mediana yra skaičius, už kurį 50% variacinės eilutės reikšmių yra nedidesnės ir 50% nemažesnės.
Tikslesnis medianos apibrėžimas skamba taip: jeigu n nelyginis, tai mediana yra variacinės eilutės
reikšmė, atitinkanti (n+1)=2 pozicija.  Jeigu stebėjimų skaičius n lyginis, tai mediana yra variacinės
eilutės reikšmių, atitinkančių pozicijas (n=2) ir (n=2)+1, aritmetinis vidurkis. Mediana dažniausiai
naudojama ranginiams duomenims ir intervaliniams – santykiniams duomenims, kuriuose yra išskirčių.