Archive for 2009 lapkričio

Grupuotų duomenų padėties charakteristikos

21 lapkričio, 2009

Daugelį minėtų duomenų padėties charakteristikų (vidurkį, modą, medianą) galima apskaičiuoti
ne tik pagal visus imties elementus, bet ir pagal grupuotus duomenis. Tokiu atveju iš esmės atskirais
elementais laikomi atskirų intervalų, į kuriuos sugrupuoti analizuojami duomenys, vidurio taškai.
Neabejotina, kad tokiu būdu apskaičiuotos duomenų padėties charakteristikos nėra tokios tikslios, kaip
skaičiuojant jas pagal visus imties elementus. Todėl pagal grupuotus duomenis šias charakteristikas
pakankamai tiksliai įmanoma apskaičiuoti tik turint itin dideles imtis. Antai, grupuotų elementų
vidurkis skaičiuojamas taip:
X = Σ(x*j×fj)/n,
kur x*j – j-ojo intervalo vidurio taškas, o fj šio intervalo dažnis. Tą pačią formulę nesunku išreikšti ir
kitaip:
X = Σ(x*j×fj/n).
Taigi kiekvieno intervalo vidurio tašką x*j daugindami iš to intervalo santykinio dažnio fj/n ir
sudėję visas gautas reikšmes taip pat galime apskaičiuoti vidurkį pagal grupuotų elementų imtį.
Grupuotų elementų moda skaičiuojama retai, nes dažniausiai prieš grupuojant sudaroma variacinė
duomenų eilutė, pagal kurią nesunku nustatyti tikrą modą (modas). Jeigu gi pradiniai duomenys
nežinomi, moda laikoma apytiksliai lygia intervalo, į kurį pateko daugiausiai duomenų vidurinei
reikšmei. Grupuotų duomenų mediana nustatoma taip pat: tradicinėse medianos skaičiavimo
formulėse vietoj x įstatomos vidurinės intervalų reikšmės x*.

Faktorinė analizė

21 lapkričio, 2009

Faktorinės analizės tikslas – minimaliai prarandant informacijos pakeisti stebimą reiškinį
charakterizuojančių požymių aibę kelių faktorių rinkiniu. Ko siekiame taikydami faktorinę analizę?
Faktorinė analizė padeda didelio skaičiaus kintamųjų tarpusavio koreliacijas paaiškinti tam tikru
bendrųjų faktorių įtaka. Nuo kintamųjų pereidami prie faktorių, kondensuojame informaciją, padarome
ją labiau aprėpiamą.
Faktorinės analizės pagalba galima nustatyti:
1) kiek latentinių (nematuojamų) faktorių paaiškina tiriamų kintamųjų priklausomybės struktūrą;
2) kokie tie faktoriai;
3) kaip gerai faktoriai paaiškina duomenis.
Faktorinė analizė – gana sudėtinga ir dažnai sunkiai interpretuojama nes:
1) ne visada latentiniai faktoriai realiai egzistuoja ir ne visada patikimai pagal turimus duomenis
galima juos išskirti;
2) tiems patiems duomenims taikydami skirtingus faktorinės analizės metodus, gauname keletą
galimų faktorių rinkinių;
3) išskirtieji faktoriai ne visada lengvai interpretuojami.
Faktorių skaičių, faktorinės analizės metodą ir faktorių pavadinimus pasirenka pats tyrėjas, todėl ir
sakoma, kad faktorinė analizė atsakymus tik pasufleruoja.
Faktorinės analizės etapai
1) patikrinimas, ar duomenys faktorinei analizei tinka;
2) faktorių išskyrimas – faktorių skaičiaus nustatymas bei faktorių skaičiavimo metodo
parinkimas;
3) faktorių sukimas ir interpretavimas;
4) faktorių reikšmių įverčių skaičiavimas.

k-vidurkių metodas

21 lapkričio, 2009

Vienas iš hierarchinių klasterinės analizės metodų trūkumų – skaičiavimams naudojama
atstumų matrica. Pavyzdžiui, jei yra 300 objektų, kuriuos norima suskirstyti į klasterius, atstumų
matricą sudaro 90 000 elementų. Skaičiavimai darosi labai komplikuoti. Tad dideliems objektų
masyvams klasterizuoti dažnai naudojami nehierarchiniai klasterizavimo metodai. Paprasčiausias jų k-vidurkių
metodas. Klasterizavimo procedūrą sudaro trys žingsniai:
1. Objektai skirstomi į k pradinių klasterių;
2. Paeiliui apskaičiuojamas kiekvieno objekto atstumas iki klasterių centro (atstumas
paprastai skaičiuojamas naudojantis Euklido atstumų matu arba jo kvadratu). Objektas skiriamas į
artimiausia klasterį. Klasterių centrai perskaičiuojami;
3. 2 žingsnis kartojamas tol, kol perskirstymų daugiau nėra.
Vienas iš k-vidurkių metodų trūkumų – klasterių skaičių reikia nustatyti iš anksto. Yra keletas
argumentų prieštaraujančių išankstiniam klasterių skaičiaus nustatymui:
1. Net jei iš tiesu žinoma, kad objektų populiacijoje yra k klasterių, tiriamojoje objektų
imtyje gali nepasitaikyti atstovų iš k-ojo klasterio;
2. Išskirtys gali sudaryti atskirą klasterį
3. Klasterinės analizės tikslas – egzistuojančių struktūrų paieška, tačiau, nurodant pradinį
klasterių skaičių, struktūra yra primetama.

Klasterinė analizė

8 lapkričio, 2009

Taikydami klasterinę analizę, nustatome objektų panašumą ir suskirstome juos į klasterius.
Klasteris – panašių objektų grupė. Klasterinės analizės tikslas – suskirstyti objektus taip, kad skirtumai
klasterių viduje būtų kuo mažesni, o tarp klasterių – kuo didesni.
Skirstydami objektus į klasterius dažniausiai nežinome, kiek klasterių tiriamoje populiacijoje
realiai egzistuoja (ir ar išvis egzistuoja). Todėl tam tikra prasme klasterinė analizė yra egzistuojančių
struktūrų paieška. Konkretaus metodo parinkimas, rezultatų interpretacija priklauso tik nuo tyrėjo.
Klasterizuojant turime pereiti 5 etapus:
1. Pasirinkti klasterizuojamus objektus;
2. Nuspręsti pagal kokius požymius klasterizuosime;
3. Pasirinkti kiekybinį matą, kuriuo matuosime objektų panašumą;
4. Vienu ar kitu metodu suskirstyti objektus į klasterius;
5. Peržiūrėti gautus rezultatus.
Klasterizuojamų objektų ir klasterizavimo požymių parinkimą lemia konkretaus tyrimo tikslai ir
uždaviniai. Visais atvejais skirstymas į klasterius prasideda tada, kai jau turime objektų aibę ir
kiekvieną objektą aprašančių skaitinių rodiklių aibę. Toliau svarbu pasirinkti kiekybinio panašumo
matą. Nuo pasirinkto mato priklauso klasterizacijos rezultatai. Turėdami kiekybinio panašumo matą,
galime pasakyti, kurios objektų poros yra panašesnės. Klasterizacijos metodas leidžia nustatyti
principus, pagal kuriuos sudaromi klasteriai, ir atsakyti į klausimą ką reiškia klasterių panašumas.
Suskirstę objektus į klasterius, dar turime patikrinti, ar gauti rezultatai neprieštarauja sveikam protui.
Reikia atsiminti jog klasterizuojant:
Visada kyla sunkumų vertinant imties reprezantatyvumą, rezultatų statistinį reikšmingumą;
Klasterinės analizės metodai naudojami įvairioms sritims, todėl juose yra nemažai
specifiškumų. Tiems patiems duomenims taikydami skirtingus klasterinės analizės metodus galime
gauti skirtingus rezultatus.

Persidengiančių epochų metodas

8 lapkričio, 2009

Vienas iš nesudėtingų metodų skirtų ryšiui tarp dviejų kintamųjų nustatyti yra persidengiančių
epochų metodas. Šis analizės metodas ypač patogus tuomet, kai viena iš sekų susideda iš diskretiškų
įvykių, pavyzdžiui pastovios sniego dangos susiformavimas arba nesusiformavimas; rūko buvimas arba
ne ir t.t.
Iš tokių sekų išrenkamos pagrindinės datos, kada vienoks arba kitoks įvykis įvyko. Jeigu
pagrindines datas pažymėti D0, tai vėlesnės sekos datos: D1, D2, D3,…, Dn. Vėliau kiekvienai sekos
datai suskaičiuojame vidutinę kito kintamojo reikšmę. Tai yra, jei mes išrinkome skaičių k pagrindinių
datų, tai kito kintamojo vidutinė reikšmė Y0 apskaičiuojama iš visų Y reikšmių pagrindinėmis datomis
D0. Atitinkamai nustatomos Y1, Y2 ir t.t.
Analizuojant meteorologinius duomenis, mus gali dominti ir Y reikšmės prieš pagrindines
datas. Šiuo atveju atliekami analogiški skaičiavimai.
Pagrindinė šio metodo problema yra ta, kad ganėtinai sunku įvertinti gautų rezultatų statistinį
patikimumą. Tai atliekama lyginant gautus rezultatus su kita atsitiktine imtimi arba kuriuo nors
atsitiktiniu skirstiniu.