Archive for the ‘Statistika’ Category

k-vidurkių metodas

21 lapkričio, 2009

Vienas iš hierarchinių klasterinės analizės metodų trūkumų – skaičiavimams naudojama
atstumų matrica. Pavyzdžiui, jei yra 300 objektų, kuriuos norima suskirstyti į klasterius, atstumų
matricą sudaro 90 000 elementų. Skaičiavimai darosi labai komplikuoti. Tad dideliems objektų
masyvams klasterizuoti dažnai naudojami nehierarchiniai klasterizavimo metodai. Paprasčiausias jų k-vidurkių
metodas. Klasterizavimo procedūrą sudaro trys žingsniai:
1. Objektai skirstomi į k pradinių klasterių;
2. Paeiliui apskaičiuojamas kiekvieno objekto atstumas iki klasterių centro (atstumas
paprastai skaičiuojamas naudojantis Euklido atstumų matu arba jo kvadratu). Objektas skiriamas į
artimiausia klasterį. Klasterių centrai perskaičiuojami;
3. 2 žingsnis kartojamas tol, kol perskirstymų daugiau nėra.
Vienas iš k-vidurkių metodų trūkumų – klasterių skaičių reikia nustatyti iš anksto. Yra keletas
argumentų prieštaraujančių išankstiniam klasterių skaičiaus nustatymui:
1. Net jei iš tiesu žinoma, kad objektų populiacijoje yra k klasterių, tiriamojoje objektų
imtyje gali nepasitaikyti atstovų iš k-ojo klasterio;
2. Išskirtys gali sudaryti atskirą klasterį
3. Klasterinės analizės tikslas – egzistuojančių struktūrų paieška, tačiau, nurodant pradinį
klasterių skaičių, struktūra yra primetama.

Klasterinė analizė

8 lapkričio, 2009

Taikydami klasterinę analizę, nustatome objektų panašumą ir suskirstome juos į klasterius.
Klasteris – panašių objektų grupė. Klasterinės analizės tikslas – suskirstyti objektus taip, kad skirtumai
klasterių viduje būtų kuo mažesni, o tarp klasterių – kuo didesni.
Skirstydami objektus į klasterius dažniausiai nežinome, kiek klasterių tiriamoje populiacijoje
realiai egzistuoja (ir ar išvis egzistuoja). Todėl tam tikra prasme klasterinė analizė yra egzistuojančių
struktūrų paieška. Konkretaus metodo parinkimas, rezultatų interpretacija priklauso tik nuo tyrėjo.
Klasterizuojant turime pereiti 5 etapus:
1. Pasirinkti klasterizuojamus objektus;
2. Nuspręsti pagal kokius požymius klasterizuosime;
3. Pasirinkti kiekybinį matą, kuriuo matuosime objektų panašumą;
4. Vienu ar kitu metodu suskirstyti objektus į klasterius;
5. Peržiūrėti gautus rezultatus.
Klasterizuojamų objektų ir klasterizavimo požymių parinkimą lemia konkretaus tyrimo tikslai ir
uždaviniai. Visais atvejais skirstymas į klasterius prasideda tada, kai jau turime objektų aibę ir
kiekvieną objektą aprašančių skaitinių rodiklių aibę. Toliau svarbu pasirinkti kiekybinio panašumo
matą. Nuo pasirinkto mato priklauso klasterizacijos rezultatai. Turėdami kiekybinio panašumo matą,
galime pasakyti, kurios objektų poros yra panašesnės. Klasterizacijos metodas leidžia nustatyti
principus, pagal kuriuos sudaromi klasteriai, ir atsakyti į klausimą ką reiškia klasterių panašumas.
Suskirstę objektus į klasterius, dar turime patikrinti, ar gauti rezultatai neprieštarauja sveikam protui.
Reikia atsiminti jog klasterizuojant:
Visada kyla sunkumų vertinant imties reprezantatyvumą, rezultatų statistinį reikšmingumą;
Klasterinės analizės metodai naudojami įvairioms sritims, todėl juose yra nemažai
specifiškumų. Tiems patiems duomenims taikydami skirtingus klasterinės analizės metodus galime
gauti skirtingus rezultatus.

Persidengiančių epochų metodas

8 lapkričio, 2009

Vienas iš nesudėtingų metodų skirtų ryšiui tarp dviejų kintamųjų nustatyti yra persidengiančių
epochų metodas. Šis analizės metodas ypač patogus tuomet, kai viena iš sekų susideda iš diskretiškų
įvykių, pavyzdžiui pastovios sniego dangos susiformavimas arba nesusiformavimas; rūko buvimas arba
ne ir t.t.
Iš tokių sekų išrenkamos pagrindinės datos, kada vienoks arba kitoks įvykis įvyko. Jeigu
pagrindines datas pažymėti D0, tai vėlesnės sekos datos: D1, D2, D3,…, Dn. Vėliau kiekvienai sekos
datai suskaičiuojame vidutinę kito kintamojo reikšmę. Tai yra, jei mes išrinkome skaičių k pagrindinių
datų, tai kito kintamojo vidutinė reikšmė Y0 apskaičiuojama iš visų Y reikšmių pagrindinėmis datomis
D0. Atitinkamai nustatomos Y1, Y2 ir t.t.
Analizuojant meteorologinius duomenis, mus gali dominti ir Y reikšmės prieš pagrindines
datas. Šiuo atveju atliekami analogiški skaičiavimai.
Pagrindinė šio metodo problema yra ta, kad ganėtinai sunku įvertinti gautų rezultatų statistinį
patikimumą. Tai atliekama lyginant gautus rezultatus su kita atsitiktine imtimi arba kuriuo nors
atsitiktiniu skirstiniu.

Paprastas klausimas

30 spalio, 2009

Štai paprastas, bet įdomus uždavinukas:

Įsivaizduokite, kad žaidžiate loterijoje. Jums reikia pasirinkti iš trijų skrynių:
Vienoje skrynioje slepiasi 1 mln. Lt, kitose dviejose – tuščia. Savaime suprantama ,kad jūs nežinote, kurioje skrynioje yra didysis prizas. Taigi, spėjate.
Tarkime, jūs pasirinkote pirmąją skrynią.
Tuomet žaidimo vedėjas jums sako:
-Aš panaikinsiu vieną skrynią iš tų kitų dviejų (antros ir trečios), tą, kurioje tikrai nieko nėra.
Ir tada žaidimo vedėjas atidaro, tarkime, trečiąją skrynią ir parodo, kad ji tuščia.
Tada jūsų klausia:
-Gal norite pakeisti savo pasirinkimą?
Dabar jums lieka jūsų pasirinktoji pirma skrynia ir antroji skrynia.
Ką pasirinksite ir kodel?

P.S. Jei jau esate girdėję šį uždavinį, tuomet prašyčiau nekomentuoti. Tegul nežinantieji pabando atsakyti.

Aprašomoji statistika

27 spalio, 2009

Aprašomoji statistika vienas iš pradinių ir svarbiausių statistinio uždavinio sprendimo etapų.
Dažnai vien informacijos aprašymas ir duomenų sudarymas leidžia daryti pakankamai pagrįstas išvadas
apie visos populiacijos savybes. Priklausomai nuo to, ar dirbama su visą populiaciją apibūdinančiais
duomenimis, ar tik su imties duomenimis gauti rezultatai vadinami populiacijos parametrais arba imties
statistika.

Pvz., jei praktikos metu surinkti duomenys apie teisės 1 kurso studentų pažangumo balus pateikiami aptariant šių konkrečių studentų pažangumą, turime populiacijos parametrą. Tačiau, jei pagal šiuos duomenis daromos išvados apie pirmakursių teisininkų pažangumą, tai – imties statistika, kurios reprezentatyvumą populiacijos atžvilgiu, o taip pat kartu ir patikimumą tektų tikrinti atskirai.

Komentaras.
Trumpai tariant, kai atliekamas konkretus (lokalus) tyrimas, išvadas galima padaryti labai tikslias ir greitai. Todėl, kad mūsų imtis = populiacija.

Moda ir Mediana

26 spalio, 2009

Moda – dažniausiai duomenų aibėje pasikartojusi reikšmė. Pavyzdžiui,  duomenų aibės 1;1;2;3;4;5 moda Mo = 1. Jeigu visos reikšmės statistinėje eilutėje pasikartoja vienodai dažnai, sakoma, kad pasiskirstymas neturi modos. Pavyzdžiui, duomenų aibė 2,3; 2,3; 3,8; 3,8; 4,5;4,5 modos neturi.
Jeigu kelios gretimos variacinės eilutės reikšmės pasirodo vienodu dažniu ir šis dažnis yra didesnis, negu bet kuris kitas dažnis, tai moda yra šių reikšmių vidurkis. Pavyzdžiui, duomenų aibės 0; 1; 1;
2; 2; 2; 3; 3; 3; 4 moda Mo = (2+3)=2 = 2; 5.  Gali būti kelios modos.  Modą galima skaičiuoti tiek kiekybiniams tiek ir kokybiniams duomenims. Grupuotiems duomenims moda yra intervalo, į kurį pateko daugiausia duomenų, vidurinė reikšmė.
Mediana yra skaičius, už kurį 50% variacinės eilutės reikšmių yra nedidesnės ir 50% nemažesnės.
Tikslesnis medianos apibrėžimas skamba taip: jeigu n nelyginis, tai mediana yra variacinės eilutės
reikšmė, atitinkanti (n+1)=2 pozicija.  Jeigu stebėjimų skaičius n lyginis, tai mediana yra variacinės
eilutės reikšmių, atitinkančių pozicijas (n=2) ir (n=2)+1, aritmetinis vidurkis. Mediana dažniausiai
naudojama ranginiams duomenims ir intervaliniams – santykiniams duomenims, kuriuose yra išskirčių.