Informácie

Aké percento systematických údajov sa začne považovať za náhodné

Aké percento systematických údajov sa začne považovať za náhodné



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

V krabici je sada 100 rôznych predmetov. Náhodne vytiahnem 99 z nich, položím ich na stôl a požiadam osobu, aby sa pozrela, potom všetky predmety vložím späť do škatule. Po krátkom (5 minútovom) intervale vytiahnem ďalších 99 náhodných predmetov z rovnakého boxu. Osoba je požiadaná, aby povedala, kedykoľvek je predmet rovnaký ako predtým. Ak chýbajúci predmet na prvý pohľad nevyčnieval od všetkých ostatných, potom osoba odpovie, že objekty sú všetky rovnaké.

Koľko predmetov by malo byť v škatuli a koľko by malo byť položených na stole za predpokladu, že existuje rovnaká šanca, že každý predmet bude vytiahnutý, aby priemerného človeka oklamalo, aby si myslel, že všetky alebo takmer všetky predmety sú iné? Čo keby sa postup opakoval 6 -krát, každých 5 minút, malo by to nejaký viditeľný vplyv na výsledky?


Testy náhodnosti, ako je (moja obľúbená) Kolmogorovova zložitosť, vám povedia, ako náhodne sa tieto objekty vedecky zdajú. (Nie som si istý, ale myslím si, že popisujete skôr chaotické správanie ako náhodné správanie, pretože náhodné objekty je možné iba preskupiť, nie nahradiť.)

Okrem matematiky je to aktívna oblasť psychologického výskumu. Tí, ktorí majú dezilúzne choroby, ako je typické schizo, majú často problém identifikovať, keď je vzor náhodný. Chorý mozog, ktorý sa snaží uviesť vesmír do poriadku alebo vytvoriť novú realitu, aby zodpovedal jeho zlomeným vnímaniam, sa klame v domnení, že náhodné udalosti sa dejú podľa kontroly. Hovorí sa tomu pareidolia (keď existuje niečo, čo by nejasne mohlo pripomínať vzorec) a apofénia (keď sú údaje zjavne náhodné).

Váš test by meral Pareidolia, Apophenia a rozpoznávanie vzorov.


Údaje, vzorkovanie a odchýlky v údajoch a vzorkovaní

Údaje môžu pochádzať z populácie alebo zo vzorky. Malé písmená ako alebo sa všeobecne používajú na reprezentáciu hodnôt údajov. Väčšinu údajov je možné zaradiť do nasledujúcich kategórií:

Kvalitatívne údaje sú výsledkom kategorizácie alebo opisu atribútov populácie. Kvalitatívne údaje sa tiež často nazývajú kategorické údaje. Farba vlasov, krvná skupina, etnická skupina, auto, ktoré človek riadi, a ulica, na ktorej človek žije, sú príkladmi kvalitatívnych údajov. Kvalitatívne údaje sú spravidla popísané slovami alebo písmenami. Farba vlasov môže byť napríklad čierna, tmavohnedá, svetlo hnedá, blond, sivá alebo červená. Krvná skupina môže byť AB+, O- alebo B+. Vedci často uprednostňujú použitie kvantitatívnych údajov pred kvalitatívnymi údajmi, pretože sa ľahšie hodia k matematickej analýze. Napríklad nemá zmysel hľadať priemernú farbu vlasov alebo krvnú skupinu.

Kvantitatívne údaje sú vždy čísla. Výsledkom sú kvantitatívne údaje počítanie alebo meranie atribúty populácie. Príkladom kvantitatívnych údajov je množstvo peňazí, tepová frekvencia, hmotnosť, počet ľudí žijúcich vo vašom meste a počet študentov, ktorí robia štatistiky. Kvantitatívne údaje môžu byť buď diskrétne alebo kontinuálne.

Všetky údaje, ktoré sú výsledkom počítania, sa nazývajú kvantitatívne diskrétne údaje. Tieto údaje nadobúdajú iba určité číselné hodnoty. Ak spočítate počet prijatých telefónnych hovorov za každý deň v týždni, môžu sa vám zobraziť hodnoty ako nula, jedna, dva alebo tri.

Údaje, ktoré pozostávajú nielen z počítania čísel, ale môžu zahŕňať aj zlomky, desatinné miesta alebo iracionálne čísla, sa nazývajú kvantitatívne spojité údaje. Nepretržité údaje sú často výsledkom meraní, ako sú dĺžky, hmotnosti alebo časy. Zoznam dĺžok v minútach pre všetky telefonické hovory uskutočnené za týždeň s číslami 2,4, 7,5 alebo 11,0 by predstavoval kvantitatívne nepretržité údaje.

Údaje sú o počte kníh, ktoré študenti nosia v batohoch. Ukážete päť študentov. Dvaja študenti nosia tri knihy, jeden študent štyri knihy, jeden študent dve knihy a jeden študent jednu knihu. Počty kníh (tri, štyri, dva a jedna) sú kvantitatívne diskrétne údaje.

Údaje sú o počte strojov v telocvični. Ochutnávate päť telocviční. Jedna telocvičňa má 12 strojov, jedna telocvičňa má 15 strojov, jedna telocvičňa má desať strojov, jedna telocvičňa má 22 strojov a druhá telocvičňa má 20 strojov. Čo je to za typ údajov?

Údaje sú hmotnosti batohov, v ktorých sú knihy. Vzorkujete rovnakých päť študentov. Hmotnosti (v librách) ich batohov sú 6,2, 7, 6,8, 9,1, 4,3. Všimnite si, že batohy, ktoré nesú tri knihy, môžu mať rôznu hmotnosť. Váhy sú kvantitatívne spojité údaje.

Údaje sú plochy trávnikov v metroch štvorcových. Ochutnávate päť domov. Plochy trávnikov sú 144 stôp štvorcových, 160 štvorcových stôp, 190 štvorcových stôp, 180 štvorcových stôp a 210 štvorcových stôp. Čo je to za typ údajov?

Choďte do supermarketu a kúpte si tri plechovky polievky (19 uncí paradajkový bisque, 14,1 uncí šošovice a 19 uncí talianskej svadby), dve balenia orechov (vlašské a arašidy), štyri rôzne druhy zeleniny (brokolica, karfiol, špenát, a mrkvy) a dva dezerty (16 uncí pistáciovej zmrzliny a 32 uncí čokoládových sušienok).

Pomenujte súbory údajov, ktoré sú kvantitatívne diskrétne, kvantitatívne spojité a kvalitatívne.

  • Tri plechovky polievky, dva balíčky orieškov, štyri druhy zeleniny a dva dezerty sú kvantitatívne diskrétne údaje, pretože ich počítate.
  • Váhy polievok (19 uncí, 14,1 uncí, 19 uncí) sú kvantitatívne kontinuálne údaje, pretože váhy meriate čo najpresnejšie.
  • Druhy polievok, orieškov, zeleniny a dezertov sú kvalitatívne údaje, pretože sú kategorické.

Skúste v tomto prípade identifikovať ďalšie množiny údajov.

Údaje sú farby batohov. Opäť vzorkujete rovnakých päť študentov. Jeden študent má červený batoh, dvaja študenti majú čierne batohy, jeden študent má zelený batoh a jeden študent má šedý batoh. Farby červená, čierna, čierna, zelená a šedá sú kvalitatívne údaje.

Údaje sú farby domov. Ochutnávate päť domov. Farby domov sú biela, žltá, biela, červená a biela. Čo je to za typ údajov?

Údaje môžete zbierať ako čísla a kategoricky ich podávať. Skóre kvízu pre každého študenta sa napríklad zaznamenáva počas celého semestra. Na konci semestra sú výsledky kvízov hlásené ako A, B, C, D alebo F.

Spolupracujte na určení správneho typu údajov (kvantitatívnych alebo kvalitatívnych). Uveďte, či sú kvantitatívne údaje spojité alebo diskrétne. Tip: Diskrétne údaje často začínajú slovami “ počet. ”

  1. počet párov topánok, ktoré vlastníte
  2. typ auta, ktoré riadite
  3. vzdialenosť, ktorá je od vášho domu do najbližšieho obchodu s potravinami
  4. počet tried, ktoré absolvujete za školský rok.
  5. typ kalkulačky, ktorú používate
  6. váhy zápasníkov sumo
  7. počet správnych odpovedí v kvíze
  8. Skóre IQ (To môže spôsobiť diskusiu.)

Položky a, d, a g sú kvantitatívne diskrétne položky c, f a h sú kvantitatívne spojité položky b a e sú kvalitatívne alebo kategorické.

Určte správny typ údajov (kvantitatívny alebo kvalitatívny) pre počet automobilov na parkovisku. Uveďte, či sú kvantitatívne údaje spojité alebo diskrétne.

Profesorka štatistiky zbiera informácie o zaradení svojich študentov medzi prvákov, druhákov, juniorov alebo seniorov. Údaje, ktoré zhromažďuje, sú zhrnuté v koláčovom grafe (obrázok). Aký typ údajov tento graf zobrazuje?

Tento koláčový graf zobrazuje študentov v každom roku, čo je kvalitatívne (alebo kategorické) údaje.

Registrátor na Štátnej univerzite eviduje počet kreditných hodín, ktoré študenti absolvujú každý semester. Údaje, ktoré zbiera, sú zhrnuté v histograme. Hranice triedy sú 10 až menej ako 13, 13 až menej ako 16, 16 až menej ako 19, 19 až menej ako 22 a 22 až menej ako 25.


Aký typ údajov tento graf zobrazuje?

Diskusia o kvalitatívnych údajoch

Nasledujú tabuľky porovnávajúce počet študentov zapísaných na čiastočný a plný úväzok na De Anza College a Foothill College zapísaných do štvrťroka jar 2010. Tabuľky zobrazujú počty (frekvencie) a percentá alebo proporcie (relatívne frekvencie). Percentuálne stĺpce uľahčujú porovnávanie rovnakých kategórií na vysokých školách. Zobrazovanie percent spolu s číslami je často nápomocné, ale je obzvlášť dôležité pri porovnávaní súborov údajov, ktoré nemajú rovnaké súčty, ako sú v tomto prípade celkové zápisy pre obe vysoké školy. Všimnite si, o koľko väčšie je percento pre externých študentov na Foothill College v porovnaní s De Anza College.

Jeseň 2007 (deň sčítania ľudu)
Vysoká škola De Anza Foothill College
Číslo Percento Číslo Percento
Na plný úväzok 9,200 40.9% Na plný úväzok 4,059 28.6%
Čiastočný 13,296 59.1% Čiastočný 10,124 71.4%
Celkom 22,496 100% Celkom 14,183 100%

Tabuľky sú dobrým spôsobom organizácie a zobrazovania údajov. Grafy však môžu byť pri porozumení údajov ešte užitočnejšie. Neexistujú žiadne prísne pravidlá týkajúce sa toho, ktoré grafy použiť. Dva grafy, ktoré sa používajú na zobrazenie kvalitatívnych údajov, sú koláčové grafy a stĺpcové grafy.

V koláčovom grafe sú kategórie údajov reprezentované klinmi v kruhu a sú úmerné veľkosti percentuálnym podielom jednotlivcov v každej kategórii.

V stĺpcovom grafe je dĺžka stĺpca pre každú kategóriu úmerná počtu alebo percentám jednotlivcov v každej kategórii. Tyče môžu byť zvislé alebo vodorovné.

Paretov diagram pozostáva z pruhov, ktoré sú zoradené podľa veľkosti kategórie (od najväčšej po najmenšiu).

Pozrite sa na (obrázok) a (obrázok) a určte, ktorý graf (koláč alebo pruh) podľa vás lepšie zobrazuje porovnania.

Je vhodné pozrieť sa na rôzne grafy a zistiť, ktoré z nich sú pri zobrazovaní údajov najužitočnejšie. V závislosti od údajov a kontextu sa môžeme rozhodnúť, ktorý graf považujeme za „najlepší“. Náš výber závisí aj od toho, na čo údaje používame.

Percentá, ktoré pridávajú k viac (alebo menej) ako 100%

Niekedy sú percentá spolu vyššie ako 100% (alebo menej ako 100%). V grafe sa percentá pridávajú k viac ako 100%, pretože študenti môžu byť vo viac ako jednej kategórii. Na porovnanie relatívnej veľkosti kategórií je vhodný stĺpcový graf. Koláčový graf nie je možné použiť. Tiež by nebolo možné použiť, ak sú percentá pridané k menej ako 100%.

De Anza College, jar 2010
Charakteristika/kategória Percento
Študenti denného štúdia 40.9%
Študenti, ktorí majú v úmysle prestúpiť do 4-ročnej vzdelávacej inštitúcie 48.6%
Študenti do 25 rokov 61.0%
CELKOM 150.5%

Vynechanie kategórií/chýbajúce údaje

V tabuľke je uvedená etnická príslušnosť študentov, chýba však kategória “Ostatné/neznáme ”. Táto kategória obsahuje ľudí, ktorí sa necítili byť zaradení do žiadnej z etnických skupín alebo odmietli odpovedať. Všimnite si, že frekvencie sa nepočítajú s celkovým počtom študentov. V tejto situácii vytvorte stĺpcový graf a nie koláčový graf.

Etnická príslušnosť študentov na De Anza College, jeseň 2007 (deň sčítania ľudu)
Frekvencia Percento
Ázijských 8,794 36.1%
čierna 1,412 5.8%
Filipínčina 1,298 5.3%
Hispánsky 4,180 17.1%
Rodený Američan 146 0.6%
Pacifik ostrovania 236 1.0%
biely 5,978 24.5%
CELKOM 22 044 z 24 382 90,4% zo 100%

Nasledujúci graf je rovnaký ako predchádzajúci graf, ale bolo zahrnuté percento „iné/neznáme“ (9,6%). Kategória „Iné/neznáme“ je v porovnaní s niektorými inými kategóriami veľká (pôvodný Američan, 0,6%, Pacific Islander 1,0%). Toto je dôležité vedieť, keď premýšľame o tom, čo nám údaje hovoria.

Tento konkrétny stĺpcový graf na (obrázku) môže byť vizuálne ťažko pochopiteľný. Graf na (obrázku) je Paretov diagram. Paretov diagram má stĺpce zoradené od najväčšieho po najmenší a je jednoduchšie ho čítať a interpretovať.

Koláčové grafy: Žiadne chýbajúce údaje

Nasledujúce koláčové grafy majú zahrnutú kategóriu „Iné/neznáme“ (pretože percentuálne údaje sa musia zvýšiť na 100%). Tabuľka na (obrázok) je usporiadaná podľa veľkosti každého klinu, čo z nej robí vizuálne informatívnejší graf ako netriedený abecedný graf na obrázku ().

Vzorkovanie

Zhromažďovanie informácií o celej populácii často stojí príliš veľa alebo je prakticky nemožné. Namiesto toho používame vzorku populácie. Vzorka by mala mať rovnaké vlastnosti ako populácia, ktorú predstavuje. Väčšina štatistikov používa na dosiahnutie tohto cieľa rôzne metódy náhodného vzorkovania. Táto časť popíše niekoľko najbežnejších metód. Existuje niekoľko rôznych spôsobov náhodné vzorkovanie. Pri každej forme náhodného vzorkovania má každý člen populácie na začiatku rovnakú šancu, že bude vybraný do vzorky. Každá metóda má svoje pre a proti. Najľahšie opísateľná metóda sa nazýva a jednoduchá náhodná vzorka. Akákoľvek skupina n jednotlivcov je rovnako pravdepodobné, že budú vybraní ako ktorákoľvek iná skupina n jednotlivcov, ak sa používa jednoduchá technika náhodného vzorkovania. Inými slovami, každá vzorka rovnakej veľkosti má rovnakú šancu, že bude vybraná. Predpokladajme napríklad, že Lisa chce vytvoriť štvorčlennú študijnú skupinu (ona a ďalšie tri osoby) zo svojej triedy pred prepočtom, ktorá by mala 31 členov vrátane Lisy. Aby si Lisa vybrala jednoduchú náhodnú vzorku veľkosti tri od ostatných členov svojej triedy, mohla dať všetkých 31 mien do klobúka, zatriasť klobúkom, zavrieť oči a vybrať tri mená. Technologickejším spôsobom je, že Lisa najskôr uvedie priezviská členov svojej triedy spolu s dvojciferným číslom, ako na (obrázok):

Triedny zoznam
ID názov ID názov ID názov
00 Anselmo 11 Kráľ 21 Roquero
01 Bautista 12 Legeny 22 Roth
02 Bayani 13 Lundquist 23 Rowell
03 Cheng 14 Macierz 24 Salangsang
04 Cuarismo 15 Motogawa 25 Slade
05 Cuningham 16 Okimoto 26 Stratcher
06 Fontecha 17 Patel 27 Tallai
07 Hong 18 cena 28 Tran
08 Hoobler 19 Kvíz 29 Wai
09 Jiao 20 Reyes 30 Drevo
10 Khan

Lisa môže na generovanie náhodných čísel použiť tabuľku náhodných čísel (nachádza sa v mnohých štatistických knihách a matematických príručkách), kalkulačku alebo počítač. V tomto prípade predpokladajme, že sa Lisa rozhodne generovať náhodné čísla z kalkulačky. Generované čísla sú nasledujúce:

0.94360 0.99832 0.14669 0.51470 0.40581 0.73381 0.04399

Lisa číta dvojciferné skupiny, kým si nevyberie troch členov triedy (to znamená, že ako skupiny 94, 43, 36, 60 číta 0,94360). Každé náhodné číslo môže prispieť iba jednému členovi triedy. Ak by to potrebovala, Lisa by mohla vygenerovať viac náhodných čísel.

Náhodné čísla 0,94360 a 0,99832 neobsahujú príslušné dvojciferné čísla. Avšak tretie náhodné číslo, 0,14669, obsahuje 14 (štvrté náhodné číslo tiež obsahuje 14), piate náhodné číslo obsahuje 05 a siedme náhodné číslo obsahuje 04. Dvojciferné číslo 14 zodpovedá Macierzovi, 05 zodpovedá Cuninghamovi, a 04 zodpovedá Cuarismo. Lisainu skupinu okrem nej budú tvoriť Marcierz, Cuningham a Cuarismo.

Generovanie náhodných čísel:

  • Stlačte MATH.
  • Šípkou prejdite na PRB.
  • Stlačte 5: randInt (. Zadajte 0, 30).
  • Pre prvé náhodné číslo stlačte kláves ENTER.
  • Pri ďalších 2 náhodných číslach stlačte kláves ENTER ešte dvakrát. Ak sa opakuje, znova stlačte ENTER.

Poznámka: randInt (0, 30, 3) vygeneruje 3 náhodné čísla.

Okrem jednoduchého náhodného vzorkovania existujú aj iné formy vzorkovania, ktoré zahŕňajú náhodný proces získania vzorky. Ďalšími známymi metódami náhodného vzorkovania sú stratifikovaná vzorka, klastrová vzorka a systematická vzorka.

Ak chcete vybrať a stratifikovaná vzorka, rozdeľte populáciu do skupín nazývaných vrstvy a potom vezmite a proporcionálne číslo z každej vrstvy. Môžete napríklad stratifikovať (zoskupiť) svoju vysokoškolskú populáciu podľa odborov a potom vybrať pomernú jednoduchú náhodnú vzorku z každej vrstvy (každého oddelenia), aby ste získali stratifikovanú náhodnú vzorku. Ak chcete vybrať jednoduchú náhodnú vzorku z každého oddelenia, očíslujte každého člena prvého oddelenia, očíslujte každého člena druhého oddelenia a urobte to isté pre ostatné oddelenia. Potom použite jednoduchý náhodný výber vzoriek na výber proporcionálnych čísel z prvého oddelenia a urobte to isté pre každé zo zvyšných oddelení. Čísla vybraté z prvého oddelenia, z druhého oddelenia a podobne predstavujú členov, ktorí tvoria stratifikovanú vzorku.

Ak chcete vybrať a klastrová vzorka, rozdeľte populáciu na klastre (skupiny) a potom náhodne vyberte niektoré z klastrov. Všetky členy z týchto klastrov sú v ukážke klastra. Ak napríklad náhodne vyberiete štyri oddelenia z vašej vysokoškolskej populácie, tieto štyri oddelenia vytvoria klastrovú vzorku. Rozdeľte vysokú školu podľa odborov. Oddelenia sú klastre. Očíslujte každé oddelenie a potom vyberte štyri rôzne čísla pomocou jednoduchého náhodného výberu. Všetci členovia štyroch oddelení s týmito číslami sú klastrovou vzorkou.

Ak chcete vybrať a systematická vzorka, náhodne vyberte počiatočný bod a vezmite každý n údaj z výpisu populácie. Predpokladajme napríklad, že musíte urobiť prieskum telefónu. Váš telefónny zoznam obsahuje 20 000 záznamov o pobyte. Pre vzorku musíte vybrať 400 mien. Očíslujte populáciu 1 - 20 000 a potom pomocou jednoduchej náhodnej vzorky vyberte číslo, ktoré predstavuje krstné meno vo vzorke. Potom vyberte každé päťdesiate meno, kým nebudete mať celkovo 400 mien (možno sa budete musieť vrátiť na začiatok svojho telefónneho zoznamu). Systematické vzorkovanie sa často volí, pretože je to jednoduchá metóda.

Typ náhodného vzorkovania je pohodlné vzorkovanie. Pohodlné vzorkovanie zahŕňa použitie výsledkov, ktoré sú okamžite dostupné. Obchod s počítačovým softvérom napríklad vykonáva marketingovú štúdiu rozhovorom s potenciálnymi zákazníkmi, ktorí sa v obchode nachádzajú a prezerajú si dostupný softvér. Výsledky pohodlného vzorkovania môžu byť v niektorých prípadoch veľmi dobré a v iných veľmi skreslené (uprednostňujú určité výsledky).

Odber vzoriek by sa mal vykonávať veľmi opatrne. Neopatrný zber údajov môže mať zničujúce výsledky. Prieskumy zaslané do domácností a potom vrátené môžu byť veľmi skreslené (môžu uprednostňovať určitú skupinu). Pre osobu vykonávajúcu prieskum je lepšie vybrať respondentov zo vzorky.

Vykonáva sa skutočný náhodný odber vzoriek s náhradou. To znamená, že akonáhle je člen vybraný, tento člen sa vráti späť do populácie, a preto môže byť vybraný viac ako raz. Z praktických dôvodov sa však vo väčšine populácií robí jednoduchý náhodný odber vzoriek bez výmeny. Prieskumy sa spravidla vykonávajú bez náhrady. To znamená, že člen populácie môže byť vybraný iba raz. Väčšina vzoriek sa odoberá z veľkých populácií a vzorka býva v porovnaní s populáciou malá. Pretože je to tak, odber vzoriek bez náhrady je približne rovnaký ako odber vzoriek s náhradou, pretože šanca vybrať rovnakého jedinca viackrát s výmenou je veľmi nízka.

V univerzitnej populácii 10 000 ľudí predpokladajme, že chcete náhodne vybrať vzorku 1 000 na prieskum. Pre každú konkrétnu vzorku 1 000, ak odoberáte vzorky s náhradou,

  • šanca vybrať prvú osobu je 1 000 z 10 000 (0,1 000)
  • šanca vybrať pre túto vzorku inú druhú osobu je 999 z 10 000 (0,0999)
  • šanca, že si znova vyberiete rovnakú osobu, je 1 z 10 000 (veľmi nízka).

Ak odoberáte vzorky bez výmeny,

  • šanca vybrať prvú osobu pre akúkoľvek konkrétnu vzorku je 1 000 z 10 000 (0,1 000)
  • šanca vybrať inú osobu je 999 z 9 999 (0,0999)
  • nevymeníte prvú osobu pred výberom ďalšej osoby.

Porovnajte zlomky 999/10 000 a 999/9 999. Pre presnosť uveďte desatinné odpovede na štyri desatinné miesta. Na štyri desatinné miesta sú tieto čísla ekvivalentné (0,0999).

Odber vzoriek bez náhrady namiesto vzorkovania s náhradou sa stáva matematickým problémom iba vtedy, ak je populácia malá. Ak má napríklad 25 ľudí, vzorka je desať a vy odoberáte vzorky s náhradou za akúkoľvek konkrétnu vzorku, potom je šanca vybrať prvú osobu desať z 25 a šanca vybrať inú druhú osobu je deväť z 25 (nahradíte prvú osobu).

Ak odoberieš vzorky bez výmeny, potom je šanca vybrať prvú osobu desať z 25 a potom šanca vybrať druhú osobu (ktorá je iná) je deväť z 24 (prvú osobu nenahradíte).

Porovnajte zlomky 9/25 a 9/24. Na štyri desatinné miesta 9/25 = 0,3 600 a 9/24 = 0,3750. Na štyri desatinné miesta tieto čísla nie sú ekvivalentné.

Pri analýze údajov je dôležité si to uvedomiť chyby vzorkovania a chyby bez vzorkovania. Skutočný proces vzorkovania spôsobuje chyby vzorkovania. Napríklad vzorka nemusí byť dostatočne veľká. Faktory, ktoré nesúvisia s procesom odberu vzoriek, sú príčinou chyby bez vzorkovania. Chybné počítacie zariadenie môže spôsobiť chybu bez vzorkovania.

V skutočnosti vzorka nikdy nebude presne reprezentatívna pre populáciu, takže vždy dôjde k nejakej vzorkovacej chybe. Spravidla platí, že čím väčšia je vzorka, tým menšia je chyba vzorkovania.

V štatistikách, odchýlka vo vzorkovaní sa vytvára vtedy, keď sa odoberie vzorka z populácie a u niektorých členov populácie nie je taká pravdepodobnosť, že by boli vybraní ako ostatní (pamätajte, že každý člen populácie by mal mať rovnakú pravdepodobnosť, že bude vybraný). Keď dôjde k zaujatosti vzorkovania, môžu sa vyvodiť nesprávne závery o skúmanej populácii.

Kritické hodnotenie

Pred prijatím výsledkov štúdií musíme kriticky vyhodnotiť štatistické štúdie, o ktorých sme sa dočítali, a analyzovať ich. Bežné problémy, ktoré si treba uvedomiť, zahŕňajú

  • Problémy so vzorkami: Vzorka musí byť reprezentatívna pre populáciu. Vzorka, ktorá nie je reprezentatívna pre populáciu, je zaujatá. Predpojaté vzorky, ktoré nie sú reprezentatívne pre populáciu, poskytujú výsledky, ktoré sú nepresné a neplatné.
  • Samostatne vybrané vzorky: Odpovede iba ľudí, ktorí sa rozhodnú odpovedať, napríklad prieskumy telefonátov, sú často nespoľahlivé.
  • Problémy s veľkosťou vzorky: Príliš malé vzorky môžu byť nespoľahlivé. Väčšie vzorky sú lepšie, ak je to možné. V niektorých situáciách je nevyhnutné vyhnúť sa malým vzorkám, ktoré je stále možné použiť na vyvodenie záverov. Príklady: nárazové skúšky automobilov alebo lekárske testy na zriedkavé situácie
  • Neprimeraný vplyv: zbieranie údajov alebo kladenie otázok spôsobom, ktorý ovplyvňuje odpoveď
  • Neodpovedanie alebo odmietnutie účasti subjektu: Zozbierané odpovede už nemusia byť reprezentatívne pre populáciu. Na prieskumy môžu často odpovedať ľudia so silnými pozitívnymi alebo negatívnymi názormi, ktoré môžu ovplyvniť výsledky.
  • Kauzalita: Vzťah medzi dvoma premennými neznamená, že jedna spôsobuje druhú. Môžu byť príbuzní (korelovaní) kvôli svojmu vzťahu prostredníctvom inej premennej.
  • Štúdie financované z vlastného záujmu alebo z vlastného záujmu: Štúdia vykonaná osobou alebo organizáciou na podporu ich tvrdenia. Je štúdium nestranné? Pozorne si prečítajte štúdiu, aby ste vyhodnotili prácu. Nepredpokladajte automaticky, že štúdia je dobrá, ale ani automaticky nepredpokladajte, že je štúdia zlá. Zhodnoťte jeho zásluhy a vykonanú prácu.
  • Klamlivé používanie údajov: nesprávne zobrazené grafy, neúplné údaje alebo nedostatok kontextu
  • Mätúce: Keď nie je možné oddeliť účinky viacerých faktorov na odpoveď. Zmätok spôsobuje, že je ťažké alebo nemožné vyvodiť platné závery o účinku každého faktora.

Ako trieda určte, či sú nasledujúce vzorky reprezentatívne. Ak nie sú, prediskutujte dôvody.

  1. Ak chcete nájsť priemernú GPA všetkých študentov na univerzite, použite ako vzorku všetkých ctených študentov na univerzite.
  2. Ak chcete zistiť najobľúbenejšiu obilninu medzi mladými ľuďmi do desať rokov, postavte sa na tri hodiny mimo veľký supermarket a oslovte každé dvadsiate dieťa do desať rokov, ktoré do supermarketu vstúpi.
  3. Ak chcete zistiť priemerný ročný príjem všetkých dospelých v USA, ukážte amerických kongresmanov. Vytvorte klastrovú vzorku tým, že každý stav budete považovať za stratum (skupinu). Použitím jednoduchého náhodného vzorkovania vyberte štáty, ktoré majú byť súčasťou klastra. Potom urobte prieskum každého amerického kongresmana v klastri.
  4. Ak chcete zistiť podiel ľudí, ktorí cestujú verejnou dopravou do práce, urobte prieskum v 20 ľuďoch v New Yorku. Prieskum vykonajte tak, že sedíte v Central Parku na lavičke a urobíte rozhovor s každým, kto sedí vedľa vás.
  5. Aby ste určili priemerné náklady na dvojdňový pobyt v nemocnici v Massachusetts, urobte prieskum v 100 nemocniciach v celom štáte pomocou jednoduchého náhodného výberu.

Uskutoční sa štúdia s cieľom určiť priemerné školné, ktoré vysokoškoláci štátu San Jose zaplatia za semester. Každý študent v nasledujúcich ukážkach sa pýta, koľko školného zaplatil za jesenný semester. Aký je typ odberu vzoriek v každom prípade?

  1. Vzorka 100 vysokoškolákov zo štátu San Jose State sa odoberie tak, že usporiada mená študentov podľa klasifikácie (prvák, druhák, junior alebo senior) a potom z každého vyberie 25 študentov.
  2. Generátor náhodných čísel sa používa na výber študenta z abecedného zoznamu všetkých vysokoškolských študentov v jesennom semestri. Počnúc týmto študentom je vybraný každý 50. študent, kým nie je do vzorky zaradených 75 študentov.
  3. Na výber 75 študentov sa používa úplne náhodná metóda. Každý vysokoškolák v jesennom semestri má rovnakú pravdepodobnosť, že bude vybraný v ktorejkoľvek fáze procesu výberu vzorky.
  4. Prváčik, druhák, junior a senior majú čísla jedna, dva, tri a štyri. Na výber dvoch z týchto rokov sa používa generátor náhodných čísel. Všetci študenti týchto dvoch rokov sú vo vzorke.
  5. Administratívny asistent je požiadaný, aby sa jednu stredu postavil pred knižnicu a opýtal sa prvých 100 vysokoškolákov, s ktorými sa stretne, s čím zaplatili za školné na jeseň semestra. Vzorkou je tých 100 študentov.

a. rozvrstvené b. systematické c. jednoduchý náhodný d. klaster e. pohodlie

Na generovanie rôznych typov vzoriek z údajov použijete generátor náhodných čísel.

Táto tabuľka zobrazuje šesť sád skóre kvízu (každý kvíz má 10 bodov) pre základnú triedu štatistiky.

#1 #2 #3 #4 #5 #6
5 7 10 9 8 3
10 5 9 8 7 6
9 10 8 6 7 9
9 10 10 9 8 9
7 8 9 5 7 4
9 9 9 10 8 7
7 7 10 9 8 8
8 8 9 10 8 8
9 7 8 7 7 8
8 8 10 9 8 7

Inštrukcie: Na výber vzoriek použite generátor náhodných čísel.

  1. Vytvorte stratifikovanú vzorku podľa stĺpcov. Z každého stĺpca vyberte náhodne tri skóre kvízu.
    • Každý riadok očíslujte od jedného do desať.
    • Na kalkulačke stlačte Matematika a šípku na PRB.
    • V stĺpci 1 stlačte 5: randInt (a zadajte 1,10). Stlačte Enter. Zaznamenajte si číslo. Stlačte kláves ENTER ešte 2 -krát (dokonca aj opakovane). Zaznamenajte si tieto čísla. Zaznamenajte tri skóre kvízu do prvého stĺpca, ktoré zodpovedajú týmto trom číslam.
    • Opakujte pre stĺpce dva až šesť.
    • Týchto 18 kvízových skóre je stratifikovaná vzorka.
  2. Vytvorte vzorku klastra vybratím dvoch stĺpcov. Použite čísla stĺpcov: jedno až šesť.
    • Stlačte MATH a šípku hore na PRB.
    • Stlačte 5: randInt (a zadajte 1,6). Stlačte Enter. Zaznamenajte si číslo. Stlačte kláves ENTER a zaznamenajte toto číslo.
    • Tieto dve čísla sú pre dva stĺpce.
    • Skóre kvízu (20 z nich) v týchto 2 stĺpcoch je ukážkou klastra.
  3. Vytvorte jednoduchú náhodnú ukážku z 15 kvízových skóre.
    • Použite číslovanie od jedna do 60.
    • Stlačte MATH. Šípkou prejdite na PRB. Stlačte 5: randInt (a zadajte 1, 60).
    • 15 -krát stlačte kláves ENTER a zaznamenajte čísla.
    • Zaznamenajte si kvízové ​​výsledky, ktoré zodpovedajú týmto číslam.
    • Týchto 15 kvízových skóre je systematickou ukážkou.
  4. Vytvorte systematickú ukážku z 12 kvízových skóre.
    • Použite číslovanie od jedna do 60.
    • Stlačte MATH. Šípkou prejdite na PRB. Stlačte 5: randInt (a zadajte 1, 60).
    • Stlačte Enter. Zapíšte si číslo a prvé skóre kvízu. Z tohto počtu napočítajte desať skóre kvízu a zaznamenajte ich. Počítajte desať kvízových skóre a zaznamenávajte ich, kým nebudete mať ukážku 12 kvízových skóre. Môžete sa zabaliť (vrátiť sa na začiatok).

Určte typ použitého vzorkovania (jednoduchý náhodný, stratifikovaný, systematický, klastrový alebo praktický).

  1. Futbalový tréner vyberie šesť hráčov zo skupiny chlapcov vo veku od osem do desať rokov, sedem hráčov zo skupiny chlapcov vo veku od 11 do 12 rokov a troch hráčov zo skupiny chlapcov vo veku od 13 do 14 rokov, aby vytvorili rekreačný futbalový tím.
  2. Anketa oslovuje všetkých zamestnancov ľudských zdrojov v piatich rôznych high -tech spoločnostiach.
  3. Stredoškolský pedagogický pracovník robí rozhovory s 50 stredoškolskými učiteľkami a 50 stredoškolskými učiteľmi.
  4. Lekársky výskumník robí rozhovory s každým tretím onkologickým pacientom zo zoznamu onkologických pacientov v miestnej nemocnici.
  5. Poradca na strednej škole pomocou počítača vygeneruje 50 náhodných čísel a potom vyberie študentov, ktorých mená zodpovedajú číslam.
  6. Student urobí pohovor so spolužiakmi v jeho triede algebry, aby zistil, koľko párov džínsov študent v priemere vlastní.

a. rozvrstvené b. klaster c. rozvrstvený d. systematické e. jednoduché náhodné f.pohodlie

Určte typ použitého vzorkovania (jednoduchý náhodný, stratifikovaný, systematický, klastrový alebo praktický).

Riaditeľ strednej školy zisťuje 50 prvákov, 50 druhákov, 50 juniorov a 50 seniorov o zmenách v politike mimoškolských aktivít.

Ak by sme skúmali dve vzorky reprezentujúce rovnakú populáciu, aj keby sme na vzorky použili metódy náhodného vzorkovania, neboli by úplne rovnaké. Rovnako ako existujú rozdiely v dátach, existujú aj variácie vo vzorkách. Keď si zvyknete na vzorkovanie, variabilita začne pôsobiť prirodzene.

Predpokladajme, že ABC College má 10 000 študentov na čiastočný úväzok (populácia). Zaujíma nás, koľko peňazí študent na čiastočný úväzok vynaloží na knihy na jeseň. Opýtať sa všetkých 10 000 študentov je takmer nemožná úloha.

Predpokladajme, že odoberieme dve rôzne vzorky.

Najprv použijeme pohodlné vzorkovanie a urobíme prieskum desiatich študentov z prvého semestra triedy organickej chémie. Mnoho z týchto študentov navštevuje okrem hodiny organickej chémie aj prvý semestrálny počet. Peniaze, ktoré minú na knihy, sú tieto:

?128 ?87 ?173 ?116 ?130 ?204 ?147 ?189 ?93 ?153

Druhá vzorka je odobratá zo zoznamu starších občanov, ktorí užívajú P.E. triedy a zaradenie každého piateho staršieho občana do zoznamu, čo je spolu desať starších občanov. Strávia:

?50 ?40 ?36 ?15 ?50 ?100 ?40 ?53 ?22 ?22

Je nepravdepodobné, že by v oboch vzorkách bol nejaký študent.

a. Myslíte si, že ktorákoľvek z týchto vzoriek je reprezentatívna (alebo je charakteristická) pre celú 10 000 študentských študentov na čiastočný úväzok?

a. Nie. Prvá vzorka pravdepodobne pozostáva z prírodovedne orientovaných študentov. Okrem kurzu chémie niektorí z nich absolvujú aj prvý semestrálny počet. Knihy pre tieto triedy sú väčšinou drahé. Väčšina týchto študentov viac ako pravdepodobne platí za svoje knihy viac ako priemerný študent na čiastočný úväzok. Druhou vzorkou je skupina starších občanov, ktorí viac ako pravdepodobne absolvujú kurzy pre zdravie a záujem. Peniaze, ktoré minú na knihy, sú pravdepodobne oveľa menšie ako priemerných študentov na čiastočný úväzok. Obe vzorky sú zaujaté. Tiež v oboch prípadoch nie všetci študenti majú šancu byť v jednej vzorke.

b. Pretože tieto vzorky nie sú reprezentatívne pre celú populáciu, je múdre použiť výsledky na opis celej populácie?

b. Nie. V prípade týchto vzoriek nemal každý člen populácie rovnakú pravdepodobnosť, že bude vybraný.

Predpokladajme, že vezmeme tretiu vzorku. Vyberáme desať rôznych externých študentov z odborov chémia, matematika, angličtina, psychológia, sociológia, história, ošetrovateľstvo, telesná výchova, umenie a rozvoj raného detstva. (Predpokladáme, že sú to jediné disciplíny, do ktorých sú zapísaní študenti na čiastočný úväzok na ABC College, a že do každej z odborov je zapísaný rovnaký počet študentov na čiastočný úväzok.) Každý študent je vybraný pomocou jednoduchého náhodného výberu. Pomocou kalkulačky sa vygenerujú náhodné čísla a vyberie sa študent z konkrétnej disciplíny, ak má zodpovedajúce číslo. Študenti minú tieto sumy:

?180 ?50 ?150 ?85 ?260 ?75 ?180 ?200 ?200 ?150

c. Vzorka je nezaujatá, ale odporučila by sa väčšia vzorka, aby sa zvýšila pravdepodobnosť, že sa vzorka bude blížiť reprezentatívnemu súboru populácie. V prípade zaujatej techniky odberu vzoriek však aj pri veľkej vzorke hrozí, že nebude reprezentatívna pre populáciu.

Študenti sa často pýtajú, či namiesto prieskumu celej populácie stačí odobrať vzorku#8221. Ak je prieskum urobený dobre, odpoveď je áno.

Miestna rozhlasová stanica má fanúšikovskú základňu 20 000 poslucháčov. Stanica chce vedieť, či by jej publikum uprednostnilo viac hudby alebo viac diskusných relácií. Opýtať sa všetkých 20 000 poslucháčov je takmer nemožná úloha.

Stanica využíva pohodlné vzorkovanie a skúma prvých 200 ľudí, ktorých stretne na jednom z hudobných koncertných podujatí. 24 ľudí uviedlo, že by uprednostnili viac diskusných relácií, a 176 ľudí uviedlo, že by uprednostnili viac hudby.

Myslíte si, že táto vzorka reprezentuje (alebo je charakteristická) pre celú populáciu 20 000 poslucháčov?

Variácie údajov

Variácie sú prítomné v každom súbore údajov. Napríklad 16-uncové plechovky nápoja môžu obsahovať viac alebo menej ako 16 uncí tekutiny. V jednej štúdii bolo zmeraných osem plechoviek s hmotnosťou 16 uncí a vyrobených z nich nasledujúce množstvo (v unciach) nápoja:

15.8 16.1 15.2 14.8 15.8 15.9 16.0 15.5

Merania množstva nápoja v 16 unciach sa môžu líšiť, pretože ich robia rôzni ľudia alebo pretože do plechoviek nebolo vložené presné množstvo, 16 uncí tekutiny. Výrobcovia pravidelne vykonávajú testy, aby zistili, či množstvo nápoja v 16 unciach môže spadať do požadovaného rozsahu.

Uvedomte si, že pri získavaní údajov sa vaše údaje môžu mierne líšiť od údajov, ktoré na rovnaký účel používa niekto iný. To je úplne prirodzené. Ak však dvaja alebo viacerí z vás odoberajú rovnaké údaje a dosahujú veľmi odlišné výsledky, je načase, aby ste vy a ostatní prehodnotili svoje metódy získavania údajov a vašu presnosť.

Variácie vo vzorkách

Predtým bolo spomenuté, že dve alebo viac vzoriek z tej istej populácie, odobratých náhodne, a ktoré majú blízko k rovnakým charakteristikám populácie, sa pravdepodobne budú navzájom líšiť. Predpokladajme, že sa Doreen a Jung rozhodnú študovať priemerný čas, počas ktorého študenti na vysokej škole spia každú noc. Doreen a Jung odoberú vzorky 500 študentov. Doreen používa systematické vzorkovanie a Jung klastrový odber. Vzorka Doreenovej#8217s sa bude líšiť od vzorky Jungovej#8217s. Aj keby Doreen a Jung použili rovnakú metódu odberu vzoriek, so všetkou pravdepodobnosťou by sa ich vzorky líšili. Ani jedno by však nebolo zlé.

Zamyslite sa nad tým, čo prispieva k tomu, že sú vzorky Doreena a Junga odlišné.

Ak Doreen a Jung odobrali väčšie vzorky (t. J. Počet hodnôt údajov sa zvýšil), ich výsledky vzoriek (priemerná doba, počas ktorej študent spí) by sa mohli priblížiť skutočnému priemeru populácie. Ich vzorky by sa však s najväčšou pravdepodobnosťou od seba navzájom líšili. Toto variabilita vo vzorkách nemôže byť dostatočne stresovaný.

Veľkosť vzorky

Dôležitá je veľkosť vzorky (často sa nazýva počet pozorovaní). Príklady, ktoré ste doteraz v tejto knihe videli, boli malé. Vzorky iba niekoľkých stoviek pozorovaní alebo dokonca menšie postačujú na mnohé účely. Pri hlasovaní sú vzorky, ktoré majú 1 200 až 1 500 pozorovaní, považované za dostatočne veľké a dostatočne dobré, ak je prieskum náhodný a dobre vykonaný. Prečo sa dozviete, keď budete študovať intervaly spoľahlivosti.

Uvedomte si, že mnohé veľké vzorky sú skreslené. Prieskumy telefonátov sú napríklad vždy neobjektívne, pretože ľudia sa rozhodnú odpovedať alebo nie.

Rozdeľte do skupín po dvoch, troch alebo štyroch. Váš inštruktor dá každej skupine jednu šesťstrannú kocku. Skúste tento experiment dvakrát. Hodte jednou férovou kockou (šesťstrannou) 20-krát. Zaznamenajte si počet jednotiek, dvojiek, trojiek, štvoriek, päťiek a šestiek, do ktorých sa dostanete (obrázok) a (obrázok) („frekvencia“ je počet výskytov konkrétnej tváre matrice):

Prvý experiment (20 roliek)
Face on Die Frekvencia
1
2
3
4
5
6
Druhý experiment (20 roliek)
Face on Die Frekvencia
1
2
3
4
5
6

Mali tieto dva experimenty rovnaké výsledky? Pravdepodobne nie. Ak ste experiment vykonali tretíkrát, očakávate, že výsledky budú identické s prvým alebo druhým experimentom? Prečo áno alebo prečo nie?

Ktorý experiment mal správne výsledky? Obaja to urobili. Úlohou štatistika je vidieť variabilitu a vyvodiť príslušné závery.

Referencie

Index pohody spoločnosti Gallup-Healthways. http://www.well-beingindex.com/default.asp (prístup k 1. máju 2013).

Index pohody spoločnosti Gallup-Healthways. http://www.well-beingindex.com/methodology.asp (prístup k 1. máju 2013).

Index pohody spoločnosti Gallup-Healthways. http://www.gallup.com/poll/146822/gallup-healthways-index-questions.aspx (prístup z 1. mája 2013).

Údaje z http://www.bookofodds.com/Relationships-Society/Ar articles/A0374-How-George-Gallup-Picked-the-President

Dominic Lusinchi, „prezident“ Landon a 1936 Literárny prehľad Anketa: Mohli za to majitelia automobilov a telefónov? “ Spoločenskovedná história 36, ​​č. 1: 23-54 (2012), http://ssh.dukejournals.org/content/36/1/23.abstract (prístup z 1. mája 2013).

„Anketa Literary Digest“, virtuálne laboratóriá pre pravdepodobnosť a štatistiku http://www.math.uah.edu/stat/data/LiteraryDigest.html (prístup z 1. mája 2013).

„Skúšobný priebeh prezidentských volieb v Gallupe-trendy v horúčavách, 1936–2008,” Gallup Politics http://www.gallup.com/poll/110548/gallup-presidential-election-trialheat-trends-19362004.aspx#4 (prístup z 1. mája, 2013).

Knižnica údajov a príbehov, http://lib.stat.cmu.edu/DASL/Datafiles/USCrime.html (prístup k 1. máju 2013).

Údaje o programe LBCC Distance Learning (DL) v rokoch 2010-2011, http://de.lbcc.edu/reports/2010-11/future/highlights.html#focus (prístup k 1. máju 2013).

Údaje zo San Jose Mercury News

Prehľad kapitoly

Údaje sú jednotlivé informácie, ktoré pochádzajú z populácie alebo vzorky. Údaje môžu byť klasifikované ako kvalitatívne (kategorické), kvantitatívne spojité alebo kvantitatívne diskrétne.

Pretože nie je praktické merať celú štúdiu v štúdii, vedci používajú na reprezentáciu populácie vzorky.Náhodná vzorka je reprezentatívna skupina z populácie vybraná pomocou metódy, ktorá dáva každému jedincovi v populácii rovnakú šancu byť zaradený do vzorky. Metódy náhodného vzorkovania zahŕňajú jednoduchý náhodný odber vzoriek, stratifikované vzorkovanie, klastrový odber a systematické vzorkovanie. Pohodlné vzorkovanie je náhodná metóda výberu vzorky, ktorá často vytvára skreslené údaje.

Výsledkom vzoriek, ktoré obsahujú rôznych jednotlivcov, sú rôzne údaje. To platí aj vtedy, keď sú vzorky dobre vybrané a reprezentatívne pre populáciu. Keď sú správne vybrané, väčšie vzorky modelujú populáciu bližšie ako menšie vzorky. Existuje mnoho rôznych potenciálnych problémov, ktoré môžu ovplyvniť spoľahlivosť vzorky. Štatistické údaje je potrebné kriticky analyzovať, nielen akceptovať.

Prax

Aký typ údajov je „koľkokrát za týždeň“?

a. kvalitatívny (kategorický) b. kvantitatívne diskrétne c. kvantitatívne spojité

Na zodpovedanie nasledujúcich štyroch cvičení použite nasledujúce informácie: Bola vykonaná štúdia s cieľom určiť vek, počet výskytov za týždeň a trvanie (množstvo času) obyvateľov, ktorí používajú miestny park v San Antoniu v Texase. Prvý dom v susedstve parku bol náhodne vybraný a potom bol urobený rozhovor s obyvateľom každého ôsmeho domu v okolí parku.

a. jednoduchý náhodný b. systematické c. rozvrstvený d. klaster

„Trvanie (množstvo času)“ je aký typ údajov?

a. kvalitatívny (kategorický) b. kvantitatívne diskrétne c. kvantitatívne spojité

Aké údaje sú farby domov v okolí parku?

a. kvalitatívny (kategorický) b. kvantitatívne diskrétne c. kvantitatívne spojité

Počet obyvateľov je ______________________

(Obrázok) obsahuje celkový počet úmrtí na celom svete v dôsledku zemetrasení v rokoch 2000 až 2012.

Rok Celkový počet úmrtí
2000 231
2001 21,357
2002 11,685
2003 33,819
2004 228,802
2005 88,003
2006 6,605
2007 712
2008 88,011
2009 1,790
2010 320,120
2011 21,953
2012 768
Celkom 823,856

Na zodpovedanie nasledujúcich otázok použite (obrázok).

  1. Aký je podiel úmrtí medzi rokmi 2007 a 2012?
  2. Aké percento úmrtí došlo pred rokom 2001?
  3. Aké je percento úmrtí, ku ktorým došlo v roku 2003 alebo po roku 2010?
  4. Aký je podiel úmrtí, ktoré sa stali pred rokom 2012?
  5. Aký druh údajov je počet úmrtí?
  6. Zemetrasenia sú kvantifikované podľa množstva energie, ktoré produkujú (príklady sú 2,1, 5,0, 6,7). Čo je to za typ údajov?
  7. Čo prispelo k veľkému počtu úmrtí v roku 2010? V roku 2004? Vysvetlite.
  1. 0.5242
  2. 0.03%
  3. 6.86%
  4. kvantitatívne diskrétne
  5. kvantitatívne spojité
  6. V oboch rokoch podmorské zemetrasenia vyvolali rozsiahle tsunami.

Pre nasledujúce štyri cvičenia určte typ použitého vzorkovania (jednoduché náhodné, stratifikované, systematické, klastrové alebo praktické).

Skupina testovaných osôb je rozdelená do dvanástich skupín a potom sú náhodne vybraté štyri zo skupín.

Prieskumník trhu osloví každého desiateho človeka, ktorý vojde do obchodu.

Prvých 50 ľudí, ktorí sa zúčastnia športového podujatia, sa pýta na svoje televízne preferencie.

Počítač vygeneruje 100 náhodných čísel a vyberie sa 100 ľudí, ktorých mená zodpovedajú číslam v zozname.


Na zodpovedanie nasledujúcich siedmich cvičení použite nasledujúce informácie: Farmaceutické spoločnosti často robia štúdie na určenie účinnosti liečebného programu. Predpokladajme, že v súčasnosti sa študuje nový liek na protilátky proti AIDS. Podáva sa pacientom hneď, ako sa prejavia príznaky AIDS. Zaujímavá je priemerná (priemerná) doba v mesiacoch, počas ktorých pacienti žijú po začatí liečby. Dvaja vedci sledujú odlišný súbor 40 pacientov s AIDS od začiatku liečby až do svojej smrti. Zhromažďujú sa nasledujúce údaje (v mesiacoch).

Výskumník A: 3 4 11 15 16 17 22 44 37 16 14 24 25 15 26 27 33 29 35 44 13 21 22 10 12 8 40 32 26 27 31 34 29 17 8 24 18 47 33 34

Výskumník B: 3 14 11 5 16 17 28 41 31 18 14 14 26 25 21 22 31 2 35 44 23 21 21 16 12 18 41 22 16 25 33 34 29 13 18 24 23 42 33 29

Vyplňte tabuľky pomocou uvedených údajov:

Výskumník A
Dĺžka prežitia (v mesiacoch) Frekvencia Relatívna frekvencia Kumulatívna relatívna frekvencia
0.5–6.5
6.5–12.5
12.5–18.5
18.5–24.5
24.5–30.5
30.5–36.5
36.5–42.5
42.5–48.5
Výskumník B
Dĺžka prežitia (v mesiacoch) Frekvencia Relatívna frekvencia Kumulatívna relatívna frekvencia
0.5–6.5
6.5–12.5
12.5–18.5
18.5–24.5
24.5–30.5
30.5–36.5
36.5-45.5

Určte, na čo sa odkazujú údaje kľúčového pojmu vo vyššie uvedenom príklade pre výskumníka A.

hodnoty pre X, napríklad 3, 4, 11 atď

Uveďte dva dôvody, prečo sa údaje môžu líšiť.

& lt! – & ltsolution Odpovede sa budú líšiť. Príklad odpovede: Jedným z dôvodov môže byť priemerný vek jednotlivcov v týchto dvoch vzorkách. Alebo možno droga ovplyvňuje mužov a ženy inak. Ak by pomer mužov a žien nebol v oboch skupinách vzoriek rovnaký, údaje by sa líšili. – & gt

Môžete povedať, či je jeden výskumník správny a druhý nesprávny? Prečo?

Nie, na predloženie takéhoto tvrdenia nemáme dostatok informácií.

Očakávali by ste, že údaje budú identické? Prečo áno alebo prečo nie?

& lt! – & lsolution Riešenie Pretože liečba nie je rovnaká, údaje sa môžu líšiť, pokiaľ ani jedna liečba nemá účinok. – & gt

Navrhnite najmenej dve metódy, ktoré môžu vedci použiť na zber náhodných údajov.

Odoberte jednoduchú náhodnú vzorku z každej skupiny. Jedným zo spôsobov je priradenie čísla každému pacientovi a použitie generátora náhodných čísel na náhodný výber pacientov.

Predpokladajme, že prvý výskumník uskutočnil svoj prieskum tým, že náhodne vybral jeden štát v štáte a potom náhodne vybral 40 pacientov z tohto štátu. Akú metódu vzorkovania by tento výskumník použil?

& lt! – & ltsolution Použil jednoduchú metódu náhodného výberu. – & gt

Predpokladajme, že druhý výskumník vykonal svoj prieskum tak, že vybral 40 pacientov, ktorých poznal. Akú metódu vzorkovania by tento výskumník použil? Aké obavy by ste mali z tohto súboru údajov na základe metódy zberu údajov?

Toto by bolo pohodlné vzorkovanie a nie je náhodné.

Na zodpovedanie nasledujúcich piatich cvičení použite nasledujúce údaje: Dvaja vedci zhromažďujú údaje o hodinách videohier, ktoré hrajú deti v školskom veku a mladí dospelí. Každý náhodne vzorkuje rôzne skupiny 150 študentov z tej istej školy. Zhromažďujú nasledujúce údaje.

Výskumník A
Odpracované hodiny za týždeň Frekvencia Relatívna frekvencia Kumulatívna relatívna frekvencia
0–2 26 0.17 0.17
2–4 30 0.20 0.37
4–6 49 0.33 0.70
6–8 25 0.17 0.87
8–10 12 0.08 0.95
10–12 8 0.05 1
Výskumník B
Odpracované hodiny za týždeň Frekvencia Relatívna frekvencia Kumulatívna relatívna frekvencia
0–2 48 0.32 0.32
2–4 51 0.34 0.66
4–6 24 0.16 0.82
6–8 12 0.08 0.90
8–10 11 0.07 0.97
10–12 4 0.03 1

Uveďte dôvod, prečo sa údaje môžu líšiť.

& lt! – & ltsolution Vedci skúmajú rôzne skupiny, takže v údajoch budú určité rozdiely. – & gt

Bola by veľkosť vzorky dostatočne veľká, ak by populáciu tvorili študenti v škole?

Áno, veľkosť vzorky 150 by bola dostatočne veľká na to, aby odrážala populáciu jednej školy.

Bola by veľkosť vzorky dostatočne veľká, ak by populáciou boli deti v školskom veku a mladí dospelí v USA?

& lt! – & ltsolution V USA je veľa školopovinných detí a mladých dospelých a štúdia sa uskutočnila iba na jednej škole, takže veľkosť vzorky nie je dostatočne veľká na to, aby odrážala populáciu. – & gt

Výskumník A dospel k záveru, že väčšina študentov hrá videohry štyri až šesť hodín každý týždeň. Výskumník B dospel k záveru, že väčšina študentov hrá videohry od dvoch do štyroch hodín každý týždeň. Kto ma pravdu

Aj keď konkrétne údaje podporujú závery každého výskumníka, rôzne výsledky naznačujú, že na to, aby mohli vedci dospieť k záveru, je potrebné zhromaždiť viac údajov.

Vedci v rámci spôsobu odmeňovania študentov za účasť na prieskume odovzdali každému študentovi darčekový poukaz do obchodu s videohrami. Ovplyvnilo by to údaje, keby študenti vedeli o cene pred štúdiom?

& lt! – & ltsolution Áno, ľudia, ktorí viac hrajú hry, sa môžu zúčastniť častejšie, pretože by chceli darčekový poukaz viac ako študent, ktorý nehrá videohry. To by vynechalo mnoho študentov, ktorí vôbec nehrajú hry a skresľujú údaje. – & gt

Na zodpovedanie nasledujúcich piatich cvičení použite nasledujúce údaje: Uskutočnila sa dvojica štúdií na meranie účinnosti nového softvérového programu, ktorý má pomôcť pacientom s mozgovou príhodou obnoviť ich schopnosti riešiť problémy. Pacienti boli požiadaní, aby používali softvérový program dvakrát denne, raz ráno a raz večer. Štúdie pozorovali 200 pacientov s mozgovou príhodou, ktorí sa zotavovali počas niekoľkých týždňov. Prvá štúdia zhromaždila údaje v (obrázok). Druhá štúdia zhromaždila údaje v (obrázok).

Skupina Ukázalo sa zlepšenie Žiadne zlepšenie Zhoršenie
Použitý program 142 43 15
Nepoužil program 72 110 18
Skupina Ukázalo sa zlepšenie Žiadne zlepšenie Zhoršenie
Použitý program 105 74 19
Nepoužil program 89 99 12

Vzhľadom na to, čo viete, ktorá štúdia je správna?

Nie je k dispozícii dostatok informácií na posúdenie, či je jedna z nich správna alebo nesprávna.

Prvú štúdiu vykonala spoločnosť, ktorá navrhla softvérový program. Druhú štúdiu vykonala Americká lekárska asociácia. Ktorá štúdia je spoľahlivejšia?

& lt! – & ltsolution Druhá štúdia je spoľahlivejšia, pretože spoločnosť by mala záujem ukázať výsledky, ktoré uprednostňujú vyššiu mieru zlepšenia od pacientov používajúcich ich softvér. Údaje môžu byť skreslené, Americká lekárska asociácia sa však nezaoberá úspechom softvéru, a preto by mala byť objektívna. – & gt

Obe skupiny, ktoré štúdiu vykonali, dospeli k záveru, že softvér funguje. Je to presné?

Zdá sa, že softvérový program funguje, pretože druhá štúdia ukazuje, že viac pacientov sa pri používaní softvéru zlepšuje, ako nie. Napriek tomu, že rozdiel nie je taký veľký ako v prvej štúdii, výsledky z druhej štúdie sú pravdepodobne spoľahlivejšie a stále vykazujú zlepšenie.

Spoločnosť považuje tieto dve štúdie za dôkaz, že ich softvér spôsobuje mentálne zlepšenie u pacientov s mozgovou príhodou. Je to spravodlivé vyhlásenie?

& lt! – & ltsolution Nie, údaje naznačujú, že tieto dva sú vo vzájomnom vzťahu, je však potrebné vykonať viac štúdií, ktoré by dokázali, že používanie softvéru spôsobuje zlepšenie u pacientov s mozgovou príhodou. – & gt

Pacienti, ktorí používali softvér, boli tiež súčasťou cvičebného programu, zatiaľ čo pacienti, ktorí softvér nepoužívali, nie sú. Mení to platnosť záverov z (obrázok)?

Áno, pretože nevieme určiť, či k zlepšeniu došlo v dôsledku softvéru alebo cvičenia, a preto sú údaje zmätené a nemožno vyvodiť spoľahlivý záver. Mali by sa vykonať nové štúdie.

Je veľkosť vzorky 1 000 spoľahlivým meradlom pre 5 000 obyvateľov?

& lt! – & lsolution riešenie Áno, 1 000 predstavuje 20% populácie a malo by byť reprezentatívne, ak je populácia vzorky vybraná náhodne. – & gt

Je vzorka 500 dobrovoľníkov spoľahlivým meradlom pre 2500 obyvateľov?

Nie, aj keď je vzorka dostatočne veľká, skutočnosť, že vzorku tvoria dobrovoľníci, z nej robí vzorku, ktorú si sám vyberiete, čo nie je spoľahlivé.

Otázka z prieskumu znie: “Dáte prednosť lahodnej chuti značky X alebo chuti značky Y? ” Je to správna otázka?

& lt! – & ltsolution Nie, otázkou je vytvárať neprimeraný vplyv pridaním slova “delicious ” na opis značky X. Znenie môže ovplyvniť reakcie. – & gt

Je veľkosť vzorky dvoch reprezentatívna pre päťčlennú populáciu?

Nie, aj keď je vzorkou veľká časť populácie, dve odpovede nestačia na odôvodnenie akýchkoľvek záverov. Pretože je populácia taká malá, bolo by lepšie zahrnúť všetkých v populácii, aby ste získali najpresnejšie údaje.

Je možné, aby dva experimenty dobre bežali s podobnou veľkosťou vzorky a získali rôzne údaje?

& lt! – & ltsolution Riešenie Áno, s najväčšou pravdepodobnosťou bude medzi akýmikoľvek dvoma štúdiami určitý stupeň variácií, aj keď sú nastavené a prebiehajú rovnakým spôsobom. Každá štúdia môže byť ovplyvnená odlišne z dôvodu neznámych faktorov, ako je poloha, nálada subjektov alebo ročné obdobie. – & gt

DOMÁCA ÚLOHA

V nasledujúcich cvičeniach identifikujte typ údajov, ktoré by sa použili na opis reakcie (kvantitatívne diskrétne, kvantitatívne spojité alebo kvalitatívne), a uveďte príklad údajov.

počet predaných vstupeniek na koncert

kvantitatívne diskrétne, 150

& lt! – & lsolution riešenie kvantitatívne kontinuálne, 19,2% – & gt

čas v rade na nákup potravín

& lt! – & lsolution riešenie kvantitatívne kontinuálne, 7,2 minúty – & gt

počet študentov zapísaných na Evergreen Valley College

kvantitatívne diskrétne, 11 234 študentov

najsledovanejšia televízna šou

& lt! – & lts riešenie kvalitatívne, Tanec s hviezdami – & gt

vzdialenosť od najbližšieho kina

& lt! – & lsolution kvantitatívne kontinuálne, 8,32 míle – & gt

vek vedúcich pracovníkov v spoločnostiach Fortune 500

kvantitatívne kontinuálne, 47,3 roka

počet konkurenčných softvérových balíkov počítačových tabuliek

& lt! – & lsolution kvantitatívne diskrétne, tri – & gt

Na nasledujúce dve cvičenia odpovedzte pomocou nasledujúcich informácií: Bola vykonaná štúdia s cieľom určiť vek, počet výskytov za týždeň a trvanie (množstvo času) rezidentského využívania miestneho parku v San Jose. Prvý dom v okolí parku bol vybratý náhodne a potom bol urobený rozhovor s každým 8. domom v okolí parku.

Aký typ údajov je „koľkokrát za týždeň“?

„Trvanie (množstvo času)“ je aký typ údajov?

Letecké spoločnosti majú záujem na konzistentnosti počtu detí na každom lete, aby mali primerané bezpečnostné vybavenie. Predpokladajme, že letecká spoločnosť vykoná prieskum. Cez víkend vďakyvzdania skúma šesť letov z Bostonu do Salt Lake City, aby určil počet detí na letoch. Stanovuje množstvo bezpečnostného vybavenia potrebného na základe výsledku tejto štúdie.

  1. Pomocou úplných viet uveďte tri veci, ktoré nie sú v poriadku so spôsobom, akým bol prieskum realizovaný.
  2. Pomocou úplných viet uveďte tri spôsoby, ktorými by ste prieskum vylepšili, ak by sa opakoval.
  1. Prieskum sa uskutočnil pomocou šiestich podobných letov.
    Prieskum by nebol skutočným zastúpením celej populácie leteckých cestovateľov.
    Vykonanie prieskumu cez prázdniny neprinesie reprezentatívne výsledky.
  2. Vykonajte prieskum v rôznych obdobiach roka.
    Vykonajte prieskum pomocou letov na rôzne miesta a z nich.
    Vykonajte prieskum v rôzne dni v týždni.

Predpokladajme, že chcete určiť priemerný počet študentov na triedu štatistiky vo vašom štáte. Popíšte možnú metódu vzorkovania v troch až piatich celých vetách. Vykonajte podrobný popis.

Predpokladajme, že chcete určiť priemerný počet plechoviek sódy, ktoré každý mesiac vypijú dvadsaťroční študenti vo vašej škole. Popíšte možnú metódu vzorkovania v troch až piatich celých vetách. Vykonajte podrobný popis.

Odpovede sa budú odlišovať. Príklad odpovede: Môžete použiť systematickú metódu vzorkovania. Zastavte desiateho človeka, pretože ráno o 9:50 opúšťa jednu z budov v areáli univerzity. Potom zastavte desiateho človeka, keď o 1:50 popoludní odchádza z inej budovy v areáli.

Uveďte niekoľko praktických ťažkostí spojených so získavaním presných výsledkov z telefonického prieskumu.

& lt! – & ltsolution Odpovede sa budú líšiť. Príklad odpovede: Nie všetci ľudia majú uvedené telefónne číslo. Mnoho ľudí položí telefón alebo nereaguje na telefonické prieskumy. – & gt

Uveďte niekoľko praktických problémov spojených so získavaním presných výsledkov z prieskumu zaslaného poštou.

Odpovede sa budú odlišovať. Ukážka odpovede: Mnoho ľudí nebude reagovať na poštové prieskumy. Ak odpovedajú na prieskumy, nemôžete si byť istí, kto odpovedá. Zoznamy adries môžu byť navyše neúplné.

Spolu so svojimi spolužiakmi porozmýšľajte, ako by ste tieto problémy mohli prekonať, ak by ste potrebovali vykonať prieskum telefónu alebo pošty.

& lt! – & ltsolution Požiadajte všetkých, aby uviedli svoj vek, a potom z údajov odoberte náhodnú vzorku. Zahrňte do správy, ako bol prieskum vykonaný a prečo výsledky nemusia byť presné. – & gt

Inštruktor odoberie svoju vzorku zhromaždením údajov o piatich náhodne vybraných študentoch z každej matematickej triedy Lake Tahoe Community College. Typ vzorkovania, ktorý použila, je

  1. klastrový odber
  2. stratifikovaný odber vzoriek
  3. jednoduchý náhodný výber
  4. pohodlné vzorkovanie

Bola vykonaná štúdia s cieľom určiť vek, počet výskytov za týždeň a trvanie (množstvo času) obyvateľov, ktorí používajú miestny park v San Jose. Prvý dom v okolí parku bol vybraný náhodne a potom bol urobený rozhovor s každým ôsmym domom v okolí parku. Metóda odberu vzoriek bola:

Pomenujte metódu odberu vzoriek použitú v každej z nasledujúcich situácií:

  1. Žena na letisku rozdáva cestujúcim dotazníky a žiada ich, aby zhodnotili služby letiska. Nepýta sa cestovateľov, ktorí sa ponáhľajú po letisku s plnými rukami batožiny, ale pýta sa všetkých cestovateľov, ktorí sedia pri bráne a nespia, kým čakajú.
  2. Učiteľka chce vedieť, či si jej študenti robia domáce úlohy, a tak náhodne vyberie dva a päť riadkov a potom vyzve všetkých študentov v druhom rade a všetkých študentov v piatom rade, aby triede predstavili riešenia problémov s domácou úlohou.
  3. Marketingový manažér reťazca s elektronikou chce informácie o veku svojich zákazníkov. V priebehu nasledujúcich dvoch týždňov dostane každý náhodne vybraný zákazník v každom obchode 100 dotazníkov, ktoré vyplní a požiada o informácie o veku a ďalších zaujímavých premenných.
  4. Knihovník vo verejnej knižnici chce určiť, aký podiel používateľov knižnice sú deti. Pani knihovníčka má záznam, na ktorom je vyznačené, či knihy odhlasuje dospelý alebo dieťa. Tieto údaje zaznamenáva pre každého štvrtého patróna, ktorý kontroluje knihy.
  5. Politická strana chce poznať reakciu voličov na debatu medzi kandidátmi. Deň po rozprave volí štáb strany 1 200 náhodne vybraných telefónnych čísel. Ak registrovaný volič zdvihne telefón alebo je k dispozícii na telefonovanie, pýta sa ho, koho má v úmysle voliť a či diskusia zmenila jeho názor na kandidátov.

klaster pohodlia stratifikovaný systematický jednoduchý náhodný

Uskutočnil sa „náhodný prieskum“ u 3 274 ľudí „generácie mikroprocesorov“ (ľudí narodených od roku 1971, v roku, kedy bol mikroprocesor vynájdený). Uvádzalo sa, že 48% z týchto opýtaných osôb uviedlo, že ak by museli minúť? 2 000, použili by ich na počítačové vybavenie. Tiež 66% opýtaných sa považovalo za relatívne zdatných používateľov počítačov.

  1. Považujete veľkosť vzorky za dostatočne veľkú na štúdiu tohto typu? Prečo áno alebo prečo nie?
  2. Myslíte si, že na základe vášho „črevného pocitu“ percentá presne odrážajú populáciu USA pre jednotlivcov narodených od roku 1971? Ak nie, myslíte si, že percentá populácie sú v skutočnosti vyššie alebo nižšie ako vzorové štatistiky? Prečo?
    Ďalšie informácie: Prieskum, o ktorom informovala spoločnosť Intel Corporation, vyplnili jednotlivci, ktorí navštívili Kongresové centrum v Los Angeles, aby si pozreli road show Smithsonian Institute a#8217s s názvom „Americký Smithsonian“.
  3. Cítite na základe týchto dodatočných informácií, že na tejto akcii boli zastúpené všetky demografické a etnické skupiny? Prečo áno alebo prečo nie?
  4. S ďalšími informáciami sa vyjadrite k tomu, ako presne si myslíte, že vzorové štatistiky odrážajú parametre populácie.

& lt! – & ltsolution Áno, pri hlasovaní sú vzorky od 1 200 do 1 500 pozorovaní považované za dostatočne veľké a dostatočne dobré, ak je prieskum náhodný a dobre vykonaný. Nemáme dostatok informácií na to, aby sme sa rozhodli, či ide o náhodnú vzorku populácie USA. Nie, toto je pohodlná vzorka odobratá jednotlivcom, ktorí navštívili výstavu v Angeles Convention Center. Táto vzorka nie je reprezentatívna pre populáciu USA. Je možné, že tieto dve vzorové štatistiky, 48% a 66%, sú väčšie ako skutočné parametre v populácii ako celku. V každom prípade z tejto praktickej vzorky nemožno vyvodiť žiadny záver o proporciách populácie. – & gt

Well-Being Index je prieskum, ktorý pravidelne sleduje trendy obyvateľov USA. Prieskum obsahuje šesť oblastí zdravia a pohody: Hodnotenie života, Emocionálne zdravie, Fyzické zdravie, Zdravé správanie, Pracovné prostredie a Základný prístup. Niektoré z otázok použitých na meranie indexu sú uvedené nižšie.

Identifikujte typ údajov získaných z každej otázky použitej v tomto prieskume: kvalitatívne, kvantitatívne diskrétne alebo kvantitatívne spojité.

  1. Máte nejaké zdravotné problémy, ktoré vám bránia vykonávať niektoré z vecí, ktoré by ľudia vo vašom veku mohli bežne robiť?
  2. Približne koľko dní vám za posledných 30 dní bránilo zlé zdravie vykonávať vaše obvyklé činnosti?
  3. Koľko dní za posledných sedem dní ste cvičili 30 a viac minút?
  4. Máte zdravotné poistenie?
  1. kvalitatívny
  2. kvantitatívne diskrétne
  3. kvantitatívne diskrétne
  4. kvalitatívny

Pred prezidentskými voľbami v roku 1936 časopis s názvom Literary Digest zverejnil výsledky prieskumu verejnej mienky, ktorý predpovedal, že republikánsky kandidát Alf Landon s veľkým náskokom vyhrá. Časopis rozposlal pohľadnice približne 10 000 000 potenciálnym voličom. Títo potenciálni voliči boli vybraní zo zoznamu predplatných časopisu, z registračných zoznamov automobilov, z telefónnych zoznamov a zo zoznamov členov klubu. Pohľadnice vrátilo približne 2 300 000 ľudí.

  1. Zamyslite sa nad stavom USA v roku 1936. Vysvetlite, prečo vzorka vybraná zo zoznamov predplatných časopisov, registračných zoznamov automobilov, telefónnych zoznamov a zoznamov členov klubov v tom čase nereprezentovala populáciu USA.
  2. Aký vplyv má nízka miera odozvy na spoľahlivosť vzorky?
  3. Sú tieto problémy príkladom chyby vzorkovania alebo chyby nevzorkovania?
  4. V tom istom roku uskutočnil George Gallup svoj vlastný prieskum 30 000 potenciálnych voličov. Títo vedci použili metódu, ktorú nazvali “quota sampling ”, na získanie odpovedí na prieskum z konkrétnych podskupín populácie. Odber vzoriek na základe kvóty je príkladom toho, ktorá metóda vzorkovania je popísaná v tomto module?

& lt! – & ltsolution Krajina bola uprostred Veľkej hospodárskej krízy a mnoho ľudí si nemohlo dovoliť tieto “ luxusné ” položky, a preto ani nemohli byť zaradení do prieskumu. Príliš malé vzorky môžu viesť k skresleniu vzoriek. vzorkovacia chyba stratifikovaná – & gt

Štatistiky súvisiace so zločinom a demografické údaje o 47 štátoch USA v roku 1960 boli zhromaždené od vládnych agentúr vrátane FBI a#8217 Jednotná správa o zločine. Jedna analýza týchto údajov zistila silné prepojenie medzi vzdelávaním a kriminalitou, čo naznačuje, že vyššie úrovne vzdelania v komunite zodpovedajú vyššej kriminalite.

Ktorý z potenciálnych problémov so vzorkami diskutovanými na (obrázku) by mohol vysvetliť toto spojenie?

Príčinná súvislosť: Skutočnosť, že dve premenné súvisia, nezaručuje, že jedna premenná ovplyvňuje druhú. Nemôžeme predpokladať, že kriminalita ovplyvňuje úroveň vzdelania alebo úroveň vzdelania ovplyvňuje mieru kriminality.

Mätúce: Existuje mnoho faktorov, ktoré definujú komunitu okrem úrovne vzdelania a kriminality. Komunity s vysokou mierou kriminality a vysokým vzdelaním môžu mať ďalšie číhajúce premenné, ktoré ich odlišujú od komunít s nižšou kriminalitou a nižším vzdelaním. Pretože nemôžeme izolovať tieto zaujímavé premenné, nemôžeme vyvodiť platné závery o prepojení vzdelávania a zločinu. Medzi možné číhajúce premenné patria výdavky na políciu, úroveň nezamestnanosti, región, priemerný vek a veľkosť.

YouPolls je webová stránka, ktorá umožňuje komukoľvek vytvárať a reagovať na hlasovanie. Jedna otázka zverejnená 15. apríla znie:

"Ste šťastní pri platení daní, keď členovia Obamovej administratívy môžu ignorovať svoje daňové povinnosti?" . ).)

K 25. aprílu na túto otázku odpovedalo 11 ľudí. Každý účastník odpovedal „NIE!“

Ktorý z možných problémov so vzorkami diskutovanými v tomto module by mohol vysvetliť toto spojenie?

& lt! – & ltsolution Samostatne vybrané vzorky: Odpovedať sa rozhodnú iba ľudia, ktorých táto téma zaujíma. Problémy s veľkosťou vzorky: vzorka, v ktorej je iba 11 účastníkov, nebude presne reprezentovať názory národa. Neprimeraný vplyv: Otázka znie konkrétnym spôsobom na vytvorenie konkrétnej odpovede. Samostatne financované štúdie alebo štúdie o vlastnom záujme: Táto otázka bola vytvorená na podporu tvrdenia jednej osoby a bola navrhnutá tak, aby získala odpoveď, ktorú daná osoba požaduje. – & gt

Odborný článok o miere reakcií začína týmto citátom:

„Klesajúca miera kontaktov a spolupráce v národných telefónnych prieskumoch s náhodným výberom číslic (RDD) vyvoláva vážne obavy z platnosti odhadov vychádzajúcich z takéhoto výskumu.“ (Scott Keeter a kol., „Meranie vplyvu rastúcej nereagovania odhadov z národného RDD Telephone Survey, ”Quinterly of Public Opinion Quarterly 70 no. 5 (2006), http://poq.oxfordjournals.org/content/70/5/759.full (prístup z 1. mája 2013).)

Centrum výskumu ľudí a tlače Pew pripúšťa:

"Percento ľudí, s ktorými robíme rozhovory - zo všetkých, s ktorými sa pokúšame viesť pohovory - za posledné desaťročie alebo viac klesá." (Často kladené otázky, Pew Research Center for the People & amp the Press, http://www.people-press.org/methodology/frequently-asked-questions/#dont-you-have-trouble-getting-people-to- odpovedajte na svoje ankety (prístup k 1. máju 2013).)

  1. Aké sú niektoré dôvody poklesu miery odozvy za posledné desaťročie?
  2. Vysvetlite, prečo sa vedci zaoberajú vplyvom klesajúcej miery odpovedí na prieskumy verejnej mienky.
  1. Možné dôvody: zvýšené používanie ID volajúceho, zníženie využívania pevných liniek, zvýšené používanie súkromných čísel, hlasovej pošty, manažérov ochrany osobných údajov, hektický charakter osobných plánov, znížená ochota pohovorovať
  2. Keď sa veľký počet ľudí odmietne zúčastniť, vzorka nemusí mať rovnaké charakteristiky populácie. Väčšina ľudí, ktorí sú ochotní sa zúčastniť, to robí pravdepodobne preto, že sa o predmete prieskumu výrazne zaujíma.

Spojenie dohromady

Sedemstosedemdesiatjeden študentov diaľkového štúdia na Long Beach City College odpovedalo na prieskumy v akademickom roku 2010-11. Hlavné body súhrnnej správy sú uvedené v (obrázku).

  1. Koľko percent opýtaných študentov nemá doma počítač?
  2. Koľko študentov v prieskume žije najmenej 16 míľ od areálu?
  3. Ak by sa rovnaký prieskum vykonal na Great Basin College v Elko, Nevada, myslíte si, že by boli percentá rovnaké? Prečo?

& lt! – & lsolution 4% 13% Nie nevyhnutne. Long Beach City je siedmym najväčším v Kalifornii, na ktorom študuje približne 27 000 študentov. Na druhej strane, Great Basin College má svoje kampusy na vidieku v severovýchodnej Nevade a je do nej zapísaných asi 3 500 študentov. – & gt

Niekoľko online maloobchodníkov s učebnicami inzeruje, že majú nižšie ceny ako v kníhkupectvách v areáli. Dôležitým faktorom však je, či internetoví maloobchodníci skutočne majú učebnice, ktoré študenti potrebujú, na sklade. Študenti musia byť schopní rýchlo získať učebnice na začiatku vysokoškolského obdobia. Ak kniha nie je k dispozícii, študent by sa k učebnici nedostal vôbec alebo by mohlo dôjsť k oneskorenému dodaniu, ak bude knihu znova objednanú.


Reportér z univerzitných novín vyšetruje dostupnosť učebníc u online predajcov. Rozhodne sa preskúmať jednu učebnicu pre každý z nasledujúcich siedmich predmetov: kalkul, biológia, chémia, fyzika, štatistika, geológia a všeobecné inžinierstvo. Prezerá si údaje o tržbách z učebnicového priemyslu a vyberá si najobľúbenejšiu národne používanú učebnicu v každom z týchto predmetov. Navštevuje webové stránky s náhodným výberom veľkých online predajcov učebníc a vyhľadáva každú z týchto siedmich učebníc, aby zistil, či sú na sklade k dispozícii na rýchle dodanie prostredníctvom týchto maloobchodníkov. Na základe svojho vyšetrovania píše článok, v ktorom vyvodzuje závery o celkovej dostupnosti všetkých učebníc pre vysoké školy prostredníctvom online predajcov učebníc.

Napíšte analýzu jeho štúdie, ktorá sa zaoberá nasledujúcimi problémami: Je jeho vzorka reprezentatívna pre populáciu všetkých vysokoškolských učebníc? Vysvetlite, prečo alebo prečo nie. Popíšte niektoré možné zdroje zaujatosti v tejto štúdii a ako by to mohlo ovplyvniť výsledky štúdie. Uveďte niekoľko návrhov, čo by sa dalo urobiť pre zlepšenie štúdie.

Odpovede sa budú odlišovať. Príklad odpovede: Táto vzorka nie je reprezentatívna pre populáciu všetkých učebníc pre vysoké školy. Dva dôvody, prečo to nie je reprezentatívne, sú tie, že vybral iba sedem predmetov a v každom predmete skúmal iba jednu učebnicu. V štúdii je niekoľko možných zdrojov zaujatosti. Sedem predmetov, ktoré skúmal, je z matematiky a vied, existuje množstvo predmetov z humanitných, sociálnych a iných odborových oblastí (napríklad z literatúry, umenia, histórie, psychológie, sociológie, obchodu), ktoré neskúmal. vôbec. Je možné, že rôzne tematické oblasti vykazujú rôzne vzorce dostupnosti učebníc, ale jeho vzorka by takéto výsledky nezistila.

Tiež sa pozrel iba na najobľúbenejšiu učebnicu v každom z predmetov, ktoré skúmal. Dostupnosť najobľúbenejších učebníc sa môže líšiť od dostupnosti ostatných učebníc jedným z dvoch spôsobov:

  • najobľúbenejšie učebnice môžu byť jednoduchšie dostupné online, pretože sa tlačí viac nových kópií a stále viac študentov na celom svete predáva svoje použité kópie ALEBO
  • Najpopulárnejšie učebnice je ťažké nájsť na internete, pretože väčší dopyt študentov rýchlejšie vyčerpá ponuku.

V skutočnosti mnohí vysokoškoláci nepoužívajú najobľúbenejšiu učebnicu vo svojom predmete a táto štúdia neposkytuje žiadne užitočné informácie o situácii v týchto menej obľúbených učebniciach.


Vykonávanie etického výskumu

Jeden z problémov, s ktorými sa musia všetci vedci zaoberať, sa týka etiky ich výskumu. Výskum v psychológii môže ľuďom, ktorí sa zúčastňujú na tomto výskume, spôsobiť určitý stres, ujmu alebo nepohodlie. Psychológovia môžu u svojich účastníkov vyvolať stres, úzkosť alebo negatívnu náladu, vystaviť ich príliš slabým elektrickým šokom alebo ich presvedčiť, aby sa správali spôsobom, ktorý porušuje ich morálne štandardy. Vedci môžu navyše niekedy použiť zvieratá, ktoré im v tomto procese potenciálne môžu uškodiť.

Rozhodnutia o tom, či je výskum etický, sa prijímajú pomocou zavedených etických kódexov vyvinutých vedeckými organizáciami, ako je Americká psychologická asociácia a federálne vlády. V USA poskytuje pokyny pre etické normy vo výskume ministerstvo zdravotníctva a sociálnych služieb. Nasledujú etický kódex Americkej psychologickej asociácie pri využívaní ľudí vo výskume (APA, 2002).

Žiadna škoda: Najpriamejšou etickou starosťou vedca je zabrániť poškodeniu účastníkov výskumu.

Informovaný súhlas: Výskumníci musia získať informovaný súhlas, ktorý čo najviac vysvetľuje skutočnú povahu štúdie, najmä všetko, čo by sa dalo očakávať, že ovplyvní ochotu zúčastniť sa. Účastníci môžu svoj súhlas s účasťou kedykoľvek odvolať.

Dojčatá a malé deti nedokážu verbálne naznačiť svoju ochotu zúčastniť sa, tým menej chápať rovnováhu potenciálnych rizík a prínosov. Od výskumných pracovníkov sa preto často vyžaduje, aby získali písomný informovaný súhlas od rodiča alebo zákonného zástupcu detského účastníka. Okrem toho je tento dospelý pri vykonávaní štúdie takmer vždy prítomný. Od detí sa nevyžaduje, aby uviedli, či by sa chceli zapojiť do štúdie, kým nebudú mať približne 7 rokov. Pretože dojčatá a malé deti tiež nedokážu ľahko naznačiť, či by chceli prerušiť svoju účasť na štúdii, vedci musia byť citliví na zmeny v stave účastníka, ako je napríklad určenie, či je dieťa príliš unavené alebo rozrušené, aby mohlo pokračovať. o tom, po čom rodič túži. V niektorých prípadoch môžu rodičia chcieť prerušiť svoje zapojenie sa do výskumu. Rovnako ako v štúdiách pre dospelých, výskumní pracovníci sa pri vykonávaní vývojového výskumu musia vždy snažiť chrániť práva a blaho menších účastníkov a ich rodičov.

Dôvernosť: Výskumníci musia tiež chrániť súkromie odpovedí účastníkov výskumu tým, že nebudú používať mená ani iné informácie, ktoré by mohli identifikovať účastníkov.

Klam: K klamu dochádza vždy, keď účastníci výskumu nie sú pred účasťou na ňom úplne a úplne informovaní o povahe výskumného projektu. Klamanie môže nastať vtedy, keď výskumník účastníkom povie, že štúdia je o jednej veci, keď v skutočnosti ide o niečo iné, alebo keď sa účastníkom nehovorí o hypotéze.

Rozbor: Na konci štúdie musí dôjsť k rozboru, čo je postup určený na úplné vysvetlenie účelov a postupov výskumu a odstránenie všetkých škodlivých vedľajších účinkov účasti.


Aký je rozdiel medzi systematickými a náhodnými chybami?

Systematická chyba sa týka série chýb v presnosti, ktoré v experimente pochádzajú z rovnakého smeru, zatiaľ čo náhodné chyby sa pripisujú náhodným a nepredvídateľným odchýlkam v experimente.

Vo fyzike predstavujú systematické chyby a náhodné chyby všetky experimentálne chyby a neistoty. Systematické chyby často vyplývajú z problému, ktorý pokračuje v priebehu experimentu, zatiaľ čo náhodné chyby sú chyby, ktoré vznikajú v opačných smeroch a bez konzistentného vzoru, ako experiment pokračuje. Žiadny z typov chýb nepochádza z ľudských chýb, medzi ktoré patrí nesprávne vykonanie výpočtov alebo nesprávne odčítanie údajov z prístrojov.

Náhodné chyby
Príkladom rozdielu medzi systematickými chybami a náhodnými chybami je jednoduché meranie trikrát váženia prsteňa. Ak dôjde k náhodnej chybe, osoba vážiaca prstene môže dostať rôzne hodnoty 17,2 uncí, 17,4 uncí a 17,6 uncí. Rozdiely v týchto hodnotách na základe náhodných chýb by sa dali vysvetliť obmedzeniami v zariadení používanom na uskutočnenie týchto meraní. Aj keď ľudia nemusia byť schopní kontrolovať alebo eliminovať základný zdroj náhodných chýb, môžu znížiť mieru náhodných chýb tým, že odoberú väčšie vzorky. To pomôže výskumníkom nájsť priemer vo väčšej skupine, čo poskytne presnejšie čítanie. Príkladom štatistickej chyby je nesprávne meranie rovnakého objektu opakovane chybnou technikou. Vedec napríklad môže vykonať meranie rajčiaka pomocou reťazca, ktorý je starý niekoľko rokov a bol natiahnutý z používania. Reťazec preto bude dôsledne vytvárať nepresné hodnoty a výsledky.

Systematické chyby
Aj keď vedci môžu byť schopní určiť zdroj chyby pomocou chyby, identifikácia príčiny systematickej chyby môže byť ťažšia. Systematické chyby je ťažké odhaliť a pre vedcov môže byť ťažké určiť, do akej miery systematická chyba spôsobuje problémy. Je to spôsobené tým, že merania zhromaždené počas experimentu budú buď trvalo vysoké, alebo trvalo nízke. Systematickú chybu je možné reprodukovať v experimente, zatiaľ čo náhodnú chybu nie. Aj keď je ťažké identifikovať systematickú chybu, vedec bude môcť získať presnejšie experimentálne výsledky, akonáhle systematickú chybu nájde a opraví.

Zdroje chýb
Rovnako ako u náhodných chýb, systematické chyby sa bežne vyskytujú v dôsledku problému so strojom alebo zariadením. Nástroje s lineárnou odozvou môžu vytvárať dva typy chýb. Pri prvom type chyby, ktorá sa nazýva nulovanie alebo chyba posunu, prístroj v skutočnosti nečíta nulu, aj keď je označený nulou. Druhým typom chyby je faktor mierky alebo chyba multiplikátora. Pri tomto type chyby prístroj číta zmeny v množstve, ktoré sa má merať, ako menšie alebo významnejšie, ako sú zmeny v skutočnosti. K týmto typom systematických chýb dochádza prostredníctvom nesprávnych techník vedca alebo vtedy, keď dôjde k chybe v samotnom nástroji. Príkladom systematickej chyby je osoba, ktorá robí nepresné údaje o slnečnom žiarení, keď budovy alebo stromy vrhajú tieň na oblasť, kde osoba vykonáva meranie. Systematické chyby znižujú presnosť, čo vedcovi hovorí, ako blízko sú merania prístroja k skutočnej hodnote.


Diskusia

Úvahy pre špecifikovanie náhodných efektov

V úvode sme spomenuli výhody použitia viacúrovňových modelov na riešenie závislých veľkostí efektov v metaanalýzach: korelácia medzi veľkosťami efektov z tej istej štúdie nie je potrebná (na rozdiel od viacrozmerného prístupu), oddelené odhady rôznych zložiek rozptylu ( napr. medzi štúdiami a v rámci štúdií) sa odhadujú (na rozdiel od metódy RVE) a efekty moderátora sa môžu v rámci štúdií (alebo v rámci akéhokoľvek iného klastra vyššej úrovne) líšiť.

Pri použití viacúrovňových modelov na riešenie závislých veľkostí efektov je však veľmi dôležité správne špecifikovať model podľa (ne) hierarchickej štruktúry údajov, aby ste získali vhodné odhady parametrov. Inými slovami, do modelu musia byť zahrnuté všetky relevantné náhodné efekty, aby sa zabránilo skresleným odhadom (McNeish, Stapleton, & amp Silverman, 2017), a niekedy je ťažké rozhodnúť, či (moderátorský) efekt premennej treba považovať za fixný alebo náhodne. Snijders a Bosker (2012) uvádzajú určité pokyny, ako sa rozhodnúť. Premennú je možné považovať za náhodnú, ak jej kategórie možno považovať za náhodnú vzorku populácie (zameniteľných) jednotiek. Títo autori navyše uvádzajú, že na správne odhadnutie odchýlky náhodného účinku je spravidla potrebných najmenej 20 kategórií. Ako príklad si predstavme, že štúdie sú zasadené do 20 rôznych krajín. Ak meta-analytika nezaujíma samostatný účinok pre každú z týchto krajín, ale chce iba odhadnúť, do akej miery sa veľkosti efektov líšia v závislosti od rozdielov medzi krajinami, môže byť účinok krajiny špecifikovaný ako náhodný.Voliteľným krokom by bolo pokúsiť sa vysvetliť tento rozptyl (tj. Variabilita veľkostí účinkov v dôsledku rozdielov medzi krajinami) zahrnutím premenných s pevným účinkom (napr. Premenná, ktorá naznačuje, či štúdie pochádzajú z USA alebo z Európy) . Niekedy však premenná nemá dostatok kategórií na to, aby ju považovala za náhodný efekt (napr. Keď sú štúdie vnorené v rámci krajín, ale existuje iba päť rôznych krajín), alebo výskumných pracovníkov môže zaujímať celková veľkosť efektu pre každú z nich jednotlivo. krajina. V tomto scenári môže byť premenná „krajina“ zavedená do modelu ako moderátor s pevným účinkom (tj. Odhadom jedného samostatného účinku pre každú z piatich krajín alebo s prihliadnutím na jednu krajinu ako na referenčný a odhadom kontrastu účinku v táto krajina s tými v ostatných krajinách).

Ako už bolo spomenuté, niekoľko štúdií zistilo, že metóda RVE funguje podobne ako viacúrovňové modely. Výhodou aplikácie RVE je, že vyžaduje iba správnu špecifikáciu klastra vyššej úrovne (McNeish et al., 2017). Táto metóda je preto dobrou alternatívou, ak si výskumník nie je istý správnou špecifikáciou modelu. Táto metóda však poskytuje iba odhad celkového rozptylu, a nie samostatné odhady pre každý náhodný účinok. Tipton, Pustejovsky a Ahmadi (2019) nedávno navrhli zaujímavý prístup: najskôr použiť viacúrovňový model, a preto získať samostatné odhady pre zložky rozptylu a potom použiť metódu RVE na získanie robustných štandardných chýb. Aj keď sa tento prístup zdá byť sľubný, simulačné štúdie musia stále skúmať výkonnosť tohto prístupu.

Príklady alternatívnej špecifikácie viacúrovňových modelov v metaanalýze

V tejto časti identifikujeme päť bežných situácií, v ktorých by vzhľadom na (ne) hierarchickú dátovú štruktúru boli vhodnejšie modely s väčším počtom náhodných efektov ako je základný hierarchický trojúrovňový model. Na ilustračné účely uvádzame iba niekoľko prototypových príkladov, ale v systematickom prehľade je zahrnutých viac metaanalýz, ktoré sa hodia do jednej z nasledujúcich kategórií. Po prvé, v rámci štúdií mohla byť k modelovej závislosti pridaná štvrtá úroveň. Napríklad Acar a Sen (2013), ktorí študovali vzťah medzi tvorivosťou a schizotypiou, špecifikovali trojúrovňový model, kde boli veľkosti efektov (veľkosti efektov 1: 268) vnorené do štúdií (štúdie úrovne 2: 45) a štúdií boli vnorení medzi autorov (úroveň 3: 34 autorov). Tento model ignoruje, že v štúdiách sa veľkosti efektov môžu líšiť nielen v dôsledku známej odchýlky vo vzorkovaní, ale aj preto, že predstavujú rôzne výsledky populácie. Vynechanie týchto variabilít medzi výsledkami (alebo v rámci štúdie) by mohlo viesť k skresleným štandardným odhadom chýb kombinovaného účinku a moderátorových premenných, ktoré odkazovali na výsledné premenné (Van den Noortgate, Opdenakker, & amp Onghena, 2005). Pridanie ďalšej druhej úrovne, ktorá modelovala rozptyl medzi výsledkami (alebo rozptyl veľkostí efektov medzi populáciou), mohlo byť štatisticky lepšie: veľkosti efektov (úroveň 1, úroveň vzorkovania: 268 veľkostí efektov) sú vnorené do výsledkov alebo do veľkostí efektov populácie (úroveň 2: 268 výstupov), výsledky (alebo veľkosti populačného efektu) sú vnorené do štúdií (štúdie úrovne 3: 45) a štúdie sú vnorené medzi autorov (úroveň 4: 34 autorov).

Za druhé, v rámci štúdií bolo možné špecifikovať viac úrovní na riešenie rôznych typov závislostí. Metaanalýza Soveri, Antfolk, Karlsson, Salo a Laine (2017) testuje účinnosť tréningu pracovnej pamäte. Pri pohľade konkrétne na analýzy vykonané na výsledku „fluidnej inteligencie“ vidíme, že autori použili metaanalytický trojúrovňový model, pretože veľkosti pozorovaného účinku (úroveň 1, úroveň vzorkovania: 133 veľkostí efektov) odkazovali na konkrétne veľkosti alebo výsledky konkrétneho populačného účinku. (výsledky 2: 133), ktoré boli súčasne začlenené do štúdií (štúdie 3: 25). Primárne štúdie však niekedy používali viac ako jednu liečebnú skupinu a porovnanie týchto liečebných skupín so spoločnou kontrolnou skupinou na konkrétnom výsledku viedlo k vzniku viacerých veľkostí účinku. Autori sa rozhodli vykonať metaanalýzu s fixným účinkom na týchto veľkostiach viacerých efektov v rámci porovnávaní s cieľom mať na jeden výsledok iba jednu veľkosť efektu. Túto stratégiu sumarizácie veľkostí efektov v rámci jednotky vyššej úrovne už navrhol Cooper (2015), nazvaný „Stratégia presunu analytickej jednotky“, poznámka pod čiarou 3. Hlavnými nevýhodami tohto prístupu je, že 1) zahŕňa stratu informácií a zníženie výkonu, 2) nemožno zahrnúť moderátorov, ktorí v štúdiách uvádzajú veľkosti efektov, a 3) simulačné štúdie ukázali, že odhad rozptylu medzi štúdiami je umelo redukovaná, keď je táto stratégia implementovaná (tj. Moeyaert et al., 2017). Platnou alternatívou je pridať úroveň do viacúrovňového modelu, ktorá zohľadňuje závislosť medzi veľkosťami efektov v dôsledku niekoľkých porovnaní: veľkosti efektov (úroveň 1 - úroveň vzorkovania) sú vnorené do výsledkov alebo do veľkostí efektov populácie (úroveň 2), ktoré sú vnorené do porovnania (úroveň 3), ktoré sú vnorené do štúdií (úroveň 4). Tento prístup umožňuje použitie všetkých veľkostí efektov a začlenenie moderátorových premenných, ktoré sa v štúdiách týkajú charakteristík veľkostí efektov.

Po tretie, mohla byť pridaná štvrtá úroveň s cieľom zohľadniť závislosť medzi vzorkami. Niektoré metaanalýzy usúdili, že veľkosti efektov patriace rôznym vzorkám z tej istej štúdie sú nezávislé. Lebuda, Zabelina a Karwowski (2016) skúmajú spojitosť medzi všímavosťou a kreativitou. Pri ich metaanalýze bolo 89 veľkostí efektov vnorených do 20 vzoriek. Tieto vzorky boli vložené do 13 štúdií, ale variabilita vzoriek v rámci štúdií nebola modelovaná. Lebuda a kol. (2016) sprístupnili svoj súbor údajov, takže sme mohli údaje znova analyzovať a namiesto trojúrovňového modelu určiť štvorúrovňový model. Keď bol nainštalovaný trojúrovňový model (ignorujúc, že ​​vzorky boli vnorené do štúdií), veľkosť kombinovaného účinku bola 0,219 so štandardnou chybou 0,065 a odchýlka medzi výsledkami bola 0,029 a odchýlka medzi vzorkami bola 0,066. Keď bol namontovaný štvorúrovňový model, združený efekt sa trochu zväčšil (0,239) a štandardná chyba sa mierne zvýšila (0,070). Rozptyl medzi štúdiami bol 0,014 a rozptyl medzi vzorkami sa znížil (0,054), zatiaľ čo rozptyl medzi výsledkami zostal rovnaký (0,029). Aj keď sa závery metaanalýzy nezmenili, jasne vidíme, ako sa štandardná chyba nejako zmenšila v dôsledku vynechania vyššej úrovne štúdie. Je tiež dôležité poznamenať, že 13 štúdií nemusí stačiť na správny odhad odchýlky medzi štúdiami.

Po štvrté, päťúrovňový model by mohol byť použitý na modelovanie dodatočných závislostí v rámci štúdie a/alebo medzi štúdiami. Metaanalýza Rabl, Jayasinghe, Gerhart a Kühlmann (2014) skúma rozdiely medzi krajinami vo vzťahu medzi vysoko výkonným pracovným systémom a výkonnosťou podniku. Bol nainštalovaný trojúrovňový model, kde niekoľko veľkostí efektov bolo vložených do 156 štúdií (úroveň 2), vložených do 30 krajín (úroveň 3). V rámci štúdií existovalo niekoľko veľkostí efektov, a preto sa autori rozhodli vypočítať lineárnu zloženú koreláciu týchto veľkostí efektov v rámci štúdie, aby sa vyhli závislosti. Ďalšou možnosťou by bolo pridať ďalšiu úroveň, ktorá by modelovala rozptyl medzi týmito koreláciami, a týmto spôsobom zachovať všetky údaje. Niektoré štúdie navyše používali rovnaký súbor údajov a autori priemerovali veľkosti účinkov štúdií, ktoré používali rovnaký súbor údajov. Namiesto priemerovania týchto účinkov v rámci štúdií mohla byť pridaná ďalšia piata úroveň, ktorá zodpovedala za odchýlku medzi súbormi údajov. Stručne povedané, mohol byť nasadený nasledujúci päťúrovňový model: veľkosti efektov (úroveň 1) vnorené do výstupov (úroveň 2), vnorené do štúdií (úroveň 3), vnorené do súborov údajov (úroveň 4), vnorené do krajín (úroveň 5) ).

Po piate a posledné, CCREM mohli byť použité namiesto trojúrovňových modelov. Pearce (2017) skúmal, či vystavenie strašidelnej televízii súvisí s internalizáciou správania sa detí (napr. Úzkosť, stres, depresia). V rámci primárnych štúdií bolo hlásených niekoľko veľkostí efektov odkazujúcich na rôzne internalizačné správanie a tiež niekoľko veľkostí efektov, ktoré sa vzťahovali na rovnaké správanie, ale boli merané rôznymi nástrojmi. Na zohľadnenie týchto závislých výsledkov bol nainštalovaný trojúrovňový model. Autor chcel kontrolovať skutočnosť, že na meranie rovnakého správania boli v rámci štúdií použité rôzne nástroje (str. 70). Na to, aby bolo možné túto premennú považovať za moderátora, bolo však príliš veľa (autor uvádza deväť). Niektoré nástroje boli navyše použité iba pre jednu veľkosť efektu, takže bolo opäť ťažké použiť túto premennú ako moderátora. Premenná „mierka“ preto nebola v analýzach použitá. Alternatívou by bolo zvážiť „škály“ ako náhodný efekt, krížený so štúdiami: veľkosti efektov (úroveň 1) sú vnorené do výsledkov a potom sú vnorené výsledky súčasne do štúdií a nástrojov (úroveň 3). Nástroje neboli vložené do štúdií, pretože ich bolo možné použiť v niekoľkých štúdiách. Štúdie tiež nie sú vnorené do nástrojov, pretože v rámci jednej štúdie bolo použitých niekoľko nástrojov. Popis podobného príkladu možno nájsť vo Fernández-Castilla et al. (2018). Uvažovanie „mierok“ ako náhodného faktora by výskumníkovi umožnilo zistiť, ako sa veľkosti efektov líšia v dôsledku použitia rôznych nástrojov.


Krok 3: Vyberte vzorku a zbierajte údaje

Ak už máte zoznam svojej populácie, náhodne vyberte začiatočný bod v zozname a odtiaľ vyberte všetky kten člen populácie, ktorý sa má zahrnúť do vašej vzorky.

Ak nemáte zoznam, vyberiete si každý kten člen populácie pre vašu vzorku súčasne so zberom údajov pre vašu štúdiu.

Rovnako ako pri jednoduchom náhodnom vzorkovaní by ste sa mali snažiť uistiť, že každý jednotlivec, ktorého ste si vybrali pre svoju vzorku, sa skutočne zúčastnil vašej štúdie. Ak tí, ktorí sa rozhodnú zúčastniť, tak urobia z dôvodov spojených s premennými, ktoré zbierate, mohlo by to ovplyvniť vašu štúdiu.

Príklad: Zhromažďovanie údajov Vyberiete si zamestnanca, ktorý bude stáť pri dverách a bude skúmať každého 20. zákazníka, ktorý odíde. Je dôležité, aby sa čo najviac z tých, ktorí boli vybraní do vzorky, rozhodli zúčastniť sa inak, vaše výsledky nemusia správne odrážať názory celej populácie.

Napríklad ľudia s obzvlášť dobrými alebo zlými názormi na obchod môžu byť ochotnejší zúčastniť sa než bežná populácia zákazníkov, a tým skresliť výsledky vášho prieskumu.


Štatistický význam

Aj keď v údajoch nájdeme vzory, často existuje neistota v rôznych aspektoch údajov. Napríklad môže existovať potenciál pre chyby merania (dokonca aj vaša telesná teplota môže v priebehu dňa kolísať takmer o 1 ° F). Alebo môžeme mať iba „snímku“ pozorovaní z dlhodobejšieho procesu alebo iba malú podmnožinu jednotlivcov zo záujmovej populácie. Ako v takýchto prípadoch môžeme určiť, či vzorce, ktoré vidíme v našom malom súbore údajov, sú presvedčivým dôkazom systematického javu vo väčšom procese alebo populácii?

Príklad 2: V štúdii uvedenej v novembri 2007 z Príroda, vedci skúmali, či predverbálne deti berú do úvahy činy jednotlivca voči iným pri hodnotení tohto jedinca ako príťažlivého alebo averzívneho (Hamlin, Wynn, & amp Bloom, 2007). V jednej časti štúdie sa 10-mesačným dojčatám ukázal charakter „horolezca“ (kus dreva s nalepenými očami „googly“), ktorý sa v dvoch pokusoch nedokázal dostať na kopec. Potom boli deťom ukázané dva scenáre pre ďalší pokus horolezca, jeden, kde horolezca tlačila na vrchol kopca iná postava („pomocník“), a druhý, kde horolezca tlačila späť z kopca iná postava („ prekážka “). Dieťaťu sa tieto dva scenáre striedavo zobrazovali niekoľkokrát. Potom dieťaťu predložili dva kusy dreva (predstavujúce postavy pomocníka a prekážky) a požiadali ho, aby si vybral jeden na hranie. Vedci zistili, že zo 16 dojčiat, ktoré sa rozhodli jasne, sa 14 rozhodlo hrať s hračkou pomocníka.

Jedným z možných vysvetlení tohto jasného väčšinového výsledku je, že pomáhajúce správanie sa jednej hračky zvyšuje pravdepodobnosť, že si deti vyberú túto hračku. Existujú však aj iné možné vysvetlenia? Čo farba hračky? Vedci pred zberom údajov usporiadali tak, aby každú farbu a tvar (červený štvorec a modrý kruh) videl rovnaký počet dojčiat. Alebo mohli mať deti sklony k pravostranným pohybom, a tak si vybrali hračku, ktorá im bola bližšia? Vedci ich pred zberom údajov usporiadali tak, že polovica detí videla pomocnú hračku napravo a polovicu naľavo. Alebo možno mali tvary týchto drevených znakov (štvorec, trojuholník, kruh) vplyv? Možno, ale opäť to vedci kontrolovali otáčaním, v ktorom tvare bola pomocná hračka, prekážková hračka a horolezec. Pri navrhovaní experimentov je dôležité, aby ovládanie pre čo najviac premenných, ktoré by mohli ovplyvniť reakcie.

Začína sa zdať, že vedci zodpovedali za všetky ostatné hodnoverné vysvetlenia. Existuje však ešte jedna dôležitá úvaha, ktorú nemožno kontrolovať - ​​ak by sme štúdiu vykonali znova s ​​týmito 16 deťmi, nemuseli by urobiť rovnaké rozhodnutia. Inými slovami, nejaké existujú náhodnosť neoddeliteľnou súčasťou ich výberového procesu. Možno každé dieťa vôbec nemalo žiadnu úprimnú preferenciu a bolo to jednoducho „náhodné šťastie“, ktoré viedlo k tomu, že si 14 detí vybralo pomocnú hračku. Aj keď tento náhodný komponent nemožno ovládať, môžeme použiť a pravdepodobnostný model preskúmať štruktúru výsledkov, ktoré by sa vyskytovali v dlhodobom horizonte, ak by jediným faktorom bola náhodná náhoda.

Ak bolo u detí rovnako pravdepodobné, že si vyberú medzi týmito dvoma hračkami, potom každé dieťa malo 50% šancu, že si vyberie pomocnú hračku. Je to ako každé dieťa, ktoré hodilo mincou, a ak pristálo na hlave, dieťa si vybralo pomocnú hračku. Ak by sme teda hodili mincou 16 -krát, mohlo by to zhodiť hlavy 14 -krát? Iste, je to možné, ale ukazuje sa to ako veľmi nepravdepodobné. Dostať 14 (alebo viac) hláv v 16 hodoch je asi rovnako pravdepodobné ako hodiť mincou a získať 9 hláv v rade. Táto pravdepodobnosť sa označuje ako a p-hodnota. Hodnota p hovorí o tom, ako často by náhodný proces priniesol výsledok prinajmenšom taký extrémny, ako bol zistený v skutočnej štúdii, za predpokladu, že v hre nebolo nič iné ako náhodná šanca. Ak teda predpokladáme, že si každé dieťa vybralo rovnako, potom je pravdepodobnosť, že si pomocnú hračku vyberie 14 alebo viac zo 16 dojčiat, 0,0021. Máme iba dve logické možnosti: buď deti skutočne preferujú pomocnú hračku, alebo deti ich preferujú (50/50) a v tejto štúdii sa vyskytol výsledok, ktorý by sa vyskytol iba dvakrát z 1 000 iterácií. Pretože táto hodnota p 0,0021 je dosť malá, dospeli sme k záveru, že štúdia poskytuje veľmi silný dôkaz, že tieto deti skutočne preferujú pomocnú hračku. Hodnotu p často porovnávame s nejakou medznou hodnotou (nazýva sa úroveň význam, typicky okolo 0,05). Ak je hodnota p menšia ako táto medzná hodnota, potom odmietame hypotézu, že by tu hrala iba náhodná náhoda. V tomto prípade by títo vedci dospeli k záveru výrazne viac ako polovica detí v štúdii si vybrala pomocnú hračku, čo je silným dôkazom skutočnej preferencie hračky s pomáhajúcim správaním.


Náhodné vzorkovanie

Náhodné vzorkovanie alebo vzorkovanie pravdepodobnosti je metóda vzorkovania, ktorá umožňuje randomizáciu výberu vzorky, tj. Každá vzorka má rovnakú pravdepodobnosť ako ostatné vzorky, ktoré sa majú vybrať, aby slúžili ako reprezentácia celej populácie.

Náhodný výber je považovaný za jednu z najobľúbenejších a najjednoduchších metód zberu údajov vo výskumných oblastiach (pravdepodobnosť a štatistika Štatistika Štatistika je termín, ktorý je odvodený z latinského slova status, čo znamená skupinu čísel, ktoré sa používajú na reprezentáciu informácií o matematike. , atď.). Umožňuje nestranný zber údajov, ktorý umožňuje štúdiám dospieť k nezaujatým záverom.

Zhrnutie

  • Náhodné vzorkovanie, tiež známe ako vzorkovanie pravdepodobnosti, je metóda vzorkovania, ktorá umožňuje randomizáciu výberu vzorky.
  • Je dôležité mať na pamäti, že vzorky nie vždy poskytujú presnú reprezentáciu súboru v celom rozsahu, preto sú akékoľvek odchýlky označované ako chyby vzorkovania.
  • Existujú štyri primárne, náhodné (pravdepodobnostné) vzorkovacie metódy a jednoduché náhodné vzorkovanie, systematické vzorkovanie, stratifikované vzorkovanie a klastrové vzorkovanie.

Typy metód náhodného odberu vzoriek

Existujú štyri primárne, náhodné (pravdepodobnostné) metódy vzorkovania. Ide o tieto metódy:

1. Jednoduché náhodné vzorkovanie

Jednoduchý náhodný výber je randomizovaný výber malého segmentu jednotlivcov alebo členov z celej populácie. Každému jednotlivcovi alebo členovi populácie poskytuje rovnakú a spravodlivú pravdepodobnosť, že bude vybraný. Jednoduchá metóda náhodného vzorkovania je jednou z najpohodlnejších a najjednoduchších techník výberu vzorky.

2. Systematické vzorkovanie

Systematický výber vzoriek je výber konkrétnych jednotlivcov alebo členov z celej populácie. Výber často nasleduje po vopred určenom intervale (k). Systematická metóda vzorkovania je porovnateľná s jednoduchou metódou náhodného vzorkovania, ale jej vykonávanie je menej komplikované.

3. Stratifikovaný odber vzoriek

Stratifikované vzorkovanie, ktoré zahŕňa rozdelenie populácie do podtried s výraznými rozdielmi a odchýlkami. Metóda stratifikovaného vzorkovania je užitočná, pretože umožňuje výskumníkovi robiť spoľahlivejšie a informovanejšie závery potvrdením, že každá príslušná podtrieda bola vo vybranej vzorke primerane zastúpená.

4. Odber vzoriek klastrov

Klastrový odber vzoriek, ktorý je podobne ako metóda stratifikovaného vzorkovania stratifikovaným náhodným odberom vzoriek stratifikovaným náhodným vzorkovaním metóda vzorkovania, v ktorej je skupina populácie rozdelená do jednej alebo viacerých odlišných jednotiek a nazýva sa vrstvy a ndash, zahŕňa rozdelenie populácie do podtried. Každá z podtried by mala zobrazovať porovnateľné charakteristiky s celou vybranou vzorkou. Táto metóda zahŕňa náhodný výber celej podtriedy, na rozdiel od vzorkovania členov z každej podtriedy. Táto metóda je ideálna pre štúdie, ktoré zahŕňajú široko rozšírené populácie.

Praktický príklad

Spoločnosť v súčasnosti zamestnáva 850 osôb. Spoločnosť chce uskutočniť prieskum s cieľom zistiť spokojnosť zamestnancov na základe niekoľkých identifikovaných premenných. Výskumný tím sa rozhodne, že vzorku stanoví pre 85 zamestnancov.85 zamestnancov bude súčasťou prieskumu a bude slúžiť ako reprezentácia pre celkový počet obyvateľov 850 zamestnancov.

V takom prípade je vzorkou 85 zamestnancov a populácia predstavuje celú pracovnú silu pozostávajúcu z 850 osôb. Na základe veľkosti vzorky môže byť do prieskumu vybratý ktorýkoľvek zamestnanec z pracovnej sily. Hovorí sa, že každý zamestnanec má rovnakú pravdepodobnosť, že bude náhodne vybraný do prieskumu.

Je dôležité mať na pamäti, že vzorky nie vždy prinášajú presnú reprezentáciu populácie v celom jej rozsahu, preto sú akékoľvek odchýlky označované ako chyby výberu. . Sú rozdielom medzi. Chyba vzorkovania môže byť definovaná ako rozdiel medzi príslušnou štatistikou (hodnoty vzorky) a parametrami (hodnoty súboru). Pri použití vzorových údajov je chyba vzorkovania nevyhnutná.

Prečo na nezaujatom náhodnom vzore záleží

Nestranný náhodný odber vzoriek má za následok spoľahlivejšie a nestrannejšie závery.

Vyššie uvedený prieskum spokojnosti zamestnancov napríklad používa veľkosť vzorky 85 zamestnancov. Z týchto zamestnancov je možné do štúdie vybrať viac žien ako mužov, napriek tomu, že celá pracovná sila mala 450 mužov a 400 žien. Výsledkom by bola chyba vzorkovania, pretože spôsobuje odchýlky v získaných výsledkoch. V ideálnom prípade by výsledky mali byť objektívne a nezaujaté.

Odber vzoriek pravdepodobnosti (náhodný) vs. odoberanie vzoriek s pravdepodobnosťou

Pravdepodobnosť & náhodný výber vzoriek & ndash je náhodný výber účastníkov vzorky na odvodenie záverov a predpokladov o celej populácii. Na druhej strane, vzorkovanie bez pravdepodobnosti je výber účastníkov vzorky na základe špecifikovaných kritérií alebo vhodnosti.

Viac zdrojov

CFI je oficiálnym poskytovateľom globálnej stránky Commercial Banking & amp Credit Analyst (CBCA) & reg Program Page - CBCA Získajte certifikáciu CBCA & trade od CFI a staňte sa komerčným bankovým a úverovým analytikom. Zaregistrujte sa a rozvíjajte svoju kariéru pomocou našich certifikačných programov a kurzov. certifikačný program, ktorého cieľom je pomôcť každému stať sa finančným analytikom svetovej triedy. Na to, aby ste mohli pokračovať v kariére, budú užitočné ďalšie zdroje CFI uvedené nižšie:

  • Základné koncepty štatistiky vo financiách Základné koncepty štatistiky pre financie Dobré porozumenie štatistikám je zásadne dôležité, pretože nám pomáha lepšie porozumieť financiám. Štatistické koncepty môžu navyše pomôcť investorom monitorovať
  • Inferenciálna štatistika Inferenčná štatistika Inferenčná štatistika umožňuje robiť popisy údajov a vyvodzovať z nich závery a závery. Prostredníctvom
  • Parameter Parameter Parameter je užitočnou súčasťou štatistickej analýzy. Vzťahuje sa na charakteristiky, ktoré sa používajú na definovanie danej populácie. Je zvyknutý
  • Distribúcia vzoriek Distribúcia vzoriek Distribúcia vzoriek sa týka distribúcie pravdepodobnosti štatistiky, ktorá pochádza z výberu náhodných vzoriek danej populácie.

Certifikácia finančného analytika

Staňte sa certifikovaným analytikom finančného modelovania a oceňovania (FMVA) & reg Staňte sa certifikovaným analytikom finančného modelovania a oceňovania (FMVA) a analytikom finančného modelovania a oceňovania (FMVA) a reg CFI vám pomôže získať dôveru, ktorú vo svojej finančnej kariére potrebujete. Zaregistrujte sa ešte dnes! absolvovaním online kurzov finančného modelovania a školiaceho programu CFI & rsquos!


Prehliadať celý prehľad

Pri systematickom náhodnom vzorkovaní výskumník najskôr náhodne vyberie prvú položku alebo predmet z populácie. Potom výskumník vyberie každý n '. predmet zo zoznamu.

Procedúra systematického náhodného vzorkovania je veľmi jednoduchá a dá sa vykonať ručne. Výsledky sú reprezentatívne pre populáciu, pokiaľ sa určité charakteristiky populácie neopakujú pre každého n '. jedinca, čo je veľmi nepravdepodobné.

Proces získavania systematickej vzorky je veľmi podobný aritmetickému postupu.

  1. Štartové číslo:
    Výskumník vyberie celé číslo, ktoré musí byť menšie ako celkový počet jednotlivcov v populácii. Toto celé číslo bude zodpovedať prvému predmetu.
  2. Interval:
    Výskumník vyberie ďalšie celé číslo, ktoré bude slúžiť ako konštantný rozdiel medzi akýmikoľvek dvoma po sebe nasledujúcimi číslami v postupe.

Celé číslo je zvyčajne vybrané tak, aby výskumník získal správnu veľkosť vzorky

Výskumník má napríklad celkovú populáciu 100 osôb a potrebuje 12 subjektov. Najprv si vyberie svoje štartové číslo 5.

Potom výskumník vyberie svoj interval, 8. Členmi jeho vzorky budú jednotlivci 5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93.

Iní vedci používajú upravenú systematickú techniku ​​náhodného vzorkovania, pri ktorej najskôr identifikujú potrebnú veľkosť vzorky. Potom vydelia celkový počet obyvateľov veľkosťou vzorky, aby získali vzorkovaciu frakciu. Odberová frakcia sa potom použije ako konštantný rozdiel medzi subjektmi.


Miera liečby porúch užívania alkoholu: systematický prehľad a metaanalýza

Ciele: Odhadnúť mieru liečby porúch užívania alkoholu (AUD) v bežnej dospelej populácii. Miera ošetrenia sa zvažovala aj vo vzťahu k ekonomickým rozdielom.

Metódy: Systematický prehľad a metaanalýza. Prehľadali sme databázy PubMed, EMBASE, PsycINFO a CINAHL, aby sme zistili štúdie, ktoré uvádzali mieru liečby porúch užívania alkoholu v bežnej populácii. Nezávislí recenzenti preverili články na základe vopred definovaných kritérií zaradenia. Dáta boli extrahované pomocou štandardizovaného formulára na extrakciu údajov. Vykonali sme hodnotenia kvality zahrnutých štúdií. Celková miera liečby bola odhadnutá zo štúdií, ktoré uvádzali akúkoľvek liečbu AUD zo zdravotníctva alebo z neformálnych nelekárskych zariadení (akákoľvek liečba). Odhadli sme oddelené miery liečby pre každú diagnostickú kategóriu, ako sa uvádza v primárnych štúdiách: AUD ako jedna porucha, zneužívanie alkoholu a závislosť od alkoholu. Dáta boli zhromaždené pomocou modelu s náhodným efektom.

Výsledky: Zahrnutých bolo 32 článkov na odhad miery liečby (percento ošetrených z celkového počtu ľudí s AUD). Súhrnný odhad osôb s AUD, ktorí absolvovali akúkoľvek liečbu, bol 14,3% (95% IS: 9,3-20,3%) na zneužívanie alkoholu, 16,5% (95% IS: 12-21,5%) na závislosť od alkoholu a 17,3% (95% CI : 12,8-22,3%) pre AUD. Analýza podskupiny podľa ekonomickej klasifikácie krajín Svetovou bankou zistila, že miera spracovania pre AUD bola 9,3% (95% IS: 4,0-15,7%) v krajinách s nízkymi a nižšími strednými príjmami.

Záver: Celosvetovo sa lieči približne každý šiesty človek s AUD. Miera ošetrenia AUD je spravidla nízka, v krajinách s nízkymi a nižšími strednými príjmami dokonca ešte nižšie.

Kľúčové slová: Poruchy užívania alkoholu globálne využitie služieb duševného zdravia v zdravotníctve využitie medzier v systémoch duševného zdravia pri hľadaní rozdielov.