Informácie

Oprava individuálnych rozdielov v použití (použitý rozsah) hodnotiacich stupníc

Oprava individuálnych rozdielov v použití (použitý rozsah) hodnotiacich stupníc



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Experimenty, ktoré zhromažďujú subjektívne hodnotenia (napr. Na stupnici Likert 1-7), musia nevyhnutne zohľadňovať rozdiely medzi subjektmi v tom, ako rozsah hodnotiacej stupnice používajú rôzni ľudia, tj skutočnosť, že z rôznych dôvodov sú niektoré subjekty ich používanie na škále je dosť obmedzujúce (napr. len zriedka hodnotia nižšie ako 3 alebo vyššie ako 5), zatiaľ čo iné používajú celú škálu celkom liberálne. Viem, že na tento problém stačí jednoducho z-ohodnotiť všetky prvotné hodnotenia v rámci každého predmetu.

Ďalším problémom, ktorý sa často vyskytuje pri takýchto súboroch údajov, je, keď sa ukáže (ako z diskusií po ukončení štúdie), že subjekty zmenia svoju stratégiu využívajúcu škálu. počas kurzu experimentu, napríklad ak si uvedomia, že položka, ktorú predtým ohodnotili ako 7, v skutočnosti skutočne nebola hodná hodnotenia 7, pretože aktuálna položka je v skutočnosti „hodná 7“, a tak si želajú, aby by sa mohol vrátiť a opraviť predchádzajúce hodnotenie, povedzme, na 5 alebo 6 - čo im experimentálna paradigma nemusí dovoliť.

Moja otázka: Existuje nejaký štatistický spôsob nápravy tohto druhého druhu problému, t.j. vo vnútri-variabilita predmetu v použití hodnotiacej škály? Je zrejmé, že bodové hodnotenie z v rámci subjektu nerobí nič, čo by vyriešilo tento druh zmeny stratégie stredného experimentu v spôsobe hodnotenia stupnice; a v skutočnosti funguje iba na eliminácii variability medzi subjektmi, ak sa predpokladá, že variabilita medzi subjektmi opísaná vyššie je zanedbateľná.

Všimnite si toho, že na predchádzajúcu otázku, ktorú som mal k téme hodnotiacich stupníc, niekto užitočne navrhol, že problém variability medzi subjektmi je možné obmedziť použitím „kotviacich bodov“ počas inštrukcií, tj. Poskytnutím príkladov subjektom toho, čo znamená „1 „stimulom“ a tiež tým, čo sú stimuly „7“, podobné. To by samozrejme vyriešilo oba vyššie popísané problémy, ale predpokladá to, že počas zberu údajov boli poskytnuté správne pokyny, zatiaľ čo moja otázka sa týka opravy existujúceho súboru údajov, ktorý pravdepodobne proti tomuto neočkoval.


VÝSLEDKY

Analýza VBM odhalila, že interindividuálna variabilita objemu šedej hmoty ľavého TPJ pozitívne korelovala s antropomorfizmom nehumánnych zvierat, ako je indexované skóre zvierat IDAQ (obrázok 1), t (77) = 4.80, P = 0,004, súradnica MNI x = −45, y = −54, z = 27, veľkosť zhluku 24 voxelov (81 mm 3) pri prahu korigovaného FWE P <0,05 s použitím korekcie malého objemu definovanej mentalizačnou maskou z Dumontheilu (2010). Tento výsledok bol tiež viditeľný pri použití inej masky na korekciu malého objemu prevzatej z metaanalýzy Van Overwalle a Baetens (2009), t (77) = 4.80, P = 0,005, veľkosť klastra 23 voxelov (78 mm 3) Súradnice MNI x = −45, y = −54, z = 27. Veľkosti klastrov pre obe masky pre P <0,001 neopravených je uvedených v tabuľke 1.

Oblasť, v ktorej objem šedej hmoty vykazoval koreláciu s antropomorfizmom zvierat iných ako ľudských, je zobrazený prekrytý na T1-váženom anatomickom obrázku MRI v stereotaktickom priestore templátu MNI. Rezy v priereze sú: vľavo hore sagitálne, vpravo hore koronálne a vľavo dole axiálne. Krížik identifikuje zhluk v ľavom temporoparietálnom spojení (−45, ​​−54, 27, súradnice MNI), ktorý vykazuje štatisticky významný ( P <0,05 FWE-korigované na skúmaný objem) pozitívna korelácia s antropomorfizmom nehumánnych zvierat, meraná zvieracím IDAQ. Prah je nastavený na P <0,001 neopravené, prahová hodnota rozsahu = 10, na ilustračné účely, veľkosť klastra = 230 mm 3 (81 mm 3 pri P <0,05 FWE-korigované na skúmaný objem). Farebná škála označuje t- hodnotu pre údaje.

Oblasť, v ktorej objem sivej hmoty vykazoval koreláciu s antropomorfizmom nehumánnych zvierat, je zobrazený prekrytý na T1 váženom anatomickom obrázku MRI v stereotaktickom priestore templátu MNI. Rezy v priereze sú: vľavo hore sagitálne, vpravo hore koronálne a vľavo dole axiálne. Krížové vlasy identifikujú klaster v ľavom temporoparietálnom spojení (−45, ​​−54, 27, súradnice MNI), ktorý vykazuje štatisticky významný ( P <0,05 FWE-korigované na skúmaný objem) pozitívna korelácia s antropomorfizmom nehumánnych zvierat, meraná zvieracím IDAQ. Prah je nastavený na P <0,001 neopravené, prahová hodnota rozsahu = 10, na ilustračné účely, veľkosť klastra = 230 mm 3 (81 mm 3 pri P <0,05 FWE-korigované na skúmaný objem). Farebná škála označuje t- hodnota pre údaje.

Veľkosť klastra pre obe masky ( P & lt 0,001, neopravené)

Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27
Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27

Regióny uvedené v tabuľke sú významné po úprave malého objemu, P <0,05. Veľkosť klastra je počet susediacich voxelov v klastri na P <0,001, neopravené.

Veľkosť klastra pre obe masky ( P & lt 0,001, neopravené)

Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27
Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27

Regióny uvedené v tabuľke sú významné po úprave malého objemu, P <0,05. Veľkosť klastra je počet susediacich voxelov v klastri na P <0,001, neopravené.

Žiadna iná oblasť mozgu nedosiahla štatistickú významnosť pre pozitívnu koreláciu medzi antropomorfizmom zvierat iných ako je objem šedej hmoty ( P <0,05, FWE opravené buď na objem celého mozgu, alebo na mentalizujúcu masku). Žiadna oblasť nepreukázala negatívnu koreláciu s antropomorfizmom nehumánnych zvierat, ktoré prežili náš prah pre štatistickú významnosť. Konkrétne nebola pozorovaná žiadna korelácia medzi stupňom antropomorfizmu a objemom šedej hmoty v pravom TPJ.

Neboli nájdené žiadne oblasti, ktoré by vykazovali pozitívnu koreláciu s antropomorfizmom neživočíšnych stimulov a prežili korekciu pre viacnásobné porovnania v rámci NI. Mimo oblastí záujmu, vybraných na základe našej hypotézy, sme vykonali analýzu celého mozgu s cieľom nájsť ďalšie oblasti mozgu, ktoré by korelovali s antropomorfizmom nehumánnych zvierat alebo neživočíšnych stimulov: nenašli sa však žiadne oblasti, ktoré by vykazovali pozitívny alebo negatívna korelácia s ktorýmkoľvek faktorom a prežila korekciu pre viacnásobné porovnania v celom mozgu.


Populárne typy otázok z prieskumu

Nasleduje niekoľko najbežnejšie používaných typov otázok z prieskumu a spôsob, akým ich možno použiť na vytvorenie skvelého prieskumu. Ak chcete zistiť, ako môžu vyzerať jednotlivé typy otázok z prieskumu, navštívte stránku vzorových otázok.

Otázky s možnosťou výberu z viacerých odpovedí

Otázky s možnosťou výberu z viacerých odpovedí sú najobľúbenejším typom otázok v prieskume. Umožňujú vašim respondentom vybrať si jednu alebo viac možností zo zoznamu odpovedí, ktoré definujete. Sú intuitívne, ľahko použiteľné rôznymi spôsobmi, pomáhajú vytvárať ľahko analyzovateľné údaje a poskytujú možnosti, ktoré sa navzájom vylučujú. Pretože sú možnosti odpovedí pevné, majú vaši respondenti jednoduchšiu prácu s prieskumom.

Najdôležitejšie je, že dostanete štruktúrované odpovede z prieskumu, ktoré poskytujú čisté údaje na analýzu.

Otázky s možnosťou výberu z viacerých odpovedí prichádzajú v mnohých rôznych formátoch.

Najzákladnejšou variáciou je otázka s jednou odpoveďou s možnosťou výberu z viacerých odpovedí. Otázky s jednou odpoveďou používajú formát prepínača (kruhové tlačidlá predstavujú možnosti v zozname), aby respondenti mohli kliknúť iba na jednu odpoveď. Fungujú dobre na binárne otázky, otázky s hodnotením alebo nominálne stupnice.

Takto môže vyzerať otázka s jedinou odpoveďou:

Otázky s viacerými odpoveďami s viacerými odpoveďami sa často zobrazujú so štvorcovými políčkami. Umožňujú respondentom zaškrtnúť všetky možnosti, ktoré sa ich týkajú. Napríklad „„ Akým z nasledujúcich spôsobov používate náš produkt? “

Bežnou nevýhodou otázok s možnosťou výberu z viacerých odpovedí je, že vás nútia obmedziť odpovede na vopred určený zoznam možností. To môže spôsobiť skreslenie vašich výsledkov. Čo keď sa žiadna z vašich možností odpovedí nevzťahuje na vašich respondentov? Môžu vybrať iba náhodnú odpoveď, čo môže mať vplyv na presnosť vašich výsledkov.

Tento problém môžete vyriešiť pridaním „inej“ možnosti odpovede alebo poľa pre komentár. Mal by byť uvedený na konci všetkých vašich možností. Keď to respondenti uvidia, vedia, že majú možnosť odpovedať na vašu otázku vlastnými slovami namiesto vašich.

Odošlite svoj prieskum veľkej alebo malej skupine ľudí s našimi online panel publika.

Hodnotiace stupnice

V otázkach škály hodnotenia (niekedy označovaných ako radové otázky) otázka zobrazuje škálu možností odpovedí z akéhokoľvek rozsahu (0 až 100, 1 až 10 atď.). Respondent vyberie číslo, ktoré najpresnejšie predstavuje jeho odpoveď.

Otázky Net Promoter Score® sú dobrým príkladom otázok z hodnotiacej škály. Pomocou škály zisťujú, aká je pravdepodobnosť, že zákazníci odporučia ich produkt alebo službu.

Pri hodnotiacich otázkach a číselných hodnotiacich škálach je dôležité poskytnúť respondentovi kontext. Predstavte si napríklad, že ste si položili otázku: „Ako veľmi máte radi zmrzlinu? Bez vysvetlenia hodnoty čísel na vašej stupnici by numerická hodnotiaca stupnica nemusela mať veľký zmysel.

Likertove váhy

Je pravdepodobné, že ste tento typ otázky už videli. Otázky Likertovej škály sú otázky „súhlasíte alebo nesúhlasíte“, ktoré často vidíte v prieskumoch, a slúžia na vyhodnotenie názorov a pocitov respondentov.

Otázky podľa Likertovej škály poskytujú respondentom množstvo možností - napríklad od „vôbec nepravdepodobného“ po škálovanie až po „extrémne pravdepodobné“. Preto dobre fungujú na pochopenie konkrétnej spätnej väzby. Prieskumné otázky pre zamestnancov napríklad často používajú Likertovu stupnicu na meranie ich názorov alebo postojov k rade tém.

Maticové otázky

Ak chcete položiť niekoľko otázok za sebou, ktoré majú rovnaké možnosti odpovedí, maticové otázky sú vašou najlepšou možnosťou. Séria otázok typu Likertova škála alebo séria otázok na škále hodnotenia môže dobre fungovať ako maticová otázka. Maticové otázky môžu veľa obsahu zjednodušiť, ale je dôležité ich používať opatrne. Veľmi veľké matice, ako tá nižšie, môžu byť mätúce a ťažko použiteľné na mobilných zariadeniach.

Rozbaľovacie otázky

Rozbaľovacia otázka je jednoduchý spôsob, ako zobraziť dlhý zoznam odpovedí s možnosťou výberu z viacerých odpovedí bez toho, aby ste zahltili svojich respondentov. Vďaka tomu im môžete poskytnúť posúvateľný zoznam odpovedí, z ktorých si môžu vyberať.

Niekedy môže zobrazenie všetkých možností odpovedí naraz ponúknuť vašim respondentom užitočný kontext k otázke. Majte to na pamäti, kedykoľvek vo svojom prieskume použijete viac ako jednu rozbaľovaciu otázku.

Otázky s otvoreným koncom

Otázky s otvoreným prieskumom vyžadujú, aby respondenti napísali svoju odpoveď do poľa pre komentáre a neposkytli konkrétne vopred nastavené možnosti odpovedí. Odpovede sa potom zobrazujú jednotlivo alebo pomocou nástrojov na analýzu textu.

Pokiaľ ide o analýzu údajov, otvorené otázky nie sú najlepšou možnosťou. Nie je ľahké kvantifikovať písomné odpovede, a preto sú textové polia lepšie na poskytovanie kvalitatívnych údajov. Umožnenie vašim respondentom ponúkať spätnú väzbu vlastnými slovami by vám mohlo pomôcť odhaliť príležitosti, ktoré ste inak mohli prehliadnuť. Ak však hľadáte údaje na analýzu, možno sa budete chcieť zapojiť do kvantitatívneho marketingového výskumu a využiť uzavreté otázky.

Pro tip: Spárujte uzavreté otázky s otvorenými, aby ste lepšie porozumeli svojim kvantitatívnym údajom a lepšie ich riešili. Po otázke Čistý propagátor sa môžete napríklad opýtať:


Psychologická pohoda u pacientov na „adekvátnych“ dávkach l-tyroxínu: výsledky rozsiahlej, kontrolovanej komunitnej dotazníkovej štúdie

Cieľ: Viac ako 1% britskej populácie dostáva náhradu hormónu štítnej žľazy l-tyroxínom (T4). Mnoho pacientov sa však sťažuje na pretrvávajúcu letargiu a súvisiace symptómy na T4 aj pri normálnych hladinách TSH. Doteraz nebola vykonaná žiadna rozsiahla štúdia na určenie, či to súvisí s náhradou tyroxínom alebo náhodnou psychologickou morbiditou. Preto sme sa pokúsili vyriešiť tento problém pomocou rozsiahlej komunitnej štúdie.

Dizajn a pacienti: Na identifikáciu 961 pacientov, ktorí užívali tyroxín najmenej 4 mesiace z populácie 63 000 (1,5%), sa použili počítačové záznamy o predpisovaní piatich všeobecných postupov spolu s kontrolami zodpovedajúcimi veku a pohlaviu. Všetkým 1922 osobám bol zaslaný dvojstranový dotazník, ktorý je tvorený krátkou formou všeobecného zdravotného dotazníka (GHQ-12), určeného na zisťovanie menších psychiatrických porúch v komunite, a 12-otázkovým „dotazníkom pre symptómy štítnej žľazy“ (TSQ). ) v rovnakom formáte. Sprievodný list vysvetlil, že nás zaujíma „ako sa pacienti cítia pri užívaní liekov“ a nijako sa priamo nevzťahoval na tyroxín.

Merania: Skóre z GHQ a TSQ boli označené pre každého jednotlivca pomocou GHQ a Likertových skórovacích metód. Najnovšie merania TSH pacientov boli získané z laboratórnych záznamov. Potom sa uskutočnili porovnania skóre pre celkový GHQ-12, TSQ a jednotlivé otázky medzi pacientskou (P) a kontrolnou (C) skupinou. Vykonali sa samostatné analýzy porovnávajúce pacientov s normálnym TSH (nP) a kontrolnou skupinou.

Výsledky: Päťsto deväťdesiat sedem (62%) pacientov (P) a 551 (57%) kontrolných (C) odpovedalo a vyplnilo najmenej jeden z dvoch dotazníkov. Tristodeväťdesiatsedem odpovedajúcich pacientov (nP) malo odhad TSH vykonaný v predchádzajúcich 12 mesiacoch s tým, že posledný výsledok bol v TSL v miestnom laboratórnom normálnom rozmedzí (0,1-5,5 alebo 0,2-6,0 mU/l, podľa testu použitá metóda). Reagujúce populácie P, nP a C boli dobre zladené podľa veku (59,96, 59,73, 59,35 roka) a pohlavia (85%, 83%, 87%žien). Počet jedincov, ktorí na GHQ-12 dosiahli skóre 3 alebo viac (čo naznačuje „kazivosť“), bol o 21%vyšší v prípade P ako C [185/572 (32,3%) vs. 137/535 (25,6%), P = 0,014] a O 26%vyššie v nP ako C [131/381 (34,4%) vs. 137/535 (25,6%), P <0,005]. Silnejšie rozdiely boli pozorované pri skóre TSQ [C = 187/535 (35,0%), P = 273/583 (46,8%), P <0,001, P vs. C a nP = 189/381 (48,6%), P

Závery: Táto komunitná štúdia je prvým dôkazom, ktorý naznačuje, že pacienti na náhrade tyroxínu dokonca s normálnym TSH vykazujú významné zhoršenie psychickej pohody v porovnaní s kontrolami podobného veku a pohlavia. Vzhľadom na veľký počet ľudí, ktorí užívajú náhradu tyroxínu, sa domnievame, že tieto rozdiely, aj keď nie sú veľké, by mohli prispieť k významnej psychickej chorobnosti u značného počtu jednotlivcov.


Metóda

Účastníci

Účastníkom bolo 60 detí (31 dievčat a 29 chlapcov) vo veku od 5 do 12 rokov (M = 8.07, SD = 2,37), prijatých z inzerátov umiestnených v miestnych knižniciach, komunitných novinách a detských skupinách. Deti boli rozdelené do troch vekových kategórií: 5 až 6 rokov, n = 20 (10 dievčat, 10 chlapcov) 7 až 9 rokov, n = 20 (12 dievčat, 8 chlapcov) 10 až 12 rokov, n = 20 (9 dievčat, 11 chlapcov), aby boli v súlade s predchádzajúcim výskumom skúmajúcim rozdiely súvisiace s vekom v chápaní emócií u detí (Banerjee, 1997). Boli náhodne zaradení buď do troch možností (n = 30 18 dievčat, 12 chlapcov) alebo s piatimi možnosťami (n = 30 13 dievčat, 17 chlapcov) skupina odpovedí. Priradenie k skupinám odpovedí s tromi a piatimi možnosťami bolo vo vekových skupinách vyvážené. Deti pochádzali z rodín strednej a vyššej triedy (M = 24.96, SD = 11,06 Hollingshead Index Level II Miller, 1977). Etická komisia pre behaviorálny výskum Univerzity Britskej Kolumbie schválila túto štúdiu. Od rodičov bol získaný písomný informovaný súhlas a základné demografické informácie a od detí verbálny súhlas. Deti dostali certifikát a nálepku na potvrdenie účasti.

Postup

Deti boli testované jednotlivo v tichej miestnosti na psychologickej klinike Univerzity Britskej Kolumbie (n = 57) alebo v tichom prostredí vo svojom vlastnom dome (n = 3) a boli testované buď jedným z nás (CTC n = 40) alebo vyškolený vysokoškolský asistent v oblasti výskumu (n = 20). Po verbálnom súhlase boli deti oboznámené s možnosťami reakcie, ktoré budú používať. Experimentátor dal dieťaťu nasledujúce pokyny: „Dnes vám položím niekoľko otázok o tom, ako sa cítite a ako si myslíte, že by ostatní ľudia mohli vyzerať alebo sa cítiť. Dám vám niekoľko možností, z ktorých si môžete vybrať svoju odpoveď. Pozrite sa sem, toto sú rôzne možnosti, z ktorých si môžete vybrať svoju odpoveď. Na otázky neexistujú správne ani nesprávne odpovede, chcem len počuť, čo si myslíte. Kedykoľvek vám položím otázku, môžete buď povedať „vôbec“, „trochu“ alebo „veľa“ (alebo ak v skupine s piatimi odpoveďami „vôbec“, „málo“ „trochu“, „dosť málo“ alebo „veľa“). Môžete mi ich prosím nahlas zopakovať? “ Deťom boli ukázané ich možnosti reakcie na kus laminovaného papiera s rozmermi 6 palcov × 12 palcov. Možnosti odpovede boli napísané tučným písmom s 38 bodmi a každá voľba sa zobrazila v textovom poli s rozmermi 2 palce × 2 palce. Ak dieťa nedokázalo samo zopakovať možnosti reakcie, experimentátor ich opakoval, kým to dieťa nedokázalo. Potom boli deti požiadané, aby splnili všetky tri nižšie popísané úlohy, a tiež sedempoložkový dotazník pocitov, ktorý deti vyzval, aby zhodnotili, ako sú šťastné, smutné, nahnevané, vzrušené, pokojné/uvoľnené, nervózne/ustarané, vystrašené/strach pocit počas dňa, keď boli testovaní (tj. „dnes“) (Chambers & amp Craig, 1998). Úlohy a dotazník boli deťom verbálne podávané. Deti v každej skupine s výberom odpovedí použili rovnaké možnosti odpovedí (tri alebo päť) pre tri rôzne úlohy a dotazník o pocitoch. Možnosti reakcie boli deťom k dispozícii nepretržite počas testovacieho postupu a boli medzi deťmi prehodnocované medzi úlohami.Poradie, v ktorom deti splnili dotazník troch úloh a pocitov, bolo pre každé dieťa randomizované a randomizované bolo aj poradie, v ktorom boli predstavené jednotlivé položky v rámci úloh alebo dotazníka. Testovanie trvalo približne 15 až 20 minút na jedno dieťa.

Úlohy

Úplný zoznam obsahu položiek k opísaným úlohám je uvedený v tabuľke I. Na vytvorenie základu pre tieto úlohy boli použité karikatúry a/alebo príbehy, pretože sa často osvedčili ako metodický nástroj na skúmanie porozumenia emócií deťmi (napr. (Donaldson & amp. Westerman, 1986).

Zoznam obsahu položky testu a plniva pre fyzické, sociálne a subjektívne úlohy

. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch
. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky z fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch

Zoznam obsahu položky testu a plniva pre fyzické, sociálne a subjektívne úlohy

. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch
. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch

Fyzická úloha. Deťom bolo ukázaných šesť samostatných sád kreslených obrázkov prezentovaných na kusoch laminovaného papiera s rozmermi 12 palcov × 12 palcov (príklad nájdete na obrázku 1, obrázok 1). Každý obrázok zobrazoval štyri deti, ktoré vykazovali inú fyzickú charakteristiku (napr. Nesú rôzny počet kníh: jedno dieťa bez kníh, jedno dieťa s dvoma knihami, jedno dieťa so šiestimi knihami a jedno dieťa s ôsmimi knihami). K obrázku bol priložený slovný popis (napr. „Dnes je deň knižnice a deti vracajú svoje knižničné knihy. Rôzne deti majú rôzny počet kníh“). Po 5-sekundovom oneskorení bol obrázok odstránený a deťom bol ukázaný druhý obrázok, ktorý zobrazoval iba jedno dieťa (tj. Cieľové dieťa), ktoré malo rovnakú fyzickú charakteristiku ako deti uvedené na predchádzajúcom obrázku (napr. Nosenie štyroch kníh ). Potom sa detí pýtali: „Tu je Mike. Koľko kníh má Mike v porovnaní s ostatnými deťmi? “ Fyzická úloha pozostávala zo štyroch testovacích položiek (tj. Položiek, v ktorých by malo byť cieľové dieťa hodnotené v strede), ako je to v prípade opísanom vyššie a znázornenom na obrázku 1, obrázku 1, a dvoch výplňových položiek (tj. Položiek, v ktorých cieľové dieťa by malo byť hodnotené v extrémnych prípadoch) (napr. cieľové dieťa je najvyššie dieťa v porovnaní s ostatnými štyrmi deťmi). Také položky výplne boli zahrnuté, aby deti neprišli k záveru, že správna odpoveď bola vždy v strede hodnotiacej stupnice.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Úloha sociálneho cieľa. Deťom bolo povedané šesť krátkych príbehov o štyroch deťoch, ktorých skúsenosti so situáciou sa líšili. Napríklad: „Je Halloween a všetky deti sa práve vrátili domov z Trick or Treating. Tieto deti milujú sladkosti a čím viac cukríkov dostanú, tým sú šťastnejšie. Jedno dieťa dostalo štyri vrecká cukríkov, jedno dieťa dostalo tri vrecia cukríkov, jedno dieťa dostalo jednu tašku cukroviniek a jedno dieťa nedostalo žiadne vrecká. “ Potom boli deti požiadané, aby zhodnotili, ako si myslia, že sa bude cítiť cieľové dieťa, „Amanda dostala dve vrecká cukríkov. Ako dobre by sa Amanda cítila v porovnaní s ostatnými deťmi? “ Táto úloha bola predstavená bez vizuálneho sprievodu, aby sa čo najbližšie priblížila k abstraktnejšej úlohe podávania správ o subjektívnych pocitoch. Úloha sociálneho cieľa pozostávala zo štyroch testovacích položiek (tj. Položiek, v ktorých by malo byť hodnotené cieľové dieťa uprostred), ako v prípade opísanom vyššie, a dvoch výplňových položiek (tj. Položiek, v ktorých by malo byť cieľové dieťa hodnotené ako extrémy) (napr. cieľové dieťa, ktoré príde ako prvé v pretekoch). Zo štyroch testovaných položiek sa dve pýtali detí, ako „dobre“ si myslia, že sa bude cieľové dieťa cítiť, a dve sa pýtali detí, ako „zlé“ si myslia, že sa cieľové dieťa bude cítiť. Podobne sa z dvoch výplňových položiek jeden opýtal detí, ako „dobre“ si myslia, že sa bude cítiť cieľové dieťa, a jeden sa pýta detí, ako „zle“ si myslí, že sa cieľové dieťa bude cítiť.

Subjektívna úloha. Deťom bolo povedané šesť krátkych príbehov, v ktorých ich požiadali, aby si predstavili, že sa nachádzajú v rôznych situáciách. Napríklad: „Pozvete 10 detí na oslavu narodenín a 5 z nich príde.” Potom boli deti požiadané, aby zhodnotili: „Ako dobre by ste sa cítili?“ Podobne ako v prípade úloh sociálnych cieľov, subjektívna úloha pozostávala zo štyroch testovacích položiek, kde boli správne odpovede pravdepodobne v strede, a dvoch výplňových položiek, kde boli správne reakcie pravdepodobne v extrémoch (napr. Strata ich veľmi obľúbené hračka). Aj keď je možné, že existovali určité individuálne rozdiely v tom, ako deti reagovali a reagovali na situácie subjektívnych úloh, predpokladali sme, že u väčšiny detí sa ich reakcie budú zhodovať s našimi určenými správnymi reakciami. Tento predpoklad podporuje výskum, ktorý ukazuje, že do 5 rokov deti dobre chápu situácie, ktoré vyvolávajú určité emócie (Harris, 1983). Zo štyroch testovaných položiek sa dve pýtali detí, ako sa budú cítiť „dobre“, a dve sa pýtali detí, ako „zle“ sa budú cítiť. Podobne sa z dvoch výplňových položiek jeden opýtal detí, ako sa budú cítiť „dobre“, a jeden sa pýta, ako by sa cítili „zle“.

Bodovanie

Reakcie detí pomocou prvej (tj. „Vôbec“) alebo poslednej (t. J. „Veľa“) možností v hodnotiacich škálach možností výberu s tromi a piatimi odpoveďami boli hodnotené ako extrémne reakcie pre všetky položky úloh a dotazníkov. Aby sme odzrkadlili mieru, s akou deti reagovali extrémnym spôsobom, zhrnuli sme počet položiek úloh, na ktoré deti reagovali v extrémoch (tj schválené buď „vôbec“ alebo „veľa“), aby sme získali extrémne skóre v rozsahu od 0 až 4 pre každý typ úlohy (vyššie skóre odráža väčšiu tendenciu reagovať v extrémnych podmienkach). V dotazníku pre pocity sme zhrnuli počet položiek, na ktoré deti reagovali v extrémoch (tj. Buď ako „vôbec nie“ alebo „veľa“), aby sme získali extrémne skóre v rozmedzí od 0 do 7 (vyššie skóre odráža väčšia tendencia reagovať v extrémnych prípadoch).


Materiály a metódy

Súbor údajov pozostával z odpovedí vysokoškolských študentov na dotazník osobnej klasifikovanej škály (GSQ), multidimenzionálny FCQ a zo samostatne hlásených známok pri skúške prístupu na univerzitu (SAE). GSQ aj FCQ boli zložené z rovnakých šesťdesiatich vyhlásení adresujúcich dimenzie FFM a boli prezentované v rôznych formátoch odozvy, tj. V Likertovej škále a pároch vynútenej voľby. Táto štúdia bola schválená etickým výborom univerzity, všetky údaje o odpovedi boli anonymizované a všetci účastníci pred účasťou poskytli svoj informovaný súhlas. Obsah súboru údajov je popísaný nižšie.

Nástroje

Pool položiek osobnosti

Šesťdesiat vyhlásení použitých v dvoch dotazníkoch bolo prevzatých zo 700-položkového súboru určeného na riešenie tridsiatich aspektov osobnosti, ktoré sú základom dimenzií FFM zahrnutých v modeli NEO-PI-R (Costa a McCrae, 1992). Položky v súbore boli predtým aplikované na formát 5-bodovej Likertovej stupnice na celkom 1531 vysokoškolských študentov psychológie na Universidad Aut ónoma de Madrid pomocou neúplného návrhu vzorkovania a boli kalibrované podľa odstupňovaného modelu reakcie Samejima ’s ( GRM Samejima, 1968). Čiastkové správy o kalibračnej štúdii nájdete v Nieto et al. (2017) a Morillo a kol. (2019). V kalibračnej štúdii uskutočnenej Nieto et al. (2017), skóre založené na tomto súbore položiek vykazovali dobrú konvergentnú validitu s NEO Five-Factor Inventory-3 (McCrae a Costa, 2007), čo je stručná 60-položková verzia NEO Personality Inventory-3 (McCrae et al., 2005).

Sto deväťdesiatpäť položiek bolo vylúčených z dôvodu nesprávneho smeru diskriminácie, nevýznamných parametrov diskriminácie alebo z dôvodu nedostatku vhodnosti, tj. pS –X^2 < 0,05, pomocou polytomickej generalizácie Orlanda a Thissena ’s (2003) indexu S-X 2 (Kang a Chen, 2007).

Konečných šesťdesiat položiek bolo vybraných zo zostávajúceho súboru 505 položiek pomocou algoritmu odhadovania distribúcie (Kreitchmann et al., 2017) zameraného na minimalizáciu súčtu štvorcových asymptotických odchýlok odhadov znakov vo formáte FC, za predpokladu modelu MUPP-2PL (Morillo et al., 2016) v 161051 kvadratúrnych bodoch priestoru hlavnej domény FFM (11 kvadratúrnych bodov na dimenziu), vážených ich funkciou hustoty za predpokladu štandardizovanej viacrozmernej normálnej distribúcie. Pre každú doménu FFM bolo dvanásť položiek, z ktorých desať bolo priamych, tj. Pozitívne kľúčovaných, a dve inverzné, t. J. Negatívne.

Prístupová skúška na univerzitu

Spojené arabské emiráty sú testom vzdelávacej spôsobilosti, ktorý sa používa na prijatie na bakalárske štúdium v ​​Španielsku. Jeho obsah zahŕňa španielsky jazyk, cudzí jazyk, tj angličtinu, francúzštinu, taliančinu alebo nemčinu, dejiny Španielska a matematiku alebo latinčinu. Stupne SAE sú uvedené na stupnici od 0 do 10 a predstavujú priemerné skóre vo vyššie uvedenom obsahu. Ako bude ďalej popísané, skóre v SAE boli v tejto štúdii použité ako kritérium pre skúmanie platnosti. Známky študentov boli vybrané ako kritériá platnosti vzhľadom na to, že ich vzťah k osobnosti bol široko skúmaný v metaanalytických štúdiách (napr. Poropat, 2009 Richardson a kol., 2012), že sa neočakáva, že by boli ovplyvnení sociálnou vhodnosťou alebo súhlasom. a pretože sú dôležitým ukazovateľom výsledku v pedagogickej psychológii.

Dotazník s odstupňovanou mierkou

GSQ pozostávalo zo šesťdesiatich osobnostných položiek plus štyroch ďalších položiek merajúcich SDR prevzatých z osobnostného dotazníka OPERAS (Vigil-Colet et al., 2013) a zo štyroch položiek na kontrolu kvality odpovedí účastníkov ’ (Maniaci a Rogge, 2014) . V prípade druhej kategórie boli účastníci priamo poučení, aby označili konkrétnu kategóriu, napr. “Po tejto položke označte súhlasiť. ” Cronbachove ’s α koeficienty subškál v dotazníku boli 0,73, 0,81, 0,78 0,77 a 0,76 pre prijateľnosť, svedomitosť, emocionálnu stabilitu, extraverziu a otvorenosť voči zážitkom. Škála 4-stupňovej subškály Sociálna vhodnosť predstavovala koeficient Cronbach ’s α 0,56. Surové skóre GSQ vo vzorke popísanej v časti “Participants ” tohto článku vykazovalo dobrú konvergentnú validitu so skóre OPERAS s rovnakou vzorkou, pričom korelácie sa pohybovali od 0,61 v dohode do 0,71 vo svedomitosti.

Dotazník nútenej voľby

Dotazník nútenej voľby sa skladal z 30 blokov, tj. Párov položiek, zostavených pomocou vyššie uvedeného algoritmu odhadovania distribúcie (Kreitchmann et al., 2017), v ktorom boli stanovené obmedzenia na vyrovnanie počtu blokov pre každý pár domén FFM, tj. existuje desať možných kombinácií piatich domén FFM do párov. Tri bloky adresovali každý z desiatich párov domén FFM, pričom dva boli pozitívne homopolárne bloky, to znamená, že obe položky sú pozitívne kľúčované a jeden heteropolárny, to znamená jeden pozitívne a jeden negatívne kľúčovaný prvok. Rovnako ako v GSQ boli zahrnuté tri kontrolné položky, ktoré poučili účastníkov, aby označili konkrétnu odpoveď, napr. “. V tomto bloku označte prvú možnosť odpovede. ”

Účastníci

Šesťsto deväť študentov bakalárskeho štúdia psychológie z prvého a tretieho ročníka na Universidad Aut ónoma de Madrid (83,25% žien a 16,75% mužov s priemerným vekom a štandardnou odchýlkou ​​19,91, respektíve 2,94) odpovedalo na dotazníky GS a FC na hárky odpovedí pripravené na čítanie optických značiek.

Z pôvodných 609 účastníkov bolo osemnásť vylúčených buď z dôvodu zlyhania, alebo z dôvodu vynechania aspoň jednej kontrolnej položky alebo bloku, a ďalších tridsaťtri študentov bolo vyradených z dôvodu najmenej jednej chýbajúcej odpovede. Konečných 558 účastníkov (82,80% žien a 17,20% mužov s priemerným vekom a štandardnou odchýlkou ​​19,92, respektíve 2,99) bolo náhodne zaradených do rovnako veľkých (N. = 279) kalibračné alebo validačné vzorky na analýzu údajov. Osemdesiatpäť účastníkov z validačnej vzorky uviedlo svoje známky v SAE pre analýzy platnosti súvisiace s kritériom. Študenti, ktorí uviedli svoje známky v SAE, boli 89% žien a 16% mužov s priemerným vekom 20,20 a štandardnou odchýlkou ​​4,41.

Analýza dát

Všetky postupy analýzy údajov sa uskutočnili s použitím R. softvéru (R Core Team, 2019) a pomocou neho bolo vykonané psychometrické modelovanie špina balíček (Chalmers, 2012).

Modelovanie odozvy na škálovanej škále

Počiatočná prieskumná viacrozmerná analýza IRT vrátane domén FFM bola vykonaná pomocou nekódovaných odpovedí kalibračnej vzorky, aby sa preskúmala faktoriálna štruktúra dotazníka a odstránili sa prípadné položky, ktoré sa odchyľovali od očakávanej faktoriálnej štruktúry FFM.Odhad parametra položky bol vykonaný s marginálnou maximálnou pravdepodobnosťou pomocou EM algoritmu (Dempster et al., 1977) s integráciou Quasi-Monte Carlo a ďalej otáčaný šikmým čiastočne špecifikovaným rotovaním cieľa, tj cieľová matica obsahovala nuly pre rozmery, ktoré položky nemali merať. Na určenie odchýlky od faktorovej štruktúry boli vypočítané koeficienty kongruencie položiek. Všimnite si toho, že hoci naším cieľom bolo získať jednoduchú štruktúru položiek pre domény FFM, museli sme tiež zachovať ekvivalenciu medzi GSQ a FCQ. To znamená, že vylúčenie položky s vysokým krížovým zaťažením v prieskumnej analýze znamenalo, že je tiež potrebné vynechať jej pár vo formáte nútenej voľby. FCQ navyše muselo byť dobre vyvážené z hľadiska počtu blokov na pár domén. Indexy koeficientov kongruencie položiek boli preto spriemerované pre páry položiek v každom bloku a pár s najnižšou hodnotou bol vylúčený pre každý z desiatich párov domén.

Neskôr boli do súboru údajov overovacej vzorky zaradené dva potvrdzujúce viacrozmerné modely IRT: (1) nekontrolovanie SDR a ACQ a (2) ovládanie SDR a ACQ. Prvý potvrdzujúci model bol špecifikovaný ako kompenzačný viacrozmerný GRM, pričom položky FFM sa načítavajú v ich príslušných doménach a fazetách FFM (ekv. 1) a položky SDR sa načítavajú výlučne v dimenzii SDR.

kde Px_ij označuje pravdepodobnosť subjektu i výber Xij alebo vyššie v položke j. Parametre θ1i a θ2i predstavujú iúroveň vlastností predmetu v jhlavná doména FFM položky a fazeta položky a crj definuje zachytávací termín. θ1i a θ2i sa považujú za nekorelované.

Druhý model bol tiež špecifikovaný ako kompenzačný GRM, ale tiež s načítaním položiek FFM v dimenzii SDR a v dodatočnom rozmere ACQ (ekv. 2). Acquiescence bol definovaný ako aproximácia k RIIFA v rámci IRT nastavením parametrov stupnice GRM spojených s náhodným zachytením na 1 a voľným odhadom jeho rozptylu (Primi et al., 2019).

kde: ξi a ζi označiť iskutočná úroveň SDR subjektu a #Q2019, tj. náhodný zachytený signál je ζi + crj). S cieľom ukotviť konštrukt sociálnej potrebnosti zo štyroch položiek SDR boli parametre pre tieto položky odhadované oddelene pomocou jednorozmerného GRM a neskôr boli získané získané diskriminačné parametre stanovené v odhade úplného dotazníka. Okrem toho, aby sa identifikoval model, predpokladá sa, že položky SDR sa zaťažujú ACQ, ale nie zaťažujú znaky FFM, a ACQ a SDR sa predpokladá, že nie sú v korelácii so zostávajúcimi latentnými faktormi (ako v modeli Ferrando a kol. al., 2009). V oboch potvrdzujúcich modeloch boli korelácie medzi doménami FFM a fazetami nastavené na 0 a korelácie medzi doménami FFM boli voľne odhadované.

Modelovanie reakcie s nútenou voľbou

Nedávny vývoj v modelovaní IRT prekonal vlastnosť ipsativity tradičných skórovacích metód s nútenou voľbou a umožňuje odhad normatívnych skóre. Model Multi-Unidimensional Pairwise Preference (MUPP Stark et al., 2005) bol prvým návrhom, ako to dosiahnuť. MUPP chápe proces reakcie nútenej voľby ako výsledok nezávislého hodnotenia dohody s každým vyhlásením v páre a ďalšieho rozhodnutia, ktoré zvoliť. Pravdepodobnosť súhlasu s každým výrokom nezávisle je definovaná ako generalizovaný odstupňovaný model rozloženia (GGUM Roberts et al., 2000). Rovnica 3 dáva pravdepodobnosť schválenia jedného tvrdenia proti druhému.

kde: rij označuje polohu vybranej položky na bloku, tj. 1 alebo 2 a Xij2 a Xij2 sú skryté reakcie subjektu i pre položky j1 a j2respektíve sa rovná 1, ak je respondentom i schvaľuje položku a 0, ak je to inak.

V tomto článku používame dominančný variant modelu MUPP, kde pravdepodobnosť zhody s každým tvrdením je daná dvojparametrickým logistickým modelom (2PL): model MUPP-2PL (Morillo et al., 2016). Nahradením GGUM modelom 2PL bude funkcia pravdepodobnosti bloku v Rov. 3 je možné zjednodušiť na:

kde: θij1 a θij2 označujú domény súvisiace s položkami 1 a 2 v uvedenom poradí jblok. Oslovením domén a faziet FFM v každom príkaze, Rov. 5 bol zovšeobecnený na štvordimenzionálny model v rámci bloku, to znamená, že každý blok meria dve domény a dve fazety. Rovnako ako v modelovaní s Likertovou položkou boli korelácie medzi doménami FFM a fazetami nastavené na 0 a korelácie medzi doménami FFM boli voľne odhadované.

Kritériá

Napriek tomu, že potvrdzujúce modely pre GSQ a FCQ zohľadňujú aspekty FFM, fazetové skóre nebolo zahrnuté do analýz validity, pretože znížený počet položiek na fazetu spôsobuje, že ich skóre je nespoľahlivé.

Kritériami na porovnanie medzi modelmi boli: (1) spoľahlivosť skóre domén FFM, (2) konvergentná a divergentná validita medzi doménami FFM a formátmi odpovedí a (3) asociácia medzi skóre domény FFM v rámci každého modelu a študentov a známku #x2019 z prístupovej skúšky na univerzitu. Analýzy validity použili skóre respondentov vo validačnej vzorke, vypočítané s očakávaným-A posteriori (EAP) s použitím odhadov parametrov položky z kalibračnej vzorky.

Vzhľadom na to, že tradičné indexy spoľahlivosti, tj. Cronbach ’s α, nie sú použiteľné na údaje s nútenou voľbou, sú pre tieto tri modely uvedené empirické odhady spoľahlivosti z validačnej vzorky. Na vyhodnotenie modelu vo validačnej vzorke boli použité vhodné indexy typu M2 (Maydeu-Olivares a Joe, 2006 Cai a Hansen, 2013), RMSEA a CFI.


Meranie falšovania

V nasledujúcom texte je poskytnutý prehľad výskumu o použití stupníc sociálnej vhodnosti pri korekcii na falšovanie osobnostných testov osobnosti. Najprv sa uvádzajú niektoré výsledky o vlastnostiach sociálnej vhodnosti alebo falšovaní.

Základnou myšlienkou na meranie falšovania, ktorá sa používa v tomto príspevku, je sociálna vhodnosť, ako príklad ukazuje klasická Crowne -Marlowova škála (Crowne & Marlowe, 1960). V nižšie uvedených štúdiách bola použitá stupnica skonštruovaná na rovnakých princípoch, tu nazývaná Overt Faking. Možno však podozrievať, že niektorí sofistikovaní testeri chápu, že niektoré položky patria do škály spoločenskej vhodnosti. Z tohto dôvodu bola skonštruovaná škála bežných položiek osobnosti, vybraných z veľkého množstva týchto položiek, ktoré silne korelovali s mierkou Overt Faking, ale nemali obsah, ktorý by niekto so znalosťami mohol ľahko identifikovať ako falošnú mieru. teórie testov. Táto stupnica sa nazýva Skryté predstieranie. Korelácie medzi Crowne -Marloweovou stupnicou, Overt Faking a Covert Faking v skupine 159 účastníkov testu sú uvedené v tabuľke 1.

Crowne -Marloweova stupnica sociálnej vhodnosti Stupnica otvoreného predstierania Skrytá stupnica falšovania
Crowne -Marloweova stupnica sociálnej vhodnosti 1.00 0.76 0.73
Stupnica otvoreného predstierania 0.76 1.00 0.56
Skrytá stupnica falšovania 0.73 0.56 1.00

Tabuľka ukazuje vysoké korelácie medzi tromi falošnými škálami. Preto boli falošné váhy Overt a Covert úspešne konštruované s ohľadom na stupnicu Crowne -Marlowe a obe sú zahrnuté v teste osobnosti, UPP ™ (Bergman, Sjöberg, Lornudd & von Thile Schwartz, 2014), ktorý sa používa v štúdiách 2–4 nižšie. Je dôležité poznamenať, že osobnostné škály v teste boli diferenciálne korelované s obidvoma falošnými škálami a že tieto dva súbory korelácií boli silne prepojené, pozri obr. 1, ktorý je založený na údajoch od 296 uchádzačov o zamestnanie (štúdia 2).

Na meranie falzifikátov sa často používa škála spoločenskej vhodnosti. Tento prístup je neobvyklý v použití aj skrytej stupnice a pri použití štatistického modelu na odhadovanie hodnoty testovacej stupnice, kde bol odstránený rozptyl sociálnej vhodnosti. Jednou z nevýhod súčasného prístupu k riešeniu falšovania je potreba zahrnúť samostatné stupnice. Je možné merať falšovanie bez oddelených mierok? Aby sme preskúmali túto možnosť, všetky položky súboru UPP ™ test, okrem dvoch falošných škál, bol v údajoch od 423 uchádzačov o zamestnanie rozdelený na testy vyjadrujúce pozitívne správanie (101 položiek) a tie, ktoré vyjadrujú negatívne správanie (103 položiek). Očakáva sa, že schválenie pozitívnych položiek a odmietnutie negatívnych položiek bez ohľadu na iné aspekty ich obsahu bude výrazom falšovania. Priemerné reakcie na pozitívne a negatívne položky boli preto vypočítané tak, aby tvorili indexy.1 1 Dva indexy založené na pozitívnych a negatívnych odpovediach nezahŕňali položky merajúce emocionálnu stabilitu, ani nezahŕňali položky merajúce Overt a Covert Faking.
Spoľahlivosť týchto dvoch indexov bola 0,91, respektíve 0,93. Ich korelácia a korelácie so stupnicami Overt a Covert Faking sú uvedené v tabuľke 3. Tabuľka ukazuje podstatné prekrývanie sa medzi premennými, čo naznačuje, že reakcie na pozitívne a negatívne položky je možné použiť ako miery falšovania.

Mnohonásobná korelácia medzi týmito dvoma indexmi položiek a falzifikátmi bola 0,54 a 0,74 v prípade skrytého a skrytého falšovania. Tieto výsledky naznačujú, že by malo byť možné opraviť falšovanie na základe celkového schválenia/odmietnutia položiek. Ako príklad falošnej opravy založenej na dvoch indexoch položiek bola emočná stabilita opravená na predstieranie na základe falošných škál a indexov položiek.2 2 Títo testujúci boli zaradení do nášho tréningového programu alebo vykonali test, aby zistili, či si želajú na nákup licencií na jeho používanie. Výsledky testu nemali pre nich jednotlivo žiadne dôležité dôsledky.
Tieto dve sady zvyškov korelovali 0,80. Je zrejmé, že tieto dva rôzne prístupy ku korekcii pri falšovaní poskytli podobné výsledky. Tieto výsledky je možné porovnať s hodnotením „do očí bijúcich extrémnych reakcií“, čo je príbuzný prístup k meraniu falšovania, ktorý sa zdá byť sľubný (Levashina, Weekley, Roulin & Hauck, 2014).

Údaje budú v nasledujúcom texte opravené na falšovanie na základe regresného modelu s použitím dvoch mierok falšovania ako nezávislých premenných, pozri podrobnosti. Teraz budú predstavené štyri empirické štúdie falšovania, určené na ďalšie skúmanie platnosti prístupu používaného na opravu falšovania.


Oprava individuálnych rozdielov v použití (použitom rozsahu) hodnotiacich stupníc - Psychológia

Meranie nie je nikdy lepšie ako empirické operácie, pomocou ktorých sa vykonáva, a operácie sa pohybujú od zlého po dobré.

— Stanley Stevens, O teórii
mier

Úvod

Predchádzajúca kapitola stručne fly predstavila niekoľko pohľadov na testovanie s dôrazom na platnosť ako meradlo účinnosti testovania e ff. Platnosť je zastrešujúcim problémom, ktorý zahŕňa všetky fázy vývoja a administrácie testov, od plánu po bublinový list, vrátane štádia, v ktorom vyberáme empirické operácie, ktoré priraďujú testovacím subjektom čísla alebo štítky na základe ich výkonnosti alebo odpovedí.

V tejto kapitole preskúmame proces merania na jeho najzákladnejšej alebo najzákladnejšej úrovni, na úrovni merania. Analyzujeme tri požiadavky na meranie a vezmeme do úvahy jednoduchosť fyzického merania v porovnaní so zložitosťou vzdelávacieho a psychologického merania, kde je vec, ktorú meriame, často neriešiteľná a najlepšie reprezentovateľná pomocou súborov položiek a kompozitných skóre. Na ceste popíšeme štyri dostupné typy meracích stupníc a preskúmame, prečo Stevens ( 1946 ) dospel k záveru, že nie všetky stupnice sú vytvorené rovnako. Posledné sú bodovanie a bodovanie, vrátane príkladov odkazov na normy a kritériá.

Čo je meranie?

Ako to zistíme fi?

Termín meranie obvykle chápeme ako priradenie hodnôt objektom podľa nejakého systému pravidiel. Táto de finition pochádza od Stevensa ( 1946 ), ktorý predstavil štyri tradičné stupnice alebo typy meraní. Čoskoro o nich budeme hovoriť. Teraz sa zamerajme na všeobecný proces merania, ktorý zahŕňa poskytnutie predmetu, osobe alebo veci, pre ktorú merame hodnotu, ktorá niečo na tom predstavuje.

Meranie prebieha neustále, všade okolo nás. Denne meriame, čo jeme, kam ideme a čo robíme. Veľkosti nápojov sa napríklad merajú pomocou kategórií ako vysoký, veľký a venti. Beh alebo dochádzanie sa meria v míľach alebo kilometroch. Meriame teplotu v našich domovoch, tlak vzduchu v pneumatikách a oxid uhličitý v našej atmosfére. Technológia nositeľnosti, ktorú ste si mohli pripnúť na zápästie, môže monitorovať váš nedostatok pohybu a znižovanie srdcovej frekvencie, keď spíte o ff pri čítaní tejto vety. Keď sa zobudíte, môžete si pozrieť hodinky a zmerať dĺžku šlofíka v minútach alebo hodinách.

To všetko sú príklady fyzického merania. V každom prípade by ste mali byť schopní identifikovať 1 ) predmet merania, 2 ) vlastnosť alebo kvalitu, ktorá sa preň meria, a 3 ) druhy hodnôt, ktoré by mohli byť použité na reprezentáciu množstiev tohto kvalita alebo majetok. Vlastnosť alebo kvalita, ktoré sa merajú pre objekt, sa nazýva premenná. Druhy hodnôt, ktoré priraďujeme objektu, napríklad gramy alebo stupne Celzia alebo údery za minútu, sa označujú ako jednotky merania zachytené v rámci tejto premennej.

Na to, aby sa meranie stalo, sú teda potrebné tri veci: objekt, premenná a hodnoty alebo jednotky. Premenná je opäť kvalita alebo vlastnosť, ktorú merame, objekt je pre koho ju meriame a hodnoty sú čísla alebo štítky, ktoré priraďujeme. Keď dokážete identifikovať tieto tri komponenty pre každý vyššie uvedený príklad fyzického merania, uistite sa, že vymyslíte vlastné príklady, ktoré budú obsahovať všetky tri časti.

Od fyzického po nehmotný

Pri väčšine fyzických meraní je možné vlastnosť, ktorú sa pokúšame reprezentovať alebo zachytiť pomocou našich hodnôt, jasne de fi definovať a dôsledne merať. Napríklad množstvo jedla sa bežne meria v gramoch. Šálka ​​coly obsahuje asi 44 gramov cukru. Keď vidíte toto číslo vytlačené na plechovke sódy alebo „#FF01“ vody, význam je celkom jasný a skutočne nie je potrebné sa pýtať, či je presný. Cola má v sebe veľa cukru.

Ale rovnako často vezmeme číslo, ako je množstvo cukru v potravinách, a použijeme ho na vyjadrenie niečoho abstraktného alebo nehmotného, ​​ako je jedlo zdravé alebo výživné. Zdravosť jedla nie je také ľahké de ’ ako hmotnosť alebo objem. Meranie zdravosti alebo výživovej hodnoty môže zodpovedať za ostatné zložky v potravinách a za množstvo kalórií, ktoré uvaria. Navyše, rôzne potraviny môžu byť viac alebo menej výživné pre ľudí s rôznym výskytom v závislosti od rôznych faktorov. Zdravie, na rozdiel od fyzických vlastností, je nehmotné a je možné ho merať len ťažko.

Spoločenské vedy o vzdelávaní a psychológii sa zvyčajne zameriavajú na meranie konštruktov, nehmotných a nepozorovateľných vlastností, atribútov alebo vlastností, o ktorých predpokladáme, že spôsobujú určité pozorovateľné správanie alebo reakcie. V tomto kurze sú našimi predmetmi merania spravidla ľudia a naším cieľom je dať týmto ľuďom čísla alebo štítky, ktoré nám niečo zmysluplné povedia o vlastnostiach, ako sú ich inteligencia, matematická schopnosť alebo sociálna úzkosť. Konštrukty, ako sú tieto, sú di 󻀼ult na meranie. Preto potrebujeme celý kurz, aby sme diskutovali o tom, ako ich najlepšie zmerať.

V tejto chvíli je dobré si položiť otázku, ako môžeme merať a poskytovať hodnoty pre niečo, čo je nepozorovateľné? Ako ohodnotíme matematickú schopnosť osoby, ak ju nemôžeme priamo pozorovať? To, čo potrebujeme, je operacionalizácia nášho konštruktu, pozorovateľné správanie alebo reakcia, ktorá sa zvyšuje alebo znižuje, keď sa človek pohybuje hore alebo dole po konštrukte. Pri matematickej schopnosti môže byť operacionalizáciou počet matematických otázok, na ktoré človek správne odpovie z 20. Pri sociálnej úzkosti to môže byť frekvencia pocitu úzkosti počas určitého časového obdobia. Pri použití proxy pre náš konštrukt musíme predpokladať alebo vyvodiť, že operácia, ktorú skutočne pozorujeme a meriame, presne predstavuje základnú kvalitu alebo vlastnosť, o ktorú sa zaujímame. Tým sa dostávame k zastrešujúcej otázke tohto kurzu.

Čo robí meranie dobrým?

V poslednom roku bakalárskeho štúdia psychológie som vykonal s talianskymi predškolákmi výskumnú štúdiu o konštruktoch agresie, sociability a viktimizácie. A. Nelson, Robinson, Hart, Albano, & Marshall, 2010 ). Zhromažďovaním údajov v predškolských zariadeniach som strávil asi štyri týždne. Zhromažďovanie údajov zahŕňalo pokrytie veľkého kusu lepenky obrázkami všetkých detí v triede a následné položenie každého dieťaťa jednotlivo otázok o jeho rovesníkoch.

Aby sme zmerali družnosť, položili sme tri jednoduché otázky: “Komu je zábavné hovoriť? ” “Komu je zábavné predstierať veci? ” a “ho kto má veľa priateľov? ” Deti s veľa partnerských nominácií na tieto otázky získalo vyššie skóre, čo naznačuje, že boli spoločenskejšie. Potom, čo som položil tieto a ďalšie otázky asi 300 predškolákom a potom som zrátal skóre, zaujímalo ma, ako dobre vlastne meriame konštrukcie, na ktoré sme sa zamerali. Boli tieto skóre dobré? Stačili tri alebo five otázky? Možno nám niečo dôležité chýbalo? Možno niektoré z týchto otázok, ktoré bolo potrebné preložiť z angličtiny do taliančiny, znamenali na pobreží Stredozemného mora iné veci ako na stredozápade USA?

Tento projekt bol mojou first skúsenosťou s meraním na strane merania a fascinoval ma. Otázky, ktoré som potom položil, sú rovnaké otázky, aké si položíme a odpovieme v tomto kurze. Ako dôsledne a presne meriame to, čo merať chceme? Čo môžeme urobiť pre zlepšenie nášho merania? A ako môžeme identifikovať nástroje, ktoré sú lepšie alebo horšie ako ostatné? Všetky tieto otázky súvisia s tým, čo robí meranie dobrým.

Meranie je prospešné vďaka mnohým súčasným veciam, od písania vysoko kvalitných otázok a položiek až po dodržiavanie zavedených pokynov pre vývoj testov. Výsledné skóre sa väčšinou považuje za dobré, alebo za efektívne, ak dôsledne a presne opisuje cieľový konštrukt.Konzistencia a presnosť sa týka spoľahlivosti a platnosti skóre testov, to znamená rozsahu, v akom by sa rovnaké skóre získalo pri opakovanom podávaní testu, a rozsahu, v ktorom skóre úplne predstavujú konštrukciu, ktorú majú merať.

Tieto dva pojmy, spoľahlivosť a platnosť, sa v priebehu kurzu vyskytnú mnohokrát. Druhá, platnosť, nám pomôže objasniť našu de finition merania z hľadiska jej účelu. Zo všetkých úvah, ktoré sa týkajú efektívneho merania e ff, je najdôležitejším adresátom fir.

Aký je účel?

Meranie je zbytočné, pokiaľ nie je založené na jasne formulovanom účele. Tento účel popisuje ciele administrácie testu alebo prieskumu vrátane toho, čo sa bude merať, pre koho a prečo? Už sme stanovili “ what? ” ako premennú alebo konštrukciu, vlastnosť, kvalitu, atribút alebo vlastnosť, ktoré predstavujú naše čísla alebo hodnoty. Tiež sme stanovili “ pre koho? ” ako predmet, v našom prípade ľudí, ale konkrétnejšie možno študentov, pacientov alebo zamestnancov. Teraz musíme vytvoriť ȁPrečo? ”

Účelom testovanej vzorky fi je zamýšľané použitie a použitie. Rieši, ako sú skóre z testu navrhnuté tak, aby sa interpretovali. Test bez jasného účelu nemôže byť účinný ff.

Predpokladajme, že vás niekto požiada, aby ste vytvorili mieru študentov, ktorí rozumejú peniazom, tj. Rozumejú peniazom a ako sa používajú v finance. Dostali ste tu jednoduchú konštrukciu, pochopenie finance a predmetu merania, študenti. Ale skôr ako budete môcť vyvinúť tento test, musíte vedieť, ako sa bude používať. Jeho účel určí kľúčové vlastnosti, ako napríklad aký konkrétny obsah testu obsahuje, úroveň náročnosti otázok, typy použitých otázok a spôsob jeho správy. Ak sa test používa ako skúška final v rámci kurzu finance, mal by vystihnúť obsah tohto kurzu a môže byť dosť prísny. Na druhej strane, ak sa používa v rámci všeobecného študentského zboru, aby zistilo, čo študenti vedia o vyrovnávaní rozpočtov a správe študentských pôžičiek, obsah a náročnosť sa môžu zmeniť. Je zrejmé, že nemôžete vyvinúť test bez toho, aby ste poznali jeho účel. Test určený na jeden účel navyše nemusí fungovať dobre na iný.

Nájdite si chvíľku na zamyslenie nad niektorými testami, ktoré ste použili alebo ste urobili v minulosti. Ako by ste vyjadrili účel týchto testov? Pri odpovedi na túto otázku dávajte pozor, aby ste jednoducho nepovedali, že účelom testu je niečo zmerať. Vyhlásenie o teste by malo objasniť, čo sa dá s výslednými výsledkami urobiť. Skóre z testovania umiestnenia sa napríklad používa na určenie, aké kurzy by mal študent absolvovať, alebo na identifikáciu študentov, ktorí potrebujú určité učebné zdroje. Výsledky prijímacích skúšok informujú výber uchádzačov o prijatie na vysokú školu alebo univerzitu. Skóre z certifikačných a licenčných skúšok sa používa na overenie, či skúšajúci má znalosti, zručnosti a schopnosti požadované pre výkon praxe v danej profesii. Tabuľka 1.1 obsahuje tieto a niekoľko ďalších príkladov. V každom prípade sú skóre určené na použitie špeciálnym spôsobom.

Typ testu Zamýšľané použitie
Zodpovednosť Postavte rôznych ľudí zodpovedných za vzdelávanie študentov
Vstupné Výber na vstup do vzdelávacej inštitúcie
Zamestnanosť Pomoc pri nábore a propagácii zamestnancov
Ukončiť testovanie Skontrolujte zvládnutie obsahu potrebného na absolvovanie
Licencovanie Overte, či sú kandidáti fit na prax
Umiestnenie Výber kurzových alebo inštruktážnych potrieb

Tu je ďalší príklad, ktorý v tomto kurze použijem. Časť mojej práce a výskumu je založená na type štandardizovaného testovania umiestnenia, ktoré sa používa na meranie rastu študentov v krátkom časovom období. Okrem merania rastu sa skóre používa aj na hodnotenie efektivity intervenčných programov e ff, kde e 󻀎ktívne intervencie vedú k pozitívnym výsledkom pre študentov. Môj najnovší projekt zahŕňal opatrenia ranej gramotnosti s názvom myIGDI ʋrad 󻀞ld et al., 2014 ). Brožúra opatrení z www.myigdis.com uvádza,

myIGDI sú komplexný súbor hodnotení na monitorovanie rastu a vývoja malých detí. myIGDI sa ľahko zbierajú, sú citlivé na malé zmeny v úspechoch detí a označujú pokrok smerom k dlhodobému požadovanému výsledku. Z týchto dôvodov sú myIGDI vynikajúcou voľbou na monitorovanie študentov angličtiny a vytváranie informovanejších hodnotení špeciálneho vzdelávania.

Upozorňujeme, že toto sú niektoré špecifické 󻀜 a ambiciózne tvrdenia. Na preukázanie toho, že skóre je možné týmto spôsobom efektívne použiť, je potrebný dôkaz o platnosti.

Cieľom týchto príkladov je jednoducho objasniť, čo obsahuje vyhlásenie o účele a prečo je dobre formulovaný účel zásadným a prvým krokom k meraniu. V kapitolách 2 a 9 sa vrátime k overeniu účelu testu. Zatiaľ sa musíte len zoznámiť s tým, ako je účel testu formulovaný a prečo je dôležitý.

Zhrnutie

Aby sme zhrnuli túto časť, proces merania nám umožňuje zachytiť informácie o jednotlivcoch, ktoré je možné použiť na opis ich postavenia na rôznych konštruktoch, od vzdelávacích, ako sú matematické schopnosti a znalosti slovnej zásoby, až po psychologické, ako je spoločenskosť a agresia. Tieto vlastnosti meriame operacionalizovaním nášho konštruktu, napríklad z hľadiska počtu správne zodpovedaných položiek alebo koľkokrát jednotlivci prejavujú určité správanie. Potom sa predpokladá, že tieto operačné premenné reprezentujú náš konštrukt záujmu. Nakoniec, naše miery týchto konštruktov potom môžu byť použité na špeciálne účely#xFB01c, ako napríklad na informovanie výskumných otázok o vzťahu medzi sociálnosťou a agresivitou alebo na meranie rastu v ranej gramotnosti.

Meranie teda zahŕňa konštrukciu, ktorú priamo nepozorujeme, a jej operáciu, ktorú pozorujeme. Naše meranie je údajne účinné v prípade, že medzi nimi existuje silné spojenie, ktoré je najlepšie dosiahnuť, keď má naše meranie jasný účel. V ďalších dvoch častiach o mierkach merania a bodovaní sa zameriame na to, ako zvládnuť prevádzkovú stránku merania. V prípade modelov merania potom zvážime konštrukčnú stránku. Nakoniec, v sekcii o odkazovaní na skóre hovoríme o ďalších štítkoch, ktoré používajú na to, aby dali našim skóre zmysel.

Meracie stupnice

Teraz, keď sme zistili, čo je meranie, a niektoré kľúčové funkcie, ktoré robia proces merania dobrým, môžeme sa dostať do podrobností o tom, ako sa meranie vykonáva. Ako uvádza Stevens ( 1946 ), meranie zahŕňa priradenie hodnôt objektom podľa určitých pravidiel. Pravidlá, ktorými sa riadi proces merania, určujú typ meracej stupnice, ktorá sa vytvára, a štatistiky, ktoré je možné s touto stupnicou používať.

Štyri druhy váh

Meracie stupnice sú zoskupené do štyroch rôznych typov. Tieto di 󻀎r vo význame, ktorý je daný hodnotám, ktoré sú priradené, a vzťah medzi týmito hodnotami pre danú premennú.

Nominálne

Najzákladnejšou mierkou merania je skutočne absencia stupnice, pretože použité hodnoty sú jednoduchými kategóriami alebo názvami, a nie veličinami premennej. Z tohto dôvodu sa označuje ako nominálna škála, kde sú ľudia kvalitatívne zoskupení, napríklad podľa pohlavia alebo politickej strany. Nominálna stupnica môže tiež predstavovať premenné, ako napríklad PSČ alebo farbu očí, kde je prítomných viac kategórií. Identifikačné premenné, ako napríklad priezvisko študenta alebo ID školy, sa teda tiež považujú za nominálne.

S nominálnymi premennými sú povolené iba frekvencie, proporcie a percentá ( a súvisiace neparametrické štatistiky ). Prostriedky a štandardné odchýlky ( a súvisiace parametrické štatistiky ) nefungujú. Bolo by nezmyselné vypočítať niečo ako priemerné pohlavie alebo farbu očí, pretože nominálnym premenným chýba vo svojich hodnotách inherentné usporiadanie alebo množstvo.

Radové

Dominantou radovej stupnice je poriadok, kde hodnoty majú inherentné usporiadanie, ktoré nemožno odstrániť bez straty významu. Bežné príklady radových stupníc zahŕňajú poradie (napr., first, druhé, tretie atď. ), viacbodové hodnotiace stupnice viditeľné v prieskumoch ʎg., Zásadne nesúhlasím, nesúhlasím atď. . ) a úroveň dosiahnutého vzdelania.

Vzdialenosť medzi usporiadanými kategóriami v radových premenných (t.j., Interval ) sa nikdy nestanoví. Rozdiel medzi druhým číslom a druhým miestom nemusí nutne znamenať to isté ako rozdiel medzi druhým a tretím. V plaveckých pretekoch sa prvý a druhý môže líšiť o niekoľko milisekúnd, zatiaľ čo druhý a tretí o niekoľko minút. Vieme, že first je rýchlejšie ako druhé a druhé je rýchlejšie ako tretie, ale nevieme, ako rýchlejšie. Všimnite si, že konštrukcia, ktorú tu meriame, je pravdepodobne schopnosť plávania, ktorá je v skutočnosti prevádzkovaná na pomerovej stupnici, pokiaľ ide o rýchlosť, ale pri udeľovaní cien je jednoduchá a#xFB01 zaradená do radovej stupnice.

Štatistiky, ktoré sa spoliehajú na informácie na úrovni intervalov, ako napríklad priemer, štandardná odchýlka a všetky štatistické testy na základe priemeru, stále nie sú povolené s radovou stupnicou. Štatistiky povolené s radovými premennými zahŕňajú medián a všetky štatistiky založené na percentile.

Interval

Intervalové škály zahŕňajú usporiadané hodnoty, v ktorých majú vzdialenosti alebo intervaly medzi nimi význam. Zatiaľ čo radová stupnica opisuje jednu kategóriu len ako väčšiu, menšiu alebo rovnakú ako iná, pri intervalovej stupnici je rozdiel medzi kategóriami kvanti fi v bodoch mierky, ktoré majú v celej škále konzistentný význam. S intervalovými škálami môžeme fipoužívať iba prostriedky, štandardné odchýlky a súvisiace parametrické štatistické testy.

Bežným príkladom intervalovej stupnice je skóre testu založené na správnom čísle, kde každá položka v teste má pri výpočte súčtu rovnakú hodnotu. Pri zaobchádzaní so skóre testu ako s premennými intervalu vychádzame z predpokladu, že di 󻀎rencia v bodoch bodov re fl ovplyvňuje konzistentnú di 󻀎rence v konštrukte bez ohľadu na to, kde sa nachádzame na stupnici. To môže byť niekedy problematické. Test slovnej zásoby je možné merať na intervalovej škále, kde každé správne definované slovo prispieva k celkovému skóre rovnakou čiastkou. V tomto prípade však predpokladáme, že každá správna de finition je založená na rovnakom množstve znalostí konštruktu, slovnej zásoby. To znamená, že slová slovníka musia byť podobné ako v prípade obtiažnosti pre študentov, ktorých testujeme. V opačnom prípade nebudú mať intervaly mierky konzistentný význam. Naopak, zvýšenie správneho počtu bude závisieť od slova, ktoré je zodpovedané správne.

Ďalším bežným príkladom intervalovej stupnice je teplota meraná v stupňoch Celzia alebo Fahrenheita. Tieto teplotné stupnice majú zmysluplné intervaly, kde napríklad daný nárast tepla spôsobí rovnaké zvýšenie stupňov bez ohľadu na to, kde sa na stupnici nachádzate. Nula na stupniciach Fahrenheita alebo Celzia však neznamená absenciu meranej veličiny, teploty. Toto je kľúčový rozdiel medzi intervalovou a pomerovou stupnicou.

Pomer

Pomerová stupnica je intervalová stupnica so zmysluplnou absolútnou nulou alebo bod, v ktorom absentuje meraná premenná. Zatiaľ čo intervalová stupnica opisuje rozdiely medzi hodnotami stupnice v bodoch mierky, pomerová škála môže porovnávať hodnoty podľa pomerov. Jednoduchým príkladom je čas, kde 1 hodina je ekvivalentom 2/3 hodín + 1/3 hodiny. Medzi ďalšie príklady patrí počet pozorovaní alebo výskytov, ako napríklad počet agresívnych alebo prosociálnych spôsobov správania za hodinu alebo frekvencia užívania drog za posledný mesiac.

Všimnite si toho, že pri operacionalizácii konštruktov často odkazujeme na pomerové škály, v takom prípade môžeme prísť o náš zmysluplný nulový bod. Napríklad nulové prosociálne správanie v skutočnosti naznačuje, že za určité časové obdobie sa u študenta nevyskytlo nič nápadne prosociálne. To však nemusí znamenať, že študent úplne stratí zdieľateľnosť. Rovnako tak nulové agresívne správanie nemusí nevyhnutne znamenať absenciu agresie. Keď sa teda premenná pomeru používa na operacionalizáciu konštruktu, môže nevyhnutne stratiť svoje pomerové vlastnosti.

Všetky štatistiky sú povolené s pomerovými stupnicami, aj keď jediné, o ktorých hovoríme, okrem štatistík dostupných s intervalovými škálami, sú štatistiky, ktoré vám umožňujú porovnávať skóre pomocou pomerov. Napríklad dvojhodinový test je dvakrát dlhší ako hodinový a five agresívnych epizód je o polovicu menej ako desať. Avšak, ako predtým, ak sa predpokladá, že naša škála odkazuje na nejaký základný konštrukt, five agresívne epizódy nemusia naznačovať dvakrát toľko agresie ako desať.

Porovnávanie mierok

Meracie škály, ktoré postupujú od nominálneho k pomeru, stávajú sa opisnejšími pre premennú, ktorú predstavujú, a sú k dispozícii ďalšie štatistické možnosti. Všeobecne platí, že čím ďalej od nominálnej stupnice, tým lepšie, pretože akonáhle je váha označená, nemožno ju aktualizovať, iba znížiť úroveň. Variabilný vek môže byť napríklad reprezentovaný týmito štyrmi spôsobmi:

1. počet dní strávených životom, od 0 do v finity 2. deň narodený v danom roku, od 1 do 365 3. stupeň mladosti vrátane batoľaťa, dospievajúceho, dospelého atď. Alebo 4. typ mladosti, ako napr. rovnaký ako Mike, alebo rovnaký ako Ike.

Prvá z týchto štyroch pomerových mierok je najuniverzálnejšia a je možné ju previesť na ktorúkoľvek z mierok pod ňou. Akonáhle je však vek definovaný fi na základe klasifikácie fi, ako je “same ako Mike, ”, nie je možné zlepšiť. Z tohto dôvodu by mala byť vo fázach plánovania návrhu testu zvážená variabilná meracia stupnica, ideálne, keď identifikujeme účel nášho testu.

V sociálnych vedách je meranie pomocou pomerovej stupnice ťažké dosiahnuť, pretože naše operacionalizácie konštruktov spravidla nemajú zmysluplné nuly. Intervalové škály sa teda považujú za optimálne, aj keď nie je ľahké ich získať. Zvážte vyššie popísané opatrenie sociability. Aký typ mierky zachytáva toto opatrenie? Znamená nulové skóre úplnú absenciu sociability? Toto je potrebné pre pomer. Znamená prírastkové zvýšenie na jednom konci stupnice to isté ako prírastkové zvýšenie na druhom konci stupnice? Toto je potrebné pre interval.

Po podrobnom skúmaní je ťažké zmerať sociabilitu a väčšinu ostatných konštruktov v sociálnych vedách pomocou niečoho iného ako radovej stupnice. Intervalová alebo pomerová škála je bohužiaľ potrebná pre väčšinu štatistík, ktoré radi používame. Podľa týchto línií Stevens ( 1946, s. 679 ) dospel k záveru:

Väčšina z váh, ktoré psychológovia bežne používajú a sú efektívne & e xFB00, sú radové stupnice. V najprísnejšom zmysle by sa pri týchto mierkach nemala používať bežná štatistika zahŕňajúca prostriedky a štandardné odchýlky, pretože tieto štatistiky znamenajú znalosť niečoho viac ako relatívny poradový poriadok údajov. Na druhej strane, pre tieto ‘nelegálne ’ štatistiky je možné vyvolať druh pragmatickej sankcie: V mnohých prípadoch to vedie k plodným výsledkom. Aj keď zakázanie tohto postupu pravdepodobne nebude slúžiť dobrému účelu, je vhodné poukázať na to, že prostriedky a štandardné odchýlky vypočítané na radovej stupnici sú chybné do tej miery, že po sebe nasledujúce intervaly na stupnici majú rôznu veľkosť. Keď je známy iba poradie údajov, mali by sme s našou štatistikou a obzvlášť so závermi, ktoré z nich vyvodíme, postupovať opatrne.

Na základe tohto argumentu je priemerné skóre sociability iba tak užitočné, ako samotná škála je interval. Čím menej zmysluplné budú intervaly medzi skóre sociability, tým menší bude náš priemerný odhad. Pri navrhovaní nástroja si teda musíme byť vedomí tohto obmedzenia a urobiť všetko pre to, aby sme zlepšili intervalovosť našich stupníc. Pri uvádzaní účelu testu si musíme byť vedomí toho, ako naša konštrukcia a jeho prevádzkovanie ovplyvní našu výslednú škálu. Nakoniec musíme uznať obmedzenia našich mierok, najmä pri použití potenciálne nesprávnych štatistík.

Bodovanie

Tento kurz je zameraný na kognitívne a a#xFB00ektívne testy ako operacionalizáciu konštruktov vo vzdelávaní a psychológii. Ako je uvedené vyššie, tieto výsledky testov často vytvárajú radové škály s určitým významom v ich intervaloch. Konkrétne pravidlá pre priradenie hodnôt v týchto škálach závisia od typu použitých skórovacích mechanizmov. Tu sa pozrieme na dva najbežnejšie mechanizmy skórovania, dichotomické a polytomické, a diskutujeme o tom, ako sa tieto mechanizmy používajú na vytváranie hodnotiacich stupníc a kompozitných skóre.

Dichotomické bodovanie

Dichotomické skórovanie sa týka priradenia jednej z dvoch možných hodnôt na základe výkonu osoby alebo odpovede na testovaciu otázku. Jednoduchým príkladom je použitie správneho a nesprávneho na vyhodnotenie odpovede kognitívnej položky. Tieto hodnoty sa navzájom vylučujú a popisujú správnosť odpovede najjednoduchším možným spôsobom ako úplne nesprávnu alebo úplne správnu. Väčšina kognitívnych testov zahŕňa aspoň niektoré dichotomicky hodnotené položky. Otázky s možnosťou výberu z viacerých odpovedí, o ktorých sa bude ďalej diskutovať v kapitole 3, sa zvyčajne hodnotia dichotomicky.

Dichotomické bodovanie môže okrem správneho a nesprávneho zahŕňať aj rôzne hodnoty skóre. Najbežnejším príkladom je skórovanie, ktoré predstavuje odpoveď buď áno, alebo nie. A 󻀎ktívne opatrenia, ako sú prieskumy postoja a kontrolné zoznamy správania, často používajú tento typ dichotomického bodovania. Inventáre depresie môžu napríklad poskytnúť jednotlivcom zoznamy tvrdení, s ktorými sa ľudia s depresiou spravidla silne stotožňujú. Jednotlivci potom reagujú na každé tvrdenie uvedením, či sú tieto vyhlásenia pre nich charakteristické alebo nie.

Niekedy sa používajú aj iné dichotomické skóre, ktoré nenaznačujú prítomnosť alebo neprítomnosť konštruktu, ale nie sú tu diskutované.

Polytomické bodovanie

Polytomické skóre jednoducho znamená priradenie troch alebo viacerých možných hodnôt pre danú testovú otázku alebo položku. V kognitívnom testovaní je jednoduchým príkladom použitie hodnotiacich stupníc na vyhodnotenie písomných odpovedí, ako sú eseje.V tomto prípade môžu hodnoty skóre stále popisovať správnosť odpovede, ale s rôznymi úrovňami správnosti, napríklad nesprávne, čiastočne správne a úplne správne.

Polytomické skórovanie s kognitívnymi testami môže byť menej priamočiare a menej objektívne ako dichotomické skórovanie, predovšetkým preto, že na udržanie konzistentného významu priradených kategórií, ako napríklad čiastočne správnych, si to zvyčajne vyžaduje použitie ľudských hodnotiteľov, s ktorými je v poriadku. Otázka spoľahlivosti interrateru bude prediskutovaná v kapitole 6.

Polytomické skórovanie s 󻀎ktívnymi alebo nekognitívnymi opatreniami sa najčastejšie vyskytuje s použitím hodnotiacich stupníc. Jednotlivci môžu napríklad použiť hodnotiacu stupnicu na opis toho, do akej miery sa stotožňujú s vyhlásením alebo do akej miery ho vyhlásenie vyjadruje, namiesto toho, aby jednoducho povedali áno alebo nie. Takéto hodnotiace stupnice merajú viac úrovní súhlasu (napr., Od nesúhlasu po súhlas ) alebo preferenciu ʎg., Od odporu k lajku ). V tomto prípade, pretože jednotlivci poskytujú svoje vlastné odpovede, subjektivita v bodovaní nie je problémom, ako je to v prípade polytomického bodovania v kognitívnych testoch. Výzvou s hodnotiacimi stupnicami sa namiesto toho stáva zaistenie toho, aby jednotlivci interpretovali hodnotiace kategórie rovnakým spôsobom. Silný nesúhlas môže napríklad znamenať rôzne veci pre rôznych ľudí, čo bude mať vplyv na porovnanie výsledných skóre medzi jednotlivcami.

S výnimkou bodovania esejí a niektorých aktívnych opatrení ff sa na meranie konštrukcie zriedka používajú jednotlivé otázky, či už dichotomické alebo polytomické, skóre. Namiesto toho sa skombinujú skóre z viacerých položiek a vytvoria sa kombinované skóre alebo skóre stupnice hodnotenia.

Hodnotiace stupnice

Keď som bol na vysokej škole, profesor pre moju triedu úvodného merania káral študentov, keď označovali viacbodové hodnotiace stupnice ako “Likertove stupnice. ” Likert ( 1932 ) nevymyslel hodnotiacu stupnicu. Namiesto toho podrobne popísal dve metódy kombinovania skóre vo viacerých položkách hodnotiacej stupnice, aby vytvoril kompozitné skóre, ktoré by teoreticky bolo silnejšou mierou konštrukcie ako ktorákoľvek jednotlivá položka. Jednou z týchto metód, ktorá sa stala štandardnou technikou pri meraní �tive, je priradiť poradové číselné hodnoty každej kategórii hodnotiacej stupnice a potom vypočítať súčet alebo priemer v rámci sady týchto položiek hodnotiacej stupnice.

Technika škálovania, ktorú predviedol Likert ( 1932 ), zahŕňa first, bodovanie jednotlivých položiek hodnotiacej stupnice pomocou polytomických mierok. Napríklad možnosti odpovede pre jednu skupinu otázok z prieskumu v kategóriách Likert � ) zahŕňali five, od silne nesúhlasných po nerozhodnuté až po silné schválenia. Týmto boli priradené hodnoty skóre 1 až 5. Potom bolo získané celkové skóre pre všetky položky v súbore a nízke skóre bolo interpretované ako vyjadrenie silného nesúhlasu a vysoké skóre bolo interpretované ako označenie silného schválenia. Tento proces by sa mohol označovať ako Likertovo škálovanie. Ale v tomto kurze to budeme jednoducho označovať ako kompozitné škálovanie, kompozitné skórovanie alebo jednoducho vytváranie celkového alebo priemerného skóre pre viacero položiek.

V kapitole 4 sa budeme podrobnejšie venovať hodnotiacim stupniciam. Pokrývame otázky týkajúce sa vytvárania a správy ratingových kategórií. Tu sa viac zaujímame o výhody fits používania kompozitných skóre.

Kompozity verzus komponenty

Kompozitné skóre je jednoducho výsledkom určitej kombinácie oddelených podčiarkov, označovaných ako komponenty. Najčastejšie sa budeme zaoberať celkovým skóre alebo skóre faktora v teste, kde jednotlivé položky tvoria komponenty. Skóre faktora sa týka skóre získaných z určitého modelu merania, ako je klasický model teórie testov, popísaný v kapitole 5 alebo model teórie odozvy položky, o ktorom pojednáva kapitola 8. Tiež sa stretneme so zloženými skóre na základe súčtov a priemerov z položiek stupnice hodnotenia. V každom prípade bude kompozit preferovaný pred akýmkoľvek jednotlivým komponentom z niekoľkých dôvodov.

Kompozitné skóre je vhodnejšie zo štatistického hľadiska, pretože zvyčajne poskytuje spoľahlivejšie a platnejšie meradlo nášho konštruktu. Kompozity sú spoľahlivejšie a platnejšie, pretože kombinujú informácie z viacerých menších, opakovaných mier konštrukcie. Tieto menšie súčasti môžu byť každým určitým spôsobom obmedzené alebo môžu predstavovať iba malý kúsok celkového obrazu, a keď sa skombinujú, výsledné skóre je komplexnejšie a ľahšie sa reprodukuje v nasledujúcich meraniach. V kapitole 5 sa dozvieme viac o tom, prečo sa teoreticky očakáva zvýšenie spoľahlivosti, pretože zvyšujeme počet položiek v našom kompozite.

Napríklad pri meraní konštruktu, akým je prístup k právam zvierat, by jedna položka poskytovala iba informácie o konkrétnej inštancii problému. Zoberme si príklady položiek prieskumu, ktoré predstavili Mathews a Herzog ( 1997, s. 171 ):

Stupnica postoja zvierat ⢪S ) hodnotí jednotlivé rozdiely v postojoch k liečbe zvierat. Skladá sa z 29 položiek, ktoré subjekty hodnotia na fi-bodovej Likertovej stupnici (, dôrazne súhlasia, že zásadne nesúhlasia ). Medzi ukážkové položky patrí, “I nemyslí si, že je niečo zlé na použití zvierat v lekárskom výskume, ” “I je morálne nesprávne loviť voľne žijúce zvieratá len kvôli športu, ” a “I by pravdepodobne pokračovalo použite výrobok, ktorý sa mi páčil, aj keď viem, že jeho vývoj spôsoboval laboratórnym zvieratám bolesť. ”

Každá z týchto položiek nemusí sama osebe predstavovať úplný konštrukčný návrh, ktorý sa pokúšame zmerať. Osoba môže výrazne podporovať práva zvierat, s výnimkou prípadu lekárskeho výskumu. Alebo človek môže finájsť frázu “, čo sa mi páčilo, ” z tretej príkladovej otázky, rôznymi spôsobmi tak, že táto individuálna otázka prinesie rôzne výsledky pre ľudí, ktorí by v skutočnosti mohli byť v tomto ohľade podobní pre zvieratá. Kompozitné skóre bude mať tendenciu zmývať obmedzenia jednotlivých položiek. ( Vedľajšia poznámka k tejto štúdii: regresný model ukázal, že 25% rozdielov v prístupe k zvieratám tvorí pohlavie a miera citlivosti osobnosti. )

Jednoduchšie metódy na vytváranie kompozitov spriemerovaním a súčtom medzi položkami sa používajú s nástrojmi menšieho rozsahu na uľahčenie bodovania a vykazovania skóre. Škálovanie mnohých nástrojov, vrátane rozsiahlych vzdelávacích testov a psychologických opatrení, však často zahŕňa použitie modelov merania.

Modely merania

Zatiaľ čo jednoduchý súčet alebo priemer zo sady položiek umožňuje, aby každá položka prispela rovnakou sumou k celkovému skóre, na odhad rôzneho súčasného príspevku jednotlivých položiek k základnej konštrukcii je možné použiť komplexnejšie modely merania. Tieto príspevky je možné preskúmať rôznymi spôsobmi, ako sa diskutuje v kapitolách 5, 7 a 8. Spolu môžu poskytnúť užitočné informácie o kvalite opatrenia, pretože nám pomôžu porozumieť vzťahu medzi našou operacionalizáciou konštruktu z hľadiska jednotlivých položiek a samotným konštruktom.

Modely merania predstavujú nepozorovateľnú konštrukciu formálnym začlenením teórie merania do procesu merania. V tejto triede preskúmame dve teórie. first, predstavený v kapitole 5, sa nazýva klasická teória testov, a druhý, predstavený v kapitole 8, sa nazýva teória reakcie na položky (viz Hambleton & Jones, 1993, ktorí tieto dva porovnávajú ). Zatiaľ sa pozrieme na základy toho, čo model merania robí.

Obrázok 1.1 obsahuje vizuálne znázornenie jednoduchého modelu merania, kde základný konštrukt sociability zobrazený v ovále spôsobuje čiastočne pozorované reakcie v súbore troch otázok zobrazených v obdĺžnikoch ako položka 1, položka 2 a položka 3. Nepozorovateľné veličiny v modeli merania sú typicky reprezentované oválmi a pozorovateľné veličiny obdĺžnikmi. Príčinnú súvislosť potom predstavujú šípky, ktoré smerujú od konštrukcie k reakciám položky. Čísla nad každou šípkou z konštruktu sú zaťaženiami zmenšeného faktora uvedené v D. A. Nelson et al. � ), ktoré predstavujú silu vzťahu medzi položkami a konštrukciou, ktorú spoločne tvoria fine. Rovnako ako pre korelačný koeficient 󻀼ient, čím väčšie je zaťaženie faktorom, tým silnejší je vzťah. Položka 1 má teda najsilnejší vzťah s faktorom sociability a položka 3 má najslabšiu.

Ďalšími nepozorovanými veličinami na obrázku 1.1 sú chybové výrazy v kruhoch, ktoré tiež ovplyvňujú reakcie na tieto tri položky. Bez šípok spájajúcich chybové výrazy z jedného na druhý model predpokladá, že chyby sú na jednotlivých položkách nezávislé a nesúvisia. V tomto prípade je každá odchýlka v fl odozvy na reakciu, ktorá nepochádza zo spoločného faktora spoločenskosti, pripisovaná chybe merania.

Modely, ako napríklad ten na obrázku 1.1, sa označujú ako modely kritickej faktorovej analýzy, pretože navrhujeme danú štruktúru pre vzťahy medzi konštruktmi, chybami a pozorovaniami a snažíme sa ju konfigurovať umiestnením určitých obmedzení na vzťahy. odhadujeme.

Škálovanie a referencovanie skóre

Teraz, keď sme diskutovali o procese merania, môžeme si prejsť niektoré bežné metódy na poskytnutie významu skóre, ktoré naše opatrenia produkujú. Tieto metódy sa označujú ako škálovanie skóre a referencie na skóre noriem a kritérií. Každý z nich je stručne popísaný nižšie s príkladmi.

Stupnica skóre

Stupnice skóre sú často modifikované tak, aby mali určité vlastnosti, vrátane menších alebo väčších intervalov skóre, rôznych stredných bodov a rôznych variabilít. Bežným príkladom je stupnica z -score, ktorá má fi označenú ako priemer 0 a štandardnú odchýlku (SD ) z 1. Akákoľvek premenná, ktorá má priemer a SD, je možné previesť na z -skóre, ktoré vyjadrujú každé skóre z hľadiska vzdialeností od priemeru v jednotkách SD. Akonáhle je stupnica prevedená na metriku z -score, môže byť potom transformovaná tak, aby mala akýkoľvek stredný bod prostredníctvom priemeru a akýkoľvek faktor mierky prostredníctvom štandardnej odchýlky. Rovnice pre tieto transformácie sú uvedené nižšie. Spôsoby vykonávania týchto transformácií sú opäť prediskutované v kapitole ਅ.

Ak chcete premeniť premennú Y z pôvodnej stupnice skóre na stupnicu z -skóre, z každého skóre odpočítame μ Y, priemer na Y, a potom vydelíme σ Y, SD Y. Výsledná z transformácia Y označená ako Y z je:

Po odpočítaní priemeru z každého skóre je priemer našej novej premennej Y z 0 a po rozdelení každého skóre hodnotou SD je SD našej novej premennej 1. Teraz môžeme vynásobiť Y z ľubovoľnou konštantou s a potom sčítajte alebo odčítajte inú konštantnú hodnotu m, aby ste získali lineárne transformovanú premennú so priemerom m a SD rovnou s. Nová premenná so zmenenou mierkou je označená ako Y r:

Lineárna transformácia akejkoľvek premennej Y z jej pôvodnej metriky, s priemerom a SD μ Y a σ Y, do stupnice de fi určenej novým priemerom a štandardnou odchýlkou, sa získa kombináciou týchto rovníc, ako:

Transformácie v mierke sa často používajú pri testovaní z jedného z dvoch dôvodov. Po prvé, transformácie môžu byť použité na vyjadrenie premennej v zmysle známeho priemeru a SD. Skóre IQ sú napríklad tradične vyjadrené na stupnici s priemerom 100 a SD 15. V tomto prípade sa používa rovnica ਁ.3 s m = 1 0 0 a s = 1 5. Ďalšia populárna stupnica skóre sa označuje ako t -škála, kde m = 5 0 a s = 1 0. Po druhé, transformácie je možné použiť na vyjadrenie premennej z hľadiska novej a jedinečnej metriky. Keď bola GRE v roku 2011 zrevidovaná, bola vytvorená nová stupnica skóre, ktorá čiastočne odrádza od priameho porovnávania s predchádzajúcou verziou skúšky. Bývalé stupnice GRE kvantitatívnych a verbálnych úvah sa pohybovali v rozmedzí od 200 do 800 a revidované verzie v rozmedzí od 130 do 170.

Odkazovanie na normy

Odkazovanie na normy dáva význam skóre tým, že ich porovnáva s hodnotami pre konkrétnu skupinu noriem 󻀜. Napríklad, keď si moje deti prinesú domov svoje štandardizované výsledky testov zo školy, ich skóre v každej oblasti, matematike a čítaní, dostane význam tým, že ich porovná s distribúciou skóre pre študentov v celom štáte. Skóre 22 znamená pre rodiča, ktorý nemá prístup k samotnému testu, veľmi málo. Percentilné skóre 90 však naznačuje, že študent dosiahol skóre najmenej 90% študentov v skupine s normovaním, bez ohľadu na to, na aké percento testových otázok odpovedali správne.

S normami sa často stretávame aj pri prijímacích testoch. Ak ste absolvovali niečo ako ACT alebo SAT, prijímacie skúšky na vysoké školy používané v USA alebo GRE, prijímací test na postgraduálnu školu, pravdepodobne poznáte dvojzmyselné škály skóre, ktoré tieto skúšky používajú v prehľadoch. Každá škála je založená na prevode vašich skutočných výsledkov testov na stupnicu, ktorá je zámerne odlišná alebo nemožná na pochopenie. Cieľom pri tomto škálovaní skóre je určitým spôsobom prinútiť vás spoliehať sa na referencie na normy uvedené vo vašej správe o skóre. Stupnice ACT sa pohybujú od 1 do 36, ale skóre 20 v matematickej sekcii vám veľa nehovorí o tom, koľko matematiky poznáte alebo dokážete. Namiesto toho, keď odkážete na publikované normy, skóre 20 vám povie, že ste dosiahli približne 50. percentil pre všetkých účastníkov testu, čo nie je skvelé, ak dúfate, že sa dostanete na dobrú vysokú školu.

Tieto dva príklady zahŕňajú jednoduché percentilové normy, kde sú skóre porovnané s úplným rozdelením skóre pre danú skupinu noriem. Dva ďalšie bežné typy odkazov na normy sú normy pre ročníky a vek, ktoré sa získavajú odhadom typického alebo priemerného výkonu pri teste podľa stupňa stupňa alebo veku.

Odkazovanie na kritérium

Hlavným obmedzením odkazovania na normy je to, že iba pomáha opísať výkon v porovnaní s inými testovacími subjektmi. Odkazovanie na skóre kritérií robí opak. Odkazovanie na kritérium dáva skóre význam tým, že ich porovnáva s hodnotami priamo prepojenými so samotným obsahom testu, bez ohľadu na to, ako si iní počínajú v obsahu (Popham & Husek, 1969 ).

Na referenčné kritérium sa často odvolávajú vzdelávacie testy podporujúce rozhodovanie o vyučovaní. Hodnotenia v triede sa napríklad používajú na identifikáciu obsahu kurzu, ktorý študent ovláda a ktorý neovláda, aby bolo možné riešiť nedostatky pred pokračovaním. Test slovnej zásoby uvedený vyššie je jedným z príkladov. Medzi ďalšie patria testy používané pri umiestňovaní študentov a pri výstupných testoch.

Výsledky štandardizovaných stavových testov, ktoré boli uvedené vyššie ako príklad odkazovania na normy, majú tiež význam s použitím určitej formy odkazovania na kritériá. Kritériá v štátnych testoch čiastočne stanovuje porota učiteľov a administrátorov, ktorí sa zúčastňujú toho, čo sa nazýva štandardné nastavenie. Štátne testovacie štandardy sú zvolené tak, aby reflektovali súčasné úrovne zvládnutia obsahu testu. Napríklad v Nebraske sa na test vyberú dve cut-o ff skóre, aby sa študenti zaradili do kategórie, ktorá nespĺňa štandardy, spĺňa štandardy a prekračuje štandardy. Tieto kategórie sa označujú ako výkonnostné úrovne. Výkony študentov je potom možné hodnotiť na základe popisu typických výkonov pre ich úroveň. Tu je popis úrovne výkonnosti pre vedu 5. stupňa, ktorá spĺňa normu:

Celkový výkon študentov vo vede zodpovedá 󻀮 uspokojivému výkonu podľa štandardov a vynikajúcemu porozumeniu obsahu v fi. Ročníku. Žiak, ktorý skóruje na úrovni Spĺňa štandardy, vo všeobecnosti čerpá zo širokej škály vedeckých znalostí a zručností v oblastiach výskumu, fyziky, života a vied o Zemi/vesmíre.

Výkonnostné kategórie a popisy Nebrasky sú dostupné online na www.education.ne.gov/assessment. Popisy úrovní výkonu sú doplnené ďalšími podrobnosťami o očakávanom výkone študentov v tejto skupine na základe osobitných vedeckých konceptov. Napríklad opäť pre vedu 5. stupňa spĺňa normu:

Študent na tejto úrovni spravidla:

  • Identifikovateľné 󻀞s testovateľné otázky,
  • Identifikujte faktory, ktoré môžu mať vplyv na vyšetrovanie,
  • Identifikuje vhodný výber a používanie vedeckého vybavenia,
  • Vypracováva rozumné vysvetlenie na základe zhromaždených údajov,
  • Popíšte fyzikálne vlastnosti hmoty a jej zmeny.

Úrovne výkonu a deskriptory použité v štandardizovaných štátnych testoch poskytujú všeobecné informácie o tom, ako skóre testu súvisí s obsahom, ktorý je test určený na meranie. Vzhľadom na ich všeobecnosť majú tieto výsledky pre učiteľov a rodičov obmedzenú hodnotu. Namiesto toho sa deskriptory úrovne výkonu používajú na účely zodpovednosti, napríklad na hodnotenie výkonnosti v škole, okrese a dokonca na štátnych úrovniach, pokiaľ ide o počet študentov, ktorí spĺňajú očakávania.

Inventár Beckovej depresie ⢽I Beck, Ward, Mendelson, Mock, & Erbaugh, 1961 ) je príkladom odkazu na kritérium v ​​psychologickom testovaní. BDI obsahuje 21 položiek predstavujúcich rad depresívnych symptómov. Každá položka je hodnotená polytomicky od 0 do 3 a celkové skóre je vypočítané pre všetky položky. Potom sa poskytne skóre Cuto ff na identifikáciu jedincov s minimálnou, miernou, stredne ťažkou a ťažkou depresiou, kde nižšie skóre naznačuje menej depresívnych symptómov a vyššie skóre naznačuje závažnejšie depresívne symptómy.

Porovnávanie metód odkazovania

Napriek tomu, že referencie na normy a kritériá sú tu prezentované ako dve odlišné metódy dávajúce zmysel testovým skóre, niekedy môžu byť vzájomne prepojené, a preto sa môžu navzájom odlišovať. Vyššie popísaný testovací program myIGDI je jedným z príkladov odkazovania na skóre, ktoré kombinuje normy aj kritériá. Tieto hodnotenia boli vyvinuté na meranie rastu schopností ranej gramotnosti v predškolských a materských triedach. Študenti so skóre, ktoré klesne pod medznú hodnotu ff, sú identifikovaní ako potenciálne ohrození pre budúce vývojové oneskorenia v čítaní. Skóre cut-o ff je čiastočne určené na základe určitého percenta obsahu testu ( informácií o kritériu ) a čiastočne pomocou priemerného výkonu študentov hodnotených ich učiteľmi ako rizikových (normatívnych informácií ).

Odkazy na normy a kritériá slúžia na rôzne účely.Väčšina porovnávaní týchto dvoch konštatuje, že odkazovanie na normy je zvyčajne spojené s testami, ktorých cieľom je zoradiť odberateľov testov a prijímať rozhodnutia zahŕňajúce porovnania medzi jednotlivcami, zatiaľ čo odkazovanie na kritériá je spojené s testami určenými na meranie učenia alebo ovládania a rozhodovania o jednotlivcoch a programoch &# x0028napr., Bond, 1996 Popham & Husek, 1969 ). Tieto rôzne dôraznosti sú dôležité pre účel samotného testu a mali by sa vziať do úvahy v počiatočných fázach vývoja testu, ako sa diskutuje v kapitolách 2, 3 a 4.

Zhrnutie a domáca úloha

Táto kapitola prináša prehľad toho, čo je meranie, ako sa meranie vykonáva z hľadiska škálovania a bodovania a ako meraniu prikladá ďalší význam pomocou odkazovania na skóre a transformácie stupnice. Predtým, ako prejdete na kapitolu 2, sa uistite, že dokážete odpovedať na vzdelávacie ciele tejto kapitoly a nižšie uvedené diskusné otázky.

Učebné ciele

1. De fine proces merania. 2. De finame pojem konštrukt a popíšte, ako sa konštrukty používajú pri meraní, s príkladmi. 3. Porovnajte a porovnajte stupnice merania vrátane nominálnych, radových, intervalových a pomerových s príkladmi a identifikujte ich použitie v kontexte. 4. Porovnajte a porovnajte dichotomické a polytomické skórovanie. 5. Popíšte, ako sa hodnotiace stupnice používajú na vytváranie kompozitných skóre. 6. Porovnajte a kontrastujte kompozitné a komponentné skóre. 7. Vytvorte generický model merania a de fine jeho súčasti. 8. De fine norma odkazujúca a identifikujúca súvislosti, v ktorých je to vhodné. 9. Porovnajte tri príklady odkazovania na normy: známkové, vekové a percentilové normy. 10. De fine kritérium odkazovania a identifikácia kontextov, v ktorých je to vhodné. 11. Popíšte, ako sa štandardy a výkonnostné úrovne používajú v kritériách odkazujúcich na štandardizované štátne testy. 12. Porovnajte a porovnajte odkazy na normy a skóre kritérií a identifikujte ich použitia v kontexte. 13. Vysvetlite, ako a prečo sa lineárne transformácie mierok používajú na úpravu mierok.

Otázky do diskusie

Po dokončení tejto kapitoly by ste mali byť schopní poskytnúť podrobnosti o aplikácii merania, ktorá vás zaujíma. Ako postupujeme, budete túto aplikáciu odkazovať vo svojich úlohách a diskusiách v triede. Tu je niekoľko otázok, na ktoré by ste si mali vedieť odpovedať:

1. Ako by ste označili svoju konštrukciu? Aké výrazy je možné použiť na de fineznámenie? 2. S kým by ste tento konštrukt merali? Kto je vašim predmetom merania? 3. Aké sú merné jednotky? Aké hodnoty sa používajú pri prideľovaní skóre ľuďom? Aký typ meracej stupnice tieto hodnoty vytvoria? 4. Aký je účel pri meraní vašej konštrukcie? Ako sa budú používať skóre? 5. Ako sa bežne meria váš konštrukt? Existujú opatrenia, ktoré by vyhovovali vašim potrebám?

Ak máte problémy s aplikáciou merania, ktorá vás zaujíma, môžete začať s konštrukciou, ktorú vo vás budem počas tohto kurzu merať. Ako študent máte základný konštrukt, ktorý sa dúfajme zvýši, keď budete čítať, študovať, cvičiť a prispievať k skupinovej práci a diskusii v triede. Tento konštrukt by mohol byť označený ako hodnotiaca gramotnosť (Stiggins, 1991 ). Získate rôzne skóre na základe kvízov a zadaní, ktoré vám pomôžu ja a ja odhadnúť, kde sa nachádzate, na škále hodnotiacej gramotnosti. Potom na konci dostanete percentuálne skóre vyjadrujúce, koľko ste zvládli. V tomto kurze použijeme skutočné meranie, ktoré sa v ňom deje, ako kontext pre učenie.

Na zváženie je ešte niekoľko diskusných otázok:

1. Učitelia často používajú krátke opatrenia ústneho čítania a#xFB02uency, aby zistili, koľko slov študenti dokážu správne prečítať z textu v priebehu jednej minúty. Popíšte, ako by bolo možné túto premennú modifikovať fi do fit štyroch rôznych meradiel. 2. Ako môže byť odkazovanie na normy a kritériá užitočné pri skúške používanej na preverenie uchádzačov o prácu? 3. Ako sa referenčné normy a kritériá používajú pri hodnotení premenných mimo sociálnych vied, napríklad s aplikáciami merania uvedenými na začiatku kapitoly?


Pri testovaní použiteľnosti a výskume používateľskej skúsenosti (UX) je bežné zhromažďovať údaje pomocou viacbodových hodnotiacich stupníc. Existuje mnoho otázok týkajúcich sa účinku rôznych formátov stupnice hodnotenia na kvalitu výsledných údajov, na mnohé z nich je ešte potrebné definitívne odpovedať, možno preto, že existuje komplexný súbor kompromisov a nie jednoduchých odpovedí. Jednou z týchto otázok je optimálny počet možností odpovede.

Praktici použiteľnosti a vedci UX v súčasnosti používajú iba dve možnosti reakcie na veľmi veľký počet tým, že účastníci umiestnia značku na 10-cm čiaru (alebo použijú posuvný ovládač na online zber údajov). Tieto vizuálne analógové škály (VAS) sa zvyčajne prevádzajú na merania v rozsahu od 0 do 100. Najbežnejším počtom možností odozvy v štandardizovaných dotazníkoch použiteľnosti je päť (napr. Stupnica použiteľnosti systému, SUS, Brooke, 1996) a sedem (napr. „Computer System Usability Questionnaire, CSUQ, Lewis, 1995), aj keď existujú populárne nástroje UX, ktoré používajú iba tri (napr. Inventár merania použiteľnosti softvéru, SUMI, Kirakowski, 1996) a až deväť (napr. Dotazník pre spokojnosť s interakciou používateľa, QUIS, Chin, Diehl, & amp Norman, 1988).

Keď pre subjektívny zážitok ponúknete dve možnosti reakcie, môžete určiť, či bola skúsenosť účastníka negatívna alebo pozitívna, ale neumožňujete vyjadrenie neutrálneho pocitu (ktorý môžete získať tromi možnosťami reakcie) a nie zozbierajte akúkoľvek gradáciu negatívnej alebo pozitívnej reakcie (ktorú môžete získať minimálne štyrmi možnosťami). Najmenší počet možností, ktoré obsahujú neutrálny bod a gradáciu negatívnej/pozitívnej reakcie, je päť. Pohyb nad päťku umožňuje jemnejšiu a jemnejšiu gradáciu negatívnej/pozitívnej reakcie. Zdá sa rozumné, že zvýšenie počtu možností odozvy by malo viesť k zlepšeniu kvality údajov, ale prehľad literatúry naznačuje, že tomu tak nemusí byť.

Kritériá optimalizácie

Vedci z rôznych vedných oblastí sa zaoberali otázkou optimálneho počtu možností reakcie v rôznych kontextoch s rôznymi optimalizačnými kritériami vrátane týchto:

  • Spoľahlivosť stupnice: Psychometrické meranie spoľahlivosti stupnice (napr. Koeficient alfa Alwin, 1997 Cicchetti, Showalter, & amp Tyrer, 1985 Jacoby & amp Matell, 1971 Jensen, Karoly, & amp Braver, 1986 Lozano, García-Cueto, & amp Muñiz, 2008 Matell & amp Jacoby, 1971 Maydeu-Olivares, Kramp, Garcia-Forero, Gallardo-Pujol, & amp Coffman, 2009 Preston & amp Colman, 2000 van Schaik & amp Ling, 2007)
  • Platnosť stupnice: Psychometrické meranie určitého aspektu platnosti stupnice (napr. Prediktívne, súbežné, konštrukcia Alwin, 1997 Briggs & amp Closs, 1999 Davey, Barratt, Butow, & amp Deeks, 2007 Jacoby & amp Matell, 1971 Jensen et al., 1986 Larroy, 2002 Matell & amp Jacoby, 1971 Maydeu-Olivares a kol., 2009 Preston & amp Colman, 2000 Revilla, Saris, & amp Krosnick, 2014 van Schaik & amp Ling, 2007)
  • Citlivosť: Rozsah, v akom je metrika citlivá na variácie v nezávislej premennej, od ktorej sa očakáva, že ovplyvní metriku (Bolognese, Schnitzer, & amp Ehrich, 2003 Couper, Tourangeau, & amp Conrad, 2006 Hjermstad et al., 2011 Joyce, Zutshi, Hrubes, & amp Mason, 1975 Lara-Muñoz, Ponce de Leon, Feinstein, Purnte, & amp Wells, 2004 Larroy, 2002 Loken, Pirie, Virnig, Hinkle, & amp Salmon, 1987 Preston & amp Colman, 2000 Sauro & amp Dumas, 2009 van Beuningen, van der Houwen , & amp Moonen, 2014 van Laerhoven, van der Zaag-Loonen, & amp Derkx, 2004 van Schaik & amp Ling, 2007)
  • Jednoduchosť použitia: Rozdiely v úspešnom použití hodnotiacich stupníc (napr. Chýbajúce údaje alebo nesprávne odpovede Bolognese et al., 2003 Briggs & amp Closs, 1999 Couper et al., 2006 Davey et al., 2007 Funke & amp Reips, 2012 Hjermstad et al., 2011 van Beuningen et al., 2014 van Laerhoven et al., 2004)
  • Prednosť: Počet možností reakcie, ktoré respondenti uprednostňujú (Cox, 1980 Joyce et al., 1975 Preston & amp Colman, 2000 van Laerhoven et al., 2004 van Schaik & amp Ling, 2007)
  • Obnovenie štruktúry: Rozsah, v akom je možné kontinuálne miery previesť na rôzne usporiadané kategórie a napriek tomu umožniť obnovu pôvodnej psychometrickej štruktúry (Benson, 1971 Bollen & amp Barb, 1981 Green & amp Rao, 1970, 1971)
  • Spracovávanie informácií: Hodnotenie rovnováhy medzi prenosom informácií a kapacitou diskriminácie ľudského spracovania (Cox, 1980 Hulbert, 1975 Rausch & amp Zehetleitner, 2014)
  • Iné: Študovali sa jedinečné kritériá, ako napríklad chyba vo vzťahu k známym hodnotám v simulačnej štúdii (Lehmann & amp Hulbert, 1972 Maydeu-Olivares et al., 2009), vlastné komplexné metriky výsledku (Weijters, Cabooter, & amp Schillewaert, 2010), korelácia s veľkosťou pozorovaných hladín významnosti štatistických testov (Lewis, 1993) a frekvencie značenia medzi možnosťami odozvy (Finstad, 2010)

Dva vplyvné listy

Pri takom veľkom objeme výskumu, ktorý bol vykonaný počas toľkých rokov v rôznych kontextoch výskumu s viacerými optimalizačnými kritériami, by nemalo byť prekvapujúce, že neexistuje žiadna definitívna odpoveď. Poskytnúť komplexný prehľad literatúry pre všetky oblasti a kritériá presahuje rámec tohto článku. Tí, ktorí chcú porozumieť tomuto širokému kontextu, by si mali prečítať dve široko vplyvné práce, jednu z literatúry pre prieskum trhu (Cox, 1980) a jednu zo psychológie (Preston & amp Colman, 2000). Nasledujú stručné zhrnutia.

Cox (1980) publikoval prehľad literatúry o optimálnom počte možností reakcie na základe publikovaného výskumu v rokoch 1900–1980. Ako by ste mohli očakávať od takého rozsiahleho prehľadu literatúry, hlavným záverom bolo „“ Z rozsiahleho výskumu je zrejmé, že neexistuje jediný počet alternatív reakcie na rozsah, ktorý by bol vhodný za každých okolností“ (s. 418). Niektoré z faktorov, ktoré odporučil vziať do úvahy pri tomto rozhodnutí, boli tieto:

  • Kapacita kanála jednotlivej položky stupnice: Schopnosť stupnice s dvoma alebo tromi možnosťami odozvy je výrazne obmedzená vzhľadom na množstvo informácií, ktoré môže prenášať. Pridanie ďalších možností odozvy pomáha, ale so znižovaním návratnosti.
  • Počet replikácií škálovania: To platí pre zložené škály (napr. Likert alebo sémantické diferenciály), v ktorých sú reakcie na viacero položiek kombinované na posúdenie základného atribútu (napr. SUS). Keď sa položky spoja a vytvoria stupnicu, počet možností reakcie na položku sa stane menej dôležitým.
  • Chyba odpovede: To je však ťažké posúdiť pri vývoji mier sentimentu (napr. Vnímanej použiteľnosti), pretože neexistuje spôsob, ako zistiť skutočnú očakávanú hodnotu.

Cox (1980) by neodporúčal ani jedno číslo, ale domnieva sa, že pretože kapacita kanála položiek s dvoma alebo tromi položkami bola nízka, ale zvýšenie počtu možností odozvy nad deväť malo nízke marginálne výnosy, počet možností reakcie by mal byť aspoň päť a nie viac ako deväť. Ako poznamenal Cox, “ Je iróniou, že magické číslo sedem plus mínus dve sa javí ako rozumný rozsah pre optimálny počet alternatív odozvy, napriek tomu, že Millerov prehľad [1956] nie je pre túto otázku priamo relevantný. “(S. 420).

Preston a Colman (2000) uskutočnili experiment, v ktorom zmanipulovali počet možností odpovede od dvoch do 11 a okrem toho požiadali respondentov, aby si zapísali číslo od 0 do 100 pre položky hodnotiace kvalitu služieb poskytovaných obchodom alebo reštauráciou, ktoré sú mu známe. respondent. Experimentálny dizajn v rámci subjektov (n = 149 s randomizovaným poradím prezentácie položiek s rôznym počtom možností odpovede, na konci ukotvený s veľmi zlé a veľmi dobre) povolené hodnotenie spoľahlivosti, platnosti, citlivosti a preferencií respondenta. Vo viacpoložkových škálach zložených z testovaných položiek neboli žiadne významné rozdiely vo vnútornej konzistencii (merané koeficientom alfa, odhad spoľahlivosti stupnice) (v rozsahu od 0,79 pre tri možnosti odozvy do 0,86 pre 11 možností odozvy-koeficienty alfa vyššie ako 0,70 naznačujú prijateľnú spoľahlivosť stupnice). Rozdiely v spoľahlivosti testu a opakovaného testu boli štatisticky významné, ale veľkosti rozdielov boli malé, v rozsahu od korelácie 0,86 pre tri možnosti odpovede po 0,94 pre osem a deväť možností (0,92 pre 11 možností, 0,90 pre 101 možností). Výsledky pre rôzne hodnotenia platnosti a citlivosti boli podobné: buď žiadny významný rozdiel, alebo, kde sú štatisticky významné, rozdiely veľmi malého rozsahu. Na vyhodnotenie jednoduchosti použitia rôznych počtov možností odpovedí respondenti použili 101-bodovú stupnicu vyplnenia. Opäť tu boli významné rozdiely, ale žiadny nebol obzvlášť veľký, s priemerom od 74,1 (pre položku s 101 možnosťami vyplnenia prázdneho políčka) do 83,7 (pre päť možností odozvy). Priemerné hodnotenie presiahlo 80 pre tri, štyri, päť, šesť, sedem, osem, deväť a 10 možností odozvy. Ich všeobecným záverom bolo, že škály s malým počtom kategórií odpovedí poskytujú skóre, ktoré je spravidla menej platné a menej diskriminačné ako skóre so šiestimi alebo viacerými kategóriami odpovedí “(s. 12).

Výskum mimo VAS o optimálnom počte možností reakcie od roku 2000

Lozano a kol. (2008) pomocou simulácií skúmali vplyv rôznych korelácií medzi položkami a počet kategórií odpovedí na položku od dvoch do deviatich. Hlavné zistenie, že zvýšenie počtu možností odozvy zvýšilo spoľahlivosť súvisiacich mierok (monotónne sa zvyšuje so zníženými výnosmi, okrem prechodu z dvoch na tri možnosti).

Maydeu-Olivares a kol. (2009) uskutočnili medziodborovú štúdiu s dvoma osobnostnými dotazníkmi, v ktorých boli položky dotazníka manipulované tak, aby poskytovali dve, tri alebo päť alternatív odozvy. Ako sa počet alternatív odozvy v tomto trochu obmedzenom rozsahu zvyšoval, spoľahlivosť (vnútorná konzistencia) sa zvyšovala, nemal to žiadny vplyv na prediktívnu validitu a dobrota vhodnosti pre položku faktorovú analýzu a modely teórie odozvy položky sa znižovali.

Weijters a kol. (2010) študoval položky so štyrmi až siedmimi možnosťami odpovede, s alebo bez označenia každej možnosti. Došli k záveru, že 5-bodové položky s označenými iba koncovými bodmi sú najlepšie pre položky všeobecného prieskumu a 7-bodové položky sú lepšie s mladšími a vzdelanejšími vzorkami, ako sú študenti vysokých škôl. Tieto odporúčania boli založené na komplexných výsledkových metrikách, pre ktoré bolo ťažké odlíšiť praktickú a štatistickú významnosť.

Revilla a kol. (2014) predložili zistenia, že kvalita údajov bola vyššia pri 5-bodových položkách než pri 7 alebo 11-bodových položkách, kde kvalita odkazuje na silu vzťahu medzi sledovanou premennou a základným konštruktom záujmu. Poznamenali, že keďže ich metrika kvality klesala v dôsledku zvyšovania počtu možností odozvy, korelácie s inými meraniami sa zvyšovali.

Van Beuningen a kol. (2014) porovnal položky verbálneho označenia s piatimi možnosťami reakcie a 11-bodové číselné položky s označenými koncovými bodmi. Zistili niektoré distribučné rozdiely, ale žiadne korelačné rozdiely so súvisiacimi premennými. Ohlásili viac chýbajúcich údajov pre 11-bodové položky (

Pokiaľ ide o štandardné psychometrické kritériá spoľahlivosti a prediktívnej platnosti, zdá sa, že existuje výhoda pre viac možností reakcie (Lozano et al., 2008 Maydeu-Olivares et al., 2009 Revilla et al., 2014). Vzhľadom na limity zovšeobecniteľnosti týchto piatich štúdií a ich rôzne kritériá sa odporúčaný počet možností reakcie pohyboval od piatich do deviatich. Týmto spôsobom bol výskum optimálneho počtu možností reakcie od roku 2000 primerane konzistentný so zisteniami Coxa (1980) a Prestona a Colmana (2000).

Výskum vrátane VAS

Ani Cox (1980), ani Preston a Colman (2000) neobsahovali položky VAS, ktoré prvýkrát popísali Hayes a Patterson (1921). Štandardný VAS je 10 cm čiara tvoriaca súvislú stupnicu, ktorej konce označujú minimálne a maximálne úrovne (spravidla označené) hodnoteného atribútu. Rôzne dĺžky čiar vedú k podobným hodnoteniam, prinajmenšom v rozmedzí 4–10 cm (Kreindler, Levitt, Woolridge, & amp Lumsden, 2003). Papierové a elektronické verzie VAS veľmi korelujú (van Duinen, Rickelt, & amp Griez, 2008).

Existujú dve rôzne aplikácie položiek VAS. Jeden z nich, ktorý sa najčastejšie nachádza v lekárskej literatúre, slúži ako prostriedok na získanie klinických informácií (napr. Množstvo depresie alebo bolesti, ktoré hlásil sám), rýchlejšie ako pomocou štandardnejšieho viacpoložkového dotazníka (napr. Appukuttan, Vinayagavel, & amp Tadepalli , 2014 de Boer et al., 2004 Hasson & amp Arnetz, 2005 Lee, Brown, Perantie, & amp Bobadilla, 2002 Zampelis, Ornstein, Franzén, & amp Atroshi, 2014). Druhý je ako alternatívny grafický formát, ktorý sa má použiť namiesto numerických stupníc Likertovho typu, a to buď na jednorazové hodnotenia, alebo na hodnotenia kombinované do viacpoložkových mierok. Práve táto druhá (a nie prvá) aplikácia je zaujímavá pre výskum priameho porovnania počtu možností reakcie.

Početné štúdie porovnávali psychometrické vlastnosti Likertových škál a VAS v rôznych kontextoch, ale rovnako ako ostatné skúmania počtu možností reakcie, tieto štúdie priniesli protichodné zistenia.

Na hodnotenie chronickej bolesti Joyce a kol. (1975) zistili, že VAS funguje lepšie ako položka Likertovho typu so štyrmi možnosťami odozvy. Bola citlivejšia na rozdiely v dávkovaní a pacienti naznačovali miernu preferenciu pre VAS.

Jensen a kol. (1986) mal 75 pacientov, ktorí hodnotili štyri druhy bolesti (prítomné, najmenej, väčšina a priemer) pomocou šiestich metód (položky so štyrmi, piatimi, šiestimi a jedenástimi možnosťami, 0–100 numerických výplní prázdna položka a VAS). Všetky stupnice mali podobné psychometrické vlastnosti. Starší pacienti mali väčšie problémy s dokončením VAS. Jensen a kol. odporúča použiť 0–100 prázdnu položku kvôli relatívnej jednoduchosti správy a bodovania.

Briggs a Closs (1999) zistili vysokú koreláciu medzi súbežne zbieranými päť možnosťami verbálnych škál a VAS. Dokončenie VAS bolo ťažšie pre ortopedických pacientov s poraneniami horných končatín, ktorí sa zúčastnili na ich štúdii.

Larroy (2002) porovnal VAS a numerickú stupnicu 0 - 10 bodov na hodnotenie bolesti. Váhy korelovali veľmi vysoko.Po vynásobení hodnotení škály bodov 0–10 bodmi 10 bol priemerný rozdiel v hodnoteniach stupnice asi 3. Toto bolo štatisticky významné, ale pravdepodobne málo praktické, a nemalo žiadny význam pri výbere jedného formátu pred druhým.

Bolognese a kol. (2003) skúmali rozdiely medzi VAS a položkou s piatimi možnosťami Likertovho typu (všetky možnosti sú označené). Našli podobné výsledky pre oba prístupy a argumentovali použitím položky v štýle Likert na základe jednoduchej správy a bodovania. “ Aj keď to nie je hodnotené v tejto štúdii, 0–10 bodová diskrétna stupnica môže byť najužitočnejším kompromisom, ktorý zahŕňa všetky pozitívne atribúty odpovedí vizuálneho analógu aj Likertovej stupnice, vyžaduje si to však ďalšiu štúdiu ” (s. 507).

Účastníci Lara-Muñoz a kol. (2004) použil na vyhodnotenie hlasitosti tónov tri rôzne položky: VAS, päťstupňovú stupnicu slovného hodnotenia a číselné hodnotenie 0–10 (vyplňte prázdne miesto). Medzi váhami bolo len málo rozdielov. VAS sa zdal byť o niečo presnejší.

Van Laerhoven a kol. (2004) zistili, že Likertova stupnica s piatimi možnosťami verbálne označenej stupnice, VAS s 10 bodmi a konvenčný 10 cm VAS silne korelujú pri meraní emocionálnych stavov a kvality života detí. Deti uprednostnili položku v štýle Likert.

V štúdii s mnohými manipuláciami s formátom položky (stredný bod/žiadny stredný bod, spätná väzba VAS/žiadna spätná väzba a prepínače očíslované/nečíslované) Couper a kol. (2006) porovnal VAS s 20-bodovými položkami pomocou prepínačov alebo vstupného poľa. Dospeli k záveru a#8220 nenašli sme žiadne dôkazy o výhodách VAS pre typy tu používaných meraní. Aj keď sa distribúcie medzi VAS a alternatívnymi prístupmi nelíšili, VAS trpel vyššími úrovňami chýbajúcich údajov, produkoval viac výpadkov a trval dlhšie ako ostatné formáty ” (s. 243).

V Davey a kol. (2007), 400 austrálskych žien, ktoré práve navštívili špecializovanú kliniku prsníka, v náhodnom poradí dokončilo 20-položkový zoznam State Trait Anxiety Inventory (STAI), jeden 5-bodový Likertov úzkostný predmet a jeden 10 cm úzkostný VAS. Oba jednotlivé položky boli významnými prediktormi STAI (Likert: r = 0,75 VAS: r = 0,78). 11% žien však VAS nesprávne dokončilo, čím sa obmedzila jeho užitočnosť.

Van Schaik a Ling (2007) zaradili medzi subjektmi porovnanie viacpoložkových nástrojov pomocou 7-bodových Likertových položiek alebo 101-bodového VAS (0–100). Psychometrické výsledky (spoľahlivosť, validita konštrukcie, citlivosť) boli podobné pre verzie Likert a VAS. Väčšina účastníkov uprednostnila Likert pred VAS (82% s n = 103 pre 95% upravený-Waldov binomický interval spoľahlivosti v rozmedzí od 73 do 88%).

Sauro a Dumas (2009) porovnali jednoduchú otázku (SEQ a 7-bodová položka Likertovho typu) s dotazníkom subjektívnej mentálnej námahy (SMEQ 151-bodovou vizuálnou stupnicou od 0 do 150) na hodnotenie vnímanej použiteľnosti. Tieto dva prístupy poskytli podobné výsledky, pokiaľ ide o citlivosť stupnice.

Lee, Stone, Wakabayashi a Tochihara (2010) uviedli nepresvedčivé výsledky štúdie mnohých rôznych formátov položiek zameranej na porovnanie s 9-bodovými kategorickými škálami a VAS. “ S našimi výsledkami nemôžeme v súčasnosti tvrdiť, aká je optimálna stupnica na meranie vnímaného tepelného pocitu ” (s. 289).

Hjermstad a kol. (2011) publikovali prehľad literatúry (54 referátov) rôznych formátov na jednorozmerné hodnotenie intenzity bolesti. Dospeli k záveru, že číselné hodnotiace škály (NRS, možnosti odpovedí označené číslami) boli vo všeobecnosti lepšie ako verbálne hodnotiace škály (VRS) alebo VAS. “V porovnaní s VAS a VRS mali NRS lepšiu zhodu v 15 z 19 štúdií, ktoré to uviedli, a boli odporúčaným nástrojom v 11 štúdiách na základe vyšších mier súladu, lepšej odozvy a jednoduchosti použitia a dobrej použiteľnosti v porovnaní s VAS/VRS … Celkovo skóre NRS a VAS zodpovedalo, až na niekoľko výnimiek systematicky vyšších skóre VAS ” (s. 1074). Najbežnejšie používaným NRS (bežným pri hodnotení intenzity bolesti) bol NRS – 11 (možnosti reakcie od 0 do 10).

Funke and Reips (2012) publikovali článok s názvom “ Prečo by sémantické rozdiely vo webovom výskume mali byť vyrobené z vizuálnych analógových stupníc a nie z 5-bodových stupníc. ” Údaje však toto tvrdenie nepodporovali ( ktorý vychádzal z percenta respondentov, ktorí počas vypĺňania prieskumu zmenili svoje hodnotenie). Rozdiel, ktorý uviedli v percente respondentov upravujúcich hodnotenia pre VAS a päťpoložkovú položku typu Likert, nebol štatisticky významný.

Rausch a Zehetleitner (2014) porovnali VAS so štyrmi možnosťami položky typu Likert a hlásené “, že vizuálne analógové škály, ako aj diskrétne škály sú spoľahlivými mierami subjektívnych správ o globálnom zážitku z pohybu ... VAS získava väčšie množstvo informácií ako diskrétna škála so štyrmi krokmi stupnice za predpokladu, že účastníci si nájdu čas na vykonanie jemnejších úsudkov ” (s. 139).

Stručne povedané, niekoľko štúdií má dôkazy podporujúce používanie VAS na viacbodových položkách, pokiaľ ide o citlivosť (Joyce et al., 1975), preferencie respondentov (Joyce et al., 1975) a presnosť (Lara-Muñoz et al., 2004). Niektorí uviedli lepšie výsledky pre viacbodové položky ako VAS, pokiaľ ide o čas dokončenia (Couper et al., 2006 Rausch & amp Zehetleitner, 2014), mieru dokončenia (Couper, 2006 Davey et al., 2007) a preferencie respondentov (van Laerhoven a kol., 2004 van Schaik & amp Ling, 2007). Respondenti, najmä v klinickom prostredí, mali niekedy väčšie problémy s fyzickým dokončením VAS ako položky Likertovho typu (Bolognese et al., 2003 Briggs & amp Closs, 1999 Jensen et al., 1986). Počet možností reakcie v týchto štúdiách sa pohyboval od štyroch do 20 a mnohé z nich neuvádzali žiadne významné alebo praktické rozdiely v psychometrických vlastnostiach medzi VAS a rôznymi viacbodovými položkami (Bolognese et al., 2003 Couper et al., 2006 Davey et al. ., 2007 Larroy, 2002 Lee et al., 2010 Rausch & amp Zehetleitner, 2014 van Laerhoven et al., 2004 van Schaik & amp Ling, 2004).

Ciele tejto štúdie

Viacbodové položky hodnotenia sú široko používané v dotazníkoch vyvinutých na skúmanie vnímanej použiteľnosti a ďalších aspektov používateľskej skúsenosti. Na druhej strane, použitie VAS je v štúdiách použiteľnosti pomerne zriedkavé. Je možné, že spojitá štruktúra VAS by mohla ponúknuť určité výhody merania. Bývalá nevýhoda VAS, potreba manuálneho vyhodnocovania odpovedí na položky, bola uľahčená zavedením nástrojov na vytváranie online položiek VAS (napr. Marsh-Richard, Hatzis, Mathias, Venditti, & amp Dougherty, 2009 Reips & amp Funke, 2008). Napriek týmto potenciálnym výhodám predchádzajúca literatúra vyšetrovania VAS naznačuje, že nemusí mať výrazne lepšie psychometrické vlastnosti v porovnaní s položkami Likertovho typu s dostatočnými možnosťami reakcie, aby respondenti mohli s primeranou presnosťou naznačiť svoje pocity alebo úsudky.

Našim cieľom pre túto štúdiu bolo porovnať psychometrické vlastnosti jednotlivých položiek a viacpoložkových dotazníkov pomocou 7- a 11-bodových položiek dohody Likertovho typu a VAS v kontexte výskumu subjektívnej použiteľnosti. Vzhľadom na široký rozsah predchádzajúceho výskumu a množstvo kritérií neočakávame, že tieto otázky vyriešime jednou štúdiou. Dúfame však, že prispejeme k vedeckému rozhovoru na túto tému s osobitným dôrazom na meranie vnímanej použiteľnosti.


I-O Psychologické hodnotenie a intervencia

Oblasť priemyselnej a organizačnej psychológie sa vo všeobecnosti zaoberá porozumením a predvídaním ľudského správania v pracovných organizáciách. Jeho odborníci sa teda podieľajú na používaní hodnotení zameraných na charakterizáciu alebo opis postavenia jednotlivcov (napr. Pracovníkov alebo manažérov), zbierok jednotlivcov (pracovné skupiny alebo tímy) a/alebo organizácií. Okrem toho sa tieto hodnotenia môžu týkať atribútov, procesov, dynamiky (zmien) alebo úrovne účinnosti.

Hodnotenia je možné vykonávať na účely kategorizácie alebo popisu, ako v prípade získavania prehľadov o politike alebo praxi riadenia ľudských zdrojov. Podiel pracovníkov, ktorí sú nespokojní v práci, by sme teda mohli vyhodnotiť ako vstup do riadiaceho informačného systému. Hodnotenia sa môžu použiť aj na vytváranie alebo testovanie predpovedí, ako keď sa výskumný pracovník zaujíma o testovanie teórie predchodcov alebo dôsledkov spokojnosti s prácou.

Hodnotenia sa však spravidla vykonávajú s ohľadom na intervencie. Tu sa hodnotenia používajú ako diagnostický nástroj na určenie potreby alebo povahy najvhodnejšieho zásahu. Možno vykonať hodnotenie s cieľom monitorovať priebeh alebo konečný vplyv zásahu po jeho začatí.

V priemyselnej a organizačnej psychológii sa samotné intervencie môžu veľmi líšiť. Všeobecne povedané, typ alebo povaha zásahu bude závisieť od jeho účelu. Cieľom intervencie je väčšinou zvýšenie úrovní účinnosti. Príležitostne by to malo byť zamerané na zastavenie alebo prevenciu niečoho (napr. Pracovné úrazy) alebo zmenu správania. Výber intervencie by závisel od konceptualizácie psychológa alebo modelu fenoménu záujmu.

Takáto koncepcia má spravidla dve zložky. Prvá sa týka hĺbkového porozumenia faktorov a síl, ktoré spôsobujú súčasný stav. Jednoducho povedané, odborník v praxi musí byť schopný vysvetliť základ pozorovaného rozdielu v hodnotení (alebo symptómy popísané klientskou spoločnosťou). Druhá odráža implicitný alebo explicitný model zmeny. Psychológ sa tu musí vyrovnať s tým, ako je možné faktory a sily pôsobiace na konkrétnom mieste upraviť tak, aby priniesli zmeny alebo požadované výsledky.

Na ilustráciu, ak je cieľom dosiahnuť väčšiu spokojnosť pracovníkov, intervencia voľby musí byť najskôr postavená na hodnotení platnej a diagnostickej spokojnosti s prácou. V tomto prípade by sa sám riadil modelom alebo teóriou determinantov spokojnosti s prácou. Pre väčšinu pracovných organizácií by súčasné uvažovanie o predchodcoch spokojnosti s prácou zahŕňalo také faktory, ako je vykonávaná práca, kvalita dohľadu, výška prijatej kompenzácie, ako aj stabilné individuálne rozdiely týkajúce sa potrieb a hodnôt, o ktorých je známe, že ovplyvňujú pracovnú spokojnosť. . Okrem toho, akonáhle sú tieto diagnostické informácie k dispozícii, musí byť identifikovaný alebo prijatý rámec alebo teória na vedenie zmeny v jednom alebo viacerých z týchto faktorov. Pokračovaním príkladu, ak by sa kvalita dohľadu považovala za hlavnú príčinu zlej spokojnosti zamestnancov, bolo by potrebné navrhnúť intervenciu zameranú na zlepšenie dohľadu. To by bolo založené na porozumení faktorov, ktoré riadia odchýlky v dohľade. Aby sa dokončil tento príklad, intervencia podľa výberu môže siahať od preškolenia súčasných supervízorov, ponúkania stimulov pre nich, aby predviedli primeranejšie správanie voči pracovníkom, alebo dokonca nahradenia súčasnej skupiny supervízorov tými, ktorí sa považujú za vhodnejších.


VÝSLEDKY

Analýza VBM odhalila, že interindividuálna variabilita objemu šedej hmoty ľavého TPJ pozitívne korelovala s antropomorfizmom nehumánnych zvierat, ako je indexované skóre zvierat IDAQ (obrázok 1), t (77) = 4.80, P = 0,004, súradnica MNI x = −45, y = −54, z = 27, veľkosť zhluku 24 voxelov (81 mm 3) pri prahu korigovaného FWE P <0,05 s použitím korekcie malého objemu definovanej mentalizačnou maskou z Dumontheilu (2010). Tento výsledok bol tiež viditeľný pri použití inej masky na korekciu malého objemu prevzatej z metaanalýzy Van Overwalle a Baetens (2009), t (77) = 4.80, P = 0,005, veľkosť klastra 23 voxelov (78 mm 3) Súradnice MNI x = −45, y = −54, z = 27. Veľkosti klastrov pre obe masky pre P <0,001 neopravených je uvedených v tabuľke 1.

Oblasť, v ktorej objem sivej hmoty vykazoval koreláciu s antropomorfizmom nehumánnych zvierat, je zobrazený prekrytý na T1 váženom anatomickom obrázku MRI v stereotaktickom priestore templátu MNI. Rezy v priereze sú: vľavo hore sagitálne, vpravo hore koronálne a vľavo dole axiálne. Krížové vlasy identifikujú klaster v ľavom temporoparietálnom spojení (−45, ​​−54, 27, súradnice MNI), ktorý vykazuje štatisticky významný ( P <0,05 FWE-korigované na skúmaný objem) pozitívna korelácia s antropomorfizmom nehumánnych zvierat, meraná zvieracím IDAQ. Prah je nastavený na P <0,001 neopravené, prahová hodnota rozsahu = 10, na ilustračné účely, veľkosť klastra = 230 mm 3 (81 mm 3 pri P <0,05 FWE-korigované na skúmaný objem). Farebná škála označuje t- hodnota pre údaje.

Oblasť, v ktorej objem sivej hmoty vykazoval koreláciu s antropomorfizmom nehumánnych zvierat, je zobrazený prekrytý na T1 váženom anatomickom obrázku MRI v stereotaktickom priestore templátu MNI. Rezy v priereze sú: vľavo hore sagitálne, vpravo hore koronálne a vľavo dole axiálne. Krížové vlasy identifikujú klaster v ľavom temporoparietálnom spojení (−45, ​​−54, 27, súradnice MNI), ktorý vykazuje štatisticky významný ( P <0,05 FWE-korigované na skúmaný objem) pozitívna korelácia s antropomorfizmom nehumánnych zvierat, meraná zvieracím IDAQ. Prah je nastavený na P <0,001 neopravené, prahová hodnota rozsahu = 10, na ilustračné účely, veľkosť klastra = 230 mm 3 (81 mm 3 pri P <0,05 FWE-korigované na skúmaný objem). Farebná škála označuje t- hodnota pre údaje.

Veľkosť klastra pre obe masky ( P & lt 0,001, neopravené)

Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27
Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27

Regióny uvedené v tabuľke sú významné po úprave malého objemu, P <0,05. Veľkosť klastra je počet susediacich voxelov v klastri na P <0,001, neopravené.

Veľkosť klastra pre obe masky ( P & lt 0,001, neopravené)

Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27
Maska t -hodnota. Veľkosť klastra. Súradnice MNI.
(Dumontheil, 2010) 4.8 68 (230 mm 3) −45, −54, 27
(Van Overwalle a Baetens, 2009) 4.8 68 (230 mm 3) −45, −54, 27

Regióny uvedené v tabuľke sú významné po úprave malého objemu, P <0,05. Veľkosť klastra je počet susediacich voxelov v klastri na P <0,001, neopravené.

Žiadna iná oblasť mozgu nedosiahla štatistickú významnosť pre pozitívnu koreláciu medzi antropomorfizmom zvierat iných ako je objem šedej hmoty ( P <0,05, FWE opravené buď na objem celého mozgu, alebo na mentalizujúcu masku). Žiadna oblasť nepreukázala negatívnu koreláciu s antropomorfizmom nehumánnych zvierat, ktoré prežili náš prah pre štatistickú významnosť. Konkrétne nebola pozorovaná žiadna korelácia medzi stupňom antropomorfizmu a objemom šedej hmoty v pravom TPJ.

Neboli nájdené žiadne oblasti, ktoré by vykazovali pozitívnu koreláciu s antropomorfizmom neživočíšnych stimulov a prežili korekciu pre viacnásobné porovnania v rámci NI. Mimo oblastí záujmu, vybraných na základe našej hypotézy, sme vykonali analýzu celého mozgu s cieľom nájsť ďalšie oblasti mozgu, ktoré by korelovali s antropomorfizmom nehumánnych zvierat alebo neživočíšnych stimulov: nenašli sa však žiadne oblasti, ktoré by vykazovali pozitívny alebo negatívna korelácia s ktorýmkoľvek faktorom a prežila korekciu pre viacnásobné porovnania v celom mozgu.


Metóda

Účastníci

Účastníkom bolo 60 detí (31 dievčat a 29 chlapcov) vo veku od 5 do 12 rokov (M = 8.07, SD = 2,37), prijatých z inzerátov umiestnených v miestnych knižniciach, komunitných novinách a detských skupinách. Deti boli rozdelené do troch vekových kategórií: 5 až 6 rokov, n = 20 (10 dievčat, 10 chlapcov) 7 až 9 rokov, n = 20 (12 dievčat, 8 chlapcov) 10 až 12 rokov, n = 20 (9 dievčat, 11 chlapcov), aby boli v súlade s predchádzajúcim výskumom skúmajúcim rozdiely súvisiace s vekom v chápaní emócií u detí (Banerjee, 1997). Boli náhodne zaradení buď do troch možností (n = 30 18 dievčat, 12 chlapcov) alebo s piatimi možnosťami (n = 30 13 dievčat, 17 chlapcov) skupina odpovedí. Priradenie k skupinám odpovedí s tromi a piatimi možnosťami bolo vo vekových skupinách vyvážené. Deti pochádzali z rodín strednej a vyššej triedy (M = 24.96, SD = 11,06 Hollingshead Index Level II Miller, 1977). Etická komisia pre behaviorálny výskum Univerzity Britskej Kolumbie schválila túto štúdiu. Od rodičov bol získaný písomný informovaný súhlas a základné demografické informácie a od detí verbálny súhlas. Deti dostali certifikát a nálepku na potvrdenie účasti.

Postup

Deti boli testované jednotlivo v tichej miestnosti na psychologickej klinike Univerzity Britskej Kolumbie (n = 57) alebo v tichom prostredí vo svojom vlastnom dome (n = 3) a boli testované buď jedným z nás (CTC n = 40) alebo vyškolený vysokoškolský asistent v oblasti výskumu (n = 20). Po verbálnom súhlase boli deti oboznámené s možnosťami reakcie, ktoré budú používať. Experimentátor dal dieťaťu nasledujúce pokyny: „Dnes vám položím niekoľko otázok o tom, ako sa cítite a ako si myslíte, že by ostatní ľudia mohli vyzerať alebo sa cítiť. Dám vám niekoľko možností, z ktorých si môžete vybrať svoju odpoveď. Pozrite sa sem, toto sú rôzne možnosti, z ktorých si môžete vybrať svoju odpoveď. Na otázky neexistujú správne ani nesprávne odpovede, chcem len počuť, čo si myslíte. Kedykoľvek vám položím otázku, môžete buď povedať „vôbec“, „trochu“ alebo „veľa“ (alebo ak v skupine s piatimi odpoveďami „vôbec“, „málo“ „trochu“, „dosť málo“ alebo „veľa“). Môžete mi ich prosím nahlas zopakovať? “ Deťom boli ukázané ich možnosti reakcie na kus laminovaného papiera s rozmermi 6 palcov × 12 palcov. Možnosti odpovede boli napísané tučným písmom s 38 bodmi a každá voľba sa zobrazila v textovom poli s rozmermi 2 palce × 2 palce. Ak dieťa nedokázalo samo zopakovať možnosti reakcie, experimentátor ich opakoval, kým to dieťa nedokázalo. Potom boli deti požiadané, aby splnili všetky tri nižšie popísané úlohy, a tiež sedempoložkový dotazník pocitov, ktorý deti vyzval, aby zhodnotili, ako sú šťastné, smutné, nahnevané, vzrušené, pokojné/uvoľnené, nervózne/ustarané, vystrašené/strach pocit počas dňa, keď boli testovaní (tj. „dnes“) (Chambers & amp Craig, 1998).Úlohy a dotazník boli deťom verbálne podávané. Deti v každej skupine s výberom odpovedí použili rovnaké možnosti odpovedí (tri alebo päť) pre tri rôzne úlohy a dotazník o pocitoch. Možnosti reakcie boli deťom k dispozícii nepretržite počas testovacieho postupu a boli medzi deťmi prehodnocované medzi úlohami. Poradie, v ktorom deti splnili dotazník troch úloh a pocitov, bolo pre každé dieťa randomizované a randomizované bolo aj poradie, v ktorom boli predstavené jednotlivé položky v rámci úloh alebo dotazníka. Testovanie trvalo približne 15 až 20 minút na jedno dieťa.

Úlohy

Úplný zoznam obsahu položiek k opísaným úlohám je uvedený v tabuľke I. Na vytvorenie základu pre tieto úlohy boli použité karikatúry a/alebo príbehy, pretože sa často osvedčili ako metodický nástroj na skúmanie porozumenia emócií deťmi (napr. (Donaldson & amp. Westerman, 1986).

Zoznam obsahu položky testu a plniva pre fyzické, sociálne a subjektívne úlohy

. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch
. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch

Zoznam obsahu položky testu a plniva pre fyzické, sociálne a subjektívne úlohy

. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch
. Fyzické . Sociálny cieľ . Subjektívne .
Fyzické úlohy boli predstavené ako kreslené obrázky so sprievodnými slovnými príbehmi. Príklad položky fyzického testu je zobrazený na obrázku 1, obrázku 1. Sociálne objektívne a subjektívne úlohy boli predstavené ako stručné slovné príbehy. Kópie kreslených obrázkov a príbehov sú od autorov k dispozícii na požiadanie.
Testovacie položky
1 Deti s rôznym počtom kníh Deti s rôznym počtom vreciek cukríkov Pozvite desať detí na narodeninovú oslavu a päť príde
2 Deti s rôzne veľkými telocvičnými loptičkami Deti, ktoré dostávajú rôzne sumy peňažných príspevkov Chcete vidieť celú televíznu šou a vidieť polovicu
3 Deti s rôznymi dĺžkami vlasov Deti, ktoré sú choré rôzny počet dní Chcieť ísť dnes do kina a zajtra ísť
4 Deti s rôznym počtom balónov Deti, ktorých rodičia ich neskoro vyzdvihujú Zdieľajúci koláč s jedným dieťaťom a priateľ s tromi
Výplňové položky
1 Deti rôznych výšok Deti vyhrávajú na pretekoch rôzne umiestnenia Strata veľmi obľúbenej hračky
2 Deti nosia rôzne množstvo červeného oblečenia Deti sú vyberané na rôznych pozíciách v tíme Prichádza ako posledný v pretekoch

Fyzická úloha. Deťom bolo ukázaných šesť samostatných sád kreslených obrázkov prezentovaných na kusoch laminovaného papiera s rozmermi 12 palcov × 12 palcov (príklad nájdete na obrázku 1, obrázok 1). Každý obrázok zobrazoval štyri deti, ktoré vykazovali inú fyzickú charakteristiku (napr. Nesú rôzny počet kníh: jedno dieťa bez kníh, jedno dieťa s dvoma knihami, jedno dieťa so šiestimi knihami a jedno dieťa s ôsmimi knihami). K obrázku bol priložený slovný popis (napr. „Dnes je deň knižnice a deti vracajú svoje knižničné knihy. Rôzne deti majú rôzny počet kníh“). Po 5-sekundovom oneskorení bol obrázok odstránený a deťom bol ukázaný druhý obrázok, ktorý zobrazoval iba jedno dieťa (tj. Cieľové dieťa), ktoré malo rovnakú fyzickú charakteristiku ako deti uvedené na predchádzajúcom obrázku (napr. Nosenie štyroch kníh ). Potom sa detí pýtali: „Tu je Mike. Koľko kníh má Mike v porovnaní s ostatnými deťmi? “ Fyzická úloha pozostávala zo štyroch testovacích položiek (tj. Položiek, v ktorých by malo byť cieľové dieťa hodnotené v strede), ako je to v prípade opísanom vyššie a znázornenom na obrázku 1, obrázku 1, a dvoch výplňových položiek (tj. Položiek, v ktorých cieľové dieťa by malo byť hodnotené v extrémnych prípadoch) (napr. cieľové dieťa je najvyššie dieťa v porovnaní s ostatnými štyrmi deťmi). Také položky výplne boli zahrnuté, aby deti neprišli k záveru, že správna odpoveď bola vždy v strede hodnotiacej stupnice.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Príklad položky fyzickej úlohy. Horný rámček je príkladom prvého obrázku, na ktorom boli deti zobrazené v rámci položky, pričom štyri deti sa líšili od fyzických vlastností. Dolný rámček je príkladom druhého obrázku, na ktorom boli zobrazené deti, cieľového dieťaťa.

Úloha sociálneho cieľa. Deťom bolo povedané šesť krátkych príbehov o štyroch deťoch, ktorých skúsenosti so situáciou sa líšili. Napríklad: „Je Halloween a všetky deti sa práve vrátili domov z Trick or Treating. Tieto deti milujú sladkosti a čím viac cukríkov dostanú, tým sú šťastnejšie. Jedno dieťa dostalo štyri vrecká cukríkov, jedno dieťa dostalo tri vrecia cukríkov, jedno dieťa dostalo jednu tašku cukroviniek a jedno dieťa nedostalo žiadne vrecká. “ Potom boli deti požiadané, aby zhodnotili, ako si myslia, že sa bude cítiť cieľové dieťa, „Amanda dostala dve vrecká cukríkov. Ako dobre by sa Amanda cítila v porovnaní s ostatnými deťmi? “ Táto úloha bola predstavená bez vizuálneho sprievodu, aby sa čo najbližšie priblížila k abstraktnejšej úlohe podávania správ o subjektívnych pocitoch. Úloha sociálneho cieľa pozostávala zo štyroch testovacích položiek (tj. Položiek, v ktorých by malo byť hodnotené cieľové dieťa uprostred), ako v prípade opísanom vyššie, a dvoch výplňových položiek (tj. Položiek, v ktorých by malo byť cieľové dieťa hodnotené ako extrémy) (napr. cieľové dieťa, ktoré príde ako prvé v pretekoch). Zo štyroch testovaných položiek sa dve pýtali detí, ako „dobre“ si myslia, že sa bude cieľové dieťa cítiť, a dve sa pýtali detí, ako „zlé“ si myslia, že sa cieľové dieťa bude cítiť. Podobne sa z dvoch výplňových položiek jeden opýtal detí, ako „dobre“ si myslia, že sa bude cítiť cieľové dieťa, a jeden sa pýta detí, ako „zle“ si myslí, že sa cieľové dieťa bude cítiť.

Subjektívna úloha. Deťom bolo povedané šesť krátkych príbehov, v ktorých ich požiadali, aby si predstavili, že sa nachádzajú v rôznych situáciách. Napríklad: „Pozvete 10 detí na oslavu narodenín a 5 z nich príde.” Potom boli deti požiadané, aby zhodnotili: „Ako dobre by ste sa cítili?“ Podobne ako v prípade úloh sociálnych cieľov, subjektívna úloha pozostávala zo štyroch testovacích položiek, kde boli správne odpovede pravdepodobne v strede, a dvoch výplňových položiek, kde boli správne reakcie pravdepodobne v extrémoch (napr. Strata ich veľmi obľúbené hračka). Aj keď je možné, že existovali určité individuálne rozdiely v tom, ako deti reagovali a reagovali na situácie subjektívnych úloh, predpokladali sme, že u väčšiny detí sa ich reakcie budú zhodovať s našimi určenými správnymi reakciami. Tento predpoklad podporuje výskum, ktorý ukazuje, že do 5 rokov deti dobre chápu situácie, ktoré vyvolávajú určité emócie (Harris, 1983). Zo štyroch testovaných položiek sa dve pýtali detí, ako sa budú cítiť „dobre“, a dve sa pýtali detí, ako „zle“ sa budú cítiť. Podobne sa z dvoch výplňových položiek jeden opýtal detí, ako sa budú cítiť „dobre“, a jeden sa pýta, ako by sa cítili „zle“.

Bodovanie

Reakcie detí pomocou prvej (tj. „Vôbec“) alebo poslednej (t. J. „Veľa“) možností v hodnotiacich škálach možností výberu s tromi a piatimi odpoveďami boli hodnotené ako extrémne reakcie pre všetky položky úloh a dotazníkov. Aby sme odzrkadlili mieru, s akou deti reagovali extrémnym spôsobom, zhrnuli sme počet položiek úloh, na ktoré deti reagovali v extrémoch (tj schválené buď „vôbec“ alebo „veľa“), aby sme získali extrémne skóre v rozsahu od 0 až 4 pre každý typ úlohy (vyššie skóre odráža väčšiu tendenciu reagovať v extrémnych podmienkach). V dotazníku pre pocity sme zhrnuli počet položiek, na ktoré deti reagovali v extrémoch (tj. Buď ako „vôbec nie“ alebo „veľa“), aby sme získali extrémne skóre v rozmedzí od 0 do 7 (vyššie skóre odráža väčšia tendencia reagovať v extrémnych prípadoch).


Psychologická pohoda u pacientov na „adekvátnych“ dávkach l-tyroxínu: výsledky rozsiahlej, kontrolovanej komunitnej dotazníkovej štúdie

Cieľ: Viac ako 1% britskej populácie dostáva náhradu hormónu štítnej žľazy l-tyroxínom (T4). Mnoho pacientov sa však sťažuje na pretrvávajúcu letargiu a súvisiace symptómy na T4 aj pri normálnych hladinách TSH. Doteraz nebola vykonaná žiadna rozsiahla štúdia na určenie, či to súvisí s náhradou tyroxínom alebo náhodnou psychologickou morbiditou. Preto sme sa pokúsili vyriešiť tento problém pomocou rozsiahlej komunitnej štúdie.

Dizajn a pacienti: Na identifikáciu 961 pacientov, ktorí užívali tyroxín najmenej 4 mesiace z populácie 63 000 (1,5%), sa použili počítačové záznamy o predpisovaní piatich všeobecných postupov spolu s kontrolami zodpovedajúcimi veku a pohlaviu. Všetkým 1922 osobám bol zaslaný dvojstranový dotazník, ktorý je tvorený krátkou formou všeobecného zdravotného dotazníka (GHQ-12), určeného na zisťovanie menších psychiatrických porúch v komunite, a 12-otázkovým „dotazníkom pre symptómy štítnej žľazy“ (TSQ). ) v rovnakom formáte. Sprievodný list vysvetlil, že nás zaujíma „ako sa pacienti cítia pri užívaní liekov“ a nijako sa priamo nevzťahoval na tyroxín.

Merania: Skóre z GHQ a TSQ boli označené pre každého jednotlivca pomocou GHQ a Likertových skórovacích metód. Najnovšie merania TSH pacientov boli získané z laboratórnych záznamov. Potom sa uskutočnili porovnania skóre pre celkový GHQ-12, TSQ a jednotlivé otázky medzi pacientskou (P) a kontrolnou (C) skupinou. Vykonali sa samostatné analýzy porovnávajúce pacientov s normálnym TSH (nP) a kontrolnou skupinou.

Výsledky: Päťsto deväťdesiat sedem (62%) pacientov (P) a 551 (57%) kontrolných (C) odpovedalo a vyplnilo najmenej jeden z dvoch dotazníkov. Tristodeväťdesiatsedem odpovedajúcich pacientov (nP) malo odhad TSH vykonaný v predchádzajúcich 12 mesiacoch s tým, že posledný výsledok bol v TSL v miestnom laboratórnom normálnom rozmedzí (0,1-5,5 alebo 0,2-6,0 mU/l, podľa testu použitá metóda). Reagujúce populácie P, nP a C boli dobre zladené podľa veku (59,96, 59,73, 59,35 roka) a pohlavia (85%, 83%, 87%žien). Počet jedincov, ktorí na GHQ-12 dosiahli skóre 3 alebo viac (čo naznačuje „kazivosť“), bol o 21%vyšší v prípade P ako C [185/572 (32,3%) vs. 137/535 (25,6%), P = 0,014] a O 26%vyššie v nP ako C [131/381 (34,4%) vs. 137/535 (25,6%), P <0,005]. Silnejšie rozdiely boli pozorované pri skóre TSQ [C = 187/535 (35,0%), P = 273/583 (46,8%), P <0,001, P vs. C a nP = 189/381 (48,6%), P

Závery: Táto komunitná štúdia je prvým dôkazom, ktorý naznačuje, že pacienti na náhrade tyroxínu dokonca s normálnym TSH vykazujú významné zhoršenie psychickej pohody v porovnaní s kontrolami podobného veku a pohlavia. Vzhľadom na veľký počet ľudí, ktorí užívajú náhradu tyroxínu, sa domnievame, že tieto rozdiely, aj keď nie sú veľké, by mohli prispieť k významnej psychickej chorobnosti u značného počtu jednotlivcov.


Populárne typy otázok z prieskumu

Nasleduje niekoľko najbežnejšie používaných typov otázok z prieskumu a spôsob, akým ich možno použiť na vytvorenie skvelého prieskumu. Ak chcete zistiť, ako môžu vyzerať jednotlivé typy otázok z prieskumu, navštívte stránku vzorových otázok.

Otázky s možnosťou výberu z viacerých odpovedí

Otázky s možnosťou výberu z viacerých odpovedí sú najobľúbenejším typom otázok v prieskume. Umožňujú vašim respondentom vybrať si jednu alebo viac možností zo zoznamu odpovedí, ktoré definujete. Sú intuitívne, ľahko použiteľné rôznymi spôsobmi, pomáhajú vytvárať ľahko analyzovateľné údaje a poskytujú možnosti, ktoré sa navzájom vylučujú. Pretože sú možnosti odpovedí pevné, majú vaši respondenti jednoduchšiu prácu s prieskumom.

Najdôležitejšie je, že dostanete štruktúrované odpovede z prieskumu, ktoré poskytujú čisté údaje na analýzu.

Otázky s možnosťou výberu z viacerých odpovedí prichádzajú v mnohých rôznych formátoch.

Najzákladnejšou variáciou je otázka s jednou odpoveďou s možnosťou výberu z viacerých odpovedí. Otázky s jednou odpoveďou používajú formát prepínača (kruhové tlačidlá predstavujú možnosti v zozname), aby respondenti mohli kliknúť iba na jednu odpoveď. Fungujú dobre na binárne otázky, otázky s hodnotením alebo nominálne stupnice.

Takto môže vyzerať otázka s jedinou odpoveďou:

Otázky s viacerými odpoveďami s viacerými odpoveďami sa často zobrazujú so štvorcovými políčkami. Umožňujú respondentom zaškrtnúť všetky možnosti, ktoré sa ich týkajú. Napríklad „„ Akým z nasledujúcich spôsobov používate náš produkt? “

Bežnou nevýhodou otázok s možnosťou výberu z viacerých odpovedí je, že vás nútia obmedziť odpovede na vopred určený zoznam možností. To môže spôsobiť skreslenie vašich výsledkov. Čo keď sa žiadna z vašich možností odpovedí nevzťahuje na vašich respondentov? Môžu vybrať iba náhodnú odpoveď, čo môže mať vplyv na presnosť vašich výsledkov.

Tento problém môžete vyriešiť pridaním „inej“ možnosti odpovede alebo poľa pre komentár. Mal by byť uvedený na konci všetkých vašich možností. Keď to respondenti uvidia, vedia, že majú možnosť odpovedať na vašu otázku vlastnými slovami namiesto vašich.

Odošlite svoj prieskum veľkej alebo malej skupine ľudí s našimi online panel publika.

Hodnotiace stupnice

V otázkach škály hodnotenia (niekedy označovaných ako radové otázky) otázka zobrazuje škálu možností odpovedí z akéhokoľvek rozsahu (0 až 100, 1 až 10 atď.). Respondent vyberie číslo, ktoré najpresnejšie predstavuje jeho odpoveď.

Otázky Net Promoter Score® sú dobrým príkladom otázok z hodnotiacej škály. Pomocou škály zisťujú, aká je pravdepodobnosť, že zákazníci odporučia ich produkt alebo službu.

Pri hodnotiacich otázkach a číselných hodnotiacich škálach je dôležité poskytnúť respondentovi kontext. Predstavte si napríklad, že ste si položili otázku: „Ako veľmi máte radi zmrzlinu? Bez vysvetlenia hodnoty čísel na vašej stupnici by numerická hodnotiaca stupnica nemusela mať veľký zmysel.

Likertove váhy

Je pravdepodobné, že ste tento typ otázky už videli. Otázky Likertovej škály sú otázky „súhlasíte alebo nesúhlasíte“, ktoré často vidíte v prieskumoch, a slúžia na vyhodnotenie názorov a pocitov respondentov.

Otázky podľa Likertovej škály poskytujú respondentom množstvo možností - napríklad od „vôbec nepravdepodobného“ po škálovanie až po „extrémne pravdepodobné“. Preto dobre fungujú na pochopenie konkrétnej spätnej väzby. Prieskumné otázky pre zamestnancov napríklad často používajú Likertovu stupnicu na meranie ich názorov alebo postojov k rade tém.

Maticové otázky

Ak chcete položiť niekoľko otázok za sebou, ktoré majú rovnaké možnosti odpovedí, maticové otázky sú vašou najlepšou možnosťou. Séria otázok typu Likertova škála alebo séria otázok na škále hodnotenia môže dobre fungovať ako maticová otázka. Maticové otázky môžu veľa obsahu zjednodušiť, ale je dôležité ich používať opatrne. Veľmi veľké matice, ako tá nižšie, môžu byť mätúce a ťažko použiteľné na mobilných zariadeniach.

Rozbaľovacie otázky

Rozbaľovacia otázka je jednoduchý spôsob, ako zobraziť dlhý zoznam odpovedí s možnosťou výberu z viacerých odpovedí bez toho, aby ste zahltili svojich respondentov. Vďaka tomu im môžete poskytnúť posúvateľný zoznam odpovedí, z ktorých si môžu vyberať.

Niekedy môže zobrazenie všetkých možností odpovedí naraz ponúknuť vašim respondentom užitočný kontext k otázke. Majte to na pamäti, kedykoľvek vo svojom prieskume použijete viac ako jednu rozbaľovaciu otázku.

Otázky s otvoreným koncom

Otázky s otvoreným prieskumom vyžadujú, aby respondenti napísali svoju odpoveď do poľa pre komentáre a neposkytli konkrétne vopred nastavené možnosti odpovedí. Odpovede sa potom zobrazujú jednotlivo alebo pomocou nástrojov na analýzu textu.

Pokiaľ ide o analýzu údajov, otvorené otázky nie sú najlepšou možnosťou. Nie je ľahké kvantifikovať písomné odpovede, a preto sú textové polia lepšie na poskytovanie kvalitatívnych údajov. Umožnenie vašim respondentom ponúkať spätnú väzbu vlastnými slovami by vám mohlo pomôcť odhaliť príležitosti, ktoré ste inak mohli prehliadnuť. Ak však hľadáte údaje na analýzu, možno sa budete chcieť zapojiť do kvantitatívneho marketingového výskumu a využiť uzavreté otázky.

Pro tip: Spárujte uzavreté otázky s otvorenými, aby ste lepšie porozumeli svojim kvantitatívnym údajom a lepšie ich riešili. Po otázke Čistý propagátor sa môžete napríklad opýtať:


I-O Psychologické hodnotenie a intervencia

Oblasť priemyselnej a organizačnej psychológie sa vo všeobecnosti zaoberá porozumením a predvídaním ľudského správania v pracovných organizáciách. Jeho odborníci sa teda podieľajú na používaní hodnotení zameraných na charakterizáciu alebo opis postavenia jednotlivcov (napr. Pracovníkov alebo manažérov), zbierok jednotlivcov (pracovné skupiny alebo tímy) a/alebo organizácií. Okrem toho sa tieto hodnotenia môžu týkať atribútov, procesov, dynamiky (zmien) alebo úrovne účinnosti.

Hodnotenia je možné vykonávať na účely kategorizácie alebo popisu, ako v prípade získavania prehľadov o politike alebo praxi riadenia ľudských zdrojov. Podiel pracovníkov, ktorí sú nespokojní v práci, by sme teda mohli vyhodnotiť ako vstup do riadiaceho informačného systému. Hodnotenia sa môžu použiť aj na vytváranie alebo testovanie predpovedí, ako keď sa výskumný pracovník zaujíma o testovanie teórie predchodcov alebo dôsledkov spokojnosti s prácou.

Hodnotenia sa však spravidla vykonávajú s ohľadom na intervencie. Tu sa hodnotenia používajú ako diagnostický nástroj na určenie potreby alebo povahy najvhodnejšieho zásahu. Možno vykonať hodnotenie s cieľom monitorovať priebeh alebo konečný vplyv zásahu po jeho začatí.

V priemyselnej a organizačnej psychológii sa samotné intervencie môžu veľmi líšiť. Všeobecne povedané, typ alebo povaha zásahu bude závisieť od jeho účelu. Cieľom intervencie je väčšinou zvýšenie úrovní účinnosti. Príležitostne by to malo byť zamerané na zastavenie alebo prevenciu niečoho (napr. Pracovné úrazy) alebo zmenu správania. Výber intervencie by závisel od konceptualizácie psychológa alebo modelu fenoménu záujmu.

Takáto koncepcia má spravidla dve zložky. Prvá sa týka hĺbkového porozumenia faktorov a síl, ktoré spôsobujú súčasný stav. Jednoducho povedané, odborník v praxi musí byť schopný vysvetliť základ pozorovaného rozdielu v hodnotení (alebo symptómy popísané klientskou spoločnosťou). Druhá odráža implicitný alebo explicitný model zmeny. Psychológ sa tu musí vyrovnať s tým, ako je možné faktory a sily pôsobiace na konkrétnom mieste upraviť tak, aby priniesli zmeny alebo požadované výsledky.

Na ilustráciu, ak je cieľom dosiahnuť väčšiu spokojnosť pracovníkov, intervencia voľby musí byť najskôr postavená na hodnotení platnej a diagnostickej spokojnosti s prácou. V tomto prípade by sa sám riadil modelom alebo teóriou determinantov spokojnosti s prácou. Pre väčšinu pracovných organizácií by súčasné uvažovanie o predchodcoch spokojnosti s prácou zahŕňalo také faktory, ako je vykonávaná práca, kvalita dohľadu, výška prijatej kompenzácie, ako aj stabilné individuálne rozdiely týkajúce sa potrieb a hodnôt, o ktorých je známe, že ovplyvňujú pracovnú spokojnosť. . Okrem toho, akonáhle sú tieto diagnostické informácie k dispozícii, musí byť identifikovaný alebo prijatý rámec alebo teória na vedenie zmeny v jednom alebo viacerých z týchto faktorov. Pokračovaním príkladu, ak by sa kvalita dohľadu považovala za hlavnú príčinu zlej spokojnosti zamestnancov, bolo by potrebné navrhnúť intervenciu zameranú na zlepšenie dohľadu. To by bolo založené na porozumení faktorov, ktoré riadia odchýlky v dohľade. Aby sa dokončil tento príklad, intervencia podľa výberu môže siahať od preškolenia súčasných supervízorov, ponúkania stimulov pre nich, aby predviedli primeranejšie správanie voči pracovníkom, alebo dokonca nahradenia súčasnej skupiny supervízorov tými, ktorí sa považujú za vhodnejších.


Pri testovaní použiteľnosti a výskume používateľskej skúsenosti (UX) je bežné zhromažďovať údaje pomocou viacbodových hodnotiacich stupníc. Existuje mnoho otázok týkajúcich sa účinku rôznych formátov stupnice hodnotenia na kvalitu výsledných údajov, na mnohé z nich je ešte potrebné definitívne odpovedať, možno preto, že existuje komplexný súbor kompromisov a nie jednoduchých odpovedí. Jednou z týchto otázok je optimálny počet možností odpovede.

Praktici použiteľnosti a vedci UX v súčasnosti používajú iba dve možnosti reakcie na veľmi veľký počet tým, že účastníci umiestnia značku na 10-cm čiaru (alebo použijú posuvný ovládač na online zber údajov). Tieto vizuálne analógové škály (VAS) sa zvyčajne prevádzajú na merania v rozsahu od 0 do 100. Najbežnejším počtom možností odozvy v štandardizovaných dotazníkoch použiteľnosti je päť (napr. Stupnica použiteľnosti systému, SUS, Brooke, 1996) a sedem (napr. „Computer System Usability Questionnaire, CSUQ, Lewis, 1995), aj keď existujú populárne nástroje UX, ktoré používajú iba tri (napr. Inventár merania použiteľnosti softvéru, SUMI, Kirakowski, 1996) a až deväť (napr. Dotazník pre spokojnosť s interakciou používateľa, QUIS, Chin, Diehl, & amp Norman, 1988).

Keď pre subjektívny zážitok ponúknete dve možnosti reakcie, môžete určiť, či bola skúsenosť účastníka negatívna alebo pozitívna, ale neumožňujete vyjadrenie neutrálneho pocitu (ktorý môžete získať tromi možnosťami reakcie) a nie zozbierajte akúkoľvek gradáciu negatívnej alebo pozitívnej reakcie (ktorú môžete získať minimálne štyrmi možnosťami). Najmenší počet možností, ktoré obsahujú neutrálny bod a gradáciu negatívnej/pozitívnej reakcie, je päť. Pohyb nad päťku umožňuje jemnejšiu a jemnejšiu gradáciu negatívnej/pozitívnej reakcie. Zdá sa rozumné, že zvýšenie počtu možností odozvy by malo viesť k zlepšeniu kvality údajov, ale prehľad literatúry naznačuje, že tomu tak nemusí byť.

Kritériá optimalizácie

Vedci z rôznych vedných oblastí sa zaoberali otázkou optimálneho počtu možností reakcie v rôznych kontextoch s rôznymi optimalizačnými kritériami vrátane týchto:

  • Spoľahlivosť stupnice: Psychometrické meranie spoľahlivosti stupnice (napr. Koeficient alfa Alwin, 1997 Cicchetti, Showalter, & amp Tyrer, 1985 Jacoby & amp Matell, 1971 Jensen, Karoly, & amp Braver, 1986 Lozano, García-Cueto, & amp Muñiz, 2008 Matell & amp Jacoby, 1971 Maydeu-Olivares, Kramp, Garcia-Forero, Gallardo-Pujol, & amp Coffman, 2009 Preston & amp Colman, 2000 van Schaik & amp Ling, 2007)
  • Platnosť stupnice: Psychometrické meranie určitého aspektu platnosti stupnice (napr. Prediktívne, súbežné, konštrukcia Alwin, 1997 Briggs & amp Closs, 1999 Davey, Barratt, Butow, & amp Deeks, 2007 Jacoby & amp Matell, 1971 Jensen et al., 1986 Larroy, 2002 Matell & amp Jacoby, 1971 Maydeu-Olivares a kol., 2009 Preston & amp Colman, 2000 Revilla, Saris, & amp Krosnick, 2014 van Schaik & amp Ling, 2007)
  • Citlivosť: Rozsah, v akom je metrika citlivá na variácie v nezávislej premennej, od ktorej sa očakáva, že ovplyvní metriku (Bolognese, Schnitzer, & amp Ehrich, 2003 Couper, Tourangeau, & amp Conrad, 2006 Hjermstad et al., 2011 Joyce, Zutshi, Hrubes, & amp Mason, 1975 Lara-Muñoz, Ponce de Leon, Feinstein, Purnte, & amp Wells, 2004 Larroy, 2002 Loken, Pirie, Virnig, Hinkle, & amp Salmon, 1987 Preston & amp Colman, 2000 Sauro & amp Dumas, 2009 van Beuningen, van der Houwen , & amp Moonen, 2014 van Laerhoven, van der Zaag-Loonen, & amp Derkx, 2004 van Schaik & amp Ling, 2007)
  • Jednoduchosť použitia: Rozdiely v úspešnom použití hodnotiacich stupníc (napr. Chýbajúce údaje alebo nesprávne odpovede Bolognese et al., 2003 Briggs & amp Closs, 1999 Couper et al., 2006 Davey et al., 2007 Funke & amp Reips, 2012 Hjermstad et al., 2011 van Beuningen et al., 2014 van Laerhoven et al., 2004)
  • Prednosť: Počet možností reakcie, ktoré respondenti uprednostňujú (Cox, 1980 Joyce et al., 1975 Preston & amp Colman, 2000 van Laerhoven et al., 2004 van Schaik & amp Ling, 2007)
  • Obnovenie štruktúry: Rozsah, v akom je možné kontinuálne miery previesť na rôzne usporiadané kategórie a napriek tomu umožniť obnovu pôvodnej psychometrickej štruktúry (Benson, 1971 Bollen & amp Barb, 1981 Green & amp Rao, 1970, 1971)
  • Spracovávanie informácií: Hodnotenie rovnováhy medzi prenosom informácií a kapacitou diskriminácie ľudského spracovania (Cox, 1980 Hulbert, 1975 Rausch & amp Zehetleitner, 2014)
  • Iné: Študovali sa jedinečné kritériá, ako napríklad chyba vo vzťahu k známym hodnotám v simulačnej štúdii (Lehmann & amp Hulbert, 1972 Maydeu-Olivares et al., 2009), vlastné komplexné metriky výsledku (Weijters, Cabooter, & amp Schillewaert, 2010), korelácia s veľkosťou pozorovaných hladín významnosti štatistických testov (Lewis, 1993) a frekvencie značenia medzi možnosťami odozvy (Finstad, 2010)

Dva vplyvné listy

Pri takom veľkom objeme výskumu, ktorý bol vykonaný počas toľkých rokov v rôznych kontextoch výskumu s viacerými optimalizačnými kritériami, by nemalo byť prekvapujúce, že neexistuje žiadna definitívna odpoveď. Poskytnúť komplexný prehľad literatúry pre všetky oblasti a kritériá presahuje rámec tohto článku. Tí, ktorí chcú porozumieť tomuto širokému kontextu, by si mali prečítať dve široko vplyvné práce, jednu z literatúry pre prieskum trhu (Cox, 1980) a jednu zo psychológie (Preston & amp Colman, 2000). Nasledujú stručné zhrnutia.

Cox (1980) publikoval prehľad literatúry o optimálnom počte možností reakcie na základe publikovaného výskumu v rokoch 1900–1980. Ako by ste mohli očakávať od takého rozsiahleho prehľadu literatúry, hlavným záverom bolo „“ Z rozsiahleho výskumu je zrejmé, že neexistuje jediný počet alternatív reakcie na rozsah, ktorý by bol vhodný za každých okolností“ (s. 418). Niektoré z faktorov, ktoré odporučil vziať do úvahy pri tomto rozhodnutí, boli tieto:

  • Kapacita kanála jednotlivej položky stupnice: Schopnosť stupnice s dvoma alebo tromi možnosťami odozvy je výrazne obmedzená vzhľadom na množstvo informácií, ktoré môže prenášať. Pridanie ďalších možností odozvy pomáha, ale so znižovaním návratnosti.
  • Počet replikácií škálovania: To platí pre zložené škály (napr. Likert alebo sémantické diferenciály), v ktorých sú reakcie na viacero položiek kombinované na posúdenie základného atribútu (napr. SUS). Keď sa položky spoja a vytvoria stupnicu, počet možností reakcie na položku sa stane menej dôležitým.
  • Chyba odpovede: To je však ťažké posúdiť pri vývoji mier sentimentu (napr. Vnímanej použiteľnosti), pretože neexistuje spôsob, ako zistiť skutočnú očakávanú hodnotu.

Cox (1980) by neodporúčal ani jedno číslo, ale domnieva sa, že pretože kapacita kanála položiek s dvoma alebo tromi položkami bola nízka, ale zvýšenie počtu možností odozvy nad deväť malo nízke marginálne výnosy, počet možností reakcie by mal byť aspoň päť a nie viac ako deväť. Ako poznamenal Cox, “ Je iróniou, že magické číslo sedem plus mínus dve sa javí ako rozumný rozsah pre optimálny počet alternatív odozvy, napriek tomu, že Millerov prehľad [1956] nie je pre túto otázku priamo relevantný. “(S. 420).

Preston a Colman (2000) uskutočnili experiment, v ktorom zmanipulovali počet možností odpovede od dvoch do 11 a okrem toho požiadali respondentov, aby si zapísali číslo od 0 do 100 pre položky hodnotiace kvalitu služieb poskytovaných obchodom alebo reštauráciou, ktoré sú mu známe. respondent. Experimentálny dizajn v rámci subjektov (n = 149 s randomizovaným poradím prezentácie položiek s rôznym počtom možností odpovede, na konci ukotvený s veľmi zlé a veľmi dobre) povolené hodnotenie spoľahlivosti, platnosti, citlivosti a preferencií respondenta. Vo viacpoložkových škálach zložených z testovaných položiek neboli žiadne významné rozdiely vo vnútornej konzistencii (merané koeficientom alfa, odhad spoľahlivosti stupnice) (v rozsahu od 0,79 pre tri možnosti odozvy do 0,86 pre 11 možností odozvy-koeficienty alfa vyššie ako 0,70 naznačujú prijateľnú spoľahlivosť stupnice). Rozdiely v spoľahlivosti testu a opakovaného testu boli štatisticky významné, ale veľkosti rozdielov boli malé, v rozsahu od korelácie 0,86 pre tri možnosti odpovede po 0,94 pre osem a deväť možností (0,92 pre 11 možností, 0,90 pre 101 možností). Výsledky pre rôzne hodnotenia platnosti a citlivosti boli podobné: buď žiadny významný rozdiel, alebo, kde sú štatisticky významné, rozdiely veľmi malého rozsahu. Na vyhodnotenie jednoduchosti použitia rôznych počtov možností odpovedí respondenti použili 101-bodovú stupnicu vyplnenia. Opäť tu boli významné rozdiely, ale žiadny nebol obzvlášť veľký, s priemerom od 74,1 (pre položku s 101 možnosťami vyplnenia prázdneho políčka) do 83,7 (pre päť možností odozvy). Priemerné hodnotenie presiahlo 80 pre tri, štyri, päť, šesť, sedem, osem, deväť a 10 možností odozvy. Ich všeobecným záverom bolo, že škály s malým počtom kategórií odpovedí poskytujú skóre, ktoré je spravidla menej platné a menej diskriminačné ako skóre so šiestimi alebo viacerými kategóriami odpovedí “(s. 12).

Výskum mimo VAS o optimálnom počte možností reakcie od roku 2000

Lozano a kol. (2008) pomocou simulácií skúmali vplyv rôznych korelácií medzi položkami a počet kategórií odpovedí na položku od dvoch do deviatich. Hlavné zistenie, že zvýšenie počtu možností odozvy zvýšilo spoľahlivosť súvisiacich mierok (monotónne sa zvyšuje so zníženými výnosmi, okrem prechodu z dvoch na tri možnosti).

Maydeu-Olivares a kol. (2009) uskutočnili medziodborovú štúdiu s dvoma osobnostnými dotazníkmi, v ktorých boli položky dotazníka manipulované tak, aby poskytovali dve, tri alebo päť alternatív odozvy. Ako sa počet alternatív odozvy v tomto trochu obmedzenom rozsahu zvyšoval, spoľahlivosť (vnútorná konzistencia) sa zvyšovala, nemal to žiadny vplyv na prediktívnu validitu a dobrota vhodnosti pre položku faktorovú analýzu a modely teórie odozvy položky sa znižovali.

Weijters a kol. (2010) študoval položky so štyrmi až siedmimi možnosťami odpovede, s alebo bez označenia každej možnosti. Došli k záveru, že 5-bodové položky s označenými iba koncovými bodmi sú najlepšie pre položky všeobecného prieskumu a 7-bodové položky sú lepšie s mladšími a vzdelanejšími vzorkami, ako sú študenti vysokých škôl. Tieto odporúčania boli založené na komplexných výsledkových metrikách, pre ktoré bolo ťažké odlíšiť praktickú a štatistickú významnosť.

Revilla a kol. (2014) predložili zistenia, že kvalita údajov bola vyššia pri 5-bodových položkách než pri 7 alebo 11-bodových položkách, kde kvalita odkazuje na silu vzťahu medzi sledovanou premennou a základným konštruktom záujmu. Poznamenali, že keďže ich metrika kvality klesala v dôsledku zvyšovania počtu možností odozvy, korelácie s inými meraniami sa zvyšovali.

Van Beuningen a kol. (2014) porovnal položky verbálneho označenia s piatimi možnosťami reakcie a 11-bodové číselné položky s označenými koncovými bodmi. Zistili niektoré distribučné rozdiely, ale žiadne korelačné rozdiely so súvisiacimi premennými. Ohlásili viac chýbajúcich údajov pre 11-bodové položky (

Pokiaľ ide o štandardné psychometrické kritériá spoľahlivosti a prediktívnej platnosti, zdá sa, že existuje výhoda pre viac možností reakcie (Lozano et al., 2008 Maydeu-Olivares et al., 2009 Revilla et al., 2014). Vzhľadom na limity zovšeobecniteľnosti týchto piatich štúdií a ich rôzne kritériá sa odporúčaný počet možností reakcie pohyboval od piatich do deviatich. Týmto spôsobom bol výskum optimálneho počtu možností reakcie od roku 2000 primerane konzistentný so zisteniami Coxa (1980) a Prestona a Colmana (2000).

Výskum vrátane VAS

Ani Cox (1980), ani Preston a Colman (2000) neobsahovali položky VAS, ktoré prvýkrát popísali Hayes a Patterson (1921). Štandardný VAS je 10 cm čiara tvoriaca súvislú stupnicu, ktorej konce označujú minimálne a maximálne úrovne (spravidla označené) hodnoteného atribútu. Rôzne dĺžky čiar vedú k podobným hodnoteniam, prinajmenšom v rozmedzí 4–10 cm (Kreindler, Levitt, Woolridge, & amp Lumsden, 2003). Papierové a elektronické verzie VAS veľmi korelujú (van Duinen, Rickelt, & amp Griez, 2008).

Existujú dve rôzne aplikácie položiek VAS. Jeden z nich, ktorý sa najčastejšie nachádza v lekárskej literatúre, slúži ako prostriedok na získanie klinických informácií (napr. Množstvo depresie alebo bolesti, ktoré hlásil sám), rýchlejšie ako pomocou štandardnejšieho viacpoložkového dotazníka (napr. Appukuttan, Vinayagavel, & amp Tadepalli , 2014 de Boer et al., 2004 Hasson & amp Arnetz, 2005 Lee, Brown, Perantie, & amp Bobadilla, 2002 Zampelis, Ornstein, Franzén, & amp Atroshi, 2014). Druhý je ako alternatívny grafický formát, ktorý sa má použiť namiesto numerických stupníc Likertovho typu, a to buď na jednorazové hodnotenia, alebo na hodnotenia kombinované do viacpoložkových mierok. Práve táto druhá (a nie prvá) aplikácia je zaujímavá pre výskum priameho porovnania počtu možností reakcie.

Početné štúdie porovnávali psychometrické vlastnosti Likertových škál a VAS v rôznych kontextoch, ale rovnako ako ostatné skúmania počtu možností reakcie, tieto štúdie priniesli protichodné zistenia.

Na hodnotenie chronickej bolesti Joyce a kol. (1975) zistili, že VAS funguje lepšie ako položka Likertovho typu so štyrmi možnosťami odozvy. Bola citlivejšia na rozdiely v dávkovaní a pacienti naznačovali miernu preferenciu pre VAS.

Jensen a kol. (1986) mal 75 pacientov, ktorí hodnotili štyri druhy bolesti (prítomné, najmenej, väčšina a priemer) pomocou šiestich metód (položky so štyrmi, piatimi, šiestimi a jedenástimi možnosťami, 0–100 numerických výplní prázdna položka a VAS). Všetky stupnice mali podobné psychometrické vlastnosti. Starší pacienti mali väčšie problémy s dokončením VAS. Jensen a kol. odporúča použiť 0–100 prázdnu položku kvôli relatívnej jednoduchosti správy a bodovania.

Briggs a Closs (1999) zistili vysokú koreláciu medzi súbežne zbieranými päť možnosťami verbálnych škál a VAS. Dokončenie VAS bolo ťažšie pre ortopedických pacientov s poraneniami horných končatín, ktorí sa zúčastnili na ich štúdii.

Larroy (2002) porovnal VAS a numerickú stupnicu 0 - 10 bodov na hodnotenie bolesti. Váhy korelovali veľmi vysoko. Po vynásobení hodnotení škály bodov 0–10 bodmi 10 bol priemerný rozdiel v hodnoteniach stupnice asi 3. Toto bolo štatisticky významné, ale pravdepodobne málo praktické, a nemalo žiadny význam pri výbere jedného formátu pred druhým.

Bolognese a kol. (2003) skúmali rozdiely medzi VAS a položkou s piatimi možnosťami Likertovho typu (všetky možnosti sú označené). Našli podobné výsledky pre oba prístupy a argumentovali použitím položky v štýle Likert na základe jednoduchej správy a bodovania. “ Aj keď to nie je hodnotené v tejto štúdii, 0–10 bodová diskrétna stupnica môže byť najužitočnejším kompromisom, ktorý zahŕňa všetky pozitívne atribúty odpovedí vizuálneho analógu aj Likertovej stupnice, vyžaduje si to však ďalšiu štúdiu ” (s. 507).

Účastníci Lara-Muñoz a kol. (2004) použil na vyhodnotenie hlasitosti tónov tri rôzne položky: VAS, päťstupňovú stupnicu slovného hodnotenia a číselné hodnotenie 0–10 (vyplňte prázdne miesto). Medzi váhami bolo len málo rozdielov. VAS sa zdal byť o niečo presnejší.

Van Laerhoven a kol. (2004) zistili, že Likertova stupnica s piatimi možnosťami verbálne označenej stupnice, VAS s 10 bodmi a konvenčný 10 cm VAS silne korelujú pri meraní emocionálnych stavov a kvality života detí. Deti uprednostnili položku v štýle Likert.

V štúdii s mnohými manipuláciami s formátom položky (stredný bod/žiadny stredný bod, spätná väzba VAS/žiadna spätná väzba a prepínače očíslované/nečíslované) Couper a kol. (2006) porovnal VAS s 20-bodovými položkami pomocou prepínačov alebo vstupného poľa. Dospeli k záveru a#8220 nenašli sme žiadne dôkazy o výhodách VAS pre typy tu používaných meraní. Aj keď sa distribúcie medzi VAS a alternatívnymi prístupmi nelíšili, VAS trpel vyššími úrovňami chýbajúcich údajov, produkoval viac výpadkov a trval dlhšie ako ostatné formáty ” (s. 243).

V Davey a kol. (2007), 400 austrálskych žien, ktoré práve navštívili špecializovanú kliniku prsníka, v náhodnom poradí dokončilo 20-položkový zoznam State Trait Anxiety Inventory (STAI), jeden 5-bodový Likertov úzkostný predmet a jeden 10 cm úzkostný VAS. Oba jednotlivé položky boli významnými prediktormi STAI (Likert: r = 0,75 VAS: r = 0,78). 11% žien však VAS nesprávne dokončilo, čím sa obmedzila jeho užitočnosť.

Van Schaik a Ling (2007) zaradili medzi subjektmi porovnanie viacpoložkových nástrojov pomocou 7-bodových Likertových položiek alebo 101-bodového VAS (0–100). Psychometrické výsledky (spoľahlivosť, validita konštrukcie, citlivosť) boli podobné pre verzie Likert a VAS. Väčšina účastníkov uprednostnila Likert pred VAS (82% s n = 103 pre 95% upravený-Waldov binomický interval spoľahlivosti v rozmedzí od 73 do 88%).

Sauro a Dumas (2009) porovnali jednoduchú otázku (SEQ a 7-bodová položka Likertovho typu) s dotazníkom subjektívnej mentálnej námahy (SMEQ 151-bodovou vizuálnou stupnicou od 0 do 150) na hodnotenie vnímanej použiteľnosti. Tieto dva prístupy poskytli podobné výsledky, pokiaľ ide o citlivosť stupnice.

Lee, Stone, Wakabayashi a Tochihara (2010) uviedli nepresvedčivé výsledky štúdie mnohých rôznych formátov položiek zameranej na porovnanie s 9-bodovými kategorickými škálami a VAS. “ S našimi výsledkami nemôžeme v súčasnosti tvrdiť, aká je optimálna stupnica na meranie vnímaného tepelného pocitu ” (s. 289).

Hjermstad a kol. (2011) publikovali prehľad literatúry (54 referátov) rôznych formátov na jednorozmerné hodnotenie intenzity bolesti. Dospeli k záveru, že číselné hodnotiace škály (NRS, možnosti odpovedí označené číslami) boli vo všeobecnosti lepšie ako verbálne hodnotiace škály (VRS) alebo VAS. “V porovnaní s VAS a VRS mali NRS lepšiu zhodu v 15 z 19 štúdií, ktoré to uviedli, a boli odporúčaným nástrojom v 11 štúdiách na základe vyšších mier súladu, lepšej odozvy a jednoduchosti použitia a dobrej použiteľnosti v porovnaní s VAS/VRS … Celkovo skóre NRS a VAS zodpovedalo, až na niekoľko výnimiek systematicky vyšších skóre VAS ” (s. 1074). Najbežnejšie používaným NRS (bežným pri hodnotení intenzity bolesti) bol NRS – 11 (možnosti reakcie od 0 do 10).

Funke and Reips (2012) publikovali článok s názvom “ Prečo by sémantické rozdiely vo webovom výskume mali byť vyrobené z vizuálnych analógových stupníc a nie z 5-bodových stupníc. ” Údaje však toto tvrdenie nepodporovali ( ktorý vychádzal z percenta respondentov, ktorí počas vypĺňania prieskumu zmenili svoje hodnotenie). Rozdiel, ktorý uviedli v percente respondentov upravujúcich hodnotenia pre VAS a päťpoložkovú položku typu Likert, nebol štatisticky významný.

Rausch a Zehetleitner (2014) porovnali VAS so štyrmi možnosťami položky typu Likert a hlásené “, že vizuálne analógové škály, ako aj diskrétne škály sú spoľahlivými mierami subjektívnych správ o globálnom zážitku z pohybu ... VAS získava väčšie množstvo informácií ako diskrétna škála so štyrmi krokmi stupnice za predpokladu, že účastníci si nájdu čas na vykonanie jemnejších úsudkov ” (s. 139).

Stručne povedané, niekoľko štúdií má dôkazy podporujúce používanie VAS na viacbodových položkách, pokiaľ ide o citlivosť (Joyce et al., 1975), preferencie respondentov (Joyce et al., 1975) a presnosť (Lara-Muñoz et al., 2004). Niektorí uviedli lepšie výsledky pre viacbodové položky ako VAS, pokiaľ ide o čas dokončenia (Couper et al., 2006 Rausch & amp Zehetleitner, 2014), mieru dokončenia (Couper, 2006 Davey et al., 2007) a preferencie respondentov (van Laerhoven a kol., 2004 van Schaik & amp Ling, 2007). Respondenti, najmä v klinickom prostredí, mali niekedy väčšie problémy s fyzickým dokončením VAS ako položky Likertovho typu (Bolognese et al., 2003 Briggs & amp Closs, 1999 Jensen et al., 1986). Počet možností reakcie v týchto štúdiách sa pohyboval od štyroch do 20 a mnohé z nich neuvádzali žiadne významné alebo praktické rozdiely v psychometrických vlastnostiach medzi VAS a rôznymi viacbodovými položkami (Bolognese et al., 2003 Couper et al., 2006 Davey et al. ., 2007 Larroy, 2002 Lee et al., 2010 Rausch & amp Zehetleitner, 2014 van Laerhoven et al., 2004 van Schaik & amp Ling, 2004).

Ciele tejto štúdie

Viacbodové položky hodnotenia sú široko používané v dotazníkoch vyvinutých na skúmanie vnímanej použiteľnosti a ďalších aspektov používateľskej skúsenosti. Na druhej strane, použitie VAS je v štúdiách použiteľnosti pomerne zriedkavé. Je možné, že spojitá štruktúra VAS by mohla ponúknuť určité výhody merania. Bývalá nevýhoda VAS, potreba manuálneho vyhodnocovania odpovedí na položky, bola uľahčená zavedením nástrojov na vytváranie online položiek VAS (napr. Marsh-Richard, Hatzis, Mathias, Venditti, & amp Dougherty, 2009 Reips & amp Funke, 2008). Napriek týmto potenciálnym výhodám predchádzajúca literatúra vyšetrovania VAS naznačuje, že nemusí mať výrazne lepšie psychometrické vlastnosti v porovnaní s položkami Likertovho typu s dostatočnými možnosťami reakcie, aby respondenti mohli s primeranou presnosťou naznačiť svoje pocity alebo úsudky.

Našim cieľom pre túto štúdiu bolo porovnať psychometrické vlastnosti jednotlivých položiek a viacpoložkových dotazníkov pomocou 7- a 11-bodových položiek dohody Likertovho typu a VAS v kontexte výskumu subjektívnej použiteľnosti. Vzhľadom na široký rozsah predchádzajúceho výskumu a množstvo kritérií neočakávame, že tieto otázky vyriešime jednou štúdiou. Dúfame však, že prispejeme k vedeckému rozhovoru na túto tému s osobitným dôrazom na meranie vnímanej použiteľnosti.


Oprava individuálnych rozdielov v použití (použitom rozsahu) hodnotiacich stupníc - Psychológia

Meranie nie je nikdy lepšie ako empirické operácie, pomocou ktorých sa vykonáva, a operácie sa pohybujú od zlého po dobré.

— Stanley Stevens, O teórii
mier

Úvod

Predchádzajúca kapitola stručne fly predstavila niekoľko pohľadov na testovanie s dôrazom na platnosť ako meradlo účinnosti testovania e ff. Platnosť je zastrešujúcim problémom, ktorý zahŕňa všetky fázy vývoja a administrácie testov, od plánu po bublinový list, vrátane štádia, v ktorom vyberáme empirické operácie, ktoré priraďujú testovacím subjektom čísla alebo štítky na základe ich výkonnosti alebo odpovedí.

V tejto kapitole preskúmame proces merania na jeho najzákladnejšej alebo najzákladnejšej úrovni, na úrovni merania. Analyzujeme tri požiadavky na meranie a vezmeme do úvahy jednoduchosť fyzického merania v porovnaní so zložitosťou vzdelávacieho a psychologického merania, kde je vec, ktorú meriame, často neriešiteľná a najlepšie reprezentovateľná pomocou súborov položiek a kompozitných skóre. Na ceste popíšeme štyri dostupné typy meracích stupníc a preskúmame, prečo Stevens ( 1946 ) dospel k záveru, že nie všetky stupnice sú vytvorené rovnako. Posledné sú bodovanie a bodovanie, vrátane príkladov odkazov na normy a kritériá.

Čo je meranie?

Ako to zistíme fi?

Termín meranie obvykle chápeme ako priradenie hodnôt objektom podľa nejakého systému pravidiel. Táto de finition pochádza od Stevensa ( 1946 ), ktorý predstavil štyri tradičné stupnice alebo typy meraní. Čoskoro o nich budeme hovoriť. Teraz sa zamerajme na všeobecný proces merania, ktorý zahŕňa poskytnutie predmetu, osobe alebo veci, pre ktorú merame hodnotu, ktorá niečo na tom predstavuje.

Meranie prebieha neustále, všade okolo nás. Denne meriame, čo jeme, kam ideme a čo robíme. Veľkosti nápojov sa napríklad merajú pomocou kategórií ako vysoký, veľký a venti. Beh alebo dochádzanie sa meria v míľach alebo kilometroch. Meriame teplotu v našich domovoch, tlak vzduchu v pneumatikách a oxid uhličitý v našej atmosfére. Technológia nositeľnosti, ktorú ste si mohli pripnúť na zápästie, môže monitorovať váš nedostatok pohybu a znižovanie srdcovej frekvencie, keď spíte o ff pri čítaní tejto vety. Keď sa zobudíte, môžete si pozrieť hodinky a zmerať dĺžku šlofíka v minútach alebo hodinách.

To všetko sú príklady fyzického merania. V každom prípade by ste mali byť schopní identifikovať 1 ) predmet merania, 2 ) vlastnosť alebo kvalitu, ktorá sa preň meria, a 3 ) druhy hodnôt, ktoré by mohli byť použité na reprezentáciu množstiev tohto kvalita alebo majetok. Vlastnosť alebo kvalita, ktoré sa merajú pre objekt, sa nazýva premenná. Druhy hodnôt, ktoré priraďujeme objektu, napríklad gramy alebo stupne Celzia alebo údery za minútu, sa označujú ako jednotky merania zachytené v rámci tejto premennej.

Na to, aby sa meranie stalo, sú teda potrebné tri veci: objekt, premenná a hodnoty alebo jednotky. Premenná je opäť kvalita alebo vlastnosť, ktorú merame, objekt je pre koho ju meriame a hodnoty sú čísla alebo štítky, ktoré priraďujeme. Keď dokážete identifikovať tieto tri komponenty pre každý vyššie uvedený príklad fyzického merania, uistite sa, že vymyslíte vlastné príklady, ktoré budú obsahovať všetky tri časti.

Od fyzického po nehmotný

Pri väčšine fyzických meraní je možné vlastnosť, ktorú sa pokúšame reprezentovať alebo zachytiť pomocou našich hodnôt, jasne de fi definovať a dôsledne merať. Napríklad množstvo jedla sa bežne meria v gramoch. Šálka ​​coly obsahuje asi 44 gramov cukru. Keď vidíte toto číslo vytlačené na plechovke sódy alebo „#FF01“ vody, význam je celkom jasný a skutočne nie je potrebné sa pýtať, či je presný. Cola má v sebe veľa cukru.

Ale rovnako často vezmeme číslo, ako je množstvo cukru v potravinách, a použijeme ho na vyjadrenie niečoho abstraktného alebo nehmotného, ​​ako je jedlo zdravé alebo výživné. Zdravosť jedla nie je také ľahké de ’ ako hmotnosť alebo objem. Meranie zdravosti alebo výživovej hodnoty môže zodpovedať za ostatné zložky v potravinách a za množstvo kalórií, ktoré uvaria. Navyše, rôzne potraviny môžu byť viac alebo menej výživné pre ľudí s rôznym výskytom v závislosti od rôznych faktorov. Zdravie, na rozdiel od fyzických vlastností, je nehmotné a je možné ho merať len ťažko.

Spoločenské vedy o vzdelávaní a psychológii sa zvyčajne zameriavajú na meranie konštruktov, nehmotných a nepozorovateľných vlastností, atribútov alebo vlastností, o ktorých predpokladáme, že spôsobujú určité pozorovateľné správanie alebo reakcie. V tomto kurze sú našimi predmetmi merania spravidla ľudia a naším cieľom je dať týmto ľuďom čísla alebo štítky, ktoré nám niečo zmysluplné povedia o vlastnostiach, ako sú ich inteligencia, matematická schopnosť alebo sociálna úzkosť. Konštrukty, ako sú tieto, sú di 󻀼ult na meranie. Preto potrebujeme celý kurz, aby sme diskutovali o tom, ako ich najlepšie zmerať.

V tejto chvíli je dobré si položiť otázku, ako môžeme merať a poskytovať hodnoty pre niečo, čo je nepozorovateľné? Ako ohodnotíme matematickú schopnosť osoby, ak ju nemôžeme priamo pozorovať? To, čo potrebujeme, je operacionalizácia nášho konštruktu, pozorovateľné správanie alebo reakcia, ktorá sa zvyšuje alebo znižuje, keď sa človek pohybuje hore alebo dole po konštrukte. Pri matematickej schopnosti môže byť operacionalizáciou počet matematických otázok, na ktoré človek správne odpovie z 20. Pri sociálnej úzkosti to môže byť frekvencia pocitu úzkosti počas určitého časového obdobia. Pri použití proxy pre náš konštrukt musíme predpokladať alebo vyvodiť, že operácia, ktorú skutočne pozorujeme a meriame, presne predstavuje základnú kvalitu alebo vlastnosť, o ktorú sa zaujímame. Tým sa dostávame k zastrešujúcej otázke tohto kurzu.

Čo robí meranie dobrým?

V poslednom roku bakalárskeho štúdia psychológie som vykonal s talianskymi predškolákmi výskumnú štúdiu o konštruktoch agresie, sociability a viktimizácie. A. Nelson, Robinson, Hart, Albano, & Marshall, 2010 ). Zhromažďovaním údajov v predškolských zariadeniach som strávil asi štyri týždne. Zhromažďovanie údajov zahŕňalo pokrytie veľkého kusu lepenky obrázkami všetkých detí v triede a následné položenie každého dieťaťa jednotlivo otázok o jeho rovesníkoch.

Aby sme zmerali družnosť, položili sme tri jednoduché otázky: “Komu je zábavné hovoriť? ” “Komu je zábavné predstierať veci? ” a “ho kto má veľa priateľov? ” Deti s veľa partnerských nominácií na tieto otázky získalo vyššie skóre, čo naznačuje, že boli spoločenskejšie. Potom, čo som položil tieto a ďalšie otázky asi 300 predškolákom a potom som zrátal skóre, zaujímalo ma, ako dobre vlastne meriame konštrukcie, na ktoré sme sa zamerali. Boli tieto skóre dobré? Stačili tri alebo five otázky? Možno nám niečo dôležité chýbalo? Možno niektoré z týchto otázok, ktoré bolo potrebné preložiť z angličtiny do taliančiny, znamenali na pobreží Stredozemného mora iné veci ako na stredozápade USA?

Tento projekt bol mojou first skúsenosťou s meraním na strane merania a fascinoval ma. Otázky, ktoré som potom položil, sú rovnaké otázky, aké si položíme a odpovieme v tomto kurze. Ako dôsledne a presne meriame to, čo merať chceme? Čo môžeme urobiť pre zlepšenie nášho merania? A ako môžeme identifikovať nástroje, ktoré sú lepšie alebo horšie ako ostatné? Všetky tieto otázky súvisia s tým, čo robí meranie dobrým.

Meranie je prospešné vďaka mnohým súčasným veciam, od písania vysoko kvalitných otázok a položiek až po dodržiavanie zavedených pokynov pre vývoj testov. Výsledné skóre sa väčšinou považuje za dobré, alebo za efektívne, ak dôsledne a presne opisuje cieľový konštrukt. Konzistencia a presnosť sa týka spoľahlivosti a platnosti skóre testov, to znamená rozsahu, v akom by sa rovnaké skóre získalo pri opakovanom podávaní testu, a rozsahu, v ktorom skóre úplne predstavujú konštrukciu, ktorú majú merať.

Tieto dva pojmy, spoľahlivosť a platnosť, sa v priebehu kurzu vyskytnú mnohokrát. Druhá, platnosť, nám pomôže objasniť našu de finition merania z hľadiska jej účelu. Zo všetkých úvah, ktoré sa týkajú efektívneho merania e ff, je najdôležitejším adresátom fir.

Aký je účel?

Meranie je zbytočné, pokiaľ nie je založené na jasne formulovanom účele. Tento účel popisuje ciele administrácie testu alebo prieskumu vrátane toho, čo sa bude merať, pre koho a prečo? Už sme stanovili “ what? ” ako premennú alebo konštrukciu, vlastnosť, kvalitu, atribút alebo vlastnosť, ktoré predstavujú naše čísla alebo hodnoty. Tiež sme stanovili “ pre koho? ” ako predmet, v našom prípade ľudí, ale konkrétnejšie možno študentov, pacientov alebo zamestnancov. Teraz musíme vytvoriť ȁPrečo? ”

Účelom testovanej vzorky fi je zamýšľané použitie a použitie. Rieši, ako sú skóre z testu navrhnuté tak, aby sa interpretovali. Test bez jasného účelu nemôže byť účinný ff.

Predpokladajme, že vás niekto požiada, aby ste vytvorili mieru študentov, ktorí rozumejú peniazom, tj. Rozumejú peniazom a ako sa používajú v finance. Dostali ste tu jednoduchú konštrukciu, pochopenie finance a predmetu merania, študenti. Ale skôr ako budete môcť vyvinúť tento test, musíte vedieť, ako sa bude používať.Jeho účel určí kľúčové vlastnosti, ako napríklad aký konkrétny obsah testu obsahuje, úroveň náročnosti otázok, typy použitých otázok a spôsob jeho správy. Ak sa test používa ako skúška final v rámci kurzu finance, mal by vystihnúť obsah tohto kurzu a môže byť dosť prísny. Na druhej strane, ak sa používa v rámci všeobecného študentského zboru, aby zistilo, čo študenti vedia o vyrovnávaní rozpočtov a správe študentských pôžičiek, obsah a náročnosť sa môžu zmeniť. Je zrejmé, že nemôžete vyvinúť test bez toho, aby ste poznali jeho účel. Test určený na jeden účel navyše nemusí fungovať dobre na iný.

Nájdite si chvíľku na zamyslenie nad niektorými testami, ktoré ste použili alebo ste urobili v minulosti. Ako by ste vyjadrili účel týchto testov? Pri odpovedi na túto otázku dávajte pozor, aby ste jednoducho nepovedali, že účelom testu je niečo zmerať. Vyhlásenie o teste by malo objasniť, čo sa dá s výslednými výsledkami urobiť. Skóre z testovania umiestnenia sa napríklad používa na určenie, aké kurzy by mal študent absolvovať, alebo na identifikáciu študentov, ktorí potrebujú určité učebné zdroje. Výsledky prijímacích skúšok informujú výber uchádzačov o prijatie na vysokú školu alebo univerzitu. Skóre z certifikačných a licenčných skúšok sa používa na overenie, či skúšajúci má znalosti, zručnosti a schopnosti požadované pre výkon praxe v danej profesii. Tabuľka 1.1 obsahuje tieto a niekoľko ďalších príkladov. V každom prípade sú skóre určené na použitie špeciálnym spôsobom.

Typ testu Zamýšľané použitie
Zodpovednosť Postavte rôznych ľudí zodpovedných za vzdelávanie študentov
Vstupné Výber na vstup do vzdelávacej inštitúcie
Zamestnanosť Pomoc pri nábore a propagácii zamestnancov
Ukončiť testovanie Skontrolujte zvládnutie obsahu potrebného na absolvovanie
Licencovanie Overte, či sú kandidáti fit na prax
Umiestnenie Výber kurzových alebo inštruktážnych potrieb

Tu je ďalší príklad, ktorý v tomto kurze použijem. Časť mojej práce a výskumu je založená na type štandardizovaného testovania umiestnenia, ktoré sa používa na meranie rastu študentov v krátkom časovom období. Okrem merania rastu sa skóre používa aj na hodnotenie efektivity intervenčných programov e ff, kde e 󻀎ktívne intervencie vedú k pozitívnym výsledkom pre študentov. Môj najnovší projekt zahŕňal opatrenia ranej gramotnosti s názvom myIGDI ʋrad 󻀞ld et al., 2014 ). Brožúra opatrení z www.myigdis.com uvádza,

myIGDI sú komplexný súbor hodnotení na monitorovanie rastu a vývoja malých detí. myIGDI sa ľahko zbierajú, sú citlivé na malé zmeny v úspechoch detí a označujú pokrok smerom k dlhodobému požadovanému výsledku. Z týchto dôvodov sú myIGDI vynikajúcou voľbou na monitorovanie študentov angličtiny a vytváranie informovanejších hodnotení špeciálneho vzdelávania.

Upozorňujeme, že toto sú niektoré špecifické 󻀜 a ambiciózne tvrdenia. Na preukázanie toho, že skóre je možné týmto spôsobom efektívne použiť, je potrebný dôkaz o platnosti.

Cieľom týchto príkladov je jednoducho objasniť, čo obsahuje vyhlásenie o účele a prečo je dobre formulovaný účel zásadným a prvým krokom k meraniu. V kapitolách 2 a 9 sa vrátime k overeniu účelu testu. Zatiaľ sa musíte len zoznámiť s tým, ako je účel testu formulovaný a prečo je dôležitý.

Zhrnutie

Aby sme zhrnuli túto časť, proces merania nám umožňuje zachytiť informácie o jednotlivcoch, ktoré je možné použiť na opis ich postavenia na rôznych konštruktoch, od vzdelávacích, ako sú matematické schopnosti a znalosti slovnej zásoby, až po psychologické, ako je spoločenskosť a agresia. Tieto vlastnosti meriame operacionalizovaním nášho konštruktu, napríklad z hľadiska počtu správne zodpovedaných položiek alebo koľkokrát jednotlivci prejavujú určité správanie. Potom sa predpokladá, že tieto operačné premenné reprezentujú náš konštrukt záujmu. Nakoniec, naše miery týchto konštruktov potom môžu byť použité na špeciálne účely#xFB01c, ako napríklad na informovanie výskumných otázok o vzťahu medzi sociálnosťou a agresivitou alebo na meranie rastu v ranej gramotnosti.

Meranie teda zahŕňa konštrukciu, ktorú priamo nepozorujeme, a jej operáciu, ktorú pozorujeme. Naše meranie je údajne účinné v prípade, že medzi nimi existuje silné spojenie, ktoré je najlepšie dosiahnuť, keď má naše meranie jasný účel. V ďalších dvoch častiach o mierkach merania a bodovaní sa zameriame na to, ako zvládnuť prevádzkovú stránku merania. V prípade modelov merania potom zvážime konštrukčnú stránku. Nakoniec, v sekcii o odkazovaní na skóre hovoríme o ďalších štítkoch, ktoré používajú na to, aby dali našim skóre zmysel.

Meracie stupnice

Teraz, keď sme zistili, čo je meranie, a niektoré kľúčové funkcie, ktoré robia proces merania dobrým, môžeme sa dostať do podrobností o tom, ako sa meranie vykonáva. Ako uvádza Stevens ( 1946 ), meranie zahŕňa priradenie hodnôt objektom podľa určitých pravidiel. Pravidlá, ktorými sa riadi proces merania, určujú typ meracej stupnice, ktorá sa vytvára, a štatistiky, ktoré je možné s touto stupnicou používať.

Štyri druhy váh

Meracie stupnice sú zoskupené do štyroch rôznych typov. Tieto di 󻀎r vo význame, ktorý je daný hodnotám, ktoré sú priradené, a vzťah medzi týmito hodnotami pre danú premennú.

Nominálne

Najzákladnejšou mierkou merania je skutočne absencia stupnice, pretože použité hodnoty sú jednoduchými kategóriami alebo názvami, a nie veličinami premennej. Z tohto dôvodu sa označuje ako nominálna škála, kde sú ľudia kvalitatívne zoskupení, napríklad podľa pohlavia alebo politickej strany. Nominálna stupnica môže tiež predstavovať premenné, ako napríklad PSČ alebo farbu očí, kde je prítomných viac kategórií. Identifikačné premenné, ako napríklad priezvisko študenta alebo ID školy, sa teda tiež považujú za nominálne.

S nominálnymi premennými sú povolené iba frekvencie, proporcie a percentá ( a súvisiace neparametrické štatistiky ). Prostriedky a štandardné odchýlky ( a súvisiace parametrické štatistiky ) nefungujú. Bolo by nezmyselné vypočítať niečo ako priemerné pohlavie alebo farbu očí, pretože nominálnym premenným chýba vo svojich hodnotách inherentné usporiadanie alebo množstvo.

Radové

Dominantou radovej stupnice je poriadok, kde hodnoty majú inherentné usporiadanie, ktoré nemožno odstrániť bez straty významu. Bežné príklady radových stupníc zahŕňajú poradie (napr., first, druhé, tretie atď. ), viacbodové hodnotiace stupnice viditeľné v prieskumoch ʎg., Zásadne nesúhlasím, nesúhlasím atď. . ) a úroveň dosiahnutého vzdelania.

Vzdialenosť medzi usporiadanými kategóriami v radových premenných (t.j., Interval ) sa nikdy nestanoví. Rozdiel medzi druhým číslom a druhým miestom nemusí nutne znamenať to isté ako rozdiel medzi druhým a tretím. V plaveckých pretekoch sa prvý a druhý môže líšiť o niekoľko milisekúnd, zatiaľ čo druhý a tretí o niekoľko minút. Vieme, že first je rýchlejšie ako druhé a druhé je rýchlejšie ako tretie, ale nevieme, ako rýchlejšie. Všimnite si, že konštrukcia, ktorú tu meriame, je pravdepodobne schopnosť plávania, ktorá je v skutočnosti prevádzkovaná na pomerovej stupnici, pokiaľ ide o rýchlosť, ale pri udeľovaní cien je jednoduchá a#xFB01 zaradená do radovej stupnice.

Štatistiky, ktoré sa spoliehajú na informácie na úrovni intervalov, ako napríklad priemer, štandardná odchýlka a všetky štatistické testy na základe priemeru, stále nie sú povolené s radovou stupnicou. Štatistiky povolené s radovými premennými zahŕňajú medián a všetky štatistiky založené na percentile.

Interval

Intervalové škály zahŕňajú usporiadané hodnoty, v ktorých majú vzdialenosti alebo intervaly medzi nimi význam. Zatiaľ čo radová stupnica opisuje jednu kategóriu len ako väčšiu, menšiu alebo rovnakú ako iná, pri intervalovej stupnici je rozdiel medzi kategóriami kvanti fi v bodoch mierky, ktoré majú v celej škále konzistentný význam. S intervalovými škálami môžeme fipoužívať iba prostriedky, štandardné odchýlky a súvisiace parametrické štatistické testy.

Bežným príkladom intervalovej stupnice je skóre testu založené na správnom čísle, kde každá položka v teste má pri výpočte súčtu rovnakú hodnotu. Pri zaobchádzaní so skóre testu ako s premennými intervalu vychádzame z predpokladu, že di 󻀎rencia v bodoch bodov re fl ovplyvňuje konzistentnú di 󻀎rence v konštrukte bez ohľadu na to, kde sa nachádzame na stupnici. To môže byť niekedy problematické. Test slovnej zásoby je možné merať na intervalovej škále, kde každé správne definované slovo prispieva k celkovému skóre rovnakou čiastkou. V tomto prípade však predpokladáme, že každá správna de finition je založená na rovnakom množstve znalostí konštruktu, slovnej zásoby. To znamená, že slová slovníka musia byť podobné ako v prípade obtiažnosti pre študentov, ktorých testujeme. V opačnom prípade nebudú mať intervaly mierky konzistentný význam. Naopak, zvýšenie správneho počtu bude závisieť od slova, ktoré je zodpovedané správne.

Ďalším bežným príkladom intervalovej stupnice je teplota meraná v stupňoch Celzia alebo Fahrenheita. Tieto teplotné stupnice majú zmysluplné intervaly, kde napríklad daný nárast tepla spôsobí rovnaké zvýšenie stupňov bez ohľadu na to, kde sa na stupnici nachádzate. Nula na stupniciach Fahrenheita alebo Celzia však neznamená absenciu meranej veličiny, teploty. Toto je kľúčový rozdiel medzi intervalovou a pomerovou stupnicou.

Pomer

Pomerová stupnica je intervalová stupnica so zmysluplnou absolútnou nulou alebo bod, v ktorom absentuje meraná premenná. Zatiaľ čo intervalová stupnica opisuje rozdiely medzi hodnotami stupnice v bodoch mierky, pomerová škála môže porovnávať hodnoty podľa pomerov. Jednoduchým príkladom je čas, kde 1 hodina je ekvivalentom 2/3 hodín + 1/3 hodiny. Medzi ďalšie príklady patrí počet pozorovaní alebo výskytov, ako napríklad počet agresívnych alebo prosociálnych spôsobov správania za hodinu alebo frekvencia užívania drog za posledný mesiac.

Všimnite si toho, že pri operacionalizácii konštruktov často odkazujeme na pomerové škály, v takom prípade môžeme prísť o náš zmysluplný nulový bod. Napríklad nulové prosociálne správanie v skutočnosti naznačuje, že za určité časové obdobie sa u študenta nevyskytlo nič nápadne prosociálne. To však nemusí znamenať, že študent úplne stratí zdieľateľnosť. Rovnako tak nulové agresívne správanie nemusí nevyhnutne znamenať absenciu agresie. Keď sa teda premenná pomeru používa na operacionalizáciu konštruktu, môže nevyhnutne stratiť svoje pomerové vlastnosti.

Všetky štatistiky sú povolené s pomerovými stupnicami, aj keď jediné, o ktorých hovoríme, okrem štatistík dostupných s intervalovými škálami, sú štatistiky, ktoré vám umožňujú porovnávať skóre pomocou pomerov. Napríklad dvojhodinový test je dvakrát dlhší ako hodinový a five agresívnych epizód je o polovicu menej ako desať. Avšak, ako predtým, ak sa predpokladá, že naša škála odkazuje na nejaký základný konštrukt, five agresívne epizódy nemusia naznačovať dvakrát toľko agresie ako desať.

Porovnávanie mierok

Meracie škály, ktoré postupujú od nominálneho k pomeru, stávajú sa opisnejšími pre premennú, ktorú predstavujú, a sú k dispozícii ďalšie štatistické možnosti. Všeobecne platí, že čím ďalej od nominálnej stupnice, tým lepšie, pretože akonáhle je váha označená, nemožno ju aktualizovať, iba znížiť úroveň. Variabilný vek môže byť napríklad reprezentovaný týmito štyrmi spôsobmi:

1. počet dní strávených životom, od 0 do v finity 2. deň narodený v danom roku, od 1 do 365 3. stupeň mladosti vrátane batoľaťa, dospievajúceho, dospelého atď. Alebo 4. typ mladosti, ako napr. rovnaký ako Mike, alebo rovnaký ako Ike.

Prvá z týchto štyroch pomerových mierok je najuniverzálnejšia a je možné ju previesť na ktorúkoľvek z mierok pod ňou. Akonáhle je však vek definovaný fi na základe klasifikácie fi, ako je “same ako Mike, ”, nie je možné zlepšiť. Z tohto dôvodu by mala byť vo fázach plánovania návrhu testu zvážená variabilná meracia stupnica, ideálne, keď identifikujeme účel nášho testu.

V sociálnych vedách je meranie pomocou pomerovej stupnice ťažké dosiahnuť, pretože naše operacionalizácie konštruktov spravidla nemajú zmysluplné nuly. Intervalové škály sa teda považujú za optimálne, aj keď nie je ľahké ich získať. Zvážte vyššie popísané opatrenie sociability. Aký typ mierky zachytáva toto opatrenie? Znamená nulové skóre úplnú absenciu sociability? Toto je potrebné pre pomer. Znamená prírastkové zvýšenie na jednom konci stupnice to isté ako prírastkové zvýšenie na druhom konci stupnice? Toto je potrebné pre interval.

Po podrobnom skúmaní je ťažké zmerať sociabilitu a väčšinu ostatných konštruktov v sociálnych vedách pomocou niečoho iného ako radovej stupnice. Intervalová alebo pomerová škála je bohužiaľ potrebná pre väčšinu štatistík, ktoré radi používame. Podľa týchto línií Stevens ( 1946, s. 679 ) dospel k záveru:

Väčšina z váh, ktoré psychológovia bežne používajú a sú efektívne & e xFB00, sú radové stupnice. V najprísnejšom zmysle by sa pri týchto mierkach nemala používať bežná štatistika zahŕňajúca prostriedky a štandardné odchýlky, pretože tieto štatistiky znamenajú znalosť niečoho viac ako relatívny poradový poriadok údajov. Na druhej strane, pre tieto ‘nelegálne ’ štatistiky je možné vyvolať druh pragmatickej sankcie: V mnohých prípadoch to vedie k plodným výsledkom. Aj keď zakázanie tohto postupu pravdepodobne nebude slúžiť dobrému účelu, je vhodné poukázať na to, že prostriedky a štandardné odchýlky vypočítané na radovej stupnici sú chybné do tej miery, že po sebe nasledujúce intervaly na stupnici majú rôznu veľkosť. Keď je známy iba poradie údajov, mali by sme s našou štatistikou a obzvlášť so závermi, ktoré z nich vyvodíme, postupovať opatrne.

Na základe tohto argumentu je priemerné skóre sociability iba tak užitočné, ako samotná škála je interval. Čím menej zmysluplné budú intervaly medzi skóre sociability, tým menší bude náš priemerný odhad. Pri navrhovaní nástroja si teda musíme byť vedomí tohto obmedzenia a urobiť všetko pre to, aby sme zlepšili intervalovosť našich stupníc. Pri uvádzaní účelu testu si musíme byť vedomí toho, ako naša konštrukcia a jeho prevádzkovanie ovplyvní našu výslednú škálu. Nakoniec musíme uznať obmedzenia našich mierok, najmä pri použití potenciálne nesprávnych štatistík.

Bodovanie

Tento kurz je zameraný na kognitívne a a#xFB00ektívne testy ako operacionalizáciu konštruktov vo vzdelávaní a psychológii. Ako je uvedené vyššie, tieto výsledky testov často vytvárajú radové škály s určitým významom v ich intervaloch. Konkrétne pravidlá pre priradenie hodnôt v týchto škálach závisia od typu použitých skórovacích mechanizmov. Tu sa pozrieme na dva najbežnejšie mechanizmy skórovania, dichotomické a polytomické, a diskutujeme o tom, ako sa tieto mechanizmy používajú na vytváranie hodnotiacich stupníc a kompozitných skóre.

Dichotomické bodovanie

Dichotomické skórovanie sa týka priradenia jednej z dvoch možných hodnôt na základe výkonu osoby alebo odpovede na testovaciu otázku. Jednoduchým príkladom je použitie správneho a nesprávneho na vyhodnotenie odpovede kognitívnej položky. Tieto hodnoty sa navzájom vylučujú a popisujú správnosť odpovede najjednoduchším možným spôsobom ako úplne nesprávnu alebo úplne správnu. Väčšina kognitívnych testov zahŕňa aspoň niektoré dichotomicky hodnotené položky. Otázky s možnosťou výberu z viacerých odpovedí, o ktorých sa bude ďalej diskutovať v kapitole 3, sa zvyčajne hodnotia dichotomicky.

Dichotomické bodovanie môže okrem správneho a nesprávneho zahŕňať aj rôzne hodnoty skóre. Najbežnejším príkladom je skórovanie, ktoré predstavuje odpoveď buď áno, alebo nie. A 󻀎ktívne opatrenia, ako sú prieskumy postoja a kontrolné zoznamy správania, často používajú tento typ dichotomického bodovania. Inventáre depresie môžu napríklad poskytnúť jednotlivcom zoznamy tvrdení, s ktorými sa ľudia s depresiou spravidla silne stotožňujú. Jednotlivci potom reagujú na každé tvrdenie uvedením, či sú tieto vyhlásenia pre nich charakteristické alebo nie.

Niekedy sa používajú aj iné dichotomické skóre, ktoré nenaznačujú prítomnosť alebo neprítomnosť konštruktu, ale nie sú tu diskutované.

Polytomické bodovanie

Polytomické skóre jednoducho znamená priradenie troch alebo viacerých možných hodnôt pre danú testovú otázku alebo položku. V kognitívnom testovaní je jednoduchým príkladom použitie hodnotiacich stupníc na vyhodnotenie písomných odpovedí, ako sú eseje. V tomto prípade môžu hodnoty skóre stále popisovať správnosť odpovede, ale s rôznymi úrovňami správnosti, napríklad nesprávne, čiastočne správne a úplne správne.

Polytomické skórovanie s kognitívnymi testami môže byť menej priamočiare a menej objektívne ako dichotomické skórovanie, predovšetkým preto, že na udržanie konzistentného významu priradených kategórií, ako napríklad čiastočne správnych, si to zvyčajne vyžaduje použitie ľudských hodnotiteľov, s ktorými je v poriadku. Otázka spoľahlivosti interrateru bude prediskutovaná v kapitole 6.

Polytomické skórovanie s 󻀎ktívnymi alebo nekognitívnymi opatreniami sa najčastejšie vyskytuje s použitím hodnotiacich stupníc. Jednotlivci môžu napríklad použiť hodnotiacu stupnicu na opis toho, do akej miery sa stotožňujú s vyhlásením alebo do akej miery ho vyhlásenie vyjadruje, namiesto toho, aby jednoducho povedali áno alebo nie. Takéto hodnotiace stupnice merajú viac úrovní súhlasu (napr., Od nesúhlasu po súhlas ) alebo preferenciu ʎg., Od odporu k lajku ). V tomto prípade, pretože jednotlivci poskytujú svoje vlastné odpovede, subjektivita v bodovaní nie je problémom, ako je to v prípade polytomického bodovania v kognitívnych testoch. Výzvou s hodnotiacimi stupnicami sa namiesto toho stáva zaistenie toho, aby jednotlivci interpretovali hodnotiace kategórie rovnakým spôsobom. Silný nesúhlas môže napríklad znamenať rôzne veci pre rôznych ľudí, čo bude mať vplyv na porovnanie výsledných skóre medzi jednotlivcami.

S výnimkou bodovania esejí a niektorých aktívnych opatrení ff sa na meranie konštrukcie zriedka používajú jednotlivé otázky, či už dichotomické alebo polytomické, skóre. Namiesto toho sa skombinujú skóre z viacerých položiek a vytvoria sa kombinované skóre alebo skóre stupnice hodnotenia.

Hodnotiace stupnice

Keď som bol na vysokej škole, profesor pre moju triedu úvodného merania káral študentov, keď označovali viacbodové hodnotiace stupnice ako “Likertove stupnice. ” Likert ( 1932 ) nevymyslel hodnotiacu stupnicu. Namiesto toho podrobne popísal dve metódy kombinovania skóre vo viacerých položkách hodnotiacej stupnice, aby vytvoril kompozitné skóre, ktoré by teoreticky bolo silnejšou mierou konštrukcie ako ktorákoľvek jednotlivá položka. Jednou z týchto metód, ktorá sa stala štandardnou technikou pri meraní �tive, je priradiť poradové číselné hodnoty každej kategórii hodnotiacej stupnice a potom vypočítať súčet alebo priemer v rámci sady týchto položiek hodnotiacej stupnice.

Technika škálovania, ktorú predviedol Likert ( 1932 ), zahŕňa first, bodovanie jednotlivých položiek hodnotiacej stupnice pomocou polytomických mierok. Napríklad možnosti odpovede pre jednu skupinu otázok z prieskumu v kategóriách Likert � ) zahŕňali five, od silne nesúhlasných po nerozhodnuté až po silné schválenia. Týmto boli priradené hodnoty skóre 1 až 5. Potom bolo získané celkové skóre pre všetky položky v súbore a nízke skóre bolo interpretované ako vyjadrenie silného nesúhlasu a vysoké skóre bolo interpretované ako označenie silného schválenia. Tento proces by sa mohol označovať ako Likertovo škálovanie. Ale v tomto kurze to budeme jednoducho označovať ako kompozitné škálovanie, kompozitné skórovanie alebo jednoducho vytváranie celkového alebo priemerného skóre pre viacero položiek.

V kapitole 4 sa budeme podrobnejšie venovať hodnotiacim stupniciam. Pokrývame otázky týkajúce sa vytvárania a správy ratingových kategórií. Tu sa viac zaujímame o výhody fits používania kompozitných skóre.

Kompozity verzus komponenty

Kompozitné skóre je jednoducho výsledkom určitej kombinácie oddelených podčiarkov, označovaných ako komponenty. Najčastejšie sa budeme zaoberať celkovým skóre alebo skóre faktora v teste, kde jednotlivé položky tvoria komponenty. Skóre faktora sa týka skóre získaných z určitého modelu merania, ako je klasický model teórie testov, popísaný v kapitole 5 alebo model teórie odozvy položky, o ktorom pojednáva kapitola 8. Tiež sa stretneme so zloženými skóre na základe súčtov a priemerov z položiek stupnice hodnotenia. V každom prípade bude kompozit preferovaný pred akýmkoľvek jednotlivým komponentom z niekoľkých dôvodov.

Kompozitné skóre je vhodnejšie zo štatistického hľadiska, pretože zvyčajne poskytuje spoľahlivejšie a platnejšie meradlo nášho konštruktu. Kompozity sú spoľahlivejšie a platnejšie, pretože kombinujú informácie z viacerých menších, opakovaných mier konštrukcie. Tieto menšie súčasti môžu byť každým určitým spôsobom obmedzené alebo môžu predstavovať iba malý kúsok celkového obrazu, a keď sa skombinujú, výsledné skóre je komplexnejšie a ľahšie sa reprodukuje v nasledujúcich meraniach. V kapitole 5 sa dozvieme viac o tom, prečo sa teoreticky očakáva zvýšenie spoľahlivosti, pretože zvyšujeme počet položiek v našom kompozite.

Napríklad pri meraní konštruktu, akým je prístup k právam zvierat, by jedna položka poskytovala iba informácie o konkrétnej inštancii problému. Zoberme si príklady položiek prieskumu, ktoré predstavili Mathews a Herzog ( 1997, s. 171 ):

Stupnica postoja zvierat ⢪S ) hodnotí jednotlivé rozdiely v postojoch k liečbe zvierat. Skladá sa z 29 položiek, ktoré subjekty hodnotia na fi-bodovej Likertovej stupnici (, dôrazne súhlasia, že zásadne nesúhlasia ). Medzi ukážkové položky patrí, “I nemyslí si, že je niečo zlé na použití zvierat v lekárskom výskume, ” “I je morálne nesprávne loviť voľne žijúce zvieratá len kvôli športu, ” a “I by pravdepodobne pokračovalo použite výrobok, ktorý sa mi páčil, aj keď viem, že jeho vývoj spôsoboval laboratórnym zvieratám bolesť. ”

Každá z týchto položiek nemusí sama osebe predstavovať úplný konštrukčný návrh, ktorý sa pokúšame zmerať. Osoba môže výrazne podporovať práva zvierat, s výnimkou prípadu lekárskeho výskumu. Alebo človek môže finájsť frázu “, čo sa mi páčilo, ” z tretej príkladovej otázky, rôznymi spôsobmi tak, že táto individuálna otázka prinesie rôzne výsledky pre ľudí, ktorí by v skutočnosti mohli byť v tomto ohľade podobní pre zvieratá. Kompozitné skóre bude mať tendenciu zmývať obmedzenia jednotlivých položiek. ( Vedľajšia poznámka k tejto štúdii: regresný model ukázal, že 25% rozdielov v prístupe k zvieratám tvorí pohlavie a miera citlivosti osobnosti. )

Jednoduchšie metódy na vytváranie kompozitov spriemerovaním a súčtom medzi položkami sa používajú s nástrojmi menšieho rozsahu na uľahčenie bodovania a vykazovania skóre. Škálovanie mnohých nástrojov, vrátane rozsiahlych vzdelávacích testov a psychologických opatrení, však často zahŕňa použitie modelov merania.

Modely merania

Zatiaľ čo jednoduchý súčet alebo priemer zo sady položiek umožňuje, aby každá položka prispela rovnakou sumou k celkovému skóre, na odhad rôzneho súčasného príspevku jednotlivých položiek k základnej konštrukcii je možné použiť komplexnejšie modely merania. Tieto príspevky je možné preskúmať rôznymi spôsobmi, ako sa diskutuje v kapitolách 5, 7 a 8. Spolu môžu poskytnúť užitočné informácie o kvalite opatrenia, pretože nám pomôžu porozumieť vzťahu medzi našou operacionalizáciou konštruktu z hľadiska jednotlivých položiek a samotným konštruktom.

Modely merania predstavujú nepozorovateľnú konštrukciu formálnym začlenením teórie merania do procesu merania. V tejto triede preskúmame dve teórie. first, predstavený v kapitole 5, sa nazýva klasická teória testov, a druhý, predstavený v kapitole 8, sa nazýva teória reakcie na položky (viz Hambleton & Jones, 1993, ktorí tieto dva porovnávajú ). Zatiaľ sa pozrieme na základy toho, čo model merania robí.

Obrázok 1.1 obsahuje vizuálne znázornenie jednoduchého modelu merania, kde základný konštrukt sociability zobrazený v ovále spôsobuje čiastočne pozorované reakcie v súbore troch otázok zobrazených v obdĺžnikoch ako položka 1, položka 2 a položka 3. Nepozorovateľné veličiny v modeli merania sú typicky reprezentované oválmi a pozorovateľné veličiny obdĺžnikmi. Príčinnú súvislosť potom predstavujú šípky, ktoré smerujú od konštrukcie k reakciám položky. Čísla nad každou šípkou z konštruktu sú zaťaženiami zmenšeného faktora uvedené v D. A. Nelson et al. � ), ktoré predstavujú silu vzťahu medzi položkami a konštrukciou, ktorú spoločne tvoria fine. Rovnako ako pre korelačný koeficient 󻀼ient, čím väčšie je zaťaženie faktorom, tým silnejší je vzťah. Položka 1 má teda najsilnejší vzťah s faktorom sociability a položka 3 má najslabšiu.

Ďalšími nepozorovanými veličinami na obrázku 1.1 sú chybové výrazy v kruhoch, ktoré tiež ovplyvňujú reakcie na tieto tri položky. Bez šípok spájajúcich chybové výrazy z jedného na druhý model predpokladá, že chyby sú na jednotlivých položkách nezávislé a nesúvisia. V tomto prípade je každá odchýlka v fl odozvy na reakciu, ktorá nepochádza zo spoločného faktora spoločenskosti, pripisovaná chybe merania.

Modely, ako napríklad ten na obrázku 1.1, sa označujú ako modely kritickej faktorovej analýzy, pretože navrhujeme danú štruktúru pre vzťahy medzi konštruktmi, chybami a pozorovaniami a snažíme sa ju konfigurovať umiestnením určitých obmedzení na vzťahy. odhadujeme.

Škálovanie a referencovanie skóre

Teraz, keď sme diskutovali o procese merania, môžeme si prejsť niektoré bežné metódy na poskytnutie významu skóre, ktoré naše opatrenia produkujú. Tieto metódy sa označujú ako škálovanie skóre a referencie na skóre noriem a kritérií. Každý z nich je stručne popísaný nižšie s príkladmi.

Stupnica skóre

Stupnice skóre sú často modifikované tak, aby mali určité vlastnosti, vrátane menších alebo väčších intervalov skóre, rôznych stredných bodov a rôznych variabilít. Bežným príkladom je stupnica z -score, ktorá má fi označenú ako priemer 0 a štandardnú odchýlku (SD ) z 1. Akákoľvek premenná, ktorá má priemer a SD, je možné previesť na z -skóre, ktoré vyjadrujú každé skóre z hľadiska vzdialeností od priemeru v jednotkách SD. Akonáhle je stupnica prevedená na metriku z -score, môže byť potom transformovaná tak, aby mala akýkoľvek stredný bod prostredníctvom priemeru a akýkoľvek faktor mierky prostredníctvom štandardnej odchýlky. Rovnice pre tieto transformácie sú uvedené nižšie. Spôsoby vykonávania týchto transformácií sú opäť prediskutované v kapitole ਅ.

Ak chcete premeniť premennú Y z pôvodnej stupnice skóre na stupnicu z -skóre, z každého skóre odpočítame μ Y, priemer na Y, a potom vydelíme σ Y, SD Y. Výsledná z transformácia Y označená ako Y z je:

Po odpočítaní priemeru z každého skóre je priemer našej novej premennej Y z 0 a po rozdelení každého skóre hodnotou SD je SD našej novej premennej 1. Teraz môžeme vynásobiť Y z ľubovoľnou konštantou s a potom sčítajte alebo odčítajte inú konštantnú hodnotu m, aby ste získali lineárne transformovanú premennú so priemerom m a SD rovnou s. Nová premenná so zmenenou mierkou je označená ako Y r:

Lineárna transformácia akejkoľvek premennej Y z jej pôvodnej metriky, s priemerom a SD μ Y a σ Y, do stupnice de fi určenej novým priemerom a štandardnou odchýlkou, sa získa kombináciou týchto rovníc, ako:

Transformácie v mierke sa často používajú pri testovaní z jedného z dvoch dôvodov. Po prvé, transformácie môžu byť použité na vyjadrenie premennej v zmysle známeho priemeru a SD. Skóre IQ sú napríklad tradične vyjadrené na stupnici s priemerom 100 a SD 15. V tomto prípade sa používa rovnica ਁ.3 s m = 1 0 0 a s = 1 5. Ďalšia populárna stupnica skóre sa označuje ako t -škála, kde m = 5 0 a s = 1 0. Po druhé, transformácie je možné použiť na vyjadrenie premennej z hľadiska novej a jedinečnej metriky. Keď bola GRE v roku 2011 zrevidovaná, bola vytvorená nová stupnica skóre, ktorá čiastočne odrádza od priameho porovnávania s predchádzajúcou verziou skúšky. Bývalé stupnice GRE kvantitatívnych a verbálnych úvah sa pohybovali v rozmedzí od 200 do 800 a revidované verzie v rozmedzí od 130 do 170.

Odkazovanie na normy

Odkazovanie na normy dáva význam skóre tým, že ich porovnáva s hodnotami pre konkrétnu skupinu noriem 󻀜. Napríklad, keď si moje deti prinesú domov svoje štandardizované výsledky testov zo školy, ich skóre v každej oblasti, matematike a čítaní, dostane význam tým, že ich porovná s distribúciou skóre pre študentov v celom štáte. Skóre 22 znamená pre rodiča, ktorý nemá prístup k samotnému testu, veľmi málo. Percentilné skóre 90 však naznačuje, že študent dosiahol skóre najmenej 90% študentov v skupine s normovaním, bez ohľadu na to, na aké percento testových otázok odpovedali správne.

S normami sa často stretávame aj pri prijímacích testoch. Ak ste absolvovali niečo ako ACT alebo SAT, prijímacie skúšky na vysoké školy používané v USA alebo GRE, prijímací test na postgraduálnu školu, pravdepodobne poznáte dvojzmyselné škály skóre, ktoré tieto skúšky používajú v prehľadoch. Každá škála je založená na prevode vašich skutočných výsledkov testov na stupnicu, ktorá je zámerne odlišná alebo nemožná na pochopenie. Cieľom pri tomto škálovaní skóre je určitým spôsobom prinútiť vás spoliehať sa na referencie na normy uvedené vo vašej správe o skóre. Stupnice ACT sa pohybujú od 1 do 36, ale skóre 20 v matematickej sekcii vám veľa nehovorí o tom, koľko matematiky poznáte alebo dokážete. Namiesto toho, keď odkážete na publikované normy, skóre 20 vám povie, že ste dosiahli približne 50. percentil pre všetkých účastníkov testu, čo nie je skvelé, ak dúfate, že sa dostanete na dobrú vysokú školu.

Tieto dva príklady zahŕňajú jednoduché percentilové normy, kde sú skóre porovnané s úplným rozdelením skóre pre danú skupinu noriem. Dva ďalšie bežné typy odkazov na normy sú normy pre ročníky a vek, ktoré sa získavajú odhadom typického alebo priemerného výkonu pri teste podľa stupňa stupňa alebo veku.

Odkazovanie na kritérium

Hlavným obmedzením odkazovania na normy je to, že iba pomáha opísať výkon v porovnaní s inými testovacími subjektmi. Odkazovanie na skóre kritérií robí opak. Odkazovanie na kritérium dáva skóre význam tým, že ich porovnáva s hodnotami priamo prepojenými so samotným obsahom testu, bez ohľadu na to, ako si iní počínajú v obsahu (Popham & Husek, 1969 ).

Na referenčné kritérium sa často odvolávajú vzdelávacie testy podporujúce rozhodovanie o vyučovaní. Hodnotenia v triede sa napríklad používajú na identifikáciu obsahu kurzu, ktorý študent ovláda a ktorý neovláda, aby bolo možné riešiť nedostatky pred pokračovaním. Test slovnej zásoby uvedený vyššie je jedným z príkladov. Medzi ďalšie patria testy používané pri umiestňovaní študentov a pri výstupných testoch.

Výsledky štandardizovaných stavových testov, ktoré boli uvedené vyššie ako príklad odkazovania na normy, majú tiež význam s použitím určitej formy odkazovania na kritériá. Kritériá v štátnych testoch čiastočne stanovuje porota učiteľov a administrátorov, ktorí sa zúčastňujú toho, čo sa nazýva štandardné nastavenie. Štátne testovacie štandardy sú zvolené tak, aby reflektovali súčasné úrovne zvládnutia obsahu testu. Napríklad v Nebraske sa na test vyberú dve cut-o ff skóre, aby sa študenti zaradili do kategórie, ktorá nespĺňa štandardy, spĺňa štandardy a prekračuje štandardy. Tieto kategórie sa označujú ako výkonnostné úrovne. Výkony študentov je potom možné hodnotiť na základe popisu typických výkonov pre ich úroveň. Tu je popis úrovne výkonnosti pre vedu 5. stupňa, ktorá spĺňa normu:

Celkový výkon študentov vo vede zodpovedá 󻀮 uspokojivému výkonu podľa štandardov a vynikajúcemu porozumeniu obsahu v fi. Ročníku. Žiak, ktorý skóruje na úrovni Spĺňa štandardy, vo všeobecnosti čerpá zo širokej škály vedeckých znalostí a zručností v oblastiach výskumu, fyziky, života a vied o Zemi/vesmíre.

Výkonnostné kategórie a popisy Nebrasky sú dostupné online na www.education.ne.gov/assessment. Popisy úrovní výkonu sú doplnené ďalšími podrobnosťami o očakávanom výkone študentov v tejto skupine na základe osobitných vedeckých konceptov. Napríklad opäť pre vedu 5. stupňa spĺňa normu:

Študent na tejto úrovni spravidla:

  • Identifikovateľné 󻀞s testovateľné otázky,
  • Identifikujte faktory, ktoré môžu mať vplyv na vyšetrovanie,
  • Identifikuje vhodný výber a používanie vedeckého vybavenia,
  • Vypracováva rozumné vysvetlenie na základe zhromaždených údajov,
  • Popíšte fyzikálne vlastnosti hmoty a jej zmeny.

Úrovne výkonu a deskriptory použité v štandardizovaných štátnych testoch poskytujú všeobecné informácie o tom, ako skóre testu súvisí s obsahom, ktorý je test určený na meranie. Vzhľadom na ich všeobecnosť majú tieto výsledky pre učiteľov a rodičov obmedzenú hodnotu. Namiesto toho sa deskriptory úrovne výkonu používajú na účely zodpovednosti, napríklad na hodnotenie výkonnosti v škole, okrese a dokonca na štátnych úrovniach, pokiaľ ide o počet študentov, ktorí spĺňajú očakávania.

Inventár Beckovej depresie ⢽I Beck, Ward, Mendelson, Mock, & Erbaugh, 1961 ) je príkladom odkazu na kritérium v ​​psychologickom testovaní. BDI obsahuje 21 položiek predstavujúcich rad depresívnych symptómov. Každá položka je hodnotená polytomicky od 0 do 3 a celkové skóre je vypočítané pre všetky položky. Potom sa poskytne skóre Cuto ff na identifikáciu jedincov s minimálnou, miernou, stredne ťažkou a ťažkou depresiou, kde nižšie skóre naznačuje menej depresívnych symptómov a vyššie skóre naznačuje závažnejšie depresívne symptómy.

Porovnávanie metód odkazovania

Napriek tomu, že referencie na normy a kritériá sú tu prezentované ako dve odlišné metódy dávajúce zmysel testovým skóre, niekedy môžu byť vzájomne prepojené, a preto sa môžu navzájom odlišovať. Vyššie popísaný testovací program myIGDI je jedným z príkladov odkazovania na skóre, ktoré kombinuje normy aj kritériá. Tieto hodnotenia boli vyvinuté na meranie rastu schopností ranej gramotnosti v predškolských a materských triedach. Študenti so skóre, ktoré klesne pod medznú hodnotu ff, sú identifikovaní ako potenciálne ohrození pre budúce vývojové oneskorenia v čítaní. Skóre cut-o ff je čiastočne určené na základe určitého percenta obsahu testu ( informácií o kritériu ) a čiastočne pomocou priemerného výkonu študentov hodnotených ich učiteľmi ako rizikových (normatívnych informácií ).

Odkazy na normy a kritériá slúžia na rôzne účely. Väčšina porovnávaní týchto dvoch konštatuje, že odkazovanie na normy je zvyčajne spojené s testami, ktorých cieľom je zoradiť odberateľov testov a prijímať rozhodnutia zahŕňajúce porovnania medzi jednotlivcami, zatiaľ čo odkazovanie na kritériá je spojené s testami určenými na meranie učenia alebo ovládania a rozhodovania o jednotlivcoch a programoch &# x0028napr., Bond, 1996 Popham & Husek, 1969 ). Tieto rôzne dôraznosti sú dôležité pre účel samotného testu a mali by sa vziať do úvahy v počiatočných fázach vývoja testu, ako sa diskutuje v kapitolách 2, 3 a 4.

Zhrnutie a domáca úloha

Táto kapitola prináša prehľad toho, čo je meranie, ako sa meranie vykonáva z hľadiska škálovania a bodovania a ako meraniu prikladá ďalší význam pomocou odkazovania na skóre a transformácie stupnice. Predtým, ako prejdete na kapitolu 2, sa uistite, že dokážete odpovedať na vzdelávacie ciele tejto kapitoly a nižšie uvedené diskusné otázky.

Učebné ciele

1. De fine proces merania. 2. De finame pojem konštrukt a popíšte, ako sa konštrukty používajú pri meraní, s príkladmi. 3. Porovnajte a porovnajte stupnice merania vrátane nominálnych, radových, intervalových a pomerových s príkladmi a identifikujte ich použitie v kontexte. 4. Porovnajte a porovnajte dichotomické a polytomické skórovanie. 5. Popíšte, ako sa hodnotiace stupnice používajú na vytváranie kompozitných skóre. 6. Porovnajte a kontrastujte kompozitné a komponentné skóre. 7. Vytvorte generický model merania a de fine jeho súčasti. 8. De fine norma odkazujúca a identifikujúca súvislosti, v ktorých je to vhodné. 9. Porovnajte tri príklady odkazovania na normy: známkové, vekové a percentilové normy. 10. De fine kritérium odkazovania a identifikácia kontextov, v ktorých je to vhodné. 11. Popíšte, ako sa štandardy a výkonnostné úrovne používajú v kritériách odkazujúcich na štandardizované štátne testy. 12. Porovnajte a porovnajte odkazy na normy a skóre kritérií a identifikujte ich použitia v kontexte. 13.Vysvetlite, ako a prečo sa lineárne transformácie mierok používajú na úpravu mierok.

Otázky do diskusie

Po dokončení tejto kapitoly by ste mali byť schopní poskytnúť podrobnosti o aplikácii merania, ktorá vás zaujíma. Ako postupujeme, budete túto aplikáciu odkazovať vo svojich úlohách a diskusiách v triede. Tu je niekoľko otázok, na ktoré by ste si mali vedieť odpovedať:

1. Ako by ste označili svoju konštrukciu? Aké výrazy je možné použiť na de fineznámenie? 2. S kým by ste tento konštrukt merali? Kto je vašim predmetom merania? 3. Aké sú merné jednotky? Aké hodnoty sa používajú pri prideľovaní skóre ľuďom? Aký typ meracej stupnice tieto hodnoty vytvoria? 4. Aký je účel pri meraní vašej konštrukcie? Ako sa budú používať skóre? 5. Ako sa bežne meria váš konštrukt? Existujú opatrenia, ktoré by vyhovovali vašim potrebám?

Ak máte problémy s aplikáciou merania, ktorá vás zaujíma, môžete začať s konštrukciou, ktorú vo vás budem počas tohto kurzu merať. Ako študent máte základný konštrukt, ktorý sa dúfajme zvýši, keď budete čítať, študovať, cvičiť a prispievať k skupinovej práci a diskusii v triede. Tento konštrukt by mohol byť označený ako hodnotiaca gramotnosť (Stiggins, 1991 ). Získate rôzne skóre na základe kvízov a zadaní, ktoré vám pomôžu ja a ja odhadnúť, kde sa nachádzate, na škále hodnotiacej gramotnosti. Potom na konci dostanete percentuálne skóre vyjadrujúce, koľko ste zvládli. V tomto kurze použijeme skutočné meranie, ktoré sa v ňom deje, ako kontext pre učenie.

Na zváženie je ešte niekoľko diskusných otázok:

1. Učitelia často používajú krátke opatrenia ústneho čítania a#xFB02uency, aby zistili, koľko slov študenti dokážu správne prečítať z textu v priebehu jednej minúty. Popíšte, ako by bolo možné túto premennú modifikovať fi do fit štyroch rôznych meradiel. 2. Ako môže byť odkazovanie na normy a kritériá užitočné pri skúške používanej na preverenie uchádzačov o prácu? 3. Ako sa referenčné normy a kritériá používajú pri hodnotení premenných mimo sociálnych vied, napríklad s aplikáciami merania uvedenými na začiatku kapitoly?


Materiály a metódy

Súbor údajov pozostával z odpovedí vysokoškolských študentov na dotazník osobnej klasifikovanej škály (GSQ), multidimenzionálny FCQ a zo samostatne hlásených známok pri skúške prístupu na univerzitu (SAE). GSQ aj FCQ boli zložené z rovnakých šesťdesiatich vyhlásení adresujúcich dimenzie FFM a boli prezentované v rôznych formátoch odozvy, tj. V Likertovej škále a pároch vynútenej voľby. Táto štúdia bola schválená etickým výborom univerzity, všetky údaje o odpovedi boli anonymizované a všetci účastníci pred účasťou poskytli svoj informovaný súhlas. Obsah súboru údajov je popísaný nižšie.

Nástroje

Pool položiek osobnosti

Šesťdesiat vyhlásení použitých v dvoch dotazníkoch bolo prevzatých zo 700-položkového súboru určeného na riešenie tridsiatich aspektov osobnosti, ktoré sú základom dimenzií FFM zahrnutých v modeli NEO-PI-R (Costa a McCrae, 1992). Položky v súbore boli predtým aplikované na formát 5-bodovej Likertovej stupnice na celkom 1531 vysokoškolských študentov psychológie na Universidad Aut ónoma de Madrid pomocou neúplného návrhu vzorkovania a boli kalibrované podľa odstupňovaného modelu reakcie Samejima ’s ( GRM Samejima, 1968). Čiastkové správy o kalibračnej štúdii nájdete v Nieto et al. (2017) a Morillo a kol. (2019). V kalibračnej štúdii uskutočnenej Nieto et al. (2017), skóre založené na tomto súbore položiek vykazovali dobrú konvergentnú validitu s NEO Five-Factor Inventory-3 (McCrae a Costa, 2007), čo je stručná 60-položková verzia NEO Personality Inventory-3 (McCrae et al., 2005).

Sto deväťdesiatpäť položiek bolo vylúčených z dôvodu nesprávneho smeru diskriminácie, nevýznamných parametrov diskriminácie alebo z dôvodu nedostatku vhodnosti, tj. pS –X^2 < 0,05, pomocou polytomickej generalizácie Orlanda a Thissena ’s (2003) indexu S-X 2 (Kang a Chen, 2007).

Konečných šesťdesiat položiek bolo vybraných zo zostávajúceho súboru 505 položiek pomocou algoritmu odhadovania distribúcie (Kreitchmann et al., 2017) zameraného na minimalizáciu súčtu štvorcových asymptotických odchýlok odhadov znakov vo formáte FC, za predpokladu modelu MUPP-2PL (Morillo et al., 2016) v 161051 kvadratúrnych bodoch priestoru hlavnej domény FFM (11 kvadratúrnych bodov na dimenziu), vážených ich funkciou hustoty za predpokladu štandardizovanej viacrozmernej normálnej distribúcie. Pre každú doménu FFM bolo dvanásť položiek, z ktorých desať bolo priamych, tj. Pozitívne kľúčovaných, a dve inverzné, t. J. Negatívne.

Prístupová skúška na univerzitu

Spojené arabské emiráty sú testom vzdelávacej spôsobilosti, ktorý sa používa na prijatie na bakalárske štúdium v ​​Španielsku. Jeho obsah zahŕňa španielsky jazyk, cudzí jazyk, tj angličtinu, francúzštinu, taliančinu alebo nemčinu, dejiny Španielska a matematiku alebo latinčinu. Stupne SAE sú uvedené na stupnici od 0 do 10 a predstavujú priemerné skóre vo vyššie uvedenom obsahu. Ako bude ďalej popísané, skóre v SAE boli v tejto štúdii použité ako kritérium pre skúmanie platnosti. Známky študentov boli vybrané ako kritériá platnosti vzhľadom na to, že ich vzťah k osobnosti bol široko skúmaný v metaanalytických štúdiách (napr. Poropat, 2009 Richardson a kol., 2012), že sa neočakáva, že by boli ovplyvnení sociálnou vhodnosťou alebo súhlasom. a pretože sú dôležitým ukazovateľom výsledku v pedagogickej psychológii.

Dotazník s odstupňovanou mierkou

GSQ pozostávalo zo šesťdesiatich osobnostných položiek plus štyroch ďalších položiek merajúcich SDR prevzatých z osobnostného dotazníka OPERAS (Vigil-Colet et al., 2013) a zo štyroch položiek na kontrolu kvality odpovedí účastníkov ’ (Maniaci a Rogge, 2014) . V prípade druhej kategórie boli účastníci priamo poučení, aby označili konkrétnu kategóriu, napr. “Po tejto položke označte súhlasiť. ” Cronbachove ’s α koeficienty subškál v dotazníku boli 0,73, 0,81, 0,78 0,77 a 0,76 pre prijateľnosť, svedomitosť, emocionálnu stabilitu, extraverziu a otvorenosť voči zážitkom. Škála 4-stupňovej subškály Sociálna vhodnosť predstavovala koeficient Cronbach ’s α 0,56. Surové skóre GSQ vo vzorke popísanej v časti “Participants ” tohto článku vykazovalo dobrú konvergentnú validitu so skóre OPERAS s rovnakou vzorkou, pričom korelácie sa pohybovali od 0,61 v dohode do 0,71 vo svedomitosti.

Dotazník nútenej voľby

Dotazník nútenej voľby sa skladal z 30 blokov, tj. Párov položiek, zostavených pomocou vyššie uvedeného algoritmu odhadovania distribúcie (Kreitchmann et al., 2017), v ktorom boli stanovené obmedzenia na vyrovnanie počtu blokov pre každý pár domén FFM, tj. existuje desať možných kombinácií piatich domén FFM do párov. Tri bloky adresovali každý z desiatich párov domén FFM, pričom dva boli pozitívne homopolárne bloky, to znamená, že obe položky sú pozitívne kľúčované a jeden heteropolárny, to znamená jeden pozitívne a jeden negatívne kľúčovaný prvok. Rovnako ako v GSQ boli zahrnuté tri kontrolné položky, ktoré poučili účastníkov, aby označili konkrétnu odpoveď, napr. “. V tomto bloku označte prvú možnosť odpovede. ”

Účastníci

Šesťsto deväť študentov bakalárskeho štúdia psychológie z prvého a tretieho ročníka na Universidad Aut ónoma de Madrid (83,25% žien a 16,75% mužov s priemerným vekom a štandardnou odchýlkou ​​19,91, respektíve 2,94) odpovedalo na dotazníky GS a FC na hárky odpovedí pripravené na čítanie optických značiek.

Z pôvodných 609 účastníkov bolo osemnásť vylúčených buď z dôvodu zlyhania, alebo z dôvodu vynechania aspoň jednej kontrolnej položky alebo bloku, a ďalších tridsaťtri študentov bolo vyradených z dôvodu najmenej jednej chýbajúcej odpovede. Konečných 558 účastníkov (82,80% žien a 17,20% mužov s priemerným vekom a štandardnou odchýlkou ​​19,92, respektíve 2,99) bolo náhodne zaradených do rovnako veľkých (N. = 279) kalibračné alebo validačné vzorky na analýzu údajov. Osemdesiatpäť účastníkov z validačnej vzorky uviedlo svoje známky v SAE pre analýzy platnosti súvisiace s kritériom. Študenti, ktorí uviedli svoje známky v SAE, boli 89% žien a 16% mužov s priemerným vekom 20,20 a štandardnou odchýlkou ​​4,41.

Analýza dát

Všetky postupy analýzy údajov sa uskutočnili s použitím R. softvéru (R Core Team, 2019) a pomocou neho bolo vykonané psychometrické modelovanie špina balíček (Chalmers, 2012).

Modelovanie odozvy na škálovanej škále

Počiatočná prieskumná viacrozmerná analýza IRT vrátane domén FFM bola vykonaná pomocou nekódovaných odpovedí kalibračnej vzorky, aby sa preskúmala faktoriálna štruktúra dotazníka a odstránili sa prípadné položky, ktoré sa odchyľovali od očakávanej faktoriálnej štruktúry FFM. Odhad parametra položky bol vykonaný s marginálnou maximálnou pravdepodobnosťou pomocou EM algoritmu (Dempster et al., 1977) s integráciou Quasi-Monte Carlo a ďalej otáčaný šikmým čiastočne špecifikovaným rotovaním cieľa, tj cieľová matica obsahovala nuly pre rozmery, ktoré položky nemali merať. Na určenie odchýlky od faktorovej štruktúry boli vypočítané koeficienty kongruencie položiek. Všimnite si toho, že hoci naším cieľom bolo získať jednoduchú štruktúru položiek pre domény FFM, museli sme tiež zachovať ekvivalenciu medzi GSQ a FCQ. To znamená, že vylúčenie položky s vysokým krížovým zaťažením v prieskumnej analýze znamenalo, že je tiež potrebné vynechať jej pár vo formáte nútenej voľby. FCQ navyše muselo byť dobre vyvážené z hľadiska počtu blokov na pár domén. Indexy koeficientov kongruencie položiek boli preto spriemerované pre páry položiek v každom bloku a pár s najnižšou hodnotou bol vylúčený pre každý z desiatich párov domén.

Neskôr boli do súboru údajov overovacej vzorky zaradené dva potvrdzujúce viacrozmerné modely IRT: (1) nekontrolovanie SDR a ACQ a (2) ovládanie SDR a ACQ. Prvý potvrdzujúci model bol špecifikovaný ako kompenzačný viacrozmerný GRM, pričom položky FFM sa načítavajú v ich príslušných doménach a fazetách FFM (ekv. 1) a položky SDR sa načítavajú výlučne v dimenzii SDR.

kde Px_ij označuje pravdepodobnosť subjektu i výber Xij alebo vyššie v položke j. Parametre θ1i a θ2i predstavujú iúroveň vlastností predmetu v jhlavná doména FFM položky a fazeta položky a crj definuje zachytávací termín. θ1i a θ2i sa považujú za nekorelované.

Druhý model bol tiež špecifikovaný ako kompenzačný GRM, ale tiež s načítaním položiek FFM v dimenzii SDR a v dodatočnom rozmere ACQ (ekv. 2). Acquiescence bol definovaný ako aproximácia k RIIFA v rámci IRT nastavením parametrov stupnice GRM spojených s náhodným zachytením na 1 a voľným odhadom jeho rozptylu (Primi et al., 2019).

kde: ξi a ζi označiť iskutočná úroveň SDR subjektu a #Q2019, tj. náhodný zachytený signál je ζi + crj). S cieľom ukotviť konštrukt sociálnej potrebnosti zo štyroch položiek SDR boli parametre pre tieto položky odhadované oddelene pomocou jednorozmerného GRM a neskôr boli získané získané diskriminačné parametre stanovené v odhade úplného dotazníka. Okrem toho, aby sa identifikoval model, predpokladá sa, že položky SDR sa zaťažujú ACQ, ale nie zaťažujú znaky FFM, a ACQ a SDR sa predpokladá, že nie sú v korelácii so zostávajúcimi latentnými faktormi (ako v modeli Ferrando a kol. al., 2009). V oboch potvrdzujúcich modeloch boli korelácie medzi doménami FFM a fazetami nastavené na 0 a korelácie medzi doménami FFM boli voľne odhadované.

Modelovanie reakcie s nútenou voľbou

Nedávny vývoj v modelovaní IRT prekonal vlastnosť ipsativity tradičných skórovacích metód s nútenou voľbou a umožňuje odhad normatívnych skóre. Model Multi-Unidimensional Pairwise Preference (MUPP Stark et al., 2005) bol prvým návrhom, ako to dosiahnuť. MUPP chápe proces reakcie nútenej voľby ako výsledok nezávislého hodnotenia dohody s každým vyhlásením v páre a ďalšieho rozhodnutia, ktoré zvoliť. Pravdepodobnosť súhlasu s každým výrokom nezávisle je definovaná ako generalizovaný odstupňovaný model rozloženia (GGUM Roberts et al., 2000). Rovnica 3 dáva pravdepodobnosť schválenia jedného tvrdenia proti druhému.

kde: rij označuje polohu vybranej položky na bloku, tj. 1 alebo 2 a Xij2 a Xij2 sú skryté reakcie subjektu i pre položky j1 a j2respektíve sa rovná 1, ak je respondentom i schvaľuje položku a 0, ak je to inak.

V tomto článku používame dominančný variant modelu MUPP, kde pravdepodobnosť zhody s každým tvrdením je daná dvojparametrickým logistickým modelom (2PL): model MUPP-2PL (Morillo et al., 2016). Nahradením GGUM modelom 2PL bude funkcia pravdepodobnosti bloku v Rov. 3 je možné zjednodušiť na:

kde: θij1 a θij2 označujú domény súvisiace s položkami 1 a 2 v uvedenom poradí jblok. Oslovením domén a faziet FFM v každom príkaze, Rov. 5 bol zovšeobecnený na štvordimenzionálny model v rámci bloku, to znamená, že každý blok meria dve domény a dve fazety. Rovnako ako v modelovaní s Likertovou položkou boli korelácie medzi doménami FFM a fazetami nastavené na 0 a korelácie medzi doménami FFM boli voľne odhadované.

Kritériá

Napriek tomu, že potvrdzujúce modely pre GSQ a FCQ zohľadňujú aspekty FFM, fazetové skóre nebolo zahrnuté do analýz validity, pretože znížený počet položiek na fazetu spôsobuje, že ich skóre je nespoľahlivé.

Kritériami na porovnanie medzi modelmi boli: (1) spoľahlivosť skóre domén FFM, (2) konvergentná a divergentná validita medzi doménami FFM a formátmi odpovedí a (3) asociácia medzi skóre domény FFM v rámci každého modelu a študentov a známku #x2019 z prístupovej skúšky na univerzitu. Analýzy validity použili skóre respondentov vo validačnej vzorke, vypočítané s očakávaným-A posteriori (EAP) s použitím odhadov parametrov položky z kalibračnej vzorky.

Vzhľadom na to, že tradičné indexy spoľahlivosti, tj. Cronbach ’s α, nie sú použiteľné na údaje s nútenou voľbou, sú pre tieto tri modely uvedené empirické odhady spoľahlivosti z validačnej vzorky. Na vyhodnotenie modelu vo validačnej vzorke boli použité vhodné indexy typu M2 (Maydeu-Olivares a Joe, 2006 Cai a Hansen, 2013), RMSEA a CFI.


Meranie falšovania

V nasledujúcom texte je poskytnutý prehľad výskumu o použití stupníc sociálnej vhodnosti pri korekcii na falšovanie osobnostných testov osobnosti. Najprv sa uvádzajú niektoré výsledky o vlastnostiach sociálnej vhodnosti alebo falšovaní.

Základnou myšlienkou na meranie falšovania, ktorá sa používa v tomto príspevku, je sociálna vhodnosť, ako príklad ukazuje klasická Crowne -Marlowova škála (Crowne & Marlowe, 1960). V nižšie uvedených štúdiách bola použitá stupnica skonštruovaná na rovnakých princípoch, tu nazývaná Overt Faking. Možno však podozrievať, že niektorí sofistikovaní testeri chápu, že niektoré položky patria do škály spoločenskej vhodnosti. Z tohto dôvodu bola skonštruovaná škála bežných položiek osobnosti, vybraných z veľkého množstva týchto položiek, ktoré silne korelovali s mierkou Overt Faking, ale nemali obsah, ktorý by niekto so znalosťami mohol ľahko identifikovať ako falošnú mieru. teórie testov. Táto stupnica sa nazýva Skryté predstieranie. Korelácie medzi Crowne -Marloweovou stupnicou, Overt Faking a Covert Faking v skupine 159 účastníkov testu sú uvedené v tabuľke 1.

Crowne -Marloweova stupnica sociálnej vhodnosti Stupnica otvoreného predstierania Skrytá stupnica falšovania
Crowne -Marloweova stupnica sociálnej vhodnosti 1.00 0.76 0.73
Stupnica otvoreného predstierania 0.76 1.00 0.56
Skrytá stupnica falšovania 0.73 0.56 1.00

Tabuľka ukazuje vysoké korelácie medzi tromi falošnými škálami. Preto boli falošné váhy Overt a Covert úspešne konštruované s ohľadom na stupnicu Crowne -Marlowe a obe sú zahrnuté v teste osobnosti, UPP ™ (Bergman, Sjöberg, Lornudd & von Thile Schwartz, 2014), ktorý sa používa v štúdiách 2–4 nižšie. Je dôležité poznamenať, že osobnostné škály v teste boli diferenciálne korelované s obidvoma falošnými škálami a že tieto dva súbory korelácií boli silne prepojené, pozri obr. 1, ktorý je založený na údajoch od 296 uchádzačov o zamestnanie (štúdia 2).

Na meranie falzifikátov sa často používa škála spoločenskej vhodnosti. Tento prístup je neobvyklý v použití aj skrytej stupnice a pri použití štatistického modelu na odhadovanie hodnoty testovacej stupnice, kde bol odstránený rozptyl sociálnej vhodnosti. Jednou z nevýhod súčasného prístupu k riešeniu falšovania je potreba zahrnúť samostatné stupnice. Je možné merať falšovanie bez oddelených mierok? Aby sme preskúmali túto možnosť, všetky položky súboru UPP ™ test, okrem dvoch falošných škál, bol v údajoch od 423 uchádzačov o zamestnanie rozdelený na testy vyjadrujúce pozitívne správanie (101 položiek) a tie, ktoré vyjadrujú negatívne správanie (103 položiek). Očakáva sa, že schválenie pozitívnych položiek a odmietnutie negatívnych položiek bez ohľadu na iné aspekty ich obsahu bude výrazom falšovania. Priemerné reakcie na pozitívne a negatívne položky boli preto vypočítané tak, aby tvorili indexy.1 1 Dva indexy založené na pozitívnych a negatívnych odpovediach nezahŕňali položky merajúce emocionálnu stabilitu, ani nezahŕňali položky merajúce Overt a Covert Faking.
Spoľahlivosť týchto dvoch indexov bola 0,91, respektíve 0,93. Ich korelácia a korelácie so stupnicami Overt a Covert Faking sú uvedené v tabuľke 3. Tabuľka ukazuje podstatné prekrývanie sa medzi premennými, čo naznačuje, že reakcie na pozitívne a negatívne položky je možné použiť ako miery falšovania.

Mnohonásobná korelácia medzi týmito dvoma indexmi položiek a falzifikátmi bola 0,54 a 0,74 v prípade skrytého a skrytého falšovania. Tieto výsledky naznačujú, že by malo byť možné opraviť falšovanie na základe celkového schválenia/odmietnutia položiek.Ako príklad falošnej opravy založenej na dvoch indexoch položiek bola emočná stabilita opravená na predstieranie na základe falošných škál a indexov položiek.2 2 Títo testujúci boli zaradení do nášho tréningového programu alebo vykonali test, aby zistili, či si želajú na nákup licencií na jeho používanie. Výsledky testu nemali pre nich jednotlivo žiadne dôležité dôsledky.
Tieto dve sady zvyškov korelovali 0,80. Je zrejmé, že tieto dva rôzne prístupy ku korekcii pri falšovaní poskytli podobné výsledky. Tieto výsledky je možné porovnať s hodnotením „do očí bijúcich extrémnych reakcií“, čo je príbuzný prístup k meraniu falšovania, ktorý sa zdá byť sľubný (Levashina, Weekley, Roulin & Hauck, 2014).

Údaje budú v nasledujúcom texte opravené na falšovanie na základe regresného modelu s použitím dvoch mierok falšovania ako nezávislých premenných, pozri podrobnosti. Teraz budú predstavené štyri empirické štúdie falšovania, určené na ďalšie skúmanie platnosti prístupu používaného na opravu falšovania.


Pozri si video: Stupnice dur s křížky - 1. část (August 2022).