Psychologische trekken en staten bestaan
Een belangrijke aanname voor psychologische testen is dat wat gemeten wordt, namelijk psychologische trekken en staten, ook daadwerkelijk bestaan. Een trek is een onderscheidbaar, relatief stabiele manier waarop een individu verschilt van een ander. Trekken kunnen geobserveerd worden door een steekproef van gedrag te onderzoeken. Een staat is ook een kenmerk dat mensen van elkaar onderscheidt, maar is in tegenstelling tot een trek tijdelijk van aard. Psychologische trekken zijn psychologische kenmerken die bijvoorbeeld cognitieve capaciteiten, persoonlijkheid of attitudes beschrijven. Er zijn zeer veel woorden die trekken beschrijven en de kans is aanwezig dat er nog nieuwe bij zullen komen. Er bestaat enige controverse over de aard van psychologische kenmerken. Zijn ze fysiek van aard of zijn het slechts constructen? Hier wordt aangenomen dat het constructen zijn, wetenschappelijke concepten die gedrag kunnen beschrijven of uitleggen. Constructen zelf zijn niet observeerbaar, maar ze leiden wel tot overt gedrag; observeerbare acties of het product daarvan. Hieronder vallen ook test gerelateerde responsies. Psychologische trekken zijn relatief stabiel, maar de situatie waarin het gedrag zich voordoet speelt ook een rol. Hoe een bepaalde trek tot uitdrukking komt hangt af van de situatie. Ook is de context belangrijk om vast te stellen hoe een gedraging geïnterpreteerd moet worden; er moet bijvoorbeeld bekeken worden of het gedrag gepast is in de gegeven situatie. Ook de vergelijkingsgroep is belangrijk. Of iemand als verlegen of als erg verlegen wordt gezien, hangt er van af hoe verlegen andere, vergelijkbare mensen in dezelfde situatie zou zijn. Wat als vergelijkingsgroep wordt gebruikt (bijvoorbeeld mensen van dezelfde sekse of mensen van dezelfde leeftijd) is dus belangrijk voor de interpretatie van de mate waarin een trek aanwezig is.
Psychologische trekken en staten kunnen gemeten worden
Een tweede aanname is dat deze kenmerken ook meetbaar gemaakt kunnen worden. De eerste stap hierin is het definiëren van de trekken die je wilt meten. Welke gedragingen vind je kenmerkend voor een bepaalde trek, zoals agressie? Als deze gedragingen gedefinieerd zijn, kunnen er testitems uit gecreëerd worden. Naar welke specifieke gedragingen ga je vragen om de trek te meten? Op een intelligentietest kun je bijvoorbeeld iemands kennis meten of zijn sociaal beslissingsvermogen. Welke items neem je, en moeten die allemaal even zwaar wegen? Antwoorden op deze vragen worden gevormd op basis van veel verschillende factoren, waaronder technische en maatschappelijke overwegingen. Na de testafname moeten de responsies gescoord en geïnterpreteerd worden. Dit gebeurt vaak door cumulatieve scoring, waarbij het aantal responsies dat in een bepaalde richting gegeven wordt opgeteld wordt. Het idee is dat als iemand vaak in overeenstemming met een bepaalde trek antwoordt, de kans groot is dat hij die trek bezit.
Responsies op een test reflecteren gedrag in het dagelijks leven
Het idee van een test is dat het gedrag dat de testafnemer wil meten nagebootst wordt en op die manier gemeten kan worden. Daarom zouden testresultaten toekomstig gedrag moeten kunnen voorspellen of gedrag uit het verleden kunnen uitleggen (zoals in rechtszaken).
Testen hebben sterke en zwakke punten
Het is essentieel dat de testafnemers de testen kennen en op de hoogte zijn van de beperkingen. Ze weten hoe de testen ontwikkeld zijn, in welke omstandigheden ze afgenomen kunnen worden, hoe en bij wie dat moet gebeuren en hoe de resultaten geïnterpreteerd moeten worden. Ze kennen de beperkingen van de test en weten hoe ze die eventueel kunnen compenseren.
Testen bevatten een bepaalde mate van error
‘Error’ is de mate waarin factoren die niet zijn meegenomen in het onderzoek invloed hebben op de resultaten. In iedere test is sprake van error en men moet zich altijd afvragen in welke mate de resultaten erdoor vertekend zijn. Errorvariantie is de component van de resultaten die aan error toe te schrijven zijn. Error kan door veel verschillende factoren veroorzaakt worden. Error kan voortkomen uit de persoon die de test ondergaat, bijvoorbeeld als hij slecht geslapen heeft, of uit de persoon die de test afneemt, bijvoorbeeld of hij zich aan het protocol houdt. Ook de gebruikte instrumenten kunnen error veroorzaken. Volgens de klassieke of de ware scoretheorie heeft iedereen een ware, niet-vertekende score die hij zou krijgen als er geen error was.
Testen kunnen op eerlijke en niet vertekende wijze afgenomen worden
Een test moet zo eerlijk mogelijk zijn. Regelmatig ontstaat er discussie over rechtvaardigheid van de test, bijvoorbeeld als de test bij een andere groep wordt afgenomen dan waarvoor hij was ontwikkeld. Controverse is vaak politiek van aard. Men vraagt zich niet zozeer af of de test (het instrument) eerlijk is, maar wat de maatschappij wil bereiken met een test en wat de gedachte erachter precies is.
Testen is zinvol voor de maatschappij
Testen is van essentieel belang voor de maatschappij. Zonder zouden we bijvoorbeeld niet kunnen bepalen of iemand geschikt is voor een bepaalde taak en zouden we niet kunnen diagnosticeren.
Of een test goed is hangt af van allerlei kenmerken, waaronder de technische criteria van validiteit en betrouwbaarheid.
Betrouwbaarheid
Een meetinstrument is betrouwbaar als hij consistent hetzelfde resultaat geeft als je herhaaldelijk hetzelfde meet. Stel dat instrument A voortdurend hetzelfde resultaat krijgt; dat maakt hem betrouwbaar. Instrument C krijgt de hele tijd verschillende resultaten en is dat dus niet. Instrument B krijgt de hele tijd een verkeerd resultaat, maar daarin is hij wel consistent. Hij geeft bijvoorbeeld standaard drie punten te hoog aan. Omdat hij consistent is in zijn meting, is hij niettemin betrouwbaar.
Validiteit
Een test is valide als hij meet wat hij moet meten. Instrument B, hoewel consistent, kreeg steeds een verkeerd resultaat en is dus niet valide. Bij controversiële onderwerpen is validiteit meer discutabel. Wanneer is een intelligentietest bijvoorbeeld valide? Welke definitie van intelligentie moet dan aangehouden worden? Bij het meten van validiteit wordt gekeken naar de testitems: dekken zij bijvoorbeeld de gehele lading van het gemeten construct? Ook wordt gekeken naar de interpretatie van de testscores: zeggen zij bijvoorbeeld echt iets over het construct? Vragen over de validiteit van een test worden in het hele proces dat de test ondergaat gesteld. In hoofdstuk 6 wordt het concept validiteit uitvoeriger behandeld.
Overige criteria
Een test moet verder makkelijk te gebruiken en van nut zijn voor de persoon die de test afneemt of voor de maatschappij als geheel. Een voor de hand liggend maar belangrijk criterium is dat de test aansluit op wat jij wilt gaan meten en op welke manier je dat wilt doen. Wat is het doel van de test, hoe is het construct gedefinieerd en voor wie is de test bedoeld? Of de test aansluit bij jouw doelen kun je onderzoeken door er standaardwerken, handleidingen of reviews op na te slaan. Een ander criterium is of er richtlijnen gepubliceerd zijn met betrekking tot het gebruik van de test. Soms stellen richtlijnen dat er naast de test in kwestie nog andere testen toegepast moeten worden. Vaak wordt in dergelijke richtlijnen ook vastgesteld of de test voldoet aan vastgestelde standaards, bijvoorbeeld aan de Daubert-standaards in de rechtsgang. Een derde criterium is al eerder genoemd, namelijk betrouwbaarheid. Of een test betrouwbaar is kun je ook weer afleiden uit eerdere publicaties en handleidingen. Ook kun je het meten door test-hertest betrouwbaarheidsmetingen, waarbij je kijkt of je bij herhaaldelijke metingen hetzelfde resultaat krijgt. Dit kan problematisch zijn. In de BPS moet een kind bijvoorbeeld aangeven hoe hij zijn ouders beschouwt. Als je dezelfde test later nog eens afneemt en je krijgt andere resultaten, dan kan dat zijn omdat de test niet betrouwbaar is, maar het kan natuurlijk ook zijn dat de mening van het kind veranderd is. Betrouwbaarheid kan dus niet altijd gemeten worden. Validiteit is ook een criterium. Ook dit kan lastig zijn om vast te stellen. Vaak wordt er gekeken welke combinatie van instrumenten het beste meet wat er gemeten moet worden. Een volgend criterium is hoe kosteneffectief een test is. Is het de moeite waard om een kostbare test af te nemen? In de Tweede Wereldoorlog werd bijvoorbeeld overgegaan op groepsintelligentietesten, omdat individuele testen simpelweg niet zinvol en erg duur waren. Tenslotte is het van belang welke conclusies er uit testen getrokken kunnen worden. Zal het afdoende antwoord geven op de onderzoeksvraag? En zullen de resultaten algemeen geldig zijn? Of resultaten generaliseerbaar zijn, hangt af van de populatie op basis waarvan de test ontwikkeld is, voor welke groepen de test begrijpelijk is en hoe hij afgenomen wordt.
Testen en assessment met normreferenties kun je definiëren als het evalueren van testscores door die te vergelijken met scores van andere personen die de test gemaakt hebben. Op deze manier wordt er relatieve betekenis toegekend aan een score. Een norm is een standaard, verwachte gedraging. De term normen wordt in de psychometrie gebruikt om de testresultaten aan te geven die gebruikt worden om individuele scores aan af te meten. Normen dienen als vergelijkingsmateriaal. Een normatieve steekproef is de groep mensen wiens testscores worden gebruikt als normen. Dit kan een brede groep zijn (de Nederlandse bevolking) of een heel smalle (vrouwen tussen de 20-25 met een bepaalde vorm van reuma van een ziekenhuisafdeling). De scores van deze groep zijn allemaal typisch en representatief voor de populatie die onderwerp van onderzoek is.
Normeren is het vaststellen van een norm. Bij rasnormering, wat vroeger legaal was, werden voor verschillende rassen verschillende normen gesteld. Een minderheidsgroep moest bijvoorbeeld beter scoren voordat hij werd aangenomen voor een baan. Het op formele wijze vaststellen van normen kan behoorlijk duur uitpakken. Daarom zijn er gebruikersnormen, ook wel programmanormen genoemd, die bestaan uit descriptieve statistieken (gegevens) over een bepaalde groep mensen. Als er geen gebruik gemaakt wordt van dergelijke normen, moeten normen vastgesteld worden via formele standaardisatie.
Standaardisatie
Standaardisatie of test standaardisatie is het afnemen van een test bij een representatieve steekproef teneinde standaard normen vast te stellen aan de hand waarvan latere testscores geëvalueerd kunnen worden. Je kunt ook meeteenheden standaardiseren, zoals vaststellen wanneer iets een ‘een glas’ alcohol genoemd kan worden. Definities kunnen ook gestandaardiseerd worden; bijvoorbeeld bij het vaststellen van de definitie van de term agressie. Dan zijn er nog standaardscores, namelijk z-scores (zie hoofdstuk 3). Deze zijn niet hetzelfde als gestandaardiseerde scores, die naar een schaal met een willekeurig gemiddelde en standaardafwijking overgezet zijn. Een gestandaardiseerde test is volgens de traditionele definitie een test met specifiek geformuleerde gestandaardiseerde test- en scoringsprocedures en gestandaardiseerde normen. Tegenwoordig wordt de term ook wel gebruikt voor een test met alleen gestandaardiseerde normreferenties. Hoe gaat het standaardiseren van normreferenties precies in zijn werk?
Steekproeftrekken voor standaardiseren
Om een test te kunnen standaardiseren, moet je dus een normgroep hebben. Die kan bestaan uit de complete populatie van mensen voor wie de test ontwikkeld is. Als die populatie echter groot is, kan het onmogelijk, onpraktisch of te duur zijn om dat te doen. Dan wordt er een steekproef genomen, een deel van een populatie die representatief is voor die populatie. Dit proces wordt steekproeftrekking genoemd. De steekproef is meestal groter dan één persoon, omdat de kans op error afneemt naarmate de steekproef groter wordt. Soms kan het wenselijk zijn om alle subgroepen (strata) in een populatie in gelijke proporties voor te laten komen in de steekproef. Als 80% van de populatie christen is en religie is belangrijk voor het gemeten construct, is het handig om een steekproef te hebben waarvan eveneens 80% christen is. Een op die manier ontstane steekproef wordt een gestratificeerde steekproef genoemd. Als ieder lid van de populatie een even grote kans heeft om in de steekproef terecht te komen, wordt de steekproef een aselecte (willekeurige) gestratificeerde steekproef genoemd. Soms worden bepaalde groepen juist uitgesloten van de steekproef. Bij het nemen van een normatieve steekproef voor een intelligentietest worden bijvoorbeeld mensen uitgesloten die de taal niet volledig meester zijn of die een lichamelijk of ernstig psychiatrisch probleem hebben. Als we willekeurig een steekproef nemen waarvan we denken dat die wel representatief zal zijn, wordt dat een doelgerichte steekproef genoemd. Een voorbeeld is het openen van één winkel, om aan de hand van het functioneren daarvan te bepalen of andere winkels nationaal succes zullen hebben. Bij een incidentele steekproef, ook wel gemakssteekproef genoemd, bestaat de steekproef uit een groep mensen die het gemakkelijkst beschikbaar is. Psychologiestudenten zijn bijvoorbeeld vaak lid van een steekproef omdat zij het eerst voor handen zijn. Het is mogelijk dat een doelgerichte of incidentele steekproef niettemin niet representatief is en dat de resultaten niet generaliseerbaar zijn. Onderzoekers moeten dus altijd een afweging maken tussen wat praktisch is en wat de ideale testsituatie is.
Vaststellen van normen voor gestandaardiseerde testen
Nadat de steekproef is getrokken, wordt de test afgenomen. Hierbij wordt een standaard set van instructies vastgesteld betreffende de omstandigheden waaronder de test afgenomen moet worden. Als de test later nog eens afgenomen wordt, worden dezelfde omstandigheden gecreëerd. Op die manier kunnen eventuele verschillen met de normatieve steekproef niet veroorzaakt zijn door de omstandigheden waarin de test afgenomen is. Als de test is afgenomen, beschrijft de onderzoeker in een publicatie op welke manier zijn steekproef representatief was, hoe hij die genomen heeft, welke data verzameld zijn en welke conclusies daaruit getrokken kunnen worden. In de praktijk blijkt dat testontwikkelaars terughoudend zijn in het beschrijven van de tekortkomingen van de normatieve steekproef. Daarom moet een testgebruiker altijd kritisch zijn bij het bepalen of de normatieve steekproef voldoende representatief is om te gebruiken als normgroep. Soms wordt voor een gestandaardiseerde test later opnieuw normatieve informatie verzameld, bijvoorbeeld omdat de oorspronkelijke standaardisatiesteekproef belangrijke subgroepen uitsloot. Een standaardisatiesteekproef is dan de aanvankelijke steekproef die gebruikt wordt om de test te standaardiseren. Een normatieve steekproef kan ook op een later tijdstip genomen worden.
Percentiele normen
Eén norm aan de hand waarvan je score geëvalueerd kan worden is het percentiel waarop je score viel. Een percentiel is een uitdrukking van het percentage mensen dat onder een bepaalde score vielen op een test. Een score die valt op het 15de percentiel betekent dat 15% van de mensen lager scoorde dan dat punt. Een voordeel van percentiele normen is dat ze makkelijk berekenbaar zijn. Een nadeel is dat de verschillen tussen scores in het midden van de verdeling veel groter lijken dan die aan de uiteinden van de verdeling. Een andere, gerelateerde manier waarop je een score kan evalueren is door te kijken naar het percentage correct, de proportie antwoorden op een test die goed beantwoord werden.
Ontwikkelingsnormen
Ontwikkelingsnormen zijn normen die gebaseerd zijn op iedere vaardigheid die verandert over de tijd. Welke kenmerken zou je moeten bezitten in een bepaalde ontwikkelingsfase? Leeftijdsnormen en klasnormen vallen hieronder. Piaget heeft bijvoorbeeld veel normen vastgesteld betreffende de vaardigheden die op bepaalde leeftijden beheerst moeten worden. Bij leeftijdequivalente scores, ook wel leeftijdsnormen genoemd, wordt een prestatie vergeleken met de prestatie die normaal is voor iedere leeftijdsgroep. Dit gebeurt bijvoorbeeld bij de Stanford-Binet intelligentietest. Hierbij wordt de ‘mentale leeftijd’ van een kind berekend: bij welke leeftijdsnormen sluit zijn prestatie het beste aan? Het probleem van dit concept is dat de mentale leeftijd nog niets zegt over andere mentale leeftijden (een kind kan bijvoorbeeld qua intelligentie ouder zijn dan zijn werkelijke leeftijd, maar jonger qua sociale vaardigheden). Het is dus een misleidend concept en wordt niet veel meer gebruikt. Bij klas (grade) normen worden individuele prestaties vergeleken met de prestatie die normaal is voor kinderen in een bepaalde klas. Als iemand op een bepaalde test hetzelfde scoort als de gemiddelde persoon uit groep 6, wil dit nog niet zeggen dat hij dezelfde capaciteiten heeft als de gemiddelde persoon uit groep 6. Je weet niet op welke items hij goed en op welke slecht scoorde. Een ander nadeel van klasnormen is dat ze alleen van toepassing zijn op schoolkinderen.
Nationale en plaatselijke normen
Als individuele scores worden vergeleken met die van een normatieve steekproef die op alle belangrijke terreinen representatief is voor het hele land, is er sprake van nationale normen. De normatieve steekproef moet representatief zijn, bijvoorbeeld in termen van etniciteit, leeftijd en locatie. Op welke terreinen de steekproef precies gelijk moet zijn aan de populatie hangt af van het doel van het onderzoek. Als je educatieonderzoek doet moet je normatieve steekproef representatieve scholing hebben. Testontwikkelaars zijn geneigd om snel te beweren dat hun standaardisatie steekproef nationaal representatief was. Testgebruikers doen er goed aan om te bekijken hoe representatief dat is.
Bij lokale normen wordt een individuele score vergeleken met de scores van een plaatselijke populatie. Dit kan bijvoorbeeld zinvol zijn als een lokale bevolking op een bepaald punt verschilt van de nationale bevolking. Iemand kan in zijn eigen plaats bijvoorbeeld relatief eigenwijs zijn, maar doordat de hele plaats in het algemeen relatief meegaand is, valt dat in het niet bij de nationale normen.
Nationale ankernormen
Als je twee verschillende testen die hetzelfde meten met elkaar wilt vergelijken moet je twee testen hebben met dezelfde scoringsprocedure. Je kunt echter ook een equivalentietabel gebruiken, waarin staat welke scores aan elkaar gelijk staan. Dit worden nationale ankernormen genoemd. Vanwege technische overwegingen kunnen de testen niettemin nooit als volledig aan elkaar gelijk worden beschouwd. Om te bepalen welke scores gelijk zijn, wordt gebruik gemaakt van de equipercentiele methode. Hierbij wordt gekeken naar welke scores horen bij welk percentiel. Als het 96ste percentiel op de ene test 5 is en het 96ste percentiel op de andere test 10, dan staan de scores 5 en 10 aan elkaar gelijk. Strikt genomen moet één steekproef beide testen maken om ankernormen vast te kunnen stellen.
Subgroep normen
Op basis van de criteria waarop aanvankelijk een normatieve steekproef genomen werd, kan de steekproef in subgroepen verdeeld worden. Voor elk van die subgroepen kunnen dan eigen normen worden berekend; de subgroep normen. Een testgebruiker kan dan zelf bepalen welke normreferentie hij het meest zeggend vindt.
Bij een scoringssysteem met vaste referentiegroep vormen de scores van één groep testmakers de basis voor het later berekenen van scores. De beroemde SAT-test maakt gebruik van een dergelijk systeem. De referentiegroep wordt eens in de zoveel tijd vervangen door een nieuwe. De scores worden steeds aangepast aan de moeilijkheid van de test. Ieder nieuw item op een nieuwe versie van de test wordt onderworpen aan een procedure (‘ankering’) om de scores in vaste referentiegroepscores te veranderen. Vaak gebruiken instellingen hun eigen vaste referentiegroepen. Zo vergelijkt een school de SAT-scores van een klas van dit jaar met die de klas van vorig jaar.
Een individuele testscore kun je dus evalueren door hem te vergelijken met de resultaten van een normgroep. Een andere manier om scores te evalueren is door ze af te meten aan een bepaald criterium; een standaard waarop een beslissing of beoordeling gebaseerd kan worden. Testen die gebruik maken van dergelijke evaluatiemethoden, vallen onder testen en assessment met criteriumreferentie. Dit wordt ook wel testen en assessment met domein- of inhoudreferentie genoemd. Een criterium is een vaste standaard die onafhankelijk is van de scores van anderen. Je haalt bijvoorbeeld alleen je rijbewijs als je aan alle punten van het CBR voldoet, ongeacht hoe andere mensen gereden hebben. Testen die gebruik maken van criteriumreferenties richten zich vaak op het leren van vaardigheden. Ze zetten een criterium vanaf welk punt iemand de vaardigheden goed genoeg kent. Als die criteriumscore 85% is, maakt het niet uit of iemand een score van 84% of van 20% heeft; hij is in beide gevallen afgewezen. Kritiek op criteriumreferentie is dat belangrijke informatie over hoe iemand scoort ten opzichte van anderen verloren gaat. Ook is deze evaluatiemethode niet geschikt om extreme scorers te identificeren; daarvoor zijn normreferenties zinniger. Criteriumreferentie deelt alle mensen in twee groepen in: mensen die wel voldoen aan het criterium en mensen die dat niet doen. Criteriumreferentie en normreferentie sluiten elkaar overigens niet uit.