信度高是效度高的必要非充分条件; 测验的效度受信度的制约内容效度是客观的 表面效度是主观的真正反映关注相对位置关注是否达到相应水平即α值大,信度一定高;α值小时,不能断定其信度不高指分数的一致。若测验的各个题目得分有较高的正相关时,不论题目内容和形式如何,测验都是同质的心理测量定义根据一定的法则用数字对人的行为加以确定。基本假设:个体之间存在差异且可测特点局限:只能测量特定且局限的特性参照点要素客观性相对性间接性有相等的价值有确定的意义相对参照点绝对参照点单位事物特征数量化的数字连续体心理与教育测量所用的单位不等值第一单位与第二单位间的距离等于第二单位与第三单位间的距离同一单位在大家看来意义是相同的,不允许有不同的解释不能以倍数的方式解释心理测量中使用的参照点人为指定有绝对零点心理测量是什么无参照点和单位区分性,无数量价值称名量表无数学意义量表区分性和顺序性无参照点和单位顺序量表不可加减乘除分类区分性、顺序性和等距性有相对零点和相等单位等距量表可以加减,不可以乘除区分性、顺序性、等距性和等比性有绝对零点和相等单位比率量表可以加减乘除行为样本工具测验内容测验时限全程记录指导语测验实施标准化定义性特征测验情景评分规则测验解释计分规则实际能力能力测验潜在能力学绩测验成就测验按测验功能分类自陈人格测验人格测验测验投射测验个别测验团体测验按测验对象分类文字测验按测验材料分类非文字测验速度测验按测验难度和时限分类种类难度测验最佳行为测验典型行为测验按测验要求分类具有普适性,项目固定,施测与计分,有常模标准化测验按测验标准化程度分类针对性强,项目可以增加或删除,施测与计分由老师决定,无常模教师自编测验非标准化测验广泛能力相对位置常模参照测验窄化能力按测验结果的评价标准标准参照测验能否做到理论方面中国古代刘勰”左手画方,右手画圆“(世界上最早的心理测验)刘劭《人物志》中”观其感变,以审常度“孟子“权,然后知轻重;度,然后知长短孔子将人分为中人、中人以上以及中人以下周岁试儿实践方面开科取士制度七巧板、九连环《遗传的天才》:人的能力是遗传而来,并设想能力分布是常态,其差异可测量设立了人类测量实验室高尔顿首次提到心理测验和测验两个术语将统计的方法应用于心理测验数据资料的分析在自己的实验室内编制测验五十个卡特尔1890年,发表《心理测验与测量》,首创“心理测验”这个术语西方心理测量的历史1886年第一部著作《推理心理学》1889年同亨利·博尼创立第一所法国心理实验室1895年创立第一份法国心理学杂志《心理学年报》1898年在哲学杂志上发表《人格心理学中的测量》比奈(心理测验的鼻祖)1903年,出版《智力的实验研究》1905年 与西蒙发表《诊断异常儿童智力的新方法》,介绍了世界上第一个科学的智力测验—比奈-西蒙量表。建立社会收容所来护理智力落后者社会需要对智力落后者和精神病人治疗和帮助的需要产生背景对人的个体差异性的认可实验心理学的诞生定义分类在测量过程中,那些与测量目的无关的因素所导致的测量结果不准确或不一致的效应。随机误差系统误差测验动机系统误差测量工具只与效度有关跨情境性由与测量目的无关的因素引起的一种恒定而有规律的效应。这种误差稳定地存在于每一次测量之中,尽管测量的结果比较一致,但实测结果与真实水平之间存在差异。既影响效度,又影响信度。那些与测量目的无关的偶然因素引起的误差,使多次测量产生了不一致的结果,并且这些结果的方向和大小也是随机的。学习、发展与教育测验焦虑反应定势练习效应测验经验测量对象来源心理测量中的误差必须标准化评分意外干扰测试环境生理因素测量过程必须严格遵循标准化程序施测和评分,不得随意改动和发挥,同时要机智地处理各种意外情况。主试方面反映被试某种心理特质真实水平的那个数值。真分数(T分数)测量误差(E)实测的分数无数次测量结果的平均值观察分数(X分数)基础概念子主题测量误差指的是随机误差,不包括系统误差X=T+E真分数理论测量误差本质上是随机的核心假设若某一个人的某种心理特质可以用平行的测验反复测量足够多次,则其平均误差为0,即观察分数的平均值会接近于真分数。经典测量理论(CTT)E(X)=T或E(E)=0ρ(T,E)=0真分数和测量误差之间相互独立。三个假设公理ρ(E1,E2)=0各平行测验上的误差分数之间相关为零。S2X=S2V+S2I+S2E S2X=S2T+S2E 分数原始分数导出分数意义通过统计方法由原始分数转换到量表上的分数从测量上得到的分数常模在分数解释时如果参照的是被试总体的分数分布(常模),则该测验为常模参照测验。提供可以比较的量度参照他人对其进行评价,标准化常模参照测验分类常模团体的条件标准化样本在某一测验上的平均成绩总分常模职业常模年级常模年龄常模地区常模全国常模组内常模发展常模年级当量年龄量表发展量表标准化样本是一定时空的产物规模要有适当的大小取样过程必须有详细描述必须是所测群体(总体)的一个代表性样组必须有常模团体的确切定义顺序量表IQ=(MA/CA)×100 MA为智龄 CA为实际年龄教育商数(EQ)比率智商商数把个体测验分数与同一群体内其他人的分数进行比较,从而确定个体在群体内的相对位置。把个体测验分数与不同年龄的发展水平进行比较,并转化为相应的等级水平。成就商数(AQ)以婴儿代表性行为出现的时间为衡量标准把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平用年龄做单位来度量智力根据测验类型分类 容易计算,容易解释,外行人也能理解优点在一个常模团体中低于该分数的人数百分比百分等级分数解释样本大小适当的关键是样本要有代表性一般不少于30个或100个;全国统一性常模,一般应用2000~3000个测验分数解释与处理对各种被试和各种测验普遍适用缺乏相等单位,属于顺序量表,只具有区分性和顺序性缺点Z=(X-x̅)/Z线性转换T分数标准分数标准九非线性转换离差智商定一个可接受的最低标准掌握分数被试答对题目的百分比正确百分数内容参照测验成就测验、资格测验内容标准分数等级评定量表标准参照测验用校标行为的水准来表示分数,适用于用测验来做预测的情况。测验分数必须与一个重要的校标具有高相关,即要具有校标证据结果参照测验条件要有一个能把测验分数和校标成绩之间的关系结合起来的方法,即要有转换分数的图表主试应充分了解测验的性质与功能以5为平均数,以2位标准差T=50+Z对导致测验结果的原因的解释应慎重把内容分数和常模分数结合起来使用既能确定是否达标,又能评定达到哪个等级年龄、性别、地区、受教育程度、职业……IQ=100+15Z必须充分估计测验的常模和效度的局限性时效性基本原则解释分数应参考其他相关资料应以”一段分数“解释尽可能采用与被试人群更接近的常模尽可能采用最新的常模定期修订对来自不同测验的分数不能直接加以比较所用测验的性质(信效度)被试的信息必须考虑当时测验的具体情况使用当事人所能理解的语言要保证当事人知道这个测验测量或预测什么要使当事人知道他是和什么团体在进行比较要使当事人认识到分数只是一个“最好”的估计如何向当事人汇报要使当事人知道如何运用他的分数要考虑测验分数会给当事人带来什么心理影响对测验结果应保密对低分者解释应谨慎抽样大小抽样方法对一个测验分数解释时,可以使用的常模不止一个常模样本代表总体的程度测验使用者对何种常模总体感兴趣如何管理如何选择事先告知被试(时间、生理准备、心理准备)熟悉所选测验的特点了解被试的特点所选测验必须符合测量目的和对象使用者要具备一定的资格出版和发行要严加控制编制和修订注意科学性主试自身准备如何准备实验材料的准备测验内容心理测量中的使用与道德伦理问题测验时限全程记录指导语测验实施测验情景如何标准化评分规则测验解释如何对被试要求测验万能论测验无用论存在的社会问题子主题正确运用时,测验是心理学研究的一种重要方法和做决策的重要辅助工具。正确态度测验作为一种研究手段和测量工具还有待完善。评分过程内容等值复本排列方式预测过程中,应对受试者的反应情形随时加以记录。预测的时限可稍宽些,最好使每个受试者都能将题目做完,以搜集较充分的反应资料,使统计结果更为可靠。预测的实施过程与情景应力求与将来正式测验时情况相似预测对象应取自将来正式测验准备应用的群体编写修订测题选择测题形式搜集资料确定测量用途确定测量目标确定测量对象标准化合成测验项目分析预测编写题目制定编题计划确定测验目的一般程序解释两个版本间隔一定时间施测会有偏高的倾向测验的难度会由于重复而有所改变局限性在测验中,为了抵消施测的顺序影响,一般可以随机选出一半被试先做A卷后做B卷,另一半被试先做B卷后做A卷建构出两份真正的平行测验前提测量内容取样误差大小等于两次测验所得分数的皮尔逊积差相关两个平行测验测量同一批被试所得结果的一致性程度重测信度低,不意味着测验不可信,可能是被研究的特性发生了变化初测和再测的间隔不超过六个月。年幼的儿童,两次施测的间隔应比年纪较大的被试短一些。智力测验间隔时间不能太短,成就测验间隔时间不能太长。在两次施测的间隔时期内,被试的学习效果没有差别被试遗忘与练习的效果基本上相同或相互抵消所测量的特质必须是稳定的大小等于两次测验所得分数的皮尔逊积差相关需满足的假设测量时间取样的误差用同一个量表对同一组被试施测两次所得结果的一致性程度等值稳定性信度复本信度重测信度两个人在同一个测验上的分数之差必须大于测量标准误的两(1.96)倍以上 同一个人在两个测验上的得分之差必须大于差异标准误的两(1.96)倍以上测量标准误SE=SEM=SX 差异标准误SEd=S 可以用来解释个体测验分数的意义可以帮助在不同测验分数之间进行比较可以解释在测验分数变异中有多少比例是由真分数的变异决定的每一个信度的估计值,仅指某一特定方面的一致性,而非泛指一般的一致性信度是指测量工具所获得的“结果”的可靠性,而非指工具本身真分数的变异数是不能直接测量的,只能根据一组实得分数做出估计信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性rXX=PX’X 是一个测验X(A卷)与它的任何一个“平行测验”X'(B卷)的相关系数rXX=P2TX 是一个被试团体真分数与实得分数的相关系数的平方rXX=S2T/S2X 一组测量分数的真变异数与总变异数(实得变异数)的比率作用注意事项是什么测验目的、用途;背景、依据;使用方法、时限、注意事项;标准答案和评分方法;常模资料;信效度资料各份测验的分数分布大致相同测验题目数量相等,并且有大体相同的难度和区分度。测验间不应有重复的地方测验具有相同的内容和形式测验测量的是同一种心理特性将各种类型的测题依难度分成若干不同的层次,将同难度水平但不同性质和类型的题目组合在一起,再依难度排列将整个测验分为若干个分测验,每个分测验由易到难直接由易到难排列混合螺旋式排列并列直进式排列直接递增式排列趣味性普遍性丰富两级形容词列表Likert形式二分法形式联想题操作题论文题简答题填空题匹配题是非题多选题主观形式客观形式典型行为测验最佳行为测验文化背景受教育水平年龄编写测验手册鉴定测验基本特征将一个测验分成对等的两半后,所有被试在两半上所得分数的相关平均一致性达到0.90以上,才可认为评分是客观的测量由于评分者的差异而带来的误差用方差分量比来衡量测验内部一致性的办法0.6~0.65最好不要;0.65~0.7最小可接受值;0.7~0.8相当好;0.8~0.9非常好只是测量信度的下界的一个估计值适用于二分计分或计分权重范围较广的情况荷伊特信度克伦巴赫α系数计算从相对同质性的测验上得出的测验分数,其意义较为明确所研究行为的异质性内容取样一致性的受影响因素测验内部所有题目间的一致性程度能测量相同内容或心理特点的程度rXX=2rhh/(1+rhh) 结果应校正不同的分半方式会得到不同的分半系数先根据测试的不同方面来进行分类,在分半内容匹配法随机分半法难度分半法奇偶分半法分半方法测量由于测验分半而带来的内容取样误差评分者信度同质性信度分半信度分类信度计分程度有效施测rnn=1-[S20(1-roo)/S2n] roo原来团体的信度,S0原来团体的标准差,Sn新团体的标准差 团体的异质性程度,越异质,信度系数越高主试因素被试因素用于最后粗的决策低水平的信度在相对较少的个体差异上将个体分为许多不同的类型用于制定最终的决策高水平的信度数值新加的题目必须与测验中原有项目同质保证测量标准化将难度控制在中等水平且接近正态分布测试时间控制得当适当增加测验长度选取恰当的被试样本(尽量异质)被试的主观因素时间间隔估计信度的方法防止天花板效应和地板效应 测验难度测验长度测量工具因素提高方法影响因素是总变异中由所测量的特性造成的变异所占的百分比是测验编制者或使用者收集证据以支持根据测验分数所做出各种推论的过程是什么<0.7不予采用;0.7~0.85可用于团体比较;0.85以上可用于鉴别或预测或个人成绩作用用于以粗略的个体差异为基础将人分为少数几个类型是从多方面收集证据判断一个测验是否有效的过程对于推论需要明确界定效度是相对于被试人群效度是相对于测验目的注意事项量表评估测验题目是否能够充分代表所要测量的内容范围,即测验题目对有关内容或行为范围取样的适当性专家评定法克伦巴赫法(复本法)估计方法确定好内容范围怎样保证前测--后测再测法内容效度评价成就测验测量内容范围明确界定的情况适用于保证项目的代表性缺乏理想的数量指标缺陷对一些员工进行选拔与分类的职业测验测验分数是否为一个具体的构想提供了优秀的测量目标用心理学上某种结构或特质来解释测验分数的恰当程度测验要求被试做的事情和被试对测验要测量东西的理解之间的互动表面效度人格测验、智力测验抽象属性的测验适用于多方面证据来检验构念效度当实际测量的资料无法无法证实理论假设时,并不一定就表明测验构念效度不高构念效度的大小首先取决于事先假定的心理特质理论特点测验的同质性—项目与总分之间的相关分析被试测量时的反应内容效度测验内方法收集理论证据构念效度因素分析发展变化与其他测验的相关测验间方法—多特质多方法矩阵评估方法分类指标缺点在于有些理论构想概念模糊,没有一致性定义,确定效度时没有明确的布置,缺乏单一指标来描述有效程度促使研究者把着眼点放在提出假设、验证假设上,使得测验成为理论研究的重要工具。评价效标关联效度效度标准—独立于测验结果,反映测验目的的行为参照,也称效标行为。通常是指我们感兴趣的行为,可以是任何行为。测验分数与某一外部校标之间的一致性程度,即测验结果能够代表或预测效标行为的有效性和准确性程度。效度实用性有效性操作定义理论定义效标测量观念效标分类测验者与效标评定者严格分离效标评估方法与测验评估方法不能高度一致无污染客观性可靠性要求效标效标关联效度在研究时间和经费范围内可靠地被测量到应注意学习成绩、临床诊断和治疗;实际工作表现;特殊训练成绩;团体比较;已经具备效度资料的测验常用的效标当效标变得容易获得时,它的重要性及其与最终效标的接近程度也就降低了心理测量的编制与大多数测验使用者关注的最终效标相关最根本的区别在于预测效度系数是在必须制定为其决策的随机样本上获得的;同时效度系数是在预先选择的样本上获得的,可能与一般的人群存在系统性差异将来的情况现在状态预测效度同时效度验证策略效标分数由测验分数造成的变异数的百分比决定系数r2xy S=Sr 一个预测分数可能撒谎的范围子主题受样本数量制约估计标准误统计显著性需要考虑相关系数法方法项目质量总命中率= 总命中率= 正命中率总命中率两个独立样本的平均数差异的显著性检验T检验正确率法区分法计算方法样本规模样本的代表性项目数量取样方面因素被试的主观方面测验实施和记分问题测验本身的因素影响因素选择具有代表性的被试群体选择恰当效标,确定恰当的效标测量方法进行标准化的测量精心编制测验,避免出现较大的系统误差所有提高测验信度的方法均有助于提高测验效度提高方法样本的异质性效标的性质P= 通过率法具有相对性,是根据样本水平来确定参照点的P值越大,表示题目越简单;P值越小,说明题目越难。项目的难易程度不考虑难度效标参照测验、掌握测验CP= 由于存在猜测问题需要校正该项目平均分比上该项目获得的最高分P= 高分组与低分组各占27%平均数估计两端分组法非二分法计分二分法计分计算方法难度P影响P= 要根据选项数来确定难度一般大于猜测概率难度接近录取率选择题选拔测验大小区分度问卷信度好效度高基本原则难度适中区分度强难度过高或过低会使测验信度降低难度越高或越低题目区分度就越低测验项目对被试心理品质水平差异的区分程度,即鉴别力数值区分度具有相对性0为无区分负值为消极区分正值为积极区分对于同一类型的项目必须采用同一种计算方法,结果才能相互比较D=P后测—P前测 相关法计算方法信度随区分度的提高而增长项目分数与效标分数(或测验总分)的相关是否保留看情况0.40以上-很好;0.30~0.39-良好,修改会更好;0.20~0.29-尚可,仍需修改;0.19以下-差,必须淘汰不保留D=P掌握—P未掌握 影响当难度为1或0时,区分度将是0;难度为0.50时,题目的潜在区分度达到最高语言精练精而简原则以访问对象为主,从被访问者角度出发编制原则整体逻辑与顺序便于整理分析便于被试作答避免“闭门造车”,可以借鉴他人具体可测量确定目的与主题搜集资料自填型/代填型确定问卷类型确定编题计划邮寄式、送发式、报刊、访问编写题项:问题截止了当、无歧义编制过程专题小组讨论专家评估收集他人意见修改问卷进行预测试被访问者意见确定实施过程;选取代表性样本编写指导语浮动主题