【细谈智商(IQ)】
细谈智商(IQ)
我上周发了博文《女性与数学(2)gender gap 》(https://blog.wenxuecity.com/myblog/80301/202406/29801.html),下面留言的网友大多跟我交流“智商”问题。其实,数学能力和智力测验反映出来的“智力”真不是一回事儿,两者相差甚远。可究竟什么是“智商”,智力测验究竟是测什么的,了解和理解这些的人其实不多,而且经常有一些错误的认识和想象。因此,我感觉有必要详细说说。
1. 什么是智力、智力测验和智商(IQ):
智力(Intelligence)是指生物的精神能力,特指人类这方面的能力,如知识、记忆力、观察力、想象力、判断力、语言表达能力、抽象思维能力等。它是人类适应社会生活的一般能力,大多跟认知能力有关。
大约120年前,心理学家发明了智力测验(Intelligence Test),用于量化人的普通心智功能水平。经过百年的修订和发展,目前国际上最常用的个人智力测验主要有两种:斯坦福-比奈智力量表(Stanford-Binet Intelligence Scale)和韦克斯勒智力量表(Wechsler Intelligence Scale)。
我们常说的“智商”,其实是一个历史遗留的概念。在几十年前测量少年儿童的心智水平和成长时,学者提出了智龄(mental age)的概念。比如一个10岁的儿童,他做智力测验时,达到了12岁儿童的水平,那么他的智力商数(intelligence quotient,IQ)= 智龄/实龄 ×100 = (12/10) x 100 = 120。如今的智力测验已经不这么计算了。智力测验后经过换算的标准分,各个年龄组均值为100,标准差为15。但IQ是个深入人心的叫法,就保留下来了,尽管现在它已经不再是一个“商数”。
即便如此,今天说的IQ仍然是个相对值,即一个人在他/她的年龄组里的智力相对水平,这一点必须明确。
2. 智力测验如何进行?
人们大多以为像某些学科测验一样,智力测验是让被试者做一套题,然后根据标准答案得到分数。这是不正确的。以韦氏智力测验为例,它测量的结果包括言语智商(verbal intelligence quotient)和操作智商(performance intelligence quotient)两大类,下面又细分词汇(Vocabulary)、词语理解(Verbal Comprehension)、知识(Information)、算术(Arithmetic)、积木设计(Block Design)、相似性(Similarities)、数字广度(Digit Span)、模式推理(Matrix Reasoning)、拼图(Visual Puzzles)、图片填空(Picture Completion)等十几个分测验(subtests),分别测量智力的不同方面。
高效度的智力测验不是像考试那样做题,而是由经过训练的心理测量师、精神病学家、教育工作者等与被试者进行一对一测评。智力测验过去完全是使用卡片和积木等,近年也有利用电脑显示,但基本方式是不变的。测验一般要耗时60-90分钟。一名主试者一天只能完成对少数几个人的测试。可见高效度的全面智力测验是“慢”的。下面这段录像是进行“积木设计”测验。可以想见,在规定的时间内,高水平者可以完成更多的任务:
下面这是“数字广度“测验,是测量短时记忆的。要达到5位以上不容易。
3. 智力测验的标准化:
标准化是智力测验的核心。只有标准化的测验才使得个体之间可以相互比较。一个智力测验在标准化时,在各个年龄阶段要对不同种族、文化背景等进行分层等距抽样。这样得出的常模(norm)才具有代表性。否则,比如选择太多受过大学教育的被试者,并以他们的测验结果为常模,那么普通人大多数IQ低于100(而不是50%低于100)。这样的常模不具代表性,是失败的。
另外,我们应该理解,IQ不是一个单项的绝对分。作为智力测验的设计目标之一,标准化过程要求两性的平均值均为100。智力测验首先得到的的分别是十几个项目的粗分。需要对各项得分进行换算,不同的分项取不同的权重,从而使得两性均值相同。要做到这一点,并不需要使用不同的测验题,只要改变不同分项粗分换算成标准分时的系数或权重就可以“平衡”了。比如在标准化过程中,对词汇和拼图两项的权重根据需要进行调整。
怎么调整权重呢,打个比方:一套试卷包括A、B、C、D、E 五道题,老张答对A和B,老王答对C、D和E。如果各题权重相等,那么老张40分,老王60分。现在我把权重调整一下,A和B各25分,C20分,D和E各15分。于是乎,两人各50分,拉平了。
因此,标准化保证了男女IQ均值同为100。以此为标杆对大量人群测试表明,女性IQ的标准差比男性小,分数比较集中,男性男性标准差大,要分散一些。也就是说在大量人群中,特别聪明和特别愚笨者,都是男性居多。
如果智商测验要引入另一个国家,不仅仅是一个翻译问题。有些测验,比如词汇,是相当不同的,要重新设计,整个测验要重新标准化。40年前韦氏测验被引入中国时,当时湖南医学院的龚耀先教授领导了中文版的标准化,做了大量的工作。而且,他们根据中国的国情,居然还做了“农村版”和“城市版”两套常模(题目一样,只改变简单题和难题的相对权重)。
由于语言和文化的不同,用韦氏或斯坦福-比奈量表,不易对不同国家或不同文化间进行精确比较的。然而,由于操作智商中有非语言的多项测验(比如前面我们看到的“积木设计”),不同国家的智商是可以大致推断的。下图就是一个结果。东亚是最高的,北美和欧洲多国也高,拉丁美洲除阿根廷以外都偏低,非洲很低。
4. 智商与成功:
大约在整整100年前,斯坦福大学心理学家Lewis Terman领导了一个横跨一个世纪的超长期追踪研究,让人们对高智商与成功究竟是什么关系,有了第一手的认识。Terman教授1956年去世,但他的学生们、学生的学生们前赴后继,直到今天,一千多名被试者中仍有少量在世,研究还没有最后画上的句号,尽管主要的结果已经明确。这项研究本身,就反映了“定力”这个非常好的心理品质。
在这个实验的头些年,研究者在加州的学校寻找到1500多名智商至少为 140 的学生。这样的分数约占人群的300分之1,Terman教授认为这是天才的门槛。这些孩子被带有玩笑口吻地称为Termites(这个词的原意是白蚁,近似于Terman)。
追踪调查表明,这些高智商孩子中确实有不少人拥有成功的职业生涯,到Terman 去世时,有 30 多人登上《美国名人录》(Who’s Who in America),近 80 人在登上《美国科学名人录》(American Men of Science)。
然而,这并不能完全支持“高智商者注定杰出”的观点,因为他们的成功涉及影响智商和智商以外的复杂因素,例如Termites父母大多受过良好教育,拥有更多家庭资源。而且家庭人脉也有助他们更容易获得成功。
Termites中没有出现诺贝尔奖或其他著名奖项的获得者,也没有出现名声显赫的伟人。令人思考的是,William Shockley 及 Luis Walter Alvarez两人,当时未能达标成为Termites,他们后来却获得诺贝尔物理学奖。
高智商似乎不能预示做出超凡成就的“天才”。智力测验只测试文字及非文字推理,而没有涉及对成功至关重要的创造力,比如发散思维(Divergent thinking),即产生新想法的能力。 近年的研究发现,只要智商中等偏上一点(110以上),智商与创造性就没有什么相关了,因此智力测验并不能预期或发现开创性人才。
5. 非智力因素:
近年来的一些研究和调查表明,与智商、创造力和特殊能力无直接关系的一些非智力因素(non-intelligence factors 或non-cognitive factors)对于一个人的成功和人生的圆满至关重要,甚至比智力因素更为重要。经常被提及的非智力心理品质包括:
动机和强烈的兴趣。热爱是最好的老师,有了兴趣和热情,一件事情才容易长久地、积极地做下去,于是获得机遇的可能性便会大大增加。意志力、自制力、顽强性这类心理品质也对于成事颇为重要。做父母的,如果发现孩子对一件事、一个学科有长久的passion,又diligent,resilient,即便他们的爱好不主流、不挣大钱,我希望父母一定不要强力制止。我的孩子小的时候,我宣称如果将来我的孩子有上述几条心理品质,哪怕他们爱上了考古,我也支持。这在一段时间里成了我老婆攻击我的把柄。后来我孩子没有爱上考古,避免了家中失火。
自信与自强、良好的情绪,控制焦虑,友好而随和的性格,以及从少年时代起善于处理人际关系等等,这些都与成功的关系相当密切。鉴于它们已经离“智商”的主题较远,就不多说了。我个人感觉,虽然这些心理品质其实也是跟先天的人格特质相联系,但毕竟不像智商那样有比较硬的天花板。
非智力因素的“可培养性”要强一些,因此近年尤其受到学校教育的重视。此外,当一个有理性的成年人设法自我提升的时候,经常首先是从非智力因素开始。其结果未必是什么公认的“成功”,但却是心态的平和和满足感的增加。
----------
根据与网友交流,补充说明如下——
** 一个人的绝对智能水平在一生中并非恒定。从儿童到青年时期逐年增长,绝对的智能水平到30岁左右达到顶峰,约40岁开始缓慢下降,60多岁后开始下降比较明显。但各智力测验的分项情况不同,比如四、五十岁时,短时记忆不如年轻时候了,但知识和词汇分项一般会超过青年时期…… 不管怎么说,最重要的一点是,一个人在智力测验后得到的粗分,必须与自己所在的年龄的常模去对照,得到正确的IQ分数。
** 如果考虑智能绝对水平的变化(如成长,衰老),一个人的智商IQ(当然是用同龄常模)有稳定性吗?答案是,有!十几岁以后,一个人的IQ值,即一个人在同龄人中的相对“聪明”程度很稳定。但是,年龄小的时候,比如10岁以前的IQ与成年后IQ的相关就不那么大。年龄越小时的IQ,与成年后IQ间的相关性越小,所以有的神童长大以后不神了。
** 理论上讲,智力测验测的是“能力”,一般学科考试考的是“知识”。然而在实际之中,两者是很难截然分开的,而且“纯”的能力很难定义。所以学习和训练是可以提高智商得分的。像词汇、算术那就不用说了。哪怕是我文中两段录像所所示的两个与一般教育无关的分测验,如果经常训练,分数比不训练也会提高。但经过准备后“提高智商”是自欺欺人的。
** 韦氏智力测验和斯坦福-比奈智力测验效度都不错。但前提应该是在不准备、不训练的“原生”状态下测定才准确。更严肃的是,智力测验不像SAT有巨大的题库,它十几项所有的问题都在一本薄薄的《手册》上,全国多年不变。《手册》内容应该是严格保密的,尽管各大学心理系、教育系、无数精神科医生和青少年机构,包括一些中小学处都有,但有关人员不能缺德而广而告之。否则一本手册在手,准备它几周,一个傻子的智商也可以达到180。
** 很少有人知道,SAT是来源于一个快速“智力”测验The Army Alpha Test,这是100年前军队用于筛选军人的。因此,SAT 与 IQ 有“血统”上的渊源。然而两者相关系数有多大,这是有很大争论的。我认为肯定比0.4高,但可能不像有人宣称的0.85那么高。SAT 的reading部分肯定与言语智商分项有高相关。SAT数学不是高难度数学,应该与IQ分数也有较高的相关。
** 不同族裔的智商有差异,这是客观存在的,但个体差异很大。我曾经有两个非裔在手下工作,水平都还可以。特别是其中一位,理解力、举一反三的能力和动手能力都很好。看外表,他是典型的黑人相貌。相反我隔壁办公室的一位manager,几个月前刚刚雇了一个犹太人Ph.D,现在抱怨说他笨且不诚实,后悔雇他。我认为在实际工作和生活中,避免先入为主,根据个体素质评判是明智的。
更多我的博客文章>>> 《唐宋韵》80.《千秋岁·水边沙外》秦观 【我敬佩胡友平,因为记得刀在面前的感觉】 【细谈智商(IQ)】 《唐宋韵》79.《左迁至蓝关示侄孙湘》韩愈 【女子与数学 (2)gender gap】