安全思维的三个阶段公众号新闻2023-07-17 07:07名誉教授Andrew Hale和Jan Hovden通过区分三个阶段来描述安全的发展历史,命名为技术时代、人的因素时代,以及安全管理的时代,见图1。图1:安全的三个时代(Hale和Hovden,1998年)第一阶段:技术时代第一阶段中,安全面临的主要威胁来自所使用的技术。这里有两个层面,一方面是技术(主要是蒸汽引擎)本身是笨拙和不可靠的;另一方面是人们没有学会如何系统地分析和防范风险。此阶段主要的关注点是找到技术手段来保障机械,以阻止爆炸和防止结构崩溃。对于事故的关注无疑是与人类的文明本身一样古老,但人们普遍认为工业革命的开始(通常可以追溯到1769年)引入了新的风险,逐渐也对风险有了新的认识。对于安全和风险的共同关注,最早的例子之一就是,1893年《美国铁路安全设备法》主张需要实施安全技术与政府政策调控相结合。铁路第一次出现了“无辜的旁观者”-火车乘客-他们除了自己的工作外还暴露在其他行业风险中。(一个悲惨的例子:一位名叫 William Huskisson的乘客是利物浦的议会议员、前海军司库、贸易理事会主席和内阁部长。1830年9月15日,他在利物浦一曼彻斯特铁路开启时,被火车碾压死亡。这让他成为世界上第一个铁路伤亡人员。)铁路也是早期有组织活动的一个优秀案例,包括今天组织环境的所有方面,比如需要计划活动和运行、培训人员、采购材料和工具、维护设备、水平和垂直协调活动、安排专业化的职能和实体、监控和控制日常运行等。换句话说,这是一个社会技术系统。1931年出版的由Heinrich撰写的《工业事故预防》一书,对安全进行了重点论述,极具影响力。尽管在每个行业中都存在可靠设备的需求,但是直到第二次世界大战结束,进行可靠性分析才被广泛认可。原因之一是,第二次世界大战期间使用的军事装备维护、修理和现场失效的问题非常严重,有必要针对这些情况采取措施。另一个原因是,新的科学和技术发展能够在深度和广度上建立更大、更复杂的技术系统,包含广泛的自动化。这些发展包括数字计算机、控制理论、信息理论、晶体管和集成电路的发明等。我们急切地等待这些发展改进生产率,社会着迷于“更快、更好、更便宜”一虽然该特定短语直到20世纪90年代才投入使用。然而,所产生的系统经常是很难被理解的,它对人类如何理解和管理系统提出了挑战。在民用方面,设备制造商在电子技术和控制系统方面取得了进展。通信和运输等领域第一个见证了其范围和性能(performance)的快速增长。在军事领域,“冷战”时期导弹防御系统的发展,以及空间项目的开始,依赖同样复杂的技术系统。这创造了需求一采取行之有效的方法,可以解决风险和安全问题。例如,故障树(Fault Tree)分析法最初是在1961年评价民兵型导弹发射控制系统过程中发展起来的,那时它被用来研究未经授权导弹发射的可能性。故障树是事件集的正式描述,组合在一起可能会导致某个特定的不想要的状态,在故障树中称为顶层事件。故障树方法提供系统性的方法,分析一个具体不合意的结果是如何可能发生的,以及制定预防措施防止它的发生。描述事故如何发生的通用故障树被称为事故解剖(anatomy of an accident),见图2。图2 事故解剖据此描述,未预期(unexpected)的事件发生时系统是正常工作的。未预期事件本身可以是由于外部事件或潜在的条件,因为某些原因突然变得明显。除非未预期事件可以立即瓦解,否则它会将系统从正常转到异常状态。异常状态中,将导致控制失效。如果控制失效,系统会进入失去控制的状态。这就意味着一些不想要的情况发生。通常情况下,即使我们已预期这种可能性,并且已经提供了具体的堡垒层,但当这些堡垒层缺少或无法正常工作时,不利后果就会发生。这意味着事故的发生。其他方法,如失效模式和影响分析(FMEA)、危险源与可操作性分析(HAZOP)等,不但分析危险源的可能原因(和后来导致事故的原因),而且还有系统地查明危险源和风险,在系统运行之前或发生主要更改时就考虑到这些问题。20世纪40年代末和50年代早期,可靠性工程成为一个新的、独立的工程领域。它结合了可靠性理论和概率理论的强大技术。这种组合被称为概率风险评估(probabilistic risk assessment,简称PRA),有时也被称为概率安全评估(probabilistic safety assessment,简称PSA)。PRA已成功应用于核能发电领域,WASH-1400反应堆安全研究成为定义性的基准。这项研究表明:在一个大型现代化轻水反应堆中,对发生严重事故的过程中可能出现的事件流,应使用故障树/事件树分析的方法。WASH-1400研究建立的PRA方法,成为现代化核电站安全评价中的标准方法。这种实践逐渐蔓延到有着类似安全顾虑的其他行业。然而,PRA的重点是在技术上,而不是人或组织上。第二阶段:人的因素时代一开始我们认为能够掌握风险的来源,可以有效地管理工业系统的安全,但这种良好的感觉在1979年3月28日三哩岛(TM)核电站灾难发生后突然被粉碎了。这一灾难发生之前,使用既有的方法(比如HAZOP、FMEA、事件树、故障树等)足以确保核设施安全的观点,已在业内达成共识。在三哩岛的核电厂也已通过PRA并曾获美国核管理委员会(US Nuclear Regulatory Commission)的安全批准。这场灾难之后,非常痛苦但显而易见的是:这种方法中明显缺少人的因素。人的因素工程学自20世纪40年代中期在美国开始作为工业心理学的一门专业。在此之前,其实人类已在人一机系统设计和运行中考虑了人的因素。(在美国,人的因素和人一机工程学学会始建于1957年。在欧洲,人的因素的历史有点长,比如《人为因素》杂志在1937年已经出版了;英国人类工效学研究会成立于1946年。)在第二次世界大战期间,美国军队的经验清楚地表明:通过关注显示和控制的装置设计,所谓的飞行员差错就会大幅降低。人的因素在当时整个行业中不被视为安全的关键所在。相反,人的因素工程学主要侧重于系统设计领域的效率或生产力。20世纪40年代,科学技术的突破大大提升了技术能力,人被视为过于不精确、易变的、技术匹配缓慢的,因而被视为系统生产力的限制因素。通用的解决办法是设计、培训和自动化,其中后者特别依赖技术解决方案,最终适得其反。虽然在60年代和70年代期间,技术和工程创新方面让技术更强大、更可靠,但是事故继续增加,无论是数量还是规模,达到了与三哩岛事故一样的顶峰。通常看来,人被看成是容易发生失效的、不可靠的因素,所以作为系统安全中的一个薄弱环节。“明显的”解决办法是通过自动化更换人,减少人的角色,或通过要求严格遵守规章等,限制人类表现的变异性。自从PRA成为行业处理技术系统安全性和可靠性的标准后,解决人的因素自然而然地成为始发点。拓展PRA,包括对于人的因素的关注,导致人类可靠性评估(Human Reliability Assessment,简称HRA)的方法大量出现。起初是扩展现有的方法来考虑人的差错,如同技术失效和故障相同的方式,但这些扩展很快被更多专门化方式的发展取而代之。这一发展的详细内容已经在专业文献中广泛阐述,其本质是人的可靠性已被认为是对系统可靠性的必要补充一或换言之,对可靠性工程基于技术的思维扩大到包括技术和人的因素。使用HRA很快成为核电厂安全确定的标准分析,但尽管作了许多努力,也从来没有过任何完全标准化的方法,或者说在采用不同方法产生的结果中没有建立一个合情合理的一致性。人的差错可以用来解释不良事件的发生,这一想法在其他行业迅速扩展开来,各种模型和方法的发展不断出现。技术风险分析的发展也导致被动安全(事故调查)和主动安全(风险评估)之间逐步在智力上进行分离。对于后者,理所当然的是风险概率、可能性或是其他事情发生的问题,因此重点是未来事件的概率,特别是关于特定失效或故障发生的可能性。对于事故调查而言,概率(可能性)不是需要探究的问题。当发生了什么事时,的确就是发生了事情。因此,主要关注的问题是建立原因一或原因集一重点是其中的因果关系。因为原因应该是明确的而不是可能的,如果说某些情况是可能的原因,这样的说法不具有说服力。第三阶段:安全管理的时代200多年来,技术故障的效力作为发生问题的原因,这种观念从未被挑战过。对于与人的因素相似的观念也一样持续了几乎10年。对此有两个主要的原因。第一,对于通过规范的办法可确保健康和安全这样的理念越来越被怀疑,例如简单匹配个人和技术(经典的人的因素工程学和人一机交互设计)。第二,几次惨痛的事故清楚表明,既定的做法包括PRA、HRA和众多人为差错方法,有其局限性。虽然更改既定的观念不像从第一时代到第二时代转变那样惊人,例如1986年发生的“挑战者”号航天飞机和切尔诺贝利核电站4号反应堆爆炸这样的事故,以及回想1977年在特内里费岛北机场跑道上两架波音B747客机相撞的事故,但这些事故表明:在人的因素之外,不得不考虑组织因素。由此得到一个结果:安全管理体系已成为研发的一个重点,甚至将第三阶段称为安全管理的时代。试图拓展对风险和安全思考的既定基础,即可靠性工程以及PRA也涵盖组织问题,与试图在线性因果关系范式中包括人的因素相比,不那么直接。尽管在某种意义上可以把人看作一台机器,这种传统至少要追溯到法国内科医生和哲学家Julien Offray de La Mettrie(1709一1751年)的理念,在人的思想与计算机之间流行的比喻为这种传统赋予了新的生命,但是这不适用于组织的情况。它最初希望:使用性能影响因素(Performance Shaping Factors)作为类比,在可能性安全评估参数中引入这些因素,通过解释其中的依赖关系,从而可以决定组织因素的影响。但过了一段时间,很明显地,其他的思维方式也都需要。高可靠性组织(HRO)学派指出,有必要了解所需的组织过程,它们是在紧密联系的技术组织非线性运作下运行的。部分研究人员指出,组织文化对组织的安全和学习的可能性产生重大的影响,对于安全的限制可能来自需要过程,如同来自技术和人的因素一样。目前,风险评估和安全管理的做法仍处在从第二阶段到第三阶段的转型中。一方面,很多人意识到,风险评估和安全管理必须考虑组织的具体组织因素、安全文化、后端因素等。此外,当事故归因于组织因素后,对任何试图改变这些因素的干预措施,也必须进行风险评估,因为没有任何干预可以是“价值中立”的。另一方面,仍然普遍认为工程风险分析实行的既定方法要么可以直接采用,要么某种程度上可以扩展,包括组织因素和组织事宜等。换句话说,组织事故和组织失效在今天被视为类似于技术上的失效,就像在三哩岛灾后人的失效。而且,因为HRA已经证明可通过对现有方法进行相对简单地扩展,解决人的因素,似乎合理的假设是这对于组织因素也是一样的。然而,这种乐观基于希望而不是事实,是完全没有根据的。事实变得越来越清楚,遵循处理技术问题的方法来处理人的因素和组织因素,是解决不了问题的,把它们当作因素,这是一个过于简单化的做法。因此,需要修订甚至放弃普遍持有的假设,而采取新的观,点来看待风险与安全对于组织意味着什么。参考文献:(丹麦)埃里克·郝纳根 (Erik Hollnagel). 安全Ⅰ与安全Ⅱ 安全管理的过去和未来[M].北京:出版社: 中国工人出版社.2015-11小心!别用错“事故三角形”理论误导!请停止使用“三角形理论”!安全管理大师之作:《理解“人为差错”实战指南》Hierarchy of Controls安全管理的过去和未来:安全Ⅰ与安全Ⅱ安全管理:控制你的失效反应三个案例,考考你的认知水平微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章