前言
世界杯,无论是作为4年一届的伴有巨大利益产业链的全球顶级消费文化符号,亦或是其作为体育竞技所具有的转移民众对尖锐社会矛盾视线的属性,不论你我是否情愿,必然占据主流舆论场,成为这段时期全球最大的互联网流量。正值2022卡塔尔世界杯火热进行中,笔者基于长期对传统体育数据科学创新的调研经验,希望能提供一个不一样的视角,带大家了解足球背后的数字化应用,领略数据如何记录、分析和影响足球比赛。由于篇幅较长,在开篇罗列一下本文涉及的核心内容:
1、足球比赛数据的发展
2、主流数据网站
3、查询俱乐部转会消息,球员身价以及球员薪资
4、面向于俱乐部、球探的专业数据服务
5、视频裁判助理(VAR)
6、半自动越位技术(SAOT)
7、职业赛场外的训练数据
8、期望进球数(xG)
9、传球成功率
10、球场控制模型
如果说Billy Beane利用体育数据分析为奥克兰运动家队重新评估和交易球员,并将球队从垫底队伍转变为MLB联赛的有力竞争者(由Michael Lewis编撰成书《Moneyball》,并最终翻拍成同名电影,中文名《点球成金》,由布拉德·皮特饰演Beane)是棒球领域中最广为人知的故事之一,并成为了体育届Moneyball的起点。那么在笔者的主观视角内,足球比赛数据应用的标志性起点事件是1996年Opta的成立——第一家以足球赛事数据为核心业务,大范围普及了足球比赛数据应用,同时引领足球比赛数据技术发展,成功成为足球比赛数据定义权威,并在体育届有举足轻重地位的商业公司。Opta成立之初是一家记录与分析英超联赛足球比赛数据的小公司。在英超97-98赛季时,Opta成为英超联赛的官方数据供应商。在经历了多次跨集团的收购与合并后,如今Opta是Stats Perform集团下的子公司,自身营业范围也从原有的体育数据记录与分析进阶为以体育数据分析为核心竞争力的各项服务,为体育媒体和广播公司、技术公司、全球品牌、体育博彩、球队和联赛以及范特西体育游戏(Fantasy Sports)提供商提供服务,涵盖来自约70个国家的30多种不同运动的统计数据和信息。(Opta的预测)
以Opta作为切入点的一个重要原因是,其业务涵盖了绝大部分顶级足球赛事的数据采集工作。传统体育的数据采集决定了数据分析的质量,数据采集的革新自始自终影响着赛事数据分析的革新。这个观点会贯穿本文始终。从事于互联网行业且与用户数据打交道的朋友想必非常清楚“埋点”这一概念,最常见的案例通常是监控页面浏览事件和按钮点击事件,关联上用户(人物)和事件的相关信息(时间、所在页面、关键词)或标签来采集用户行为。由于用户行为本身是发生在信息系统之上的,用户行为本身就是一系列信息,所以信息系统自然能够容易地实现捕捉并转化为可用数据(这里的容易是相对传统体育而言)。上述情景也涵盖绝大部分我们接触到的(电竞)游戏数据,像游戏中常见的Kill、Damage、Death等等。想必大部分游戏用户都非常熟悉这样的数据叙述。然而在传统体育中数据采集所面临的最大挑战是,是如何将现实中观测到的物理现象描述并记录为可用的数据。所以传统体育的数据采集的革新是如此重要,传统体育的数据采集决定了数据分析的质量。
早期足球赛事数据采集完全依赖于人工手动统计,需要现场数据采集员通过纸笔来记录信息,我们都能想象这种效率极低的现场执行工作——能及时记录的数据极少,仅限射门、角球、进球、换人等关键信息,且数据准确度一般,只能够记录到关键事件大致的时间和相关人物。
而在这一时期,公认开启足球数据分析先河的是英国皇家空军的退役军官—Charles Reep,他被称为“足坛第一个数据分析师”。从上世纪50年代开始,Reep参与到了足球赛事的数据分析工作中。根据长期统计的球员位置、跑动、传球、进球等比赛数据,得出许多建设性观点,其中最为知名的是:大多数的进球都是通过少于三次的连续性传球形成的。因此他给出的战术建议是,持球时减少无用的横向传递,尽快将球快速向前推进。这个被称为长球理论的建议,衍生成了现如今大家所熟悉的长传冲吊战术打法,盛行于英国当时的各家足球俱乐部。(Charles Reep的球场笔记)
随着IT技术的发展,2001年Opta率先淘汰了依靠纸笔记录的统计方法,开始转为人工为主的信息化采集。数据采集系统将网格化的足球场(参考下图)设为半透明样式,覆盖在比赛直播的视频上。数据采集员的统计工作已不像纸笔时期那样简单记录关键事件。传球路线成为了最为核心的工作内容。传球路线需要数据采集员们通过在起球点拖拽和点击鼠标来记录每个传球,并标记出是谁接到的传球。
但不难想象,2D网格化的足球场是无法和第三人称视角的足球直播画面中球场上的影像精确对应,数据采集员们记录信息时,鼠标会移动到与直播画面中的足球的位置距离较远的点上,而距离完全依赖于数据采集员的经验和主观判断,这种工作模式的数据记录必然存在较大的误差。当然数据具有争议的地方不仅限于此,还有各种技术性动作的判断,如是不是过人、是不是抢断、是不是失误等技术事件的记录,高度依赖于数据采集团队的理解。在这个时期,像传球路线这样的核心数据不再以离散的形式被记录,每一次传球都可以跟前后事件相关联,为数据分析师、教练以及数据爱好者提供了更多的分析空间。像现任利物浦的数据科学团队总监Ian Graham在2005年离开剑桥后加入了Decision Technology,负责的主要工作是开发统计模型来预测足球结果,并为《泰晤士报》的每周专栏“Fink Tank”提供研究。(世界杯出现队伍预测的可视化)
光学识别与球员追踪
2010年以后,光学识别与球员追踪开始大量应用于足球比赛的数据收集(虽然大部分从事这类业务的公司都是成立在2005年和之前)。在足球赛事中通过光学识别与球员追踪的技术实现比赛数据采集的领域中,SportVU和Prozone是最早的掌握核心技术的公司之二。非常“巧合”的是,现如今这两家公司与Opta一同是Stats Perform集团下的子公司。SportVU和Prozone均能够实现,在非人工参与的情况下,通过光学识别技术和球员追踪系统,在比赛中实时收集球和球员的位置数据,信息系统能够在一局足球比赛中产生百万级别的数据采集信息,记录下2000-3000种事件。原本交由人工完成的数据,现如今大部分已被计算机视觉(CV)这种人工智能(AI)技术所取代。光学识别技术与球员追踪系统的实现,为职业足球比赛开启了大数据时代,将数据维度从传球路线的“线”丰富到了整个球场的“面”。在上一时期中,比赛数据的采集依然受限于人工采集的效率和性价比,数据采集的核心是球的运动和持球人员的行为,而对于球场上非持球的绝大多数球员是忽视的,即无法通过采集的数据了解其他大多数人在干什么(如无球跑动)。而现在可以实现对球场上所有球员的跟踪,以SportVU为例,其以每秒25次的频率记录球和球员的位置数据,并还原出球员的跑动方向、跑动距离和加速度等数据。不仅如此,位置数据生产高度自动化,并可实时传输到前台(如直播),在直播中呈现实时数据成为了可能。SportVU于2008年12月被STATS LLC收购后,得益于NBA & STATS LLC的合作伙伴关系,为NBA联赛和球队提供数据服务。然而在2017年,NBA转向与另外两家数据公司Second Spectrum和Sportradar合作,以2.5亿美元的总价签订了为期6年的数据服务。在NBA的失利迫使SportVU更加专注于足球,目前服务对象主要是欧洲足球俱乐部,国际足联和欧足联。Prozone在2011年收购了足球行业另一家专注于球员跟踪与表现分析的技术公司Amisco后非常强势,在同Opta合并到同一集团下前一直与Opta保持激烈竞争。但在2015年成为Stats Peform集团的子公司后,逐渐被Opta和SportVU的光环埋没。值得一提的是,Second Spectrum是一家在美国加州迅速崛起的数据公司,对这家公司在篮球领域数据科学创新有兴趣的同学可以搜索公司创始人Rajiv Maheswaran的TED讲座进行初步了解。在2021年,Second Spectrum被Genius Sports以2亿美元的价格收购。而在光学识别与球员追踪的技术应用上,数据一家著名的公司Hawk-Eye Innovations。该公司会在后续篇章的相关业务中介绍。
数据采集的局限性
虽然现如今光学识别和无线定位的相关技术已经广泛在职业赛场上和队伍训练中得到应用,但赛事数据的采集仍然以人工记录为核心是一个令很多圈子外的人大跌眼镜的事实。很多人都以为足球作为最有价值的体育竞技项目,其顶级赛事和俱乐部拥有各种运动科技的技术支持,赛事数据会像是电竞游戏里的那样被自动化生产。虽然在顶级比赛中已经广泛应用上光学识别和无线定位的相关技术,但在赛事数据的采集中,人工记录仍然是不可替代的环节。即使先进的技术系统能自动实现——识别足球场上分别是谁,当前位置,当前速度等一系列基础信息,但仍然难以辨别球员的技术动作、关键事件或定性判断,比如射门和传球,越位进球,被犯规,失误等等。观察足球数据采集技术发展的历史,绝大部分的比赛数据采集技术方案无法解决技术事件的自动化采集。已至于很多技术方案在设计之处,把采集技术事件的数据采集员作为数据采集的一个必要环节。或从另一个角度看,数据采集方案终究是辅佐人去收集信息。即使未来技术发展,但各类事件仍然难以用计算机语言去定义的话,那么最终的判断还是得由人来决定。2014年,即使Prozone号称自己有比Opta更为先进的光学识别与球员追踪系统,但Prozone的球员跟踪系统无法区分聚在一起的球员,更不能自动辨别重要的技术事件。所以他们跟Opta一样,依然需要雇佣了数据采集员来完成人工记录的工作。2015年,ChyronHego公司在足球比赛数据采集方式上进行了革新——通过Xbox手柄来记录比赛信息。被一位足球编辑拍摄并分享在社交媒体上(见下图)后,在当时引起了圈内的一定讨论——仿佛玩家在玩真人版足球游戏(FIFA/实况)。(ChyronHego-数据采集员通过Xbox手柄记录比赛数据)ChyronHego在体育场内安装了6个高清摄像头。光学识别和球员追踪系统是半自动的——系统可以自动识别球员,但不能解决关键事件的自动化识别,需要现场数据采集员通过手柄记录各种事件信息——传球,出局,球权转换等等。在后文中数据解释与可视化服务的章节中提到各个技术事件的鉴别以及标签,其中部分是由数据采集和数据解释团队通过人工完成的内容。
相比数据采集,广大球迷会更加熟悉常见的数据解释与可视化服务。对于绝大多数职业足球赛事,Opta是唯一数据采集/提供商(历史上也有过其他家昙花一现)。而数据解释服务商则像是诸子百家(笔者在这里用诸子百家来形容,并不是因为数据解释服务商群体数量众多,而是想强调不同的数据解释服务商有各自对数据的理解,这些理解的差异最终会反映在各家提供数据上的差异),包括但不限于WhoScored、Wyscout、TransferMarket、SofaScore、Squawka、SoccerWay等等。当足球赛事数据在使用信息系统后,基于信息系统的数据解释与可视化服务也成为了可能,球探、分析师和经理的对球员的分析评估工作由传统纸质报告向数字化应用转变。在本篇章中讨论是以足球数据服务为核心的服务提供商,并不涉及ESPN这样的体育媒体。
以WhoScored为例,作为一家兼具免费数据与丰富数据可视化服务两大优点的专业足球数据网站,向用户提供大部分顶级足球赛事的公开数据和分析信息,涵盖基础数据展示,指标分析,技术事件分析和活动热点,甚至有专职分析师在赛后提供的比赛关键复盘信息。
(WhoScored-五大联赛数据表现优异的球员和球队)专职分析师在赛后提供的比赛关键复盘信息,包含双方队伍在本场比赛中表现的优劣点(如图中狼堡的第一条优势是“通过控球来创造大量的进攻机会”),以及本场比赛所展现的打法风格或技战术安排。(WhoScored-比赛总结)
Match Center模块,可以查询各项指标的选手评价,包含传球成功率,过人成功率,成功运球,远传,铲球,角球等等,可结合时间轴查看指定时间范围内的选手表现。Chalkboard模块,可以查询各项技术事件信息,包含射门,过人,运球,角球,失去球权,失误等等。像射门事件,可按照球员、结果、区域、情境等条件进行筛选。对于传球事件,可按照球员、传球类型、距离、触球部位、起球区域、目标区域等条件进行筛选。Heatmaps模块,能快速查询不同球员的场上的运动轨迹(如图中能清晰看出在本场比赛中德国队的左路比右路有着更为激进的进攻偏向)Fbref,Sofascore和Understat这样的免费数据网站也提供了有非常详细的足球赛事数据内容。Fbref专门提供了球探报告,能给将球员的统计数据与特定时间内其他球员的位置进行比较。每个统计数据都根据与其他玩家的比较情况排名为百分位数。根据Fbref的说明,任何在使用Opta数据的比赛中达到最低上场时间的球员都可以自动生成球探报告。球员的主页上显示了球员球探报告的摘要。选择性展示了大约 20 个统计指标。这组统计指标涵盖了比赛的各个方面(进攻、控球、控球、防守等),可以应用于所有外场球员。
(Fbref-球探报告摘要和相似球员对比)
在球员对比中,可以按几个核心维度(进攻、控球、控球、防守等)的统计指标和多种筛选条件来进行球员各项数据的对比。
俱乐部转会与球员薪资
Transfermarket是一个由50+人规模的足球爱好者团体开发、运营的公开免费的数据网站,以球员转会费用、球员身价评估、转会相关信息和各路八卦流言为主要内容。当然他们也包含与上述主流数据网站相类似的赛事信息、球员数据和俱乐部数据,以及球迷们专门交流“流言”的论坛。在首页可以查询到最新的转会情况,顶级转会记录,合同延续,球员价值等焦点信息。
在最近转会记录中,不仅可以查询最新的球员转会情况,还可以查看最近的转会流言,Transfermarket用百分数的形式来表达该流言的可信度。在球员页面上,会陈列当前球员的基本信息,历史荣誉,当前身价,比赛数据,当前流言,过往身价变化和转会历史。
用户可以选定自己中意的球员进行直观的数据对比,对比内容包含在球员页面提及过的所有信息。
当然,Transfermarket也提供了俱乐部维度的统计,包含俱乐部的基本信息,球场信息,历史荣誉,当前身价和当前联赛排名。用户亦可以在这查询俱乐部下属球员包含身价等一系列的信息,最近的流言,整体的转会收益和开支,具体引进球员与交易球员的记录等等。
同样的,Transfermarket也整理了各大球队主教练的信息,包含基本信息,历史荣誉,当前执教队伍,喜欢的阵型风格,历史执教记录以及对应球队的基本成绩。此外如果想要了解和薪资有关的内容,在视频结尾推荐一个叫capology的网站,可惜的是这个网站已经不能免费看所有的薪资装口了,目前只能看五大联赛每个球队薪资最高的五人以及合同的详细年份。除了Transfermarket这样专门收录球员转会信息为核心数据的网站,还有Capology这样以收录球员薪资为核心数据的网站。Capology是一家专门收集全球主要足球联赛的球员薪资和俱乐部球员开支信息的网站。总共收录近3+万的球员和俱乐部。其中英超、意甲、西甲、德甲、法甲等8大赛事(上图中)下的大部分选手和俱乐部免费开放查询。薪资信息从网络、新闻、社会、行业专家多方收集, 并有专门的消息网络来验证这些全球球员工资的真实性。用户也可以查询俱乐部整体的球员开支情况,以及下载俱乐部每年的球员相关的财务报表。Capology也提供了付费服务,包括提供更广的球员和俱乐部的信息(如乙级赛事),商用API接口,以及面向球探、俱乐部所定制的报告内容。
专业数据服务
相比上述免费的数据网站,Wyscout则是以收费服务为核心的数据解释及可视化服务商。Wyscout提供最大的足球视频和数据数据库,包括超过550,000名球员和200多个联赛和锦标赛的资料。Wyscout于2004 年在基亚瓦里(意大利)成立,主要客户是足球领域的相关专家(选手经纪人、球探、教练和分析师等)和行业组织(俱乐部、球探协会,协会/联盟、选手经纪公司等),为其提供超越免费数据解释及可视化的专业服务和定制化数据服务。Wyscout=自定义了大量的数据模型,并将这些数据模型所解释的信息大量应用在Wysouct的平台,报告和API之中。像是第三助攻、丢球、拦截、传球到禁区、掩护队友等高级事件,一般数据解释服务商难以提供。这类数据大大丰富了评价选手的维度。Wyscout每周会上传超过2,000+场足球比赛。每场比赛都会高度自动化地生成比赛数据报告。信息涵盖比赛队伍双方各阶段和随时间变化的得分期望,控球率对比,传球准确性,进攻压力强度,以及传球网络分析,进球场景分析,球员表现评价等等,非常全面。Wyscout的数据采集员会将每场比赛细分为 2,000 +个带有标记的视频剪辑片段。目前Wyscout的数据库存储了400+万场,从欧洲5大联赛(英超、德甲、西甲、法甲、意甲)到世界上最重要的青年锦标赛的比赛。这些标记带有具体的关键选手和技术事件,当教练、分析师团队想要去研究竞争对手的球员或者挖掘潜力选手时,不仅仅是在表现数据内进行判别,而是结合剪辑内容快速观看球员实际比赛表现(包括高光和失误),大大提高了调研效率。当然,Wyscout会提供球员赛季表现报告,对球员的各项数据指标,行为统计,转会记录以及舆情分析等等做了全面的信息汇总。甚至可以查看指定球员本赛季在左边路的所有传球成功或失败的统计,以及通过每一次传球事件的视频来帮助分析球员的球路特点。Wyscout提供的服务不仅限于上述展示的内容。显而易见,Wyscout的收费也是非常昂贵的,像最基础的会员服务,其中包含每月2份报告和70分钟视频解析,年费用就高达270欧元。对于有大量报告和视频分析,甚至定制化需求的用户,显然价格是没有上限的。顺便一提的是,2019年Wyscout被Hudl宣布收购。Hudl是一家为教练和运动员提供查看比赛画面为主的解决方案的科技公司,主要客户是橄榄球(美式足球)以及其他运动(包括足球、篮球、排球和曲棍球)的青少年、业余和专业团队。
客户并不需要像职业联赛一样配置复杂的硬件设备,而是将Hudl的全自动摄像机布置于场馆内,就能自动记录、上传赛事视频。视频会自动上传到Hudl系统,供教练和分析师实时调取查看。(Hudl的全自动摄像机)
Hudl提供了响应可自定义编程的平台,供数据分析员采集和分析自己所需要的数据内容。这样的工作内容被大量实践在俱乐部的训练赛当中。
如何让足球比赛更加公开公平公正
国际足联(FIFA)作为世界重大足球赛事的组织者,必然对其主办的赛事的公开公平公正承担最大的责任和义务。近年来,国际足联也是在大力推动足球赛事领域数字化技术的应用落地,最为知名的2大应用分别是视频助理裁判(VAR,Video Assistant Referee)和半自动越位技术(SAOT,Semi-Automated Offside Technology)。相关技术支持的主要公司是Hawk-Eye Innovations,自2001年公司成立以来,一直以来专注于体育裁判和广播增强技术。相比其他技术公司,Hawk-Eye Innovations的核心技术是超高速摄影——每部超高速摄像机能以每秒2000帧的频率把影像传输给主控系统并合成3D动画。公司最为出名的产品是鹰眼,相信绝大多数网球和羽毛球赛事的爱好者非常熟悉这项黑科技在比赛场上的应用。
视频助理裁判(VAR)
视频助理裁判(以下简称VAR)的主要职能是通过视频回放技术协助主裁判作出正确判罚决定。从2018年开始,国际足联在赛事规则中引入官方比赛视频工作人员(VAR团队),逐步在各个中小型赛事上尝试VAR,并最终在2018俄罗斯世界杯上成功使用。(比赛现场主裁判查看VAR团队提供的回放片段)
在遇到以下4种情况时,VAR团队会为裁判提供决策上的支持:在整个比赛中,VAR团队会不断检查与这4种情况相关的明显错误。VAR团队只与裁判沟通明显和明显的错误或严重的失误事件。视频助理裁判团队可以同时调用42台广播级摄像机,其中8台是高速摄像机,4台是超高速摄像机。慢动作回放主要用于实际情况核对,例如,确定违规的身体触球部位或违规的地点。除了广播级摄像机外,VAR团队还可以查看半自动越位技术关联摄像机的反馈。可能有很多人误会,以为VAR仅仅只是某项技术,而实际上VAR是一整套包含人在内的技术解决方案。VAR团队由4名视频助理裁判和4名回放操作员组成。所有视频助理裁判(绿衣,FIFA派遣)都是国际足联顶级视频比赛官员。回放操作员(黑衣,鹰眼公司派遣)根据裁判的要求选择并提供最佳摄像机角度。为了保证体育场内和在电视或移动设备上观看的所有球迷都能对VAR团队审查过程有充分的了解,国际足联为广电公司、评论员和节目制作团队开发了VAR信息系统。对于每场比赛,国际足联的工作人员都会向广电公司、评论员和节目制作团队通报审查进度情况,包括审查的原因和结果。根据2018年3月国际足球联合理事会和鲁汶大学的调查报告:在VAR被引入之前,裁判最初判罚的准确度约为93%。而在使用之后,这组数字增长至98.8%,降低了82.8%的人为误判偏差。在2022卡塔尔世界杯小组赛日本对阵西班牙的比赛上,关于日本队的第二个进球是否出界充满争议——因为从肉眼观察,很容易判定球出界了。而根据VAR提供的日本队球员触球瞬间时的画面显示,球约有1.88毫米在界内(比赛规则以足球垂直投影于足球场的阴影判断)。虽然有争议(这个争议大部分源于日本胜西班牙后对小组赛各队伍出线的影响),但在笔者眼中,本场比赛VAR确确实实挽救了一个世界杯的精彩进球。技术升级使我们有能力对事实真相进行还原,对争议事件能提供一锤定音的事实依据。而从另一个角度来说,足球黑哨的操作难度大幅升高,一方面是利益诱惑不仅要影响主裁还要渗透VAR团队,另一方面是相关的数据可以一直作为证据被回溯。
半自动越位系统(以下简称SAOT)是VAR团队和赛场裁判的支持工具,能够帮助他们做出更快、更准确的越位决定。在2022年卡塔尔世界杯,SAOT正式应用。SAOT使用安装在体育场屋顶下方的12个专用跟踪摄像头来跟踪球,以及每个球员身上的29个数据点,以每秒50次的频率计算其在球场上的确切位置。收集的29个数据点包括与越位相关的所有肢体部位。阿迪达斯为2022年卡塔尔世界杯的官方比赛用球Al Rihla将为越位事件的检测提供另一个重要的判断依据——惯性监测单元,其传感器位于球的中心,以每秒500次的频率向VAR ROOM发送足球的数据,从而可以非常精确地检测触球点。通过结合球和球员的肢体的跟踪数据,SAOT会向VAR ROOM内的VAR团队提供自动越位警报。当进攻球员接触到球后处于越位位置时,VAR团队通过手动检查系统自动化生成的触球点和越位线来验证并向现场裁判提议的是否越位的判断。其中越位线是基于球员四肢的位置所精确计算得到。这个过程在几秒内迅速完成,为比赛提供了更快、更准确的越位判断。在球场上的裁判确认VAR团队提供的越位判断后,SAOT会生成与用于做出越位判决的完全相同的位置数据所生成的3D动画,详细地呈现球员击球瞬间时四肢的位置。这个3D动画将显示在体育场的大屏幕上,也将提供给国际足联的广电合作伙伴,以最透明的方式将越位审查信息呈现给所有观众。在2022年卡塔尔世界杯首个比赛日,阿根廷对阵沙特比赛中,上半场阿根廷的3次进球都被SAOT越位报警,并被裁判判定为越位。“体毛越位”成为部分球迷们在本次世界杯的谈资之一,SAOT成功地实现技术出圈,VAR则再次成为众矢之的。
职业赛场以外的训练数据
俱乐部在对球员进行日常训练的过程中,同样有数据采集和分析的需求。而在这种私密性极强的场景(非开放日)下,顶级俱乐部通常不会和主流数据供应商合作。主要原因是数据保密性的要求——Opta和其背后的集团本身与整个体育产业链的多方有复杂的利益关系,且他们的数据采集员,绝大部分是freelancer。“知己知彼”是体育竞技战略和战术设计的基石。像训练期间的隐私信息(比如训练新战术打发)无论是泄露给其他俱乐部、外部媒体或个别团体,都能对俱乐部造成极为负面的影响。另一方面的原因是,大部分情况下训练并不是比赛,需要收集的数据差异较大,甚至有的俱乐部对球员训练时的生理数据也有需求,而这与Opta这样的比赛数据采集商的业务有非常大差异。当然还有成本等其他因素。
除了前文提到的Hudl以外,目前为俱乐部提供训练数据相关服务的另一家知名公司是Catapult,前身是GPSports,最初由澳大利亚体育学院 (AIS) 和合作研究中心 (CRC) 合作成立,提供可穿戴设备,视频分析系统和运动员管理系统为主的综合性解决方案。(Catapult业务简介)作为一家体育数据领域少有能公开财务信息的上市公司,根据其公开披露的财报,22财年的利润达到7700万美元,业务涉及40+种运动项目,与全球的3400+个团队进行合作。其自研的MatchTracker系统,可通过内置的可穿戴GPS跟踪运动员的位置数据,与光学跟踪相结合,自动化标记球员在视频内的定位。如下图中,教练团队能够查看球场上的运动员的位置数据,热力图和运动轨迹等等。(MatchTracker系统)
下图是GPSports(Catapult前身)的运动分析工具的展示,通过运动员随身佩戴的GPS和心率跟踪设备,教练团队、分析师可以在运动分析工具上查看其距离,速度,心率和其他数据表现指标。这类可穿戴设备不仅仅用于训练过程中。在正式比赛中部分队伍也会要求球员穿上,以收集球员更多的生理数据和物理数据,用于复盘。通过对球员长期稳定的训练和数据检测,教练团队可以全面地了解球员的特点。顺带一提,对其他俱乐部的球员只能通过外部方式来考察,但外部方式考察收集到的信息参考价值较低,一方面是能观测到的球员表现是在当前团队战术安排下所呈现出来的效果,另一方面是影响球员在比赛发挥时不好的因素可能有很多,例如球员有不为外部所知的伤病困扰,更衣室矛盾,客场压力带来的心理负担,甚至昨晚没休息好导致今天状态不佳都是有可能的。专业团队对职业球员的评价通常不会拘泥于球员在个别场次的表现,而是尽可能多的收集有效信息,而像球员转会这样的重要事宜通常有基于长期收集比赛样本和相关资料的分析报告作为参考。
在这一章节中笔者所讨论的是立足于足球俱乐部场景的数据科学,通常分为两大方向:而像是服务于直播或比赛公平性等场景的数据分析不在本次讨论范围内。自从足球比赛开始数据统计以来,数据分析一直伴随发展。早期传统的数据分析,所用到像进球、助攻、过人等球迷能频繁接触的数据,其实对于俱乐部能提供的参考价值十分有限。即使现在,以简单数据支撑核心观点依据的文章也依然大量存在着。比如进球,数据只是用进球次数的求和,直接用以评价选手的进攻能力明显有欠妥当,毕竟每一个进球的难度显然难以相同。即使像WhoScored在球员指标上关联是团队进球数,来获得球员为团队进球贡献的占比,这样数据在叙述力度上依然显得苍白。(WhoScored网站-欧洲5大联赛进球数前10的球员)而行业也确实存在一些令人迷惑的数据科学产出。比如2013年发布于《系统科学与复杂性学报》的一篇名为“CAPTURING COMPLEX, NON-LINEAR TEAM BEHAVIOURS DURING COMPETITIVE FOOTBALL PERFORMANCE”的论文,通过对Prozone系统收集的10-11赛季的英超联赛的每场比赛的球员位置数据进行分析,得出了以下结论:“调查表明了在比赛期间球队的(球员包围)面积和(多面体)结构是如何发生变化的。复合变量揭示了变化的不同趋势,证明了它们的互补性,可以将球队的行为描述为比赛中的复杂动态系统。本研究中使用的复合变量,包含团队的面积、拉伸指数、长度、宽度和几何中心,可用于在竞争展开时捕捉每个团队的数值变化。数据表明,球队所表现出来的(面积和结构)可变性往往并不复杂(即具有规律和可预测),但会随着比赛进程而逐渐增加变化幅度。仍需要进一步调查,以验证在国外其他职业足球队中该调查结果是否具有普遍性。”对于这篇论文,笔者想引用2014年在英国体育分析创新会议上的一个反对声音——Data is worthless. Only decisions have value.(这句话不仅仅在足球领域有意义)数据科学一般分为以下3种步骤:
1、描述现状
2、寻找规律
3、影响决策
仅笔者个人愚见,数据分析不应该是纸上谈兵的数字游戏,而应该对现实决策产生影响。而上述论文只是停留在数据科学的步骤1和2中闭门造车。脱离于行业实践,缺少现实的指导意义。本篇章会介绍笔者主观认为在数据分析领域的3项突破性进展,分别是预期进球数,传球成功率和利物浦数据科学团队实践的球场控制模型。
xG,英文全称Expected Goals,中文名为预期进球数,是一项革命性的评估球员和球队进球能力的数据指标,目前已被大量使用(如前文提到的各个网站和报告中)。这项数据最大的进步之处在于能够将影响射门命中率的关键条件都纳入计算考量,来给到更接近真实进球难度的评估。可以让所有人直观感受到每次射门的机会质量,以及进球可能性。从公开资料查询,xG最早的创造者是Sam Green——Opta历史上第一位数据科学家(虽然Charles Reep早在上世纪30年代就设计了一个对射门区域难度进行评分的方法,该方法被部分人认为是最初的xG)。在2012年4月,Sam Green在对英超射手的评估中第一次提及了“预期进球”。他写道:“我们该如何量化球场上哪些区域最有可能进球,以及哪些射门最有可能进球?”“如果我们能够建立(预期进球)这个指标,我们就可以准确有效地增加我们得分的机会,从而赢得比赛。同样我们可以从防守的角度使用这些数据,通过防守球场的关键区域来限制对手更好的进攻机会。”在收集并分析了超过300,000次的射门数据,Green提出了一个模型来确定“射门命中目标和/或得分的概率”,考虑因素包含了与球门的距离,射门角度,脚球还是头球等8种场景条件,由此得到最初的期望进球的线性回归模型,用于计算在特定比赛情境下从球场上的特定位置得分的可能性。(最初的xG模型的可视化效果)
随着数据采集技术不断迭代,并得益于大数据发展和深度学习技术的广泛应用,当下Opta专门自研的Qwinn AI来实现期望进球数的计算。Qwinn AI能够结合多达35种不同的射门场景条件,包括有效射门角度,射门时与所有对方球员和守门员的位置与角度等等。如图中所示,射门场景下所有对射门具有影响的可观测因素都会被记录,并得到0.04xG的结果。0.04xG代表AI判定该射门只有4%的可能性射中。比如下图中展示了在英超20-21赛季5名球员的期望进球数与他们的实际进球数,如果进球数大于xG,代表这名球员能超过期望水平获得进球,且差值越大越好,反映着球员在射门这项能力上的出色,反之亦然。Opta基于xG的方法论上又延展了xA,代表期望助攻数,核心思想上相似。期望进球数目前也是行业的公开数据,在Understat和Fbref上都可以查询到选手和队伍的期望进球数。Understat网站甚至提供了专门针对射门事件的数据化工具,可帮助用户快速查询和筛选关键信息。
传球成功率
虽然Opta没有公开更多关于他们的期望进球数具体是如何实现的信息,但Opta的竞争对手却非常乐意分享他们的创新实践。在赛事数据业务上,AWS(Amazon Web Services)作为后起之秀,是Opta的有力的竞争对手。AWS与德国足球甲级联赛(DFL)在2020年开始开展直播数据合作,并且也自研了期望进球数xGoals等一系列复合型数据指标。每个德甲足球场都配备了20个高速摄像机(还是鹰眼公司),用于自动光学跟踪球员和球的位置。几乎所有的比赛事件,包含点球和射门,都会被摄影机实时记录下来,并发送到DFL系统。同时现场有专门的工作团队,通过人工注释器对特定情况的信息和事件进行分类和补充。最终,所有原始比赛数据都会被提取到 AWS 上的德甲比赛实时系统中,以计算期望进球数等赛事数据内容,然后在全球范围内分发以进行广播。查阅AWS机器学习博客可了解到,为实现传球效率,AWS专家使用机器学习(ML)模型来构建一种可以随时计算每次传球的成功率/难度分数的算法。在构建一个可以预测给定传递难度的机器学习模型前需要创建一个大型数据集,其中包含历史上的成功传球和不成功的传球。尽管通过摄像机捕捉的数据能让我们对成功的传球了解很多(例如,接球手、控球的位置、传球的持续时间和距离),但对不成功的传球知之甚少,因为它根本没有到达预定目标。因此,AWS团队采用了 Pascal Bauer 和 Gabriel Anzer 于2021年在论文 Data-driven detection of counterpressing in professional football 中提出的一种方法,当传球不成功时使用球的轨迹和运动模型来判别预期接球手,以便可以将这些不成功的传球添加到传球数据集中。足球必然遵守物理定律。通过使用 William Spearman 和 Austin Basye 在2017年提出的物理模型,可以使用传球后的前0.4秒来演算出球的整个运动轨迹。在对球的轨迹进行建模后,我们可以知道它估计会落在哪里。下一步是计算谁可以到达球。这是通过运动模型完成的。该运动模型主要基于玩家的速度和方向,可以评估球员在指定时间内所能到达的区域。将该模型与德甲前三个赛季的球员移动数据进行比较并修正,最终可以可视化地为每个球员周围画上四个圆圈,代表他们分别在0.5、1、1.5和2秒内可以到达的区域。计算每个球员的潜在运动范围,并与球的预估着陆位置进行比较,来确定哪个球员可以先到达球,并判定该球员大概率是传球的预期接收者。通过上述方式,将不成功传球的相关数据(例如接球手、控制球的位置、传球的持续时间和距离)添加到数据集中。基于前几个德甲赛季近200万次传球的传球数据集,AWS训练了一个能够实时计算每次传球的传球成功概率的监督型机器学习模型。AWS与足球专家一起合作开发,在每个传递事件计算 26 个传递特征,其中包括球与接球手的距离、中间防守球员的数量、球员承受的压力等等。然后将这些特征输入并训练机器学习模型,以计算每个特征对传递完成几率的影响。AWS将传球的数据制作成可视化包装置于在直播中,以传球数据画像的形式进行球员传球特征的对比展示。在下图中,南丁格尔玫瑰图展现了球员的传球习惯,包括主要传球方向和对应的分布。条形图补充了传球的其他统计数据,例如球员到目前为止尝试的长传和短传次数,困难传球次数,以及传球完成率。基于传球成功率,我们还可以通过将球员的实际完成传球与预期完成的传球进行比较来查看球员的效率。这为球员的传球能力提供了更加客观的分析依据,而不是像以往仅通过传球次数和传球完成率来评价球员的传球能力。
在本篇章,简单分享利物浦首席数据科学家William Spearman的球场控制模型。一方面原因是利物浦数据科学团队在近10年的实践中为自己的俱乐部做出了巨大贡献,另一方面则是,他们是少有的愿意公开分享自己研究方法论和成果的足球俱乐部数据科学团队(包含R&D和数据分析)。在Bruce Schoenfeld 发表的 “Liverpool show Moneyball works in soccer, too”,和羽则专栏的《一个能造核弹的团队,却帮利物浦买人卖人》这两篇文章,讲述了利物浦数据科学团队有些许传奇色彩的故事,包括他们相中克洛普(Jürgen Klopp)教练并说服管理层将他引援到利物浦,团队核心成员如何加入利物浦,他们与教练团队如何配合,以及他们挖掘了哪些球员并为俱乐部带来巨大收益。有兴趣的朋友可以去了解。(文章内提及“BBC称这是能造核弹的团队”,虽然团队有剑桥、哈佛物理学博士的光环,但笔者在此要严肃地纠正一下BBC的编辑对于造核弹这件事的肤浅理解)。Spearman基于在足球中使用跟踪数据来了解传球、开放空间和得分机会等足球传球的研究分析,在2017年麻省理工学院斯隆体育分析会议上发表了题为“Physics-Based Modeling of Pass Probabilities in Soccer”的研究论文。在这篇论文中,Spearman定义了一种球场控制(Pitch Control)模型。球场控制定义为“假设球在这个位置,球员可以控制球的概率”。英超一场比赛大约会得到150万个球员跟踪数据(可见前文“光学识别与球员跟踪”了解)。
通过沃罗诺伊图(Voronoi Diagram,又名狄利克雷镶嵌),Spearman将场地划分为不同区域。在计算球场控制区域时,划分区域的判定标准是球员到达球所花费的时间来,而不是他们与球的距离。代入球员的最大速度和加速度计算他们需要多长时间才能达到目标,并引入不确定性的变量(毕竟众所周知,足球中没有什么是确定的),计算出不同球员对球的控制区域。如下图所示,球的落点属于蓝色方的控制区域。另一个被考量的重要因素是球的运动。球的速度和方向也影响了球场控制的计算结果。此外,并非所有控制区域的价值都是相等的。例如,对方防守背后的空间比守门员面前的空间在有控球权时更有价值。然后通过可视化,就可以对球队的防守漏洞一目了然(如下图中的黑圈)。“控制力”是球员控制球的概率,90%的情况下球员不到一秒钟就可以控制触球。根据每个球员的个人最大速度和加速度,通过物理学的方式可以计算出分别需要多长时间才能到达“拦截点”,并使用Sigmoid函数可以将其转换为拦截概率。所有这些因素结合起来计算出每个球员获得传球的概率,从而全面了解传球可能在何处以及由谁获得。“得分机会模型”使用到球门的距离和在当前时间范围内得分的概率,而“无球得分机会”突出了得分链中下一个球可能来自的球场区域(通过将球场控制乘以球场上每个点得分的概率得出)。然后可以使用所有这些信息构建得分机会图。接下来一切都变成了进球概率,像下图中1.3%这个值代表着,在接下来的15秒内,球从当前位置进球的概率。1、比赛期间教练可以在替补席上通过平板电脑查看模型分析,比如看到球场上可以创造机会的区域,以及球队易受攻击的区域。虽然在比赛中收到的跟踪数据通常会有七分钟的滞后,以及会碰到一些“实时”数据的准确性问题;2、在赛前和赛后作为分析中很重要的组成部分,给到教练作为参考;3、分析英超联赛中的所有球员以及世界其他联赛的大部分球员,了解哪些球员表现优异,寻得未来可能的签约机会。
本篇文章对数字化在足球体育的更多应用做了一个简单分享,涵盖应用包括但不限于主流网站、球员交易与薪资,专业服务,VAR和SAOT,训练数据,以及各项数据科学的创新。当然以上的内容和提及的案例都还只是整个足球行业里数据科学相关领域的冰山一角,并不能面面俱到。笔者主要希望能提供一个不同的视角,带大家了解足球背后的数字化应用,领略数据如何记录、分析和影响足球比赛,欢迎各路同好交流讨论和批评指正。
[1] Stats Perform
[2] David Adam, nature, Science and the World Cup: how big data is transforming football
[3] Rob Haywood, BBC, Charles Reep: The military accountant who brought data analysis to English game
[4] Football Technologies & Innovations at the FIFA World Cup Qatar 2022™
[5] Catapult, asx.com.au, FY22 Results Release
[6] Hawk-Eye Innovations
[7] Mark Holmes, Planet Football, How Xbox controllers are helping football clubs analyse their players
[8] Levent专栏, bilibili
[9] Adam Bate, Sky Sports, Future of analytics in football: Time to stop just collecting data and start making some decisions
[9] Sam Gregory, Stats Perform, Expected Goals in Context
[10] John Stanton, BBC Sport, Premier League: 'Expected goals' tells us whether a player really should have scored
[11] Bundesliga, How Did These Goals Go In?
[12] Marcelo Aberle, Luuk Figdor, Lina Mongrand, and Mirko Janetzke, AWS Machine Learning Blog, The tech behind the Bundesliga Match Facts xGoals: How machine learning is driving data-driven insights in soccer
[13] Simon Rolfes, Murat Eksi, Luuk Figdor, Gabriel Anzer, Gabriella Hernandez Larios, and Jakub Michalczyk, AWS Machine Learning Blog, The development of Bundesliga Match Fact Passing Profile, a deep dive into passing in football
[14] Pascal Bauer, Gabriel Anzer, SpringerLink, Data-driven detection of counterpressing in professional football
[15] Bruce Schoenfeld, Financial Review, Liverpool show Moneyball works in soccer, too
[16] 羽则专栏, 一个能造核弹的团队,却帮利物浦买人卖人
[17] Bruce Schoenfeld, The New York Times, How Data (and Some Breathtaking Soccer) Brought Liverpool to the Cusp of Glory
[18] Sam Williams, Liverpool FC, Behind the Badge: The physicist who leads Liverpool's data department
[19] Simon Austin, trainingground.guru, Ian Graham: The 'one currency' Liverpool use to judge players
[20] Simon Austin, trainingground.guru, William Spearman: How Liverpool create pitch control models
[21] Simon Austin, trainingground.guru, Tim Waskett: The maths behind Liverpool's title charge
[22] William Spearman, Austin T. Basye, Greg Dick, Ryan Hotovy, MIT Sloan Sports Analytics Conference 2017, Physics-Based Modeling of Pass Probabilities in Soccer
[23] Justin Harper, BBC, Data experts are becoming football's best signings
推荐阅读
工作10年,一路历程:数据科学家-MBB咨询顾问-私募投资因为公众号平台改变了推送规则,如果你想如常看到我的文章,记得点一下在看和星标哦,同时也可以把干货转发给有需要的小伙伴,期待我们不定期的相遇 :)