Redian新闻
>
今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规

今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规

科技

夕小瑶科技说 原创
作者 | 谢年年
在足球世界,裁判的哨声可谓“千金难买”,因为它能直接决定俱乐部的钱包是鼓是瘪。但球场变化莫测,非常考验裁判的水平。

2022年卡塔尔世界杯上,半自动越位识别技术(SAOT)闪亮登场,通过12台摄像机,每秒50次追踪球员的29个数据点,精确绘制出越位线,辅助裁判做越位判别,以防错判和漏判。

除此之外,有学者开始研究让大模型来“看球”,通过视频判断球员是否违规并给出相应的解释。

这个模型叫做X-VARS,在足球领域SoccerNet-XFoul数据集上进行了训练与验证。这个数据集包含了超过22k个视频-问题-答案三元组,涵盖了最基本的裁判问题。超过70名专业裁判为数据集提供了详尽的标注和决策解释,确保了数据的质量和准确性。

经过验证,X-VARS在SoccerNet-MVFoul数据集上取得了最先进的性能,X-VARS生成的决策解释水平竟与人类裁判相当。一起来看看是否真的有这么厉害。

论文标题:
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Models

论文链接
https://arxiv.org/pdf/2404.06332.pdf

SoccerNet-XFoul数据集构建

SoccerNet-XFoul,是一个专门设计用于犯规视频识别和解释的数据集。它包含高质量的视频文本对,超过10k个视频剪辑和22k个问题,由70多名经验丰富的裁判进标注。

与其他体育数据集相比,如下图所示,SoccerNet-XFoul是体育领域中最大的数据集,涵盖了复杂问题,并且是唯一专注于裁判问题的数据集。

1. 确定问题

作者首先确定了裁判在比赛中必须面对的最基础、最复杂和对比赛产生影响的决定的4个关键问题:

  1. “这是犯规吗?为什么?” ;
  2. “你会给出什么牌?为什么?”;
  3. “防守者是否阻止了有希望的进攻或进球机会?” ;
  4. “裁判是否可以给予优势?”。

要回答这四个问题,模型需要深入理解比赛规则,以及理解行为发生的背景。必须考虑诸如意图、犯规位置、比赛动态和接触强度等因素。问题的答案不仅仅是视觉的,模型还必须对潜在的未来结果进行预测。例如,在评估裁判是否应该给予优势时,模型需要评估进攻方是否更有利于继续比赛而不是获得任意球。

标注者

为确保答案质量,作者精选了经验丰富的裁判进行标注。这些裁判平均执裁了655场正式比赛,经验丰富。他们可以灵活评估视频剪辑,随时暂停避免疲劳。标注者可选择德语、法语、英语或西班牙语作答,确保语言无障碍。答案经ChatGPT-3.5翻译后再由人类裁判审核,保证翻译准确。

主观性

裁判在判决时也带有很强的主观性,如下图所示,两位裁判都认为视频中的行为是犯规的。但一位裁判认为犯规强度较低,不会出示牌,而另一位标注员认为铲球速度很快且鲁莽,会出示黄牌。

由于裁判工作中存在这种固有的主观性,数据集会收集同一行为的多个答案,而不是为每个问题收集单一的决定和解释。这种多个决定和解释实际上帮助模型学习人类裁判采用的一系列有效解释和推理策略。这可以提高 AI 模型的鲁棒性,使其能够在模糊或主观情况下做出明智的决策。

为确保同一行为得到多次评估,我们随机分配视频剪辑给标注者。最终,每个行为平均拥有1.5个相同问题的答案,丰富了模型的学习资源。

数据集统计

该数据集包含10k个视频剪辑,其中包含超过22k个裁判生成的问题和答案。下图显示了裁判标注者解释中最常见单词的分布。最常用的单词是用于描述两名球员之间对抗的特定术语,从描述性术语如defender或card到评估犯规时要考虑的关键术语如intention或intensity。每个答案的单词数量范围从1到66,总共超过540k个单词,平均每个答案近25个单词,单词分布存在显著不平衡。

方法

架构

本文的目标任务是识别是否犯规,并提供了关于其决策过程的解释。主要架构如下图所示:

使用多模态模型Video-ChatGPT作为基础模型,能够理解和生成关于视频的详细对话。首先输入一个视频剪辑视频,其中 T、H、W 和 C 分别是视频的帧数、高度、宽度和通道维度,以供 CLIP ViT-L/14 模型 使用。

通过上述公式获得相应的帧特征向量和隐藏状态.其中通过将 相乘获得的tokens数量, 是 CLIP 的 patch 大小,是输出层的维度,是隐藏状态的维度。然后沿时间维度对隐藏状态进行平均池化,以获得时间特征 ,并沿空间维度进行池化以获得视频级空间表示

。最后将两者连接起来以获得时空特征。在将视频特征 输入LLM之前,通过应用线性投影层将其投影到与文本嵌入相同的特征空间中。


使用表示一系列视觉标记。特征向量也沿时间维度进行平均池化,以获得单个视频级表示。视频级特征表示通过两个分类头C_{sev}传递,以获得犯规类型(即铲球、拉扯、推搡、站立铲球、肘击、假摔、挑战或高腿)并确定是否犯规,以及相应的严重程度(即无犯规、犯规+无牌、犯规+黄牌或犯规+红牌),预测结果为:

为了在LLM中获得高性能,关键在于找到LLM能够理解的提示。鉴于使用的是VideoChatGPT骨干,作者精心设计了以下查询作为提示,以优化模型性能:

其中代表从视频-问题-答案三元组的训练集中随机抽取的一个问题, < >和< >是从经过微调的CLIP获得的关于犯规类型和严重程度识别任务的两个预测, < >是投影的时空特征。

两阶段训练方法

作者第一阶段对CLIP进行微调,进行多任务分类以学习关于足球和裁判的先验知识。第二步是微调投影层和几层LLM,以增强模型在特定领域的生成能力。

  • 阶段1微调CLIP以融入足球专业知识。虽然CLIP擅长泛化到各类图像任务,但在识别细粒度动作或事件方面仍显不足。这类动作的识别需综合考虑时间维度,而非仅依赖静态图像。例如,评估足球犯规的严重程度需考虑动作强度和速度,这无法通过单张图像准确判断。由于CLIP未针对足球数据训练,不同情景的足球视频片段可能产生相似特征,使得LLM难以区分动作。因此,作者在SoccerNet-MVFoul数据集上微调CLIP,以学习足球相关知识。训练过程中,最小化两个任务的交叉熵损失之和,鉴于损失量级相近,直接相加而不进行缩放或加权。

  • 阶段2涉及特征对齐和端到端训练。保持微调后的CLIP权重不变,仅对线性投影层和LLM进行训练。采用VideoChatGPT的预训练投影层权重作为起点进一步微调这个投影层,确保足球片段的时空特征能够与词嵌入处于同一维度空间,实现特征的有效对齐。在训练过程中,使用CLIP的预测标签<>和<>的groundtruth标签<>和<>进行替换,因为CLIP的预测可能存在噪音,导致混淆。为确保模型能够充分利用视频信息,采用了端到端的训练策略,使模型能够在整个流程中学习到最佳的特征表示和文本生成方式。

实验

人类评估

作者邀请了20名足球裁判对X-VARS模型回答的质量进行评估。这些裁判并不知道这些解释是由人类裁判还是由X-VARS系统生成的,确保了评估的公正性和客观性。

每位裁判随机评估了20个视频片段,每个片段时长为5秒,且评估过程不受时间限制。裁判们主要关注解释的质量,判断其是否与视频内容保持一致,以及决定和解释是否符合《比赛规则》。裁判们根据1到5的评分标准对每个解释进行打分,其中5分代表“非常同意”,1分代表“非常不同意”。

下表显示了结果,X-VARS 的表现与人类裁判类似,只有极小的分数差异

定性评估

下图展示了使用X-VARS模型判决的过程:

在图(a)中X-VARS能够准确回答用户的问题,与真实情况基本一致,图(b)展示了犯规情况的主观性。X-VARS将犯规解释为中等强度,而人类裁判将其解释为低强度,没有机会触球。

结论

本文邀请70多名经验丰富的裁判员标注了一个犯规视频识别和解释的数据集——SoccerNet-XFoul。还提出了一个多模态LLM:X-VARS,从裁判的角度理解足球视频。X-VARS不仅具备视频描述、问题回答、动作识别等多种功能,更能根据视频内容展开有意义的对话,判断足球运动员是否犯规,并给出合理且专业的理由。

这一研究不仅展示了多模态大语言模型在足球视频理解领域的巨大潜力,更为未来的研究提供了新的思路与方向。我们期待着X-VARS在足球领域发挥更大的作用,为比赛的公正性和透明度贡献更多力量。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美股基本面 - 2024_02_26 * 午报 * |2023年伯克希尔净利润超962亿美元,“股神”接班人揭晓。美联储放缓缩AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象湿而不油,这种发型也可以很时髦今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器周鸿祎:AI的尽头不是AGI,小而精的模型也大有可为今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好清平乐:温馨涌入心间今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath如何判断对方是否是靠谱的金融从业者?最新大模型论文合集!谷歌/微软/Meta/苹果/英伟达/阿里最新研究报告!国内经济有未来吗?今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了东西---智慧树上一盘浆糊今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory显瘦神器!上身=吃肉、遮胯、显高!这条仙女流光裙美到犯规了!AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型小模型技术是中国企业率先导入装备中,大模型也不例外黄仁勋晒“AI核弹”,人型机器人模型也来了|首席资讯日报Databricks开源大模型DBRX,以及这对Databricks公司的商业,估值,上市等方面的影响。。。中国, 唯一没农村的城市最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法开源大模型火了!(附99个大模型微调模型/数据/工具)!今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu佛州州长再次出手,签署新法专治零元购,最高能判30年!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。