Redian新闻
>
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

公众号新闻

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
香港大学发布组合性文生视频基准,7大类20项指标,让20个大模型一决雌雄30行代码,500万长文本推理提速8倍!「树注意力」让GPU越多省的越多250+篇文献!最新综述全面解析科学领域大模型及其在科学发现中的应用李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性同济、NUS等提出GalleryGPT,巧妙运用大模型收集绘画图像-艺术分析文本数据陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现北航等提出超大规模多语言代码评测基准,涵盖40种编程语言清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024高考英语题曝光后,这两本理工鸡娃宝典火了...谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力SIGGRAPH2024|上科大、影眸联合提出DressCode:从文本生成3D服装板片这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效科学家提出大模型微调新方法,效果优于现有大模型参数高效微调赋予机器人思考能力!北大提出自纠正多模态大模型,赋能端到端机器人操作北大团队研发Agent框架,挑战真实编程场景,重塑大模型代码生成能力大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU(4)首次引入GPT-4o!图像自动评估新基准来啦阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50阿里发布大模型发布图结构长文本处理智能体,超越GPT-4-128kECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!大模型的高考数学成绩单:及格已经非常好了Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大拜登要退选?OpenAI要和博通研发AI芯片,对抗英伟达!考考大模型视频理解能力,中科院人大百川提出新基准合成框架字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走中科院、人大、百川提出视频理解基准合成框架VideoNIAH
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。