Redian新闻
>
Twitter算法开源,Star数已1.5w+

Twitter算法开源,Star数已1.5w+

公众号新闻

出品 | OSC开源社区(ID:oschina2013)

当地时间 3 月 31 日,马斯克终于履行诺言正式宣布了 Twitter (推特) 算法的开源。该公司在 GitHub 上发布了两个存储库 (main repo、ml repo),其中涵盖了推荐算法在内的许多推特源代码,包括用来控制用户在 For You 时间线上看到的推文的机制。并发布了一篇博客分享了有关推特算法的更多详细信息。
“今天标志着 Twitter 进入了一个透明的新时代。我们正在与全世界共享为我们的平台提供动力的大部分源代码。”
马斯克表示,此次发布的是大部分推荐算法,其余的算法也将陆续开放;希望 “独立的第三方能够以合理的准确性确定 Twitter 可能向用户展示的内容”。不过他也警告称,随着开源发布可能会暴露出一些令人尴尬的问题,“但我们会迅速解决”。此外他还补充称,推特将根据用户的建议,每 24 至 48 小时更新其推荐算法。
此次发布不包括驱动推特广告推荐的代码。推特方面表示,其目标是尽可能提高透明度,它排除了会损害用户安全或隐私的代码,以及会破坏在该平台上防止儿童性侵内容努力的细节。
在有关算法开源发布的 Space 讨论中,马斯克称此次的开源是想让推特向著名的开源项目 Linux 项目看齐,“即使你不同意某些东西,至少你会知道它为什么在那里,而且你没有被秘密操纵...... 在这里,我们渴望的类比是开源操作系统上的一个伟大示例 Linux...... 理论上,人们可以为 Linux 发现许多漏洞。在现实中,所发生的是社区识别和修复这些漏洞......”
推特在博客中详细介绍了算法在确定 For You 时间线所显示的推文时,会具体参考哪些内容并如何对其进行排名和过滤。根据介绍,其推荐管线由三个主要阶段组成:
  1. 在称为 candidate sourcing 的过程中从不同的推荐来源获取最佳推文。

  2. 使用机器学习模型对每条推文进行排名。

  3. 应用启发式和过滤器,例如过滤掉来自你已阻止的用户的推文、NSFW 内容和你已经看过的推文。

负责构建和提供 For You 时间线的服务称为 Home Mixer。Home Mixer 建立在 Product Mixer 之上,Product Mixer 是推特的自定义 Scala 框架,有助于构建内容提要。该服务充当连接不同候选源、评分函数、启发式方法和过滤器的软件主干。
下图说明了用于构建时间线的主要组件:
 
文中对过程中的具体步骤做出了进一步的解释。例如首先会从数亿推文中提取最好的大约 1500 条推文,目标是让 For You 时间线中约 50% 的推文来自已关注的用户(即人际网络内),50% 的推文来自 “尚未关注的(人际网络外)账户”。排名 “是通过一个约 4800 万参数的神经网络实现的,该神经网络不断接受推文交互训练以优化积极参与(例如点赞、转发和回复)”。
当然,推特用户看不到完整的 1500 条推文。它们会根据内容限制和模型考虑的其他标准和因素进行过滤,例如推文是否有 “负面反馈”,以及它们是否主要来自同一 Twitter 用户,或者来自被屏蔽的用户。
值得一提的是,Gizmodo 指出,推特向用户推送的 VIP 名单似乎没有被公开。Platformer 也曾报道称,推特有一份值得关注的用户轮换名单,其中包括 YouTuber Mr. Beast 和 Daily Wire 创始人 Ben Shapiro,它通过看似随意地增加这些 “power user” 的可见性来监控推荐算法的变化。
TechCrunch 指出,有更多证据表明算法可能会根据来源不同地对待推文。研究人员 Jane Manchun Wong 指出,推特的算法专门标记了推文作者是否是 Elon Musk,还有其他标签表明作者是否是 “power user”,以及他们是共和党人还是民主党人。
对此,一位 Twitter 工程师在当天的 Spaces 会议上解释称,这些标签仅用于衡量指标。但是马斯克则表明,他在当天之前并不知道这些标签的存在,并认为它们不应该存在:“绝对不应该将人们分为共和党人和民主党人,这没有任何意义。”

相关链接:

  • https://twitter.com/elonmusk/status/1641876892302073875?cxt=HHwWpoCzqbSVj8ktAAAA

  • https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm

  • https://github.com/twitter/the-algorithm/

  • https://github.com/twitter/the-algorithm-ml


往期推荐



ChatGPT数据泄露,技术细节公布

内存数据库DragonflyDB 1.0正式GA,性能是Redis的25倍

马斯克等千名大佬联名疾呼暂停先进AI训练



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
硬核观察 #958 Twitter 公开推荐算法源代码,马斯克获特别优待谢贤不再隐忍,揭露张柏芝第三胎与谢家关系,王菲坐不住了?Conagen和Natáur达成合作,生产可持续天然牛磺酸不再单一看star数!开源指南针OSS Compass发布IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍As City Bus Service Teeters in Henan, Local Government Steps InTwitter 将向开发者收取 API 访问费用,网友吐槽:这是在“作死”早鸟报|爱奇艺回应同时登陆账号被封;Twitter将向开发者收取API访问费;2月3日24时起国内油价上涨.....在海外骂《流浪地球2》的主力,竟然是他"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战马斯克开源Twitter推荐算法,GitHub秒破万星,还承诺每24-48小时进化一次马斯克开源Twitter算法,GitHub Star数已破万Tipping Livestreamers ‘Out of Control’: China State Broadcaster刚刚!马斯克开源Twitter算法,GitHub Star数已破万FastTrack Universität 2023莱比锡大学公立语言项目招生简章争奇斗艳|纽约复活节|Easter Parade and Easter Bonnet Festival 2023乾六:不待其穷芒格:在中国比亚迪遥遥领先特斯拉;马斯克:年底交出 Twitter 大权;微信测试「门店快送」服务 | 极客早知道马斯克将起诉微软,称其使用Twitter数据“非法”训练GPT马斯克又来炒作开源,称下周开源推特算法​比亚迪智能手表预计4月上市;李开复正在筹组AI2.0公司;Twitter将于3月31日开源所有用于推文推荐的代码……时势造英雄,人民写历史:1977笑死,Twitter已经开始拍卖旧金山总部的浓缩咖啡机了…背负着整个现代网络,却因“缺钱”放弃开源,core-js 负责人痛诉:“免费开源软件的根基已经崩塌了”硬核观察 #912 Twitter 开始向所有人展示马斯克的推文苹果头显或实现手眼遥控/马斯克称年底卸任TwitterCEO/首个游戏版ChatGPT将推出复旦 MOSS 上线当天服务器过载;马斯克称 Twitter 将于下周开放算法源代码;谷歌被怀疑利用 AI 裁员 | 极客早知道马斯克开会当场解雇 Twitter 首席工程师:我有1亿多粉丝,他却说公众对我失去兴趣与用户一样,应用程序开发人员正在逃离Twitter转向Mastodon硕士25w-35w,博士30w-45w!校园招聘!马斯克:Twitter将于3月31日开源所有推荐机制代码《洗脑》是以谋取私利为目的的“金主爸爸”狂甩1个亿!马斯克和Twitter有救了?马斯克开会当场解雇Twitter首席工程师:我有1亿多粉丝,他却说公众对我失去兴趣
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。