Redian新闻
>
21岁SpaceX实习生用AI干出重大考古事件,斩获40000美元!|亮马桥小纪严选

21岁SpaceX实习生用AI干出重大考古事件,斩获40000美元!|亮马桥小纪严选

公众号新闻




小纪有话说:


2000年前的古卷轴(赫库兰尼姆卷轴),终于被一个21岁计算机少年给破译了。这个古卷轴可以说是极其的特殊——

在公元79年被一场火山爆发掩埋碳化,直到1752年才被挖掘出土。而且由于古卷轴本身已经太脆弱了,数百年来没人敢动它,处理稍微不当就可能化作尘埃的那种。

那么如何看到它上面记载了什么内容,就成了困扰科学家们数百年的老大难问题。

现如今,随着这位计算机少年成功的破译,使他成为了2000年来第一个从未打开卷轴,却“看”到了上面文字的人。

这项任务其实是来自一个叫做维苏威火山的挑战赛(Vesuvius Challenge):要求参赛者在卷轴的4平方厘米区域内,至少找到10个字母。这位少年作为完成任务的第一人,也被活动官方授予了40000美元的首字母奖(First Letters Prize)。

很多小伙伴肯定好奇,少年破译的文字到底是什么,不卖关子,直接揭晓谜底:是古希腊语πορφυρας,意思是紫色染料或者紫色的衣服。

那么,这位少年是如何破译的以及破译后的这段文字对考古有多大影响,答案就在今天的文章里。

金磊 发自 凹非寺
来源:量子位 | 公众号 QbitAI

破解数千年古卷轴,AI立大功

这位少年名叫Luke Farritor(下文简称卢克),是一位计算机专业学生。

而在讲这位“屠龙少年”的故事之前,我们还需要铺垫一下关于这个比赛的背景。

早在2019年,肯塔基大学EduceLab的Brent Seales教授,便在粒子加速器中,对赫库兰尼姆卷轴进行了成像工作,并生成了分辨率高达4μm的3D CT扫描。

Seales教授和团队在粒子加速器上扫描

这位教授的博士生Stephen Parsons,长期致力于使用机器学习模型检测CT扫描中的墨水。

于是他和他的团队扫描并拍摄了带有可见墨水的分离卷轴碎片,从而提供了一个ground-truth数据集。

来自Stephen的博士论文:在ground-truch数据集上训练机器学习模型

这项研究成功引起了科技企业家Nat Friedman和Daniel Gross的注意;于是乎,在二人的赞助之下,便发起维苏威火山挑战赛。

他们在今年三月发起公开竞赛,设置总奖金为70000美元,目的就是加速破译古卷轴。

到了今年八月份的时候,一位叫做Casey Handmer的学者写了一篇博客,讲述了他所发现的看起来像墨水的“裂纹模式(crackle pattern)”。

这可以说是一个非常重要的突破进展,即使是Stephen,此前也只是在分离的碎片上看到过墨水的直接证据,但还没有在卷轴上看到过。

然后卢克在一场播客中,偶然听到了这个消息和挑战赛,也看到了Casey的裂纹模式在Discord上被广泛讨论。

这就引起了卢克非常大的兴趣,并开始利用晚上的时间,着手训练一个关于“裂纹模式”的机器学习模型。

在训练的过程中,他前前后后发现了几十个墨迹比划,还有一些完整的字母,卢克对它们做好了标记并作为训练数据。

左:在纸莎草纤维背景下可以看到有裂纹的墨水;右:生成的二进制墨水标签。

没过多久,模型就露出了肉眼看不见的裂纹痕迹;这些痕迹成了最后形成字母和实际单词的线索。

下面这张图便是卢克向挑战赛提交的一个作品,隐约可以看到“ΠΟΡΦΥΡΑϹ”(porphyras)的单词形状,

当Seales教授和团队看到这张图的时候惊叹道:

尽管字母很模糊,但他们可以立即读出“porphyras”这个词。

这个单词在古代文献中也并不是很常见,但是也是经得起推敲,大概意思就是“紫色的”。

一位专家解释说:

序列πορφυ̣ρ̣ας̣ ,可能是πορφύ̣ρ̣ας̣(名词,紫色染料或紫色布)或πορφυ̣ρ̣ᾶς̣(形容词,紫色)

由于缺少上下文,也不排除是 πορφύ̣ρ̣α ς̣κ[ 或 πορφυ̣ρ̣ᾶ ς̣κ[ 。

值得注意的是,古代的单词和现代不同,那时候的文本没有空格,因此单词的边界确定起来也是比较困难。

最终挑战赛官方认为,卢克值得获得首字母奖;而他本人在得知这一消息的时候也非常激动:

另一位研究生也有相同的发现

无独有偶,在Casey和卢克的工作激励之下,另一位参赛者,来自柏林Egyptian biorobotics的研究生Youssef Nader,采用了不同的方法也得到了相同的结果。

他筛选了Kaggle上墨水检测奖的获奖作品,该奖项的重点是改进Stephen Parsons在分离片段中进行机器学习的方法。

在此基础上,他采用了域转移技术使这些模型适应古卷轴:对卷轴数据进行无监督预训练,然后对片段标签进行微调。

使用Kaggle竞赛的这个修改模型,他设法找到了一些字母,尽管完全不依赖于Casey手动寻找裂纹的方法。然后,他将看起来像字母形状的东西注释到标签数据中。

左:Youssef工作的最早的图像;右:他的第一组假设墨水标签。

在反复的优化之下,Youssef向官方提交的作品如下:

最终,Youssef获得了首字母奖的二等奖,10000美元。

专家们在看到Youssef的工作之后,更加确认了卢克发现的古卷轴中的文字。

他们甚至开始推测上面和下面的单词,可能是ανυοντα(实现)和ομοιων(类似)

而就在前几天,Youssef的模型产生了更为惊人的结果:

在这张图中,你可以清楚地看到四列半的文本,用一定的边距隔开。

尽管并非所有字母都能被专家们立即辨认出来,但起码可以看到更多的字母了。

官方表示,专家们正在做进一步的调研,很快将会有新的结果。

参考链接:
[1]https://scrollprize.org/firstletters

[2]https://news.ycombinator.com/item?id=37857417
[3]https://twitter.com/natfriedman/status/1712470683207532906
[4]https://caseyhandmer.wordpress.com/2023/08/05/reading-ancient-scrolls/

温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~


欢迎大家进入公众号页面,右上角点击“设为星标”点亮⭐️,收藏我们的公众号,新鲜内容第一时间奉上!


*文章观点仅供参考,不代表本机构立场。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
loom被收购对中国公司的启示|亮马桥小纪严选OpenAI造芯计划曝光!拟自研AI芯片,正在评估收购目标|亮马桥小纪严选查理·芒格去世,生前最后一次访谈坚持看好亚洲市场|亮马桥小纪独家分享一个弹丸小国,曾是欧洲最富的国家拍拍脑门就能打字,谷歌工程师“帽子键盘”圈粉无数,自己也能动手制作|亮马桥小纪严选世界级重大考古成果!我国首次在南海发现→火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!上身就是高级感,真香!北京大学考古文博学院2009级本科团支部学生投身考古事业——“勇做走在时代前面的奋进者、开拓者、奉献者”41岁Selina产子:情况危急,孩子令人心疼……分子胶发现人创办新公司,斩获5000万美元融资,正在理性设计「下一代」分子胶化合物1分钟诞生一个新GPT!3天内定制GPT大爆发,理想型男友、科研利器全网刷屏|亮马桥小纪严选泪洒三零一医院(北京看病难之)科研实习 | 新加坡科技研究局A*STAR招收CV/NLP研究实习生/AI科研实习生奥特曼带队入职微软!Ilya首次发声:我很后悔|亮马桥小纪严选一个人的咖啡人类对「AI灭绝论」的担忧,这一方法能解决吗?|亮马桥小纪严选首届AI摄影奖公布,获奖作品让我慌了 2 次|亮马桥小纪严选为追赶SpaceX,贝索斯的蓝色起源任命Alexa灵魂人物担任CEO北漂辞职去庙里工作,能解决内卷吗?|亮马桥小纪Hahaha假日午後的咖啡10年市场规模1.3万亿美元,「模力时代」已来|亮马桥小纪严选21岁SpaceX实习生用AI干出重大考古事件,斩获40000美元!重磅!纽约发钱!4000美元!8000美元!975美元!快看看你符合哪个!!!ChatGPT王炸升级!更强版GPT-4上线,API定价打骨折,发布现场掌声没停过|亮马桥小纪严选SpaceX去年营收46亿美元:亏损5.6亿美元 估值达1500亿美元51岁富豪投资7亿元延长生命:我要让10亿人活到200岁|亮马桥小纪严选火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!3折抢!真香突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选特斯拉新获400美元目标价,理由是“人工智能”仿虞美人-医药界反腐风暴日本经济“失去”三十年,为何这25家企业却成就非凡 |亮马桥小纪严选AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型|亮马桥小纪严选求职秘籍|如何决战暑期实习,斩获Return Offer!41岁Selina官宣产子:情况危急,孩子令人心疼。。。世界级重大考古发现!我国深海考古最新成果→
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。