Redian新闻
>
一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣

一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣

公众号新闻



  新智元报道  

来源:学术头条
编辑:好困
【新智元导读】最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比MTurk便宜20倍。

当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。

例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。

而且,无论这些任务使用什么具体方法(监督、半监督或无监督),都需要标注好的数据来建立一个训练集或黄金标准。

然而,在大多数情况下,要完成高质量的数据标注(data annotation)工作,依然离不开数据标注平台上的众包工作者或诸如研究助理等训练有素的标注者来手动进行。

通常情况下,训练有素的标注者先创建一个相对较小的黄金标准数据集,然后雇用众包工作者来增加标注数据的数量,进行重复性工作。根据规模大小和复杂程度,数据标注任务有时会非常费时费力,不仅需要花费一定的人力成本,而且也不能保证数据标注的质量。

那么,能否让机器帮助人类完成这一基础任务呢?

在以往的认知中,机器并不擅长这类「慢工出细活」的任务,但出乎意料的是,「数据标注」这件事已经让 ChatGPT 完成了,而且比大多数人做得还更好。

在一项今天发表的新研究中,来自苏黎世大学的研究团队使用由 2382 条推文组成的样本,证明了 ChatGPT 在相关性、主题和框架检测等标多个注任务上优于众包工作者。
相关研究论文以「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」为题,已发表在预印本网站 arXiv 上。
具体来说,ChatGPT 在五项任务的四项中的零样本(zero-shot)准确率超过了众包工作者;在所有任务中表现出的编码者间一致性(intercoder agreement)方面,ChatGPT 不仅超过了众包工作者,也同样超过了训练有素的标注者。
ChatGPT 零样本文本数据标注表现
值得一提的是,ChatGPT 的每个标注成本只有不到 0.003 美元,而比数据标注平台便宜约 20 倍。
研究团队认为,虽然需要进一步的研究来更好地了解 ChatGPT 和其他 LLMs 在更广泛的背景下的表现,但该研究结果表明,它们有可能改变研究人员进行数据注释的方式,极大地提高文本分类的效率,并破坏数据标注平台的部分商业模式。
至少,从目前来看,这些发现表明了更深入地研究 LLMs 的文本标注特性和能力的重要性。
未来,研究团队将在 ChatGPT 在多种语言中的表现、ChatGPT 在多种类型的文本(社会媒体、新闻媒体、立法、演讲等)中的表现、使用思维链(CoT)提示和其他策略来提高零样本推理的性能等方面继续努力。
值得一提的是,研究团队在进行这项工作时,OpenAI 还没有发布 GPT-4,如果让 GPT-4 来完成数据标注任务,又会是怎样的结果呢?
参考资料:
https://arxiv.org/abs/2303.15056





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
骗子都没有好下场引爆全网!ChatGPT让家长学校都陷入恐慌!未来10年还剩多少工作给这一代孩子?紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布新年好意头 【福州芋泥】OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词能做律师出庭辩护,还可能颠覆教育、金融、新闻媒体!ChatGPT让科技巨头“慌了”,谷歌创始人亲自下场改代码人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|36氪首发ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准AI教父称人工智能正变得比人类更聪明,苹果谷歌起草追踪设备规范,微软将推私有版ChatGPT,这就是今天的其他大新闻。薄如蝉翼的美味突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?文革中毛泽东为什么不杀邓小平65岁知名浙商突发心脏病去世;ChatGPT被曝曾雇佣数据标注“血汗工厂”;华为再次回应:不造车丨邦早报5天注册用户超100万,ChatGPT让谷歌百度坐不住了一段JavaScript让ChatGPT开口说话?网友开源自制浏览器插件投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?|数智前瞻ChatGPT标注数据比人类便宜20倍,80%任务上占优势 | 苏黎世大学赢利引爆全网!ChatGPT让家长和学校都陷入恐慌!未来10年还剩多少工作给这一代孩子?ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界GPT- 4 标注能力直逼人类,成本大砍90%,数据众包危矣?打败鹤岗,成为最便宜城市​:10万元买8套房!最便宜2000元一套,却有无数人逃离​ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!千亿ChatGPT的狂欢和月薪3K的数据标注员ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事Scale AI:大模型还需要数据标注吗?「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|早起看早期我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。