Redian新闻
>
数据标注本质是高级搬砖,我们还不如工厂|专访飞火

数据标注本质是高级搬砖,我们还不如工厂|专访飞火

科技
近年来,数据标注行业经历了巨大的变革和挑战。娱乐资本论·视智未来采访了数据标注公司飞火大数据的CEO丁一峻,他分享了自己的创业历程、公司现状和对行业的洞察等。
从中我们可以感受到这个行业在繁华背后所面临的困境、竞争以及未来的方向。从做阿里的数据外包到转型做百度的业务,再到如今的数据采集车项目,丁一峻带我们走进数据标注行业的内部世界,一探行业的现状与前景。
飞火大数据公司成立于2019年,专注于AI感知数据采集和标注业务,主要做自动驾驶汽车、数据采集等业务。

 ---以下为采访实录--- 


关于公司:
视智未来:你最开始做数据标注公司的原因是?
飞火大数据CEO丁一峻(下同):
2018年我做阿里的数据外包业务,觉得利润可观,开始创业。早年百度开发过面向C端的标注平台,后来发现与其组建部门管理C端不如直接外包和团队合作,性价比更高,2019年我开始做百度的业务。

2019年做百度某数据标注业务项目截图

视智未来:您公司现在多少人?
高峰时有两三百人,现在公司只有40多位员工,老客户的需求还在,能维持正常运营,但这种单子很鸡肋,一个月几百几千跟办公室采购差不多,利润太低,项目体量也不稳定。数据行业缺乏像苹果、特斯拉一样需求稳定的工厂。不然我也不想裁人,有活还需要找外包,之前想过和学校还有监狱合作,但学校要考虑领导、辅导员各种利益分配,监狱对网络要求高,不如找全职。
视智未来:你们现在数据标注员的工资基本是?
基础的标注员往往都是属于地方上的最低工资标准,三线城市两三千左右,质检员和项目经理,能到七千左右。
视智未来:现在和2020年相比衰落了吗?
对我们来讲还好,也在开发培训工具,很多业务会外包,员工经验多了会转型做项目经理。
为了提高效率,我们开发了工具,之前2D拉框要8分一个,现在降到了5、6分,操作更便捷。质量上,如果客户不想要目标物低于某像素值的,工具直接调数值,标注员就不用标了。
但是这种工具标注公司基本只能自用,同行有能力买的,自己有开发的实力。没开发实力的,出不起这个钱。工具都是基于labelme的底层逻辑。早几年能打个信息差,卖平台赚点钱,现在不行了,大家都知道套路,直接上源码加个UI就成产品了。
现在甲方公司更愿意买。因为甲方公司没有工具的话,数据外包的安全性流程会比较乱,被拷贝、转走也不好管理。
视智未来:你们之前是做自动驾驶吗?
前两年做自动驾驶的公司好融资,这类订单多,今年AIGC 文本更火,这块订单多了。我们除了小语种没别的特色,跟着市场走。
视智未来:GPT 爆火之后,对你们公司的影响大吗?
文本类的零碎订单增多,很多公司会用大模型提炼数据,或者直接AI标注,甲方外包数据减少预算卡在了两三万。这样的订单增多,对我们小公司来讲意义不大,单价低,又需要投入太多的精力,跟收益不成正比。
视智未来:你们做的事,还挺用 AI来替代自己工作的。
对,我们做的就是一个自我淘汰的行业。这个行业最终可能会只剩质检员。
视智未来:你们的客户订单是私有的数据吗?还是公网数据?
之前我们做一家证券公司的数据标注,刚好有一位标注员,是这家证券公司的用户,他发现用了他的数据,提出了抗议。后来私下花钱和解了。谁采集数据,出了问题谁负责,所以一般我们也不会过问数据来源情况。
现在我们拓展业务,做了数据采集车,才关注到数据知识产权、数据安全这些事。
视智未来:你们一般采集哪类信息?
早年种类多样,比如人脸声音,现在都属于敏感信息了。现在就和合作单位做路采。
视智未来:人脸采集一般应用在哪里?         
银行APP、高铁闸机,主播专用相机的人脸自动修复功能等。

关于行业:         
视智未来:你觉得数据行业以后会怎么发展?
分两块,一个是行业本身的科技发展,一些简单的数据处理会被机器所替代。数据公司做小众的、有特色的领域。另一块是看政策,比如数据像期货一样进行交易,会诞生很多数据生产商,而不是靠接订单生存。这时候大家比的才不是资源,而是技术。
视智未来:目前数据行业接单主要看的是什么?
现在价格内卷的太厉害,主要看关系还有团队管理。
视智未来:你怎么看待国内的AIGC数据合成情况呢?        
AIGC合成数据需要看政策,现在是灰色地带,好不好获取,就看胆子大不大了。谁也不知道未来会不会出爆款,有比拟真实数据的内容出现。
视智未来:你觉得数据标注行业像富士康工厂吗?
数据标注本质是高级搬砖,我们不如工厂,AI的产品线不像工厂那么完善,缺乏法律和社会面的支持,比如版权、数据安全。
视智未来:你了解到国内哪个城市在数据标注上走的靠前吗?
深圳和上海比较靠前,贵阳在打造数据存储之地,应该是因为贵阳那边山多电费相对便宜些。
视智未来:你们接下来的业务方向是?
公司搬到了工业配套更完善的苏州,在做数据采集车、数据回灌的生意。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
周末随笔我们有3亿道题,至少60家大模型要买|专访景联文周彬:教育的本质是育人,而不是教书独家专访侯毅:和山姆、Costco比,我们还是小学生日新100的数据标注有未来吗?闲聊丨A股的本质是承担政府职能,所以你当然赚不到钱ChatGPT时代,数据标注员还在搬砖|焦点分析方厚彬 | 创新能力差异的本质是教育寻找AIGC数据标注TOP玩家!中国AIGC数据标注全景报告案例征集启动数据标注“流水线”里,藏着大模型的秘密八方面分析美国金融渗透与中国房地产出路!许家印事件的本质是什么?“感激华社贡献,鼓励年轻人参政!”专访新西兰副总理:“NZ经济更好了,我们还没有出局”!许家印事件的本质是什么?美国金融渗透与中国房地产出路!富养的王诗龄&吊打985 硕士的海淀小学生:教育的本质是拼爹?毛利率高达60%!智能驾驶降本「博弈」数据标注/训练服务计划经济的本质是崇拜权力的力量,大数据难以弥补其根本缺陷大厂政治学:考勤的本质是一种管理手段《呼啸山庄》重译09BAIGC的数据标注订单雷声大雨点小,大模型不好用正常|专访汇众天智GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7小心毒草Helmlock(毒芹)实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦AI数据标注迈入自动化时代,26年老兵掘金全球智能汽车市场当前世界竞争的本质是什么?有些东西如果不品尝就很难解释前华为天才少年 6 个月造出「钢铁侠」:内置大模型,能进厂搬砖,目标成本 20 万尹烨:生命时代解决的是我们和基因的关系,它的本质是永不过剩珍珠塔的回响数学家孜孜以求的数学证明本质是一种社会契约,为什么这么说?数据标注员,困在大模型里|深氪Lite许家印事件的本质是什么?八方面分析美国金融渗透与中国房地产出路!管理这件事上,我们还是高估了自己的能力中国LoRa产业链企业已超3000家,我们对未来保持乐观|专访Semtech汪峰章子怡离婚:婚姻的本质是什么?数据标注员,困在大模型里
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。