Redian新闻
>
字节技术大牛跑步进入AIGC创业,聚焦视觉领域,搭建算法平台,还是多模态的那种

字节技术大牛跑步进入AIGC创业,聚焦视觉领域,搭建算法平台,还是多模态的那种

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

3月最后一天,王长虎在龙湖集团的last day。

这位字节跳动前视觉技术负责人、AI Lab总监辞职挂印,火速启程下一站:AIGC创业,成立新公司爱诗科技

他拉团队自起炉灶,要打造一个聚焦AIGC的视觉多模态算法平台 ,覆盖视觉相关的各种垂直应用场景。

当此大热的AIGC风口,王长虎已经是近期第N位勇闯创业潮的AI牛人

聊起这事,王长虎说话间不自觉就提高了声音,语速也更快。他提到,创业是受时代和内心的双重感召,而且在风口和经历背书的双重加持下,目前看来,早期的融资推进颇为顺畅。

关于创业要干的事,他信心饱满:

技术难点?一定有,但也是好事,它就是我们不断形成竞争壁垒的机会,就是这时候需要我们去做的。

而且我们真的是打过硬仗的,之前在字节,那么难的事情都被我们扛过去了。所以在新的应用场景里边看到难点,蛮兴奋,看到了,就去解决它。

(“那么难的事情”,指对字节系短视频产品从0-1进行建设)

支持AIGC全生命周期的视觉多模态算法平台

在ChatGPT引爆的AIGC创业风潮后,王长虎的切入点不是底层大模型或To C应用层。

而是基于过去近20年的学术研究和技术应用能力,杀入中间层,打造视觉多模态算法平台,将焦点聚集在AIGC相关视觉领域的各个垂直应用场景。

并且在初始阶段,To B先落地践行。

所包含的多模态具体样式,根据视觉垂类领域应用的需求,初步设定为文字、图片、语音、视频,以及用户的个性化特征等,也是AIGC领域不断涌现新能力和产品的载体。

根据王长虎的解释,利用AI,可以完成从UGC到AIGC的内容新升级。

“很多人关注AIGC,更多关注在内容生成方面。”从王长虎视角看过去,内容生成只是AIGC全生命周期的一个阶段,“其余阶段也有很多问题等待去解决。”

“很多问题”是哪些问题?

他结合此前经历,举例了两个UGC时代代表性场景来佐证他所说的内容生成之外,AIGC时代生产链的其他环节很大可能会遇到相同难题。

一个是在日活6亿,正负样本极不均衡的抖音或TikTok平台上,根据不同文化背景、具体要求等,必须要筛选出不合规的视频进行拦截,且需精准快速。

AIGC时代,这样确保安全的审核同样重要,且审核需求量更大。视觉多模态算法平台提供的算法,就包含了能够帮助使用方提高筛选和拦截效率的那种,并且很有可能如当初的字节一般,在王长虎提供的技术支持下代替成本高昂的人工审核,同时提升效率。

另一个场景是抄袭频发。AIGC时代,创作门槛降低,作品数量爆发,抄袭现象和版权纠纷大概率显著上升。

UGC时代已经验证过,长此以往,不仅打击原创者的创作意愿,对平台生态不利;而内容雷同或完全相同的视频持续推荐,用户体验也会大打折扣。

针对这个场景,王长虎要做的平台,就能为用户侧提供减少类似或雷同视频分发的AI算法

他还表示,这个聚焦AIGC的算法平台搭建过程中,很大可能会利用AIGC技术提升效率。

上述所有都是王长虎的现阶段思考,他才正式离职,刚刚开始筹备新公司事宜,新公司名为爱诗科技

粮草先行,目前组建了10余人的初始团队,也在招募核心技术和产品人才,为真正踩下出发的油门蓄力。

梳理他言语间透露出的规划,能嗅到关于创业项目的信息点:

搭建这样一个视觉多模态算法平台,能够支持AIGC新内容,帮用户解决内容生成、安全、版权、分发、商业化等几乎全生命周期的各项问题。

新的AI浪潮到来,王长虎身处其间,感知到变化,并打算在新事业从善如流地用上旧经验,包括但不限于GPU集群能力、服务调度能力、自动化模型训练能力,推断能力等。

经验不会凭空出现,既有功力的来源,主要可以定位回他在字节跳动任职期间

2017年,王长虎加入字节跳动。那时候人们对字节的感知,通过今日头条远大于通过抖音。王长虎加入之初,就是在字节内部创业般,从0到1深度参与建设短视频类产品

此次To B和To C层面可能遭遇的各种问题,如降本增效、版权厘清、用户体验等,王长虎都在那时以技术或实现或改善或解决。

再一次“从0到1建设技术平台和产品”,王长虎表示,上述经验都可以一以贯之应用在此次AIGC创业。

与AIGC缘起20年前的本科研究

新公司还在襁褓,王长虎不愿过多详谈,他更愿意谈论的是此前的技术经验,当然也包括“技术底色上滋养出的AI情结”。

这要从王长虎还是中国科学技术大学6系(电子工程与信息科学系)大四学生时聊起。

那是2004年,他做了人生首个研究,即根据一张或多张人脸图片,生成该人脸的3D模型。此研究后来发表到国际会议上。

他不无兴奋地说:

回看20年前,我此生做的第一个研究,就和AIGC有关。

同年,王长虎进入MSRA实习,中科大博士毕业后转为正式员工,直到2017年离开。

13年间的工作内容也与AIGC有千丝万缕的联系,他所在团队研究的“神笔马良”草图搜索技术,可以基于海量图像数据建立搜索引擎。

当然,那时候生成式技术没有成熟,业界对大规模数据的训练和处理经验也远不如今日丰富,所以整个过程是在海量数据库中寻找和草图最匹配的那一张。

回忆此处,王长虎的语气中多少带了些感慨,因为现在的范式也是基于海量数据去训练一个模型,然后根据用户输入的文字或图像信息,生成一张最匹配prompt的图片。

草图搜索技术示例

都说十年磨一剑,但在微软实习和工作13年后,王长虎毅然奔赴字节跳动,选择的还是当时并非招牌的视频类产品。

为什么去字节?毕竟王长虎自己也承认,在微软可以做世界上最顶尖前沿的科学研究。

但在微软,科研项目应用到公司产品需要的周期特别长。

他举例分享,自己二零零几年做的工作,若干年后才真正应用在必应搜索引擎,新技术很难在第一时间影响用户。

但这一点在字节可以实现,再加上加入字节时,恰巧是短视频类产品筚路蓝缕打根基的时候——这也是字节AI Lab与其他大厂AI Lab的区别所在,即并非在产品成熟后才建立AI部门,也因此,王长虎有机会在产品0到1发展历程中扮演核心角色。

公开资料显示,字节跳动人工智能实验室(AI Lab)的成立使命,就是推动机器智能的极限,致力于将AI理论研究快速应用于产品部署。

现在翻看王长虎公开简历,字节任职期间,留下的足迹如下:

  • 完整参与了抖音和TikTok等短视频类产品从0到1的建设和发展;

  • 建设了视觉技术和业务中台,带领团队将相关技术广泛应用到字节跳动全线产品中;

  • 为集团各产品提供AI技术支撑和业务解决方案,覆盖了视觉相关产品内容生产与消费的全流程

期间,他搭建的数百人团队,不仅有技术人员,还包含了产品同学。如果把微软看成王长虎的技术练兵地,王长虎就把字节和龙湖的经历,看成是对他技术和产品两方面认知的锻炼。

王长虎

和从字节去龙湖的原因一样,选择加入AI 2.0创业大潮,他的理由是“跳出舒适区”

当然,这一次的催动因素更复杂,譬如ChatGPT和Stable Diffusion的惊艳表现,以及自己从DL热潮走来,对又一次“翻天覆地变化”的不容错过。

他说,这个机会更大,不像元宇宙、区块链是被一部分人看到,AIGC是多数普通人能看到和感受到的。言语间,王长虎又传递出自己对“新技术快速影响用户”的看重

如今离职创业,他又有机会身体力行地这样做了。

参考链接:
[1]《草图搜索的魅力与挑战》
https://blog.sina.com.cn/s/blog_4caedc7a0102en29.html

— 联系作者 —

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「未来盒子」获千万级天使轮融资,搭建数字化快装产业互联网平台|36氪首发CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作跑步进场微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出上海评出10位青年科技创业先锋,聚焦哪些领域?顶流公募曝光"五年计划"!打造"财富乐高",搭建多资产全能投资平台...中国AIGC创新,一场“逆互联网”式创业访谈实录•对话AIGC创业家•Jina AI 肖涵博士 | 国海“AI+”战队北京/上海内推 | 小红书社区搜索组招聘多模态算法工程师/实习生达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力金韵琴:我与姐夫茅盾晚年闲聊的私人记录​贝果学堂 | AIGC 进入动画领域,改变了什么?招聘 | 内推-粤港澳大湾区数字经济研究院-NLP/多模态算法实习生-深圳影视业仍在观望时,后期和动画公司已跑步进入AIGC时代?AIGC创投现状:激情与焦虑同行 | 圆桌论坛@中国AIGC产业峰会大牛动态:阿里达摩院认知智能大牛跳槽字节:加入AI Lab汇报副总裁杨震原硬核观察 #937 微软称多模态的 GPT-4 将在下周发布华为前高管视光数字疗法领域创业,搭建视光训练版“iOS”系统,探索VR垂直领域应用更多可能多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构也谈善良北京/上海内推 | 字节跳动平台治理算法团队招聘NLP大模型/多模态算法实习生赵汀阳:我们认识中国,为什么总走不出西方的框架?杭州内推 | 之江实验室招聘多模态算法实习生硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战「AI专家」贾斯汀·卡塞尔:语言模型更像“鹦鹉学舌”,下一步人工智能浪潮是多模态AI猫团儿这地推出婚改app!设全市未婚男女数据库,搭建官方相亲平台为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT牛回速归?投资者跑步进场,2月份新增近170万,创1年新高!又一只大牛股!市值赶超茅台,股价大涨50%!这家公司问鼎A股第一!一个新的时代到来,李大霄:一场轰轰烈烈的大牛市或开始了…AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练又到吃春饼吞元宵的日子了AV夜话#7 黄斌:聊聊AIGC创业中国AIGC创投现状:稀缺项目分分钟独角兽,能做大模型500万年薪,还有创业公司成了OpenAI炮灰
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。