34年换5个技术方向, 金山办公不想停止“折腾” | 卓越技术团队访谈录
在国产办公软件发展史上,WPS 是公认的“鼻祖”。诞生于 1989 年的 WPS,如今已经走过了 30 多个年头。放眼现在,也是为数不多的生命力如此持久的 IT 软件。
1988 年 5 月,后来被盛赞为“中国第一程序员”的求伯君把自己关在深圳蔡屋围酒店的 501 房间,用一台 386 电脑天天敲代码,饿了就吃方便面,困了倒头就睡。“闭关”一年零四个月,他用汇编语言写下了 12 万 2 千行代码,WPS 1.0 版本从此诞生。
当时,电脑刚进入中国,中文办公软件奇缺,这也正是 WPS 瞄准的机会。WPS 1.0 推出后便很快占领了中文文字处理软件领域 90% 以上的市场份额,销售额达到了 6600 万元。曾经一度,WPS 几乎成了电脑的代名词,成为 PC 时代的闪耀新星。
1992 年,雷军受求伯君之邀加入金山,两个意气风发的年轻人立志让中国人都用上金山的办公软件。
然而,WPS 很快迎来了一个强大的对手。1995 年,微软进入中国市场,微软 Office 来势凶猛,在 WPS 的地盘攻城略地。为了迎战,在 WPS 的基础上,金山花 3 年时间研发出了「盘古组件」,不料这款承载着求伯君和雷军“开天辟地”梦想的产品却遭遇滞销。
在不速之客微软与横行的国内盗版软件双重夹击之下, 那几年,金山进入了低谷期。200 多人的公司,只剩下 20 多人。为维持公司运转,求伯君卖掉了此前投资人奖给他的别墅,筹得了 200 万。
为扭转局面,金山决定从头再来。2002 年 8 月,雷军提议花 3 年时间和金山账上仅有的 3500 万人民币重写 WPS。这显然不是一个简单的决定,此前 14 年的技术积累从此将放弃,无异于“自废武功”,而且前途未卜。
但也必须绝地求生。100 多位工程师将以往运行了 14 年的架构全部推翻,在重写了 500 多万行代码,重建了 100 多个版本后,金山 2005 年推出的 WPS 2005 实现了与 Office 深度兼容。而且,这次特别将 WPS 2005 压缩到了不足 20 兆的超小体积,还将个人版免费开放给个人用户,这些主动拥抱互联网时代的特性让 WPS 2005 改变了 Office 的市场格局。
2010 年,移动互联网的大幕徐徐拉开。金山觉得,弯道超车的机会要来了,便几乎投入了所有资源将重心转向移动端业务。2011 年,金山办公正式推出了移动端的 WPS。前金山办公董事长葛珂曾表示,拥抱变化,而非躺在过去的功劳簿上等待被淘汰,希望 WPS 能在移动时代实现“为移动而生”。根据金山办公 2012 年 12 月发布的数据,移动版 WPS 累积用户数已达 3000 万,到 2012 年第三季度末,WPS 移动版连续 4 个季度的复合增长率超过了 176%,日新增用户达 19.5 万,约占全球安卓系统每日新增设备的 14.8%。
移动互联网浪潮之下,衍生出了大量新的需求,例如多屏、多设备。传统的人坐在电脑前操作办公文档的形式将不再单一。用户希望文档能在多设备间流转,多屏和多设备间的文件存储需求也不断增加。这样一来,云的诉求越来越强烈,通过云文档的方式完成设备间的流转将是新的解决方案。
于是,2018 年,金山办公提出了“多屏、内容、云、AI”推动业务转型。“多屏”是指不局限于 PC 设备,同时覆盖移动端,如 Pad、移动手机、Web 等;“内容”指将 WPS 传统的工具属性变成服务属性,提供内容服务。“云”指利用云存储技术,将原来 office 传统的单机离线应用变成在线应用,基于云存储。“AI”是指通过 AI 能力开发创新性功能,AI 辅助办公以提高办公效率。
2020 年,金山办公加注“协作”,计划从用户需求出发,从提升用户办公效率出发,为用户提供更多协作产品。金山办公 CEO 章庆元认为,2020 年是协作办公的元年。在线办公正在迈入协作办公时代。
回顾过去这 34 年来,金山办公经历了 PC 时代,互联网时代,移动互联网时代,云与 AI 时代,协作时代,几经沉浮,历经各时代变迁。结合时代以及客观环境的发展变化顺势而为,且坚持技术立业,已然是刻在金山骨子里的基因,这也正是 WPS 30 多年来穿越 5 个时代仍然是办公软件常青树的秘诀。
金山办公的进化之路,同样也是办公软件跟随时代的技术变化之路。
近日,金山办公高级副总裁庄湧在接受 InfoQ 采访时表示,办公软件正在往移动化、云化和智能化的方向发展。再加上这几年疫情所带来的远程办公的趋势,进一步坚定了云服务、云文档、智能文档的诉求和实际应用场景。
本部分着重以 AI 技术在金山办公的技术创新与应用实践为例,展现这家老牌办公软件在智能化时代的蝶变。
2017 年,AI 在金山办公内部被首次上升到战略地位,这一决策也顺应了当时 AI 的发展趋势。
2016 年,AlphaGo 大战李世石,掀起了 AI 领域的又一轮热潮,与 3 年前深度神经网络所引领的学术界热潮相比,这一次热潮令工业界开始重新重视起 AI。一些应用工程的大型开源项目开始出现,工业界的开源框架陆续开源,英伟达的 GPU 算力支持在 17 年左右慢慢成熟,这让 AI 在实际应用上变得更加可行。
全球范围内做应用开发的企业开始逐步投入 AI 领域的算法工程研发。在感受到上述形势的变化后,作为一家以应用开发为主的企业,金山办公也开始有了一些新的动作。
2017 年 5 月,告别金山十余年的老将姚冬重回老东家,担任金山办公副总裁。姚冬自 1998 年加入金山,此前曾负责过金山词霸、金山游侠等产品。此番重回金山,姚冬转型做 AI 方向的算法和工程产品,负责算法改进、推动工程落地、人才梯队建设工作。
姚冬牵头组建了金山办公的 AI 算法、工程和产品团队。目前,金山办公的 AI 团队约有百人规模,划分为基础设施、平台、产品和应用、基础算法等小组。
当时站在风口浪尖的 AI 创业团队多数是学术背景出身,姚冬则决定从工程思维出发组班子。“我在起步阶段的想法是,如何将工程研发体系建立起来,怎么做出一些产品和功能,让 AI 能在工程上落地”。一直到现在,在 AI 团队内部,算法和工程并不泾渭分明,姚冬更加注重培养工程师的全栈能力。
成立 5 年来,AI 团队在每一阶段侧重不同的目标,分“三步走”战略。前两年,团队更强调积累 AI 研发能力,包括算法能力,工程能力,数据采集,数据分析能力等。后两年更注重将技术产品化,关注 AI 产品能力。
姚冬表示,现阶段以及未来几年,AI 团队将把重心放到第三步——产品业务化上,只有将产品变成业务,对用户及公司产生价值,创造营收和利润,才能实现长期可持续发展。
人类在办公领域所进行的智力活动分为两部分,一是创造力的部分,比如写文章、编故事、构建文档、表格。非创造力的部分不需要创意,但也需要进行一些智力操作,如文章排版、文字转图片、多语言互译等。
创造性活动是人类特有的,今天的 AI 还无法完全替代那些创造力的部分。而在非创造力的部分,尤其是一些需要重复性工作的部分,如机器翻译、自动会议纪要、自动排版等,AI 可以帮助人们大幅提高办公效率。
庄湧介绍,AI 在办公领域的应用主要体现在三项技术上,CV(计算机视觉)领域的图像识别,自然语言处理(NLP)、语音处理。
具体而言,在 CV 领域,金山办公结合办公场景做了很多智能化的应用,最有代表性的是在版式转流式的应用场景上,以前在 PC 时代,拍照扫描功能算不上 office 领域的功能,但在移动时代,已变成了常用功能,金山办公已在这方面做得比较成熟,且优势突出,例如在识别后的格式复原就是一项已在业内做到领先的功能。
与单纯的功能开发不同,NLP 技术需要结合办公及文档的场景深入使用,引导用户来帮助提升算法,以提升 AI 的准确度。庄湧表示,在 NLP 方面,金山办公自身积累了很多对办公用户有用的数据,这是其他厂商所不可比拟的。
现在,WPS 还衍生出了智能辅助写作功能,只要根据提纲就能自动生成文字段落,帮用户打底稿。
这些技术能力都由一个统一的 AI 中台对外输出。目前,金山办公 AI 中台面向计算机视觉、自然语言处理、语音处理等算法研究方向,围绕办公领域,开发出了近 100 项 AI 能力。
作为 AI 中台的负责人,姚冬在采访时表示,最近几年,中台十分火热,但它并不是适合所有公司的灵丹妙药。他认为,像办公软件这样生命较长且规模较大的软件项目,非常适合构建一个中台部门进行长期持续的技术投入。
金山办公 AI 中台的构建过程是一个自我迭代的过程。2017 年,在起步阶段,AI 中台仅有几个算法工程师负责搭建,随后几年间,随着新场景、新需求、业界新技术的探索,一点点自我成长。待自有算法平台成熟后,再向业务部门以及对外做输出和推广。
现在,WPS 的 AI 中台能力已逐步对外开放。去年 7 月,金山办公宣布开源业界首个面向办公领域的深度学习框架 KSAI-lite。这套框架具有免费、开源、跨端的特性,自适应国内外主流软硬件平台,包括国产信创环境,在 OCR(光学字符识别)、机器翻译、智能校对等场景具有显著优势。
这套框架的一个特色功能在于能够离线做 AI 计算。姚冬介绍,面向办公领域的框架与其他通用的框架不同,并非所有的 AI 计算都在服务端进行,有些计算一定要在客户端完成。这主要出于几个原因,一是用户数据需要保密,不能上传,必须在用户的电脑上处理,甚至有的客户不联网或在内网,必须在客户端完成计算。还有的计算要求算法执行快且实时,如果上传到服务器再返回,时间就过长了。因此,可以离线做 AI 计算的框架就格外重要,无需依赖服务器,在断网的情况下,单机、手机或 PC 上都能使用。而且,这段框架一定要跨平台,跨多个设备,不必为每一个移动设备或 PC 设备单独开发一套。
去年在开放框架的同时,金山办公 AI 团队还开放出了一些内部模型,如 KSAI OCR 开源模型。姚冬表示,团队后续还有计划开放更多模型,如校对、翻译模型,先在内部落地,在应用迭代成熟后再对外开放。
金山办公技术副总监、CV 团队负责人熊龙飞自 2018 年加入金山办公,他向 InfoQ 介绍,CV 部门专注于 WPS 内的 CV 相关的需求,聚焦于 CV 算法和技术,从模型的研究到算法落地均有涉及,注重服务和功能的落地。目前已陆续落地了大大小小二十来个项目,其中包含 OCR 文字识别、文档矫正、字体识别、智能抠图、图像质量提升等已经在 WPS 上线了两三年的功能。
版式还原系统是 CV 团队最近两年最聚焦的项目。这套系统可以将复杂的图片型文档重新解析成可编辑的文档,例如将扫描件 PDF 转化成 docx,将截图或拍摄的表格图片转化成 xlsx 或 HTML。其中表格还原除了可还原常规表格,还可以处理变形、污染、光线干扰的复杂场景,解决了用户在很多场景下对不可编辑文档进行再编辑的痛点。
这套技术之所以被称为系统,是因为它不仅可以用于上述的文档转化,也可以用于扫描件 PDF 编辑和扫描件 PDF 及图片内文字的提取、复制和检索,可以大大提高技术能力在各类需求下的复用性。
版式还原是姚冬坚持拍板要做的一个功能。已有的 PDF 转化业务用户满意度不高,姚冬认为,这个问题长久来看,必须解决。而且,这项技术自研可以产生巨大价值,值得投入。综合来看,基于金山办公的庞大用户基础和数据积累以及在文档处理领域 30 多年的技术积累,WPS 是国内最适合做这个项目的公司。目前,测试和线上灰度数据显示,这项已经开发 2 年多的系统在行业内已处于领先位置。
近年来,CV 团队取得的其他创新成果还有:2019 年,金山办公将 OCR 模型在移动端本地实现推理,且模型体积不足 10M,准确度仅比服务端下落 2 个百分点。当时,行业里做这个功能的还是凤毛麟角。同年,WPS 上线了移动端拍摄对书本进行弯曲矫正的能力,到目前为止还未能有超越者。
据熊龙飞透露,自去年以来,CV 团队正在推进多个项目,希望进一步解决用户在文档处理领域遇到的其他痛点。例如,以往,扫描件 PDF 编辑是一个老大难的问题,尽管行业翘楚 Adobe Acrobat 等公司已经推出了扫描件编辑,但是效果和体验一直无法达到用户预期。金山办公 CV 团队正在研发的扫描件 PDF 编辑 v2 版抛弃了行业内通用的成熟方案,将通过团队自己构建的方案进行可编辑处理,预计这项功能会给用户带来明显的体验提升。
视觉信息抽取(VIE)是最近一年来业内的一项热门新技术。它可以将 CV 和 NLP 两种模态结合起来对文档进行识别和解析,可以获得更高层次的信息抽取。
“常规的 OCR 和版式还原有些类似人类阅读那样去识别介质上的文字和排版,这类能力被称为感知智能,而如果想像人那样在阅读时能联想信息的关系和信息的扩展,则需要加入理解能力,可以获得文字之外的更高维度的信息,这个过程被称为认知智能。从感知智能到认知智能将会是一个大跨步,将会带来更高维度的文档内容理解的收益,这些收益将会给用户带来更多智能化的体验”,熊龙飞表示,目前金山的 AI 能力正在这一领域进行技术研究和产品化落地。“在未来,大家会发现 WPS 里的 AI 功能会越来越像一个人性化的助手,它帮助用户利用文档里的信息提高办公效率。
谈到 AI 在办公领域的应用趋势以及核心竞争力,姚冬认为,随着业界和学界不断地研发出一些新的算法,以及开源盛行,算力的提升和普及,未来 AI 技术的门槛将会降低。这也就意味着,各家在算法能力上的差别将不会很大。
那么,未来的差别来自哪里?姚冬认为,主要来自于对用户场景的挖掘。未来,谁有更多的用户场景,谁就拥有了“护城河”。
凭借过去 30 多年的技术积累,WPS 在上述方面已逐渐形成了核心优势。WPS 的用户量级非常之大,且用户场景具备多样性,复杂度也高。即便是一个小众场景,也有几百万用户,这将构筑起 WPS 在办公领域的壁垒。
从 PC 时代到云与 AI 时代,跨越如此长的时间维度,每一次大的转型对于技术团队来说,都是不小的考验。
“有时候,当时代的发展趋势以及场景的变化来临时,产研需要敏锐地把握住。但有时候跟进得太早,也会出现一些超前带来的问题。反而,如果一直都挺努力,即便表现平平,也会产生事半功倍的效果”,庄湧表示,如何把握这种应变之道并不容易。
金山办公也走过一些弯路。比如,金山办公很早就抓住了从工具到服务转变的契机,开始做云文档。但因为做得太早,当时网络条件还不算成熟,加上账号便利性不够,移动端还没起来时多设备的诉求还不高,技术转型面临较多外部掣肘因素。
随着云转型后,WPS 的登录用户越来越多,云文档的稳定性和安全性也经受了挑战。一方面,需要为用户提供 7×24 小时无间断地服务。但真正做得不出任何问题,是不可能的。这时候的应对思路就是,一旦出现问题,应最大程度上降低受影响的用户比例以及影响深度。为此,金山办公团队花了很长的时间来建设云文档的稳定性和安全性,在团队组织架构上也发生了很大的转变。
无论是 windows 还是移动时代,程序员的比例和研发经验都以客户端为主,客户端研发更多是从崩溃的角度看稳定性,而服务端角度要确保 7×24 小时无间断地不能有服务异常。在开始往云与 AI 转型后,研发人员尤其是服务端研发人员的比例和经验远远不够,需要不断成长不断积累,在这期间,也会短暂地出现因经验不足造成的一些问题。
如今公司的研发力量一半来自于云,服务端的研发力量比例显著提升,在 C++ 之外,Java、Go 等研发人员增加,数据库、缓存、容器、存储等都有了专门的工程师,复合型人才增加,技术栈变得更加多样,服务端经验也在不断迭代和摸爬滚打中积累下来。
得失并存,更多的是在变化中成长。“在探路过程中,我们学会了耐心。团队也越来越认同各个方向的转向,未来,对云、AI 等技术,我们会继续持之以恒地投入”,庄湧说道。
然而不变的是,金山办公一直以来,崇尚技术的文化氛围。“我们内部的研发模式一直在随着业界的趋势走,但整个文化氛围上还是很务实的风格,贴近产品和业务,最近一两年包括未来几年,我们都倾向于业务落地”,姚冬说。
转型以来,金山办公已经走到了一个新的节点。
谈到转型成果,庄湧表示,“ 自云与 AI 战略实施以来,一直到去年,我们在自己心目中才觉得 WPS 真正意义上达到了云文档的稳定性以及安全性的基本成果”。
从 PC 时代到云与 AI 时代,基于云已经做到了成型的水平,原来从传统的工具软件往云服务化转型,已经迈过了初步阶段,到了渐成规模的阶段,但还没到实现完整性的程度,准确地说,到了半云化的阶段。
从 0 到 1 的阶段已经迈过了,客户端版本的使用,工具的使用,已经跨越到了用户主动接受、愿意登录使用办公软件,并且享受上云后的便利服务。与此同时,AI 技术能力的加入,为用户提供了整个云文档从创作到编辑再到发布、分享、协作、归档、搜索等,贯穿整个生命周期的智能化体验。
“我之所以说,是一个半云化的阶段,还没达到心中满意的程度,是因为在目前的阶段中,虽然用户接受,但不是全部的用户接受。有一些用户还没有意识到上云的好处,仍继续把 WPS 当作一个传统的办公工具在使用。此外,上云后,更多的用户还是在被动体验云后的服务,比如,很多用户使用金山文档的微信小程序查看和编辑文档,但很多时候,他们并没有意识到或者说根本不知道他们正在使用的这款产品是金山文档”。
“因此,这对我们来说,至少是万里长征的一小步,还需更多的、真正意义上的云化的或端云一体化的、云化的办公产品和服务,我们还需要再投入更多的时间以及更多的资源去完善”,庄湧表示。
庄湧:金山办公高级副总裁
毕业于浙江大学计算机科学与技术专业。现任金山办公高级副总裁、研发中台事业部总经理。2003 年至 2011 年,先后担任金山办公项目经理、技术总监,负责 WPS 演示项目开发、毒霸单机版研发等工作,成功组建并管理日本金山研发团队,同时协助参与 WPS 从工具软件向服务转型;2012 年至 2014 年,担任金山办公 WPS iOS 产品研发总监,成功带领团队研发 iPhone 和 iPad 设备端的办公软件产品;2015 年至 2018 年,担任金山办公副总裁,全面负责包括 WPS 桌面版、Linux 版和移动版的研发管理工作,带领 WPS 桌面版月度活跃用户数突破 1 亿大关。
姚冬:金山办公副总裁
毕业于南开大学,金山办公副总裁、武汉研发中心总经理。1998 年加入金山办公,从事软件开发将近二十年,先后主持多个平台客户端相关技术开发,擅长 GUI 框架,大型客户端软件架构,音视频处理等技术领域。1998 年至 2004 年,负责金山词霸、金山快译、金山游侠等工具软件开发;2017 年至今,担任金山办公副总裁,并负责 AI 中台,负责公司 AI 方向的研发(包括 AI 算法研究、AI 技术实施和相关产品服务开发)以及研发管理、基础技术架构演进等。
熊龙飞:金山办公技术副总监
硕士毕业于德国基尔大学,电子信息科学与技术专业,主要研究领域为:BCI(脑机接口)和图像处理,参与发表两篇 IEEE EMBC 文章。有过三次创业经历,现为珠海金山办公软件有限公司技术副总监,组建了金山办公 CV 团队,负责 OCR、版式还原、PDF 编辑等多个重点项目的研发管理工作,申请专利十余篇。2021 年起任中国图象图形学学会《文档图像分析与识别专委会》专业委员。2021 年带领团队获得金山办公技术大奖一等奖,2021 年荣获金山办公和金山集团双料十佳员工。2022 年获得“珠海创新创业好青年”称号。
你也「在看」吗? 👇
微信扫码关注该文公众号作者