撰文 | 微胖
「5、10、15....... 」王远哲(化名)眯着一只眼观察单筒望远镜头里那些长相怪异的水鸟。它们身披灰褐羽毛,喙又直又长,像铅笔一样在泥里戳来戳去。作为「东亚-澳大利西亚」候鸟迁飞线路上的重要中转站,每一只鸟是否如期赴约都反映着保护区的生态变化。作为这里的工作人员,监测鸟类是王远哲的主要工作。
半蹼鹬和黑尾塍鹬鸟群从调查员头顶飞过,前往广袤的临洪河口滩涂(连云港)觅食。(图片来源网络)。
点数,极为考验眼力和耐性。半蹼鹬等鸻鹬鸟类羽毛颜色和沙滩、泥沼颜色很接近,乍一看如同消失在滩涂。如若寻觅巴掌大小的勺嘴鹬,无异于大海捞针。为了不惊扰鸟类,他一站就是几个小时。一天下来,各小组集合汇总,鸟群在人面前川流不息经过的激动沉淀为一组组冷静的统计数据:时间、地点、多少目、多少科、多少种鸟类。自然保护区的保护政策是不是有效,这是政府和全社会都关心的问题。王远哲说,回答这个问题的途径就一条:定期收集客观数据,评估指标变化。简单点说,就是生态监测。
01 艰难的守护
鸟调,通常一年四季都在进行,采用传统的样线调查法:定期沿固定野外线路调查,记录沿途见到的动物实体,了解该地区种群数量、构成和变化,以此作为监测的基础。一台带有三脚架的望远镜和长焦相机是王远哲的主要家当,工作起来「跟刀跟火种似的,看起来浪漫,实际上非常辛苦。」或许是长期野外工作的缘故,他的嗓门很大。
为了调查,人类必须完全追随对象的作息。每逢春节前后,成群的候鸟到此越冬,王远哲不得不起早贪黑,尽可能记录到更多数量的鸟类物种。水鸟喜欢活动在海岸滩涂和沼泽组成的湿地,他们常常要一脚深一脚浅地深入海边泥滩数公里,有时要穿越几公里的茂密植被。
护鸟员行走在滩涂湿地上。(图片来源中国国家地理)一些地方长有互花米草,成年互花米草能够长到 2 米,茎杆密集,一路手脚并用,半小时路程可能要花上一个多小时。「夏天,里面热得跟蒸笼一样,还特别臭,容易迷路。」王远哲的裤子也会被锋利的叶片划破。
点数时,为了不惊动水鸟,他们将半个身子陷在泥里,一待就是几个小时,任凭蚊虫肆虐。有时数着数着,突然出现猛禽或者航拍无人机,惊飞对象,功亏一篑。迁徙季来临之前,科研人员正在对广袤滩涂进行鸟调和底栖生物采样。(图片来源网络)在山区做调查,危险更多。横亘中缅边境的云南高黎贡山一天就有四季,气候复杂多变,山高路险。山中植被很复杂,有时无法直立行走,要弯着身体甚至匍匐前进。「你看前方只有 100 米远,但走过去却要半个到一个小时。」王远哲说。
正常情况下,一天也就走个两、三万步。有一次在神龙架,由于时间紧、任务重,他们一天之内步行了二十多公里。
云南高黎贡山国家级自然保护区工作人员在山里进行动植物调查监测。(图片来源云南网)工作如此艰辛,输出结果的质量却没有稳定的保证。就拿点数来说,当太阳爬到头顶,镜筒里会出现热浪,鸟喙也跟着变形,向上弯折,识别难度就更大了。
鸟类计数时,宽度和深度这两个维度很重要。当鸟离得更远时,相同视野面积所对应的深度和宽度都会增加,要相应地调整估计值,这需要很多年的经验积累。
如果是根据足迹、粪便、尿液等蛛丝马迹追踪兽类,由于动物体型和粪便形状、大小等方面有很多重叠,这时判断的准确性就更依赖人的经验程度甚至责任心;在一些情况下,受制于客观条件,根本做不出正确判断。
「不管是肉眼还是摄像头,都是没办法做到那么精确——每一只鸟都能统计到,数据统计多半还是用估算的方式,但和机器比,肉眼估算精确性的差距还是比较大的。」创视智能营销总监张光曦说。六年前,他们尝试将人工智能技术引入野生动物保护领域,从事物种识别。
「人的经验程度不同,对鸟的认知也会不一样。外形相似的鸟,也很容易有争议。」他说,「我们希望利用机器和算法,让识别更标准化一些。」
更为严峻的是,中国 2700 多个自然保护区,占国土(陆域)面积 15%,已属世界领先,但专业人员的配比却严重滞后。
首批官宣的五家国家公园,保护面积 23 万平方公里,比江苏、浙江两省陆域面积之和还大,仅三江源国家公园就有几万平方公里,根本不可能靠人力完成生态监测。
很早就有人算过这笔账,「如果按森林、湿地景类型的自然保护区每平方公里配备 1 人、荒漠和草原类型的自然保护区管护人员每平方公里配备 1 个管护人员的标准计算,中国 2002 年建立的 1551 个自然保护区的预算达 57 亿元,占当年国家财政收入的 5. 62% 。」这是一个几乎实现不了的数字。
由于各地经济发展不平衡,我国有将近三分之一的自然保护区没有任何基础设施,有 41. 5% 的自然保护区连办公经费都没有。有的保护区上百平方公里,专业人员就一人,日常监测等法定工作都无法展开。
「生物多样性调查,如果没有足够人力做野外调查,每年汇报材料的统计数据从哪里来?这些数据的质量和准确性又如何得到保证呢?」张光曦说。
长远来看,这个巨大鸿沟也很难弥合。除了收入低,中国的自然保护区多位于人口稀少、经济欠发达的西部或山区,而保护区中的核心区则由于交通、产业结构的原因,往往是经济最落后的地区。
上世纪 80 年代发现当时世界仅存 7 只野生朱鹮的地方,位于秦岭南麓深处的闭塞小城,整个自然村才 7 户人家,朱鹮栖息的青冈树下,是清代光绪和道光年间的坟茔。临时保护站就设在村里。
新员工(大多具本科及以上学历)被安排到保护区下属的保护站,很常见。王远哲的一个朋友曾在那里工作好几年。「他真喜欢干这一行。后来有了孩子,考虑到子女教育问题,不得不选择离开。」
上海崇明东滩鸟类国家级自然保护区,护鸟人的工作日常。(图片来源中国国家地理)
除了辛苦,保护区的日常工作也比较琐碎、枯燥,比如制止捕猎的人、清除毒饵、解救被渔网网住的水鸟、受伤的麋鹿甚至捡拾垃圾等。
很多当地的护鸟员、护鱼员、护林员祖辈就生活在这里,曾以捕鸟、捕鱼、狩猎为生,一代代传承至今。物种保护与脱贫发展是一对永恒的矛盾。这些人中的大多数已经是将钥匙别在腰带上的中年人,他们退了后,有多少年轻人愿意接班?能坚持多久?
02、初试:空拍与物种识别
所幸,许多鸟类、兽类、鱼类还可以借由外在特征予以识别。老虎、雪豹、豹猫等猫科动物身体都有易于识别的条纹特征,长颈鹿有特殊斑纹。鸟类也通常具有比较鲜明、易识的外部特征,比如体型、羽色、斑纹等。
深度学习技术的出现,彻底改变了筛选图像信息的方式和效率。过去我们关心的是「豹猫有什么特点?」,现在问的是「这张新图片是否跟我受训见过的豹猫有着相同特点?」、「预测的把握有多大?」投喂的样本越多,把握就越大。腾讯的雪豹识别系统使用的图片超过了 10 万张。著名的野生动物观察平台 Wildlife Insights 使用了 900 万张图片。
Wildlife Insights 识别到中美小食蚁兽。「最初需要的样本量确实很大,一只鸟都要上到大几万,还不一定能训得好。」张光曦说。除了实地取样,他们也会从网上下载图片,这是所有算法公司绕不过去的弯儿。随着接触的项目越来越多,合作的自然保护区也多起来。当做出的某个标杆项目被推广开后,他们就可以项目实地采集训练样本。合作伙伴提供数据只是第一步,接下来还要有人做标注,用有颜色的框线把动物框出来,标注这是什么动物。正确标注的数据对后续模型的精确性、实用性和高效性至关重要,创视智能为此专门组建了人工标注团队。由于这个行业的从业者很少,他们不得不放宽招聘要求。初次接触物种识别的人一开始连鸟名都认不全,要跟专家老师学习好几个月,才能准确地标注一些常见鸟类。经过几年积累,「我们现在已经有了一个大的基础模型库,基本覆盖全国性的水鸟识别,大概有 1226 种(根据 2021 年数据,中国有 1491 种鸟类——作者注)。」张光曦说,对于大部分鸟类照片,可以鉴定到具体的种。在去年北京展开生物多样性调查项目中,创视智能负责其中的鸟类识别。以前靠人蹲点做鸟类观察的工作,现在可以完全交给机器。
自动识别北京松山公园里的红嘴蓝鹊。(视频来源创视智能)
项目出具的物种识别结果报告显示,项目内三个月中所遇物种识别率,算法和人工基本打了个平手。大斑啄木鸟、红尾伯劳、灰喜鹊、乌鸫、大山雀等比较常见的鸟类识别率很高,有的甚至达到 100%。
在江苏东台条子泥湿地,沿 40 公里海岸线安装了 317 个高清摄像头拍摄着鸟类栖息实景,创视智能负责打造的鸟类观测系统可以自动识别所选的鸟类种类。
自动识别反嘴鹬,还能给出画面里的数量。(图片来源创视智能)如果是库里模型没有覆盖到的地方独有的保护物种,比如云南大山包的黑颈鹤,就要新增一些数据样本。「最开始可能需要一两百张左右,模型可以识别到,不过这里会有误识。」张光曦说,「如果是识别同一个环境里的同一物种,几十张图片就够了。」
在一些棘手的情况下,仍然需要人力干预。就如何区分猪獾、狗獾这一对表亲,他们曾和专家讨论了很久。从背面看,两个物种完全一模一样,所以只能是从正面加以区分,猪獾的鼻子有点像猪鼻子。如果是相机只拍到动物的背面或者侧面,这个时候就需要借助人工识别。在我国狗獾以及其「表亲」猪獾均为国家二级保护动物,严禁私自捕杀。系统自动识别出猪獾。(图片来源创视智能)除了实时观测,人工智能还能帮忙解决大量空拍的问题。目前中国超过80%的自然保护区已经安装了红外相机(主动式、被动式触发),每天记录下大量野生动物的影像。工作人员每隔一段时间(比如半年、每个季度)会把数据拷回来,积累的图像数量可能达到数万甚至数十万,拿回来后,没有做太多标记和分类,就压箱底了。保护区都有自己的基础数据,但这些数据利用率很低。如果找他们要五年前的数据,有倒是有,就是不知道怎么迅速找到这些数据。张曙光说,我们的另一个主要工作就是帮他们整理这些数据。
在北京松山国家级自然保护区项目中,「松山公园交给我们的数据大概有4个T,根据区域、物种名称分类后,我们发现可能一半都是空拍。」创视智能算法老师卞石磊告诉我们。如果单靠人工查看、删除,工作量非常巨大。现在将数据扔到神经网络,系统能自动逐帧识别,发现目标物种就会输出在结果里,空拍被自动筛掉。红外相机拍照出现的各种不利于物种识别的常见情况,包括空拍。还有一些保护区装有球形摄像头,拍摄了大量视频。如果一律照单全收,不能在前端处理掉大量空拍,网络传输带宽和服务器存储压力都会很大,GPU 成本也会高得离谱,徒增本地化部署成本。现在,在一定场景下,人工智能已经可以辅助人类做好这些基础性工作。
03、技术的上限
在背景信息复杂情况下实现精确的物种识别,是实践中比较常见的挑战。作为穿过我国全境的「东亚——澳大利西亚」通道上重要一环,盐城大片湿地也成为数千万只候鸟非常重要的「加油站」,这里单日内记录上万只候鸟的情况并不少见。你能从滩涂上密密麻麻的鸟群里认出唯一一只勺嘴鹬吗?(图片来源微博)画面固然壮观,激动人心,但机器如何从中精准识别出稀少的勺嘴鹬?和体型较大的涉禽(比如丹顶鹤)不同,勺嘴鹬属于小型涉禽,巴掌大小,毛色和周边鸟类也基本一致,尽管「自带饭勺」,但摄像头很难清楚地抓取到这个基本特征,识别起来比较困难。勺嘴鹬的嘴巴从正面看就像个小勺子,是世界上最著名的涉禽之一,也是世界上最稀有的鸟类之一。每年春回大地,勺嘴鹬总会来到江苏盐城东台条子泥湿地换羽、停歇,补充能量。(图片来源网络)
2019年,创新智能负责东台条子泥湿地 4A 信息化建设中的鸟类识别,做到了画面上百十只鸟,只有一只勺嘴鹬,系统也可以准确识别出来。
自动识别画面中唯一的一只勺嘴鹬。(视频来源创视智能)
人们喜欢关注算法模型,但除了保持算法的先进,解决这个问题还需要数据。「窗户纸捅破了,最值钱的数据。」卞石磊告诉我们,公司从 2017 年开始做物种识别,也是国内最早做这个事情的公司之一,库里积累了大量有效数据。所谓有效,是指来数据自客户真实业务场景,深度的行业应用为数据质量提供了重要保证,和网络爬取的数据完全不在一个层面。除了 1226 种鸟类,目前公司数十T 数据库还覆盖了 400 多种兽类以及少量的水下生物。数据库积累了很长时间,既是解决难题的钥匙,也是重要的竞争壁垒。数据库每增加一个新物种,可能需要付出一年时间。他们接触的第一个物种识别项目是江苏盐城的丹顶鹤。每年 10 月份左右,丹顶鹤从黑龙江扎龙保护区起飞,经由黄河三角洲,路过盐城,该湿地保护区是丹顶鹤等冬候鸟南迁的最后一个栖息地,也是世界最大的丹顶鹤越冬地。在黑龙江扎龙刚出生的时候,丹顶鹤灰不溜秋,样子很难看。在南飞的过程中,它们会慢慢长大,逐渐变白,顶上的红点也会显露出来,直到成熟。
一般 3-4 个月做一次阶段性训练,平时还会不间断地对系统做一些小的调整,这样系统才能完整识别丹顶鹤从幼鸟到成熟的全部样子。
野外的丹顶鹤亲鸟和雏鹤,外表差异非常大。(图片来源网络)遇到一些极端情况,只能在布控摄像头的环节解决数据问题。距离三、五百米去观察一只巴掌大小的勺嘴鹬,很难拍得清楚;架设角度有问题,拍不到丹顶鹤、东方白鹳的头顶特征,后面的识别也会很困难。而对于像豹猫这样的小型物种,面临的问题是在森林中难以控制照相的角度。现在,结合算法和摄像头,我们的系统可以算出摄像头和鸟之间的最佳距离:500 米布设一个摄像头合适?还是距离 1000 米更好?张光曦说。实际上,从摄像头选型、布设选点到多少距离能识别什么样的鸟类,这些年摸着石头过河慢慢积累出的经验,也是一项非常重要的竞争力。没个三五年,摸不出门道。在四川唐家河国家级自然保护区,负责监测「秦岭四宝」的系统遇到重点观测物种时,可以自动控制前端相机并跟踪它们,直到目标离开视野范围。「目前只有我们可以做到这一点。」张光曦说。另一个常见的落地挑战是样本不均衡的问题。监测大熊猫,结果牛羚比大熊猫更频繁地出现在照片里,观察到一百次小麂才能观察到一次熊猫,包括毛冠鹿,斑羚,观测到的数量都是大熊猫的几十倍、上百倍。作为世界上最稀有的鸟类之一,可繁殖的勺嘴鹬大概只有 210 对到 228 对,比其他一同出镜的水鸟要少得多。我们的标准模型库基本覆盖了 1226 种,「库里有上万或者数十万样本级别的物种,也有小样本的,也就几百、几十张甚至更少。」卞石磊说。模型库中,针对 100 多种鸟类识别非常稳定的,我们面向生产,积极往外推。特别小量的样本,被作为不常用的库,留待后面慢慢积累。比如,原来大库里有凤头鸊鷉(pì tī),小库没有。通过生产慢慢积累到足够样本数量后,就会在小库里加上凤头鸊鷉。「数据还是很重要的,主要还是靠在业务层面解决。」卞石磊认为,无论是优化小样本算法还是数据增强,都不能从根儿上解决样本不均衡的问题。ChatGPT 可以生成的图片,但效果跟手机、单反拍的漂亮特写差不多,不能用来训练模型。到目前为止,他们遇到的最大挑战是物种的行为识别。行为识别,是指利用计算机视觉自动提取物种的存在和行为,比如站立、移动、休息、进食或者互动等。绿海龟上岸产卵,挖了十个坑,只有一个坑是用来产卵的,如何教会机器识别它到底在哪个坑产卵呢?在请教了不少专家,将他们的经验凝结到算法中后,才完成识别。2021年 WILDLABS 调查报告发现,机器学习和计算机视觉被评为促进环境保护能力最高的三种技术之一,95%受访者认为它们「非常有帮助」或「改变游戏规则」,尽管技术目前表现相对较差,但被认为具有最大的开发潜力以及很好的发展前景。
遗憾的是,目前人工智能在这个行业只能做到最基础的种群识别,还无法胜任物种的个体识别。因为无法识别出这只鸟是某只已知的鸟,也搞不清楚哪些鸟是新的个体,目前人工智能还很难在种群估算上有所作为。腾讯在研究中也发现,要人工智能认出雪豹 A 还是 B,还必须依赖人类专家。也有人研究试图通过大熊猫的一些特征尝试识别个体,结果发现不是每个个体都能够做到。而对于像豹猫这样的小型物种,面临的问题是在森林中难以控制照相的角度。也有研究人员在南美洲尝试用照片识别眼镜熊个体,最终也无法获得理想的效果。还有不少物种,不能仅靠外表予以识别。比如一些食虫类、啮齿类等小型兽类,除了外在特征,还需要通过牙齿齿形、头骨形态特征等细节上的检查和测量才能鉴定到具体物种。04、步履艰难
六年前,将机器视觉用到野生动物保护上完全是一个新的领域,大家都是摸着石头过河。几年过去了,人工智能在这个领域的落地规模和速度还是很慢。在生物多样性、动物识别领域做了一些探索,整个事业还是处在起步期。张光曦估计目前人工智能的行业覆盖率连 2、3% 都没有。资金严重短缺是进展缓慢的一个重要原因。中央政府在生物多样性丰富的区域建立自然保护区,并把管理责任全权委托给地方政府时,并没有投入足够的所需资金,包括基建费、人头费、公务经费等,这些保护区的运行费用基本上都是由地方政府来负担。然而,自然保护区大部分地处老少边穷地区,地方政府部门连日常的工作经费都难以保证,更难以给予自然保护区管理机构充足的机构运行经费 。笔者曾亲历某麋鹿自然保护区的「创收」:私家车从一个不起眼的侧门(非正规大门)鱼贯而出,门外还有几辆等着进入保护区的私家车。出来的人对近距离观看到麋鹿群赞不绝口,我们也终于明白平时站在围墙外通过望远镜即可观察到麋鹿,为什么此刻一头都看不见。国家公园的情况会好很多,比如刚获批的长江三角洲、东营黄河三角洲保护区,会有一部分经费做这些项目。「东北虎豹国家公园是我见过技术条件最好的,站在大屏幕前,想看什么动物,都能立刻给你找到。」王远哲估计,投入得有十几个亿。474 个国家级自然保护区,类似这种国家公园体制试点、具备这种资金条件的,屈指可数。其实,资金短缺也是一个全球性问题。全球性保护技术社区 Wildlabs 调查发现,成本和技术成为采取人工智能等技术工具的最大障碍。前期成本是最重要的制约因素,62% 的受访者将其列为「主要」或「关键」制约因素。由于监测野生动物往往面临电线故障、互联网访问受限或无法访问等情况,张光曦认为,基础建设也是影响技术落地另一个主要因素。如果将人工智能比作电力,推广电力首先得有基础电力设施,很多保护区都地处深山密林、高远冰川或灌丛草甸,连电和网络都没有。电的问题比较好解决,可以用太阳能,网络不通就很麻烦。虽然可以采用无线网桥,但会影响后续图片采集的质量,比如图片会花掉、脱影甚至丢包。有的问题可以根据经验解决,但极端情况下只能是无解。他说。这是行业还是很传统,大家对新技术和数据的认知也决定了人工智能的普及化需要一段更长的征程。老一辈工作人员有着丰富经验,但观念更传统一些。具有决策权的领导对新鲜事物的接受能力相对较弱:对于这技术有什么用、到底能不能用,基本上没什么概念。目前全国动植物存量数据达上千 T,一直以「压箱底」的方式躺在在各家档案库里,没有被充分利用。一般人碰不到这些数据,也制约着数据集的扩大。没人希望自己的特有物种,最后为他人做嫁衣裳,这和其他行业没什么两样。不少保护区科研主要依托高校,做出点成果不容易,本来机会就少,如果在被别人占了先机,无论是经济、政绩层面,都有比较大影响。自动识别黄河三角洲国家级自然保护区的凤头鸊鷉。(视频来源创视智能)
中国正在建设全世界最大的国家公园体系。接下来,可能陆续会有四十多家国家公园建制的保护区成立。他们就像其他行业里的「头部」,成为人工智能企业争先服务的对象。「因为行业比较新,我们做方案的成本也下不来,资金方面确实也有门槛。」张光曦说。不过今年他们开始做产品,希望在服务「头部」过程中,不断将过去积累产品化,降低物种识别的落地成本,让财政吃紧的地方保护机构也能用得起。
一开始,一台红外相机要上万块,后来智能手机技术帮助降低了相机陷阱的成本和尺寸,现在国产红外相机也就 1000 多块。摆在面前的是一项长期而艰巨的任务,对于未来,他们仍有信心。