国产框架MindSpore联合山水自然保护中心，寻找、保护「中华水塔」中的宝藏生命

发布时间：2021-12-31 15:36:32来源：机器之心

机器之心发布

机器之心编辑部

红外相机是常用的野生动物调查手段，通过布设在野外的相机利用红外感应相机前经过的动物并拍摄照片或视频素材，来获取当地野生动物的信息。

红外相机照片和视频中物种的识别往往需要大量的人力和时间投入，这也是红外相机调查整个工作流程中的限速步，使得调查结果很难快速及时地转化为科学成果、反馈给利益相关方、应用于生物多样性保护决策等。

山水自然保护中心、北京大学自然保护与社会发展研究中心、以及其他合作伙伴自2011年开始在三江源、四川、云南、北京等地开展红外相机调查与长期监测，积累了大量红外相机数据，也在不断思考和探索如何加速红外数据的识别环节。山水希望能引入AI技术和公民科学两个「小帮手」，首先由AI识别模型完成对红外数据的初步识别和筛选（去除未拍到动物的空拍），再由公民科学志愿者对AI识别结果进行检查和修正，最后再由专家鉴定和复核志愿者识别中不确定的内容，从而实现大批量红外数据的快速识别。

山水目前也在基于这一识别流程开发一套线上红外数据管理系统，期望为行业提供帮助。

图1红外相机数据识别流程，公民科学相关内容详见山水前序推送（）

近年来，已经有很多将AI技术应用于红外相机数据物种识别的实践，而对于素有「中华水塔」之称、生物多样性丰富、有着众多珍稀物种的三江源地区，在红外相机AI物种识别方面的尝试还并不多。山水曾在2018年利用Res18深度卷积神经网络进行了三江源物种AI识别的初步尝试，取得了不错的效果，希望能在已有模型的基础上进行更多的探索和尝试。

MindSpore开源社区也很希望能够将AI技术应用于实际的生物多样性保护场景，双方深入交流后，决定开展三江源地区红外相机照片AI物种识别模型训练的合作，而这也是首次基于国产框架的开源模型用于支持三江源红外相机物种识别。

MindSpore是华为开源的一款全场景AI框架，旨在提供友好设计、高效运行、简捷部署的开发体验，目前应用于医疗、金融、科研等多个领域，提供面向端边云多种场景的主流硬件支持，并针对昇腾硬件平台提供深度优化能力。MindSpore着力构筑面向全球的人工智能开源社区，推动人工智能软硬件应用生态繁荣发展。目前MindSpore社区已拥有80万社区开发者，下载量超过100万，5000+企业应用上线，认证开发者/布道师近300人，社区企业伙伴160+，是国内第一热度的AI开源社区。

1-数据准备

考虑到物种识别模型需要每个物种具有足够的训练数据量，首期模型训练选取了三江源红外数据中常见的10个物种或物种类别，包含雪豹、岩羊、白唇鹿、赤狐、狼、喜马拉雅旱獭、川西鼠兔、鸟类（除藏雪鸡、大鵟外，其余未再提供二次细分类别的鸟类统属鸟类这一大类）、藏雪鸡、大鵟，共12680张照片，其中12180张作为训练集，500张作为验证集。

图2AI物种识别模型物种图鉴

2-模型选择

在项目初期，MindSpore团队首先着手对山水提供的一小批红外相机物种照片进行识别分类，因此模型的初选型定位为ResNet等图像分类模型。在经过进一步讨论后，了解到不同于动物摄影照片，红外相机照片中的动物通常难以拍得清晰、完整，常出现一道模糊的身影、画面边缘露出的半个脑袋、或者动物借助保护色隐匿于复杂背景中等情形，因而仅对图像中特定对象的类别进行分类或预测难以满足项目需求，还需要能够在分类的同时确定目标在给定图像中的位置和得分，因此目标检测模型成为本次合作的首选。

图3你能找到红外相机照片中的动物吗？

目标检测模型分为one-stage和two-stage两大类，两大类模型的共同点在于Backbone骨干网络都用于对输入图片进行特征提取工作，区别则在于Head网络，one-stage模型在一个阶段即可完成对目标的定位与分类，而two-stage网络则是分两个阶段完成，先完成目标定位，再对定位的目标进行分类，即对输入的图片先通过滑窗得到几十万个的框，要求物体正好出现在一个滑窗中，这个滑窗的位置即为物体的位置。对于一张图片来说，存在大小各异的物体，这就导致设计的窗口大小也存在多种，这样耗费了大量的时间，然后再使用选择算法筛选出较符合的框，对这些窗口的目标进行分类，而one-stage则是基于整张图片的，它并不要求物体必须在这个框内，就不需要设计大小各异的框，只要求物体的中心落在这个框内即可，因此我们就可以先预测出X个框的分类，再通过置信度去筛选较可信结果。

图4目标检测模型选型分析图

这样带来的结果是one-stage模型的检测速度快于two-stage模型，检测精度则是会略微弱于two-stage模型。

图5目标检测模型选型对比表

出于对模型的实时性检测和准确率双重考虑，选用精度和速度相平衡的算法，能够让模型更好地扩展部署到野外的端侧设备，同时也能保证模型预测的相对准确率，MindSpore开源运营团队和山水讨论后，决定采用基于MindSpore1.2框架的YOLOv3目标检测模型，它是第一个平衡所提供检测的质量和速度的算法，在定位照片中动物所在位置的基础上完成对物种类型的识别。

YOLO是经典的one-stage目标检测模型，全称「youonlylookonce」译为只需要看一次就可以识别出图像中的物体类别和位置，在2016年提出了第一个版本YOLOv1，后续还出了4个版本，相比YOLOv1和YOLOv2，YOLOv3引入了多尺度预测，大大提升了预测精度，因此本次实验选用YOLOv3模型进行实践。

YOLOv3使用基础网络Darknet53，相比YOLOv2使用的Darknet19，Darknet53移除了MAXPOOLING池化层，并增加了卷积层数，速度稍有减慢，精度大大提升，整个网络结构相对简单。

图6Darknet53网络

3-模型训练

目标检测模型不仅需要红外相机照片的物种类别标签，也需要用标注框框出照片中的物种的位置，在MindSpore团队的线上与教程指导下，山水团队使用华为云AI标注平台开展物种标注工作，并后续邀请了61位志愿者来一同完成这个任务。

标注好的数据无法直接用于训练，因此，在拿到标注好的数据后，MindSpore团队首先会对其进行数据清洗的工作，从中审查和纠正出「脏」数据，然后再开发一套格式转换工具，将标注数据的格式转换为训练可用的COCO数据集格式。通常，这样的数据仍存在一些不规则的地方，在训练前还需要对其进行一系列的数据预处理操作，再喂给模型进行训练。目前，这些数据预处理方法都是基于MindSpore提供的接口实现的，感兴趣的开发者可以详细阅读MindSpore的API文档。

文档链接：https://www.mindspore.cn/docs/api/zh-CN/r1.5/api_python/mindspore.dataset.html

图7数据预处理

为了能使模型达到更好的效果，同时也配合照片打框标注的进度，模型分阶段进行训练（500张->3000张->5689张->12180张），通过增加数据集，微调参数不断优化模型。通过调整训练的epoch数、学习率、loss_scale、照片的宽高、anchor_box等参数，将loss从67不断下降到5以下，对一些非专业人士肉眼容易混淆的照片，模型也能清楚地分辨了。

图8你能一眼分辨出藏雪鸡和大鵟吗？

这一过程中，通过阶段性的进展沟通，发现了训练过程中存在的问题并及时进行了针对性的调整，例如纠正了部分误标注的数据（如将大鵟和藏雪鸡标注为鸟类，导致大鵟和藏雪鸡混淆），同时也发现连续拍摄的照片内容相似，对模型训练的价值不高，因此山水在后续提供的照片中减少了连拍照片并补充了更多不同背景的照片，并对错误数据进行了重新标注。

4-模型识别效果

模型训练完成后，在500张的验证集上使用COCO官方API评测工具，比对检测标注框与实际标注框的IOU值，验证模型，整体验证结果良好，在不同阈值下（0.001-0.7）的bestmAP@IOU=0.5在82-92%的范围内，整体的识别准确率在82-97%的范围内，其中阈值为0.1时识别准确率最高，仅有1%的漏检（未检测到动物）和2%的错检（检测为其他物种）。在阈值的选择上，采用的阈值越高，错检越少，但相对应的漏检会较多。在实际的使用场景中，为了避免出现漏掉拍到动物的照片，倾向于采用较低的阈值（如0.1），AI模型为照片标注多个框（或正确或错误）的结果，再由人工判别最终的结果。

为了进一步验证模型在真实识别场景下的表现，山水在4548张的红外数据集上测试了模型。测试数据集包括了模型已训练的10个物种或物种类别照片共2701张、其他物种的照片884张、空拍（未拍到动物的照片）964张。相较于模型验证集是从训练集所在的同一批数据中随机抽样选取，测试集选取另外一批数据，和训练集仅在拍摄地点上有小范围重叠、没有拍摄时间上的重叠，因而一定程度上模拟了将模型应用于一批全新数据识别的情景。

注：相较于精确率（Precision），即识别出某物种的照片中多少实际为该物种，红外相机照片的识别更关注召回率（Recall），即实际某物种的照片中有多少被正确识别出来。

模型已训练物种：

采用0.1阈值时，整体识别准确率为76%，其中雪豹的召回率（Recall）最高，达到95%，有3%的雪豹照片未检测出动物，2%的雪豹照片被识别为其他动物。

常出现的识别错误情形包括复杂背景、夜晚黑白照片（特别是夜晚训练集不足的物种，如狼和川西鼠兔）、动物只拍到部分身体、小型物种（如鸟类和川西鼠兔）漏检等。

图9雪豹识别结果

其他物种：

虽然模型仅训练了10个物种，对于其他三江源地区物种（如藏狐、兔狲、马麝等），模型也能检测出来85%以上的动物，其中多数被检测为同类物种，例如藏狐被检测为同为犬科的赤狐或狼，马麝被检测为同为有蹄类的岩羊或白唇鹿。

空拍：

采用0.1和0.5阈值时，模型会在24%和7%的空拍照片中检测出动物，通常会是把石头和植物等错认为动物。

图10石头：你看我是不是有点像藏雪鸡？

总体而言，模型表现良好，对夜晚的数据具备一定泛化能力，除此之外，对细化的分类（如鸟类的细化类别：藏雪鸡、大鵟）也是具备辨别的能力，结合后续识别流程中的志愿者和专家的人工修正，能够实现在降低人工识别工作量的同时保持识别的准确率。当然，受训练数据量所限，尽管目前的训练数据已经在不断优化，但仍存在不少连拍的数据，在数据标注好后，由于是多人进行的人工标注，未对全量的数据进行深入校验，无法完全保证训练数据的正确性。

模型未来还有很多完善的空间，例如在数据集上，可以增多更多样化背景的照片、补充更多夜晚的训练照片以增强模型的夜晚检测率、增加小型动物在复杂背景下的照片以提高模型对小型动物的检测能力、细化「鸟类」类别的物种分类等；在数据处理上，可以增多对夜间样本的去模糊化等处理；在数据清洗上，可以找到更加智能的方法去释放人力。

5-模型使用

配合AI模型的不同使用场景，MindSpore开源运营团队开发了单张推理和批量推理两套工具，前者提供了上传单张红外照片、返回并展示其识别结果的展示界面（如下图），后者则可以批量处理红外照片，以表格和标注了识别结果框的照片的形式返回一批照片的识别结果。模型文件和两套工具代码均已开源，可以供更多有需求的人和机构使用（需要在GPU或者昇腾服务器上，可以是本地硬件或者云服务实例）。开源的模型也支持使用者在已有模型的基础上增加自己的数据，进一步进行模型训练。

近期，模型将初步应用于山水的红外相机照片识别中，未来模型也会被应用到线上红外数据管理系统中，希望这个AI小助手能帮助我们大幅加快照片识别流程的速度，节省人力和时间，使得红外相机调查收集的宝贵的物种数据能够更快地反馈到保护和科研工作中，发挥其价值。山水作为一家公益组织，也希望与MindSpore的合作可以服务于更多的保护组织和科研机构。受数据以及时间等限制，目前的模型当然还存在很多不足，我们也期待在开源社区的支持下，大家可以共同努力，不断优化模型，让模型能够帮助到更多需要的人和机构，发挥更为积极和重要的作用。

本项目的所有代码、模型文件和部署文档均已开源，如果您感兴趣，可以访问下面链接获取相关资料，如有任何疑问，可以随时在社区提issue或pr，期待您的参与。

获取模型地址：

https://mindspore-species-detection.obs.cn-north-4.myhuaweicloud.com/yolov3.ckpt

模型及代码地址：

https://github.com/hellowaywewe/species-detection.git

模型部署参考文档地址：

https://mindspore-species-detection.obs.cn-north-4.myhuaweicloud.com/MindSpore_Shanshui_Species_Detection_Model_Deployment.pdf

MindSpore开源社区运营团队坚持以技术为核心的理念，除了助力自然保护的预训练模型之外，MindSpore开发者高阶API套件TinyMS项目也发布了集成opencv功能的最新版本，欢迎尝试：

https://github.com/tinyms-ai/tinyms

点击阅读原文，查看更多有关MindSpore大模型的信息。

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

评论收藏

国产框架MindSpore联合山水自然保护中心，寻找、保护「中华水塔」中的宝藏生命

“冬天夺走的，春天都会还回来”！刚刚，华为重磅发声：2022年要“有质量地活下来”，加大“鸿蒙+欧拉”投入…

预见2022（视频版）

经纬portfolio融资新闻速递（11.5-12.31） |【Matrix News】

360拥抱元宇宙：数字安全元年来临？

Innovusion图达通CEO鲍君威：激光雷达量产的关键在于其是否具备成熟的供应链

AMD收购赛灵思预计明年Q1完成；韩国《半导体特别法》颁布将推迟到明年；南亚科技2022年将可导入10nm级DRAM产品量产…

2022年网络安全行业将如何发展？