1 月 8 日,全球权威机器视觉算法排行榜 KITTI,阿里巴巴 iDST夺得行人检测单项冠军。与此同时,在知名的行人再识别数据集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
iDST在KITTI行人检测项目的数据图示
KITTI 算法评测平台由德国卡尔斯鲁厄理工学院和芝加哥丰田技术研究所联合建立,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,用于评测目标(机动车、非机动车、行人等)检测、目标跟踪、路面分割等计算机视觉技术在车载环境下的性能。
Market1501 数据集的图像在清华大学的一个超市门口进行采集,由 5 个高清摄像头与 1 个低像素摄像头进行拍摄。目前该数据集包括 1501 个个体,涵盖 19732 张 gallery 图片和 12936 张训练图像组成。所有的标注框由 DPM 检测器生成。
实际上在今年 5 月,阿里 iDST 就已经将车辆检测的准确率提升至 90.46%,长踞榜单第一名。而在同一难度级别的最新数据,阿里 iDST 如今已经刷新至 90.55%。
据雷锋网 AI 科技评论了解,车辆检测背后的技术基于区域融合决策和上下文相关的多任务深度神经网络,用于复杂场景下的车辆检测任务,重点解决其中多视角,多姿态以及车辆遮挡等问题。而在网络结构设计上,利用反卷积操作提高了小目标的召回率,同时拼接了多层特征以融合低层的局部信息和高层的语义信息,提高了边框定位的准确率。在训练过程中,还借鉴了 GAN(生成对抗网络)中的对抗训练模式。团队在计算机视觉国际顶级期刊和会议 TIP、ACM MM 等已发表多篇论文,分享了他们的研究成果。
行人检测技术示意
行人再识别技术示意
行人的识别与检测与车辆检测虽然同为计算机视觉的研究内容,但两者各自的难点与挑战又有些不同。行人检测要求机器能够从图像或者视频中判断是否有行人,行人在哪里;行人再识别则要求机器能够识别出特定人员在不同摄像头下出现的所有图像。
阿里巴巴 iDST 副院长、IEEE Fellow 华先胜表示,目前大部分摄像头所拍摄的图像看不清人脸,需要通过行人的整体和局部特征进行识别。但在实际情况中,包括遮挡、光照、拍摄角度、拍摄距离、人物姿态等因素的干扰,还有摄像头设备的不同,都会给行人的识别与检测带来困难。
据介绍,阿里巴巴 iDST 团队在行人检测技术方面,提出了基于目标尺寸分级的级联网络,并充分发挥感兴趣区域的上下文信息,提升网络特征提取的能力,以解决行人检测问题中存在的目标尺寸浮动大、遮挡、形变且定位不准等问题;与此同时,在目标定位方面采用交叉熵正则约束来优化边框定位准确度。
而在行人再识别方面,团队不仅利用最新的深度学习技术提取行人的全局特征,还提出了超分辨率模块和深度注意力网络来获得头部、躯干、四肢、携带物等局部细节特征,并提出了融合粗粒度全局特征和细粒度局部特征的新方法,进一步提高了跨摄像头场景下行人表征的一致性和行人再识别的准确性。
行人检测与行人识别这两项技术有着丰富的应用场景,包括景区商场的人流预测、人群个性化分析、行人交通安全、无人驾驶、寻找丢失老人儿童等应用等等。目前上述技术已经全部集成到阿里云 ET 城市大脑当中,并已落地。
华先胜表示,「正如 60 年代的登月计划带来了通讯技术、生物工程技术大爆发一样,城市大脑已经成为世界顶尖的科技创新的平台,前所未有的难题倒逼科学家们创造前所未有的技术」。
据雷锋网 AI 科技评论了解,阿里云 ET 城市大脑已经在杭州、苏州、衢州、乌镇等地落地。借助机器视觉算法,杭州城市大脑可以做到准确侦测、发现交通事故,日均事件报警 500 次以上,准确率达 92%。