数据分析与挖掘是人工智能发挥真正价值的核心。传统的大数据分析,不管是传统的联机分析处理(OLAP)技术还是数据挖掘技术,都难以应对大数据的挑战。一是执行效率低,传统数据挖掘技术都是基于集中式的底层软件架构开发,难以并行化,在处理TB级以上数据时效率低;二是数据分析精度难以随着数据量提升而得到改进,特别是难以应对非结构化数据。深度学习具有自行处理、分布存储和高度容错等特性,非常适合处理非线性的或者模糊、不完整、不严密的知识和数据。智能大数据分析技术利用深度学习算法自动开展多种分析计算,探究数据资源中的规律和异常点,辅助用户更快、更准地找到需求点,从而实现风险预测和评估。
总书记深刻指出,"要推动大数据技术产业创新发展""要运用大数据提升国家治理现代化水平"。李克强总理在今年的政府工作报告中提出,要"深化大数据、人工智能等研发应用"。公安机关必须积极推进公安大数据战略,加快推动公安工作由信息化向智慧化升级转型,在促进大数据与社会治理深入融合中提升社会治理能力和水平,让打防管控的矛更利、盾更坚,切实筑牢维护国家政治安全、确保社会大局稳定、促进社会公平正义、保障人民安居乐业的坚强防线。
一、公安大数据建设要点
1.PB级数据存储管理:信息化建设在推进,数据规模随之飞速增长,为了满足大规模数据的存储和分析,大数据存储系统应支持单一系统扩展至10PB以上规模,以满足未来数据爆发的存储需要
2.多种数据类型与协议支持:公安数据形式多样,包含文档、图片、视频、栅格、矢量等,因此该系统需要能够支持结构化、半结构化、非结构化多种数据类型,提供NFS/CIFS/JDBC/ODBC等多种接口,以便业务对多种数据进行访问和操作;
3.高质量的数据整合:好的数据质量是数据分析挖掘等有效应用的基本条件,面对公安行业交互复杂而繁多的系统,势必需要将这些多源异构的数据进行抽取、转换及装载,实现数据的整合、消重,提供高质量的数据,在此基础上进行关联、建模,为实战业务提供可用的数据;
4.高效的数据分析能力:百亿条记录的检索、上千张表的碰撞、几百个小时的视频分析、大量的移动互联网和社交媒体数据处理等应用,无不对大数据系统的数据分析能力提出更高的要求;
5.可管理和开放性:可管理、开放化、标准化的大数据技术体系架构,不仅可以为公安带来更高的性价比、更出色的扩展性,更能为警务建设在大数据平台上开展新探索、新应用解除后顾之忧;
6.安全可靠,自主可控:公安系统中很多数据关系着国家安全和人民生命财产安全,因此,要求该系统具备非常高的可靠性,同时,为进一步加强数据安全性,避免数据泄露,选用具备完全自主知识产权的国产设备和系统。
二、公安大数据的技术选型
大数据的实质是对数据的管理与开发利用,与当前以信息资源开发为核心的公安工作具有广泛的共通性,如何借助大数据技术推动公安工作的发展和变革?技术选型非常重要。在各个企业和组织纷纷助推下,大数据领域的相关技术呈现百花齐放局面,涵盖数据收集、存储、计算、挖掘、资源调度等,下面就以核心的计算层和存储层两个维度介绍下有关技术路线和发展趋势。
数据处理:
简而言之,不管对何种应用,当数据量很大时就无法在一台服务器上解决计算问题,此时分布式计算优势就体现出来,而HadoopMapReduce的重要创新便是当处理一个大数据集时会将其任务分解并在运行的多个节点中处理,这种批处理框架常用于离线的复杂的非结构化数据处理,如ETL、数据挖掘等场景;与Hadoop的使用硬盘来存储数据不同,Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合;而Storm则是专门针对实时数据类型的流式计算分析框架,应用在低延迟的场景中,实现海量事件的实时分析、处理和决策。除此之外,为应对不断增长的海量结构化数据的存储和快速处理以及灵活的业务建模需求,数据库系统必将引入分布式架构、MPP处理技术。
数据存储:
上面提到了MapReduce将任务分发到多个服务器上处理大数据的能力。而对于分布式计算,每个服务器必须具备对数据的访问能力,这就是HDFS所起到的作用,HDFS有着高容错性、高吞吐量的特点,适合大数据集的应用。与此同时,业内也有许多其他类型的文件系统推出,不仅能解决了传统存储体系结构存在的难题,又能提高存储利用率和数据读写性能,可以替代HDFS作为Hadoop架构的底层文件系统/数据存储。
不同的技术思路各有偏重,由于公安业务种类繁多,大数据应用场景多样化,除了建立各类基础大数据资源库之外,还需要做到事前预测警务研判、事中实时情报分析及事后案事件分析,及可视化查询统计等,建议公安用户基于智能融合的大数据架构构建上层应用,积极引入大数据领域的先进技术,推动公安工作迈入大数据发展阶段。
三、公安大数据应用领域
(一)大数据与应急
借助大数据,既可以预测某一区域乃至全国的某种类型的犯罪趋势,也可以预测某一时间某一具体地点某种类型的犯罪,还可以预测某一个体的犯罪概率。根据预测,我们可以制订计划,优化警力配置,提升行动效率。
(二)大数据之与社会维稳
互联网成为人们日常交流、表达思想和宣泄情绪的重要平台,也是相关内容安全保障的重要平台。网络舆论已成为社会舆论的重要组成部分,越来越多地引起全社会的高度重视。搜索引擎、微博、微信、论坛、贴吧等互联网舆论集中的区域,搜集这些数据便获取到了以往无法掌握的社会舆论动向,热度舆论、以及舆论领袖。一些突发事件和热点、敏感问题在网上被恶意炒作,形成强大的网上舆论气候,各种负面信息通过互联网的各种服务方式快速、广泛传播,严重影响社会稳定和政府单位形象。互联网不仅是现实社会的虚拟映像,还是现实问题的聚焦镜和放大器。
通过舆情机制,一方面可以加强互联网信息监管,另一方面,对于及时应对网络突发的公共事件和全面掌握社情民意,并对于及时发现社会蕴藏的潜在不稳定因素,提早预防起着重要作用。