声纹识别技术在公共安全领域的应用

2017-12-27 10:09:00

查指纹、查人脸、查DNA，这些都已成为了公安机关打击违法犯罪分子的重要技术手段，然而还有另外一种技术手段，在上述无法做到的情况下，依然可以让犯罪活动无所遁形！本文就声纹识别技术在公共安全领域的应用作简单介绍。

一、公安行业现状与背景

随着社会与科技的发展，特别是通讯工具、互联网及社交软件的普及，近些年相关语音案件及涉及声纹鉴定的案件日益增多，公安现有的声纹识别装备技术以及人力工作量已饱和，难以应对新形势下快速增长的公众期待以及声纹实时侦查与鉴定和布控需求，无法实现传统声纹应用的革新。
另一方面，声纹识别作为最前沿的一项技术，正在快速发展，综合了多项学术界的最新成果，特别是算法层面已经解决了以往识别准确率低、处理效率差、对语音检材要求过高等主要问题，且可实现高度的自动化，能够极大的节省人力。
此外，在反电信诈骗方面，受害民众对于案件侦破有很高的期待，声纹识别技术在此能发挥出无可替代的作用。中央政法委书记孟建柱在过去一年曾多次指出，电信网络诈骗等犯罪已经成为严重侵害人民群众切身利益的社会公害，要坚持综合治理、源头治理，坚决遏制电信网络诈骗犯罪高发势头，切实维护人民群众财产安全和合法权益。

二、声纹识别技术优势

在公共安全领域，为更好进行声纹识别的应用落地，对算法提出了更高的要求。声纹识别技术使用学术界最前沿的特征提取技术，结合多种声纹识别的前端语音信号处理算法，在不断更新迭代中形成了的技术优势。

先进的声音处理技术

领先业界的前后端语音处理技术，包括人声检测VAD算法、语音降噪、快速语音增强算法、语音质量评估算法，有效保证注册和验证的效果。

先进的特征提取算法

使用学术界最先进的深度神经网络，以及端到端神经网络的训练方法，从大量样本中学习到高度抽象的音素特征，在相同的声纹数据中能提取更多的特征信息，并对噪声有很强的免疫力，大大提升算法准确率。

高准确率

在公安领域中，声纹识别一般使用长自由文本算法模型，在长自由文本模型下，EER小于0.64%，准确率达98.1%以上。在1：N比对中，TOP1命中率超过96.1%，在此种准确率前提下，可为公安应用提供最好的落地保障。

高鲁棒性

公安领域中真实案件中，检材都是五花八门，录音文件都可能使用各种不同的设备录制的，那么就需要考验声纹识别算法在不同噪声环境下的适应性、各种文本类型适应性、跨信道适应性上的表现，当具备了上述的优秀表现后，才保证了在不同应用场景下算法性能的稳定。下图为在不同噪音下可以通过动态分数偏移的算法，保持了高鲁棒性。

三、公安领域应用方案

声纹识别技术能够为公安行业带来以往战法的突破，助力科技强警，为案件侦破过程提供新的线索和证据，对于提高办案效率，优化办案方式，提高办案质量，提升案件侦破能力都将起到积极的推动作用，在维护国家安全、打击犯罪工作中具有非常重要的意义。
通过独特的算法，可在多人对话场景中进行精准的声纹识别，分离出单个说话人音频，并识别出每个人的说话内容。适用于公安动态布控、大型会议记录等应用场景。
此外，相对于指纹、虹膜、人脸等识别技术，声纹在远程采集与识别上具备先天的优势，且仅需普通麦克风或其它易于集成麦克风的设备（如监控摄像头、便携式执法记录仪等），采集自然、便利，在不被采集对象发觉的情况下即可完成采集与识别。声纹技术大幅提高了远程采集的成功率及识别的准确性，从技术上具备了远程采集与识别的可行性。

声纹采集系统

声纹库为声纹识别应用的基础，声纹采集系统主要部署在公安各基层信息采集室中，用于对重点人员的声纹信息进行采集，形成继指纹、DNA库后又一个生物特征库，声纹数据库，为案件侦破提供一种新的技术手段，为各警种提供一套新的个体识别应用平台。

声纹比对系统

声纹比对系统提供1：N大库检索比对，支持千万库容建设。在使用的实际数据测试的实验中，用159449句语音，与12782个说话人进行约10亿次比较，154027条语音对应的实际说话人直接命中top1，也就是说top1的直接命中率为96.6%。根据该性能表现，在较好的测试数据集下（声音噪音、信道、有效语音时长、采样率比较理想的情况下），一万人的平均返回比中排名约为1.5位，十万人返回排名约为9.7位。

声纹鉴定工作站

除了具备传统声纹工作站的一般功能以外，声纹工作站独有的音素检索技术可协助鉴定人员，从音频数据中检索出特定的音素。
使用传统的声纹工作站，声纹鉴定人员需要反复听检材以确定其中是否出现特定的音素。声纹鉴定工作站可以极速自动搜索、定位检材中是否包含特定音素，将工作效率提高20倍以上，为声纹的实时识别和快速鉴定提供了极为可靠的技术基础。

声纹实战平台

作为一项非常前沿的技术，声纹数据库及识别系统与已有的指纹库、DNA库、人像库类似，助力科技强警，但又更适应新形势下公安实战及维护人民安全和社会稳定的需求。
作为一项基础性和创新性工作，以声纹识别系统为核心，公安机关可建成两大应用平台后可直接为刑侦、治安、反恐、治安管理等多警种服务，成为打击犯罪的一项新的高科技手段和增长点，也能够为处理重大突发事件、侦破重大、疑难案件提供重要且无法取代的技术手段。在新形势下，基于声纹信息的目标人监控已经成为技侦领域的重要技术手段之一，声纹库的建设将为各个语音侦控系统提供高质量的声纹信息源，并实现自动监控，其应用前景非常广泛。
声纹侦查作战平台：以破案、追逃为导向，利用声纹识别技术进行“案查人”、“人查案”、“案查案”与“人查人”等多种排查方式。

【案查人】如电信诈骗，主要线索只有语音的情况下，将该语音进行声纹库大库检索，快速锁定嫌疑人。
【人查案】公安抓捕到可疑人员后，提取出该人的声纹特征，将其放入尚未侦破的语音案件中，排查该人是否为在逃人员。
【案查案】公安人员可使用声纹识别技术将尚未侦破的语音案件以及语音线索归纳整理，从中排查是否有多起案件是同一人所为，帮助侦察人员获得更多线索，提高排查效率。
【人查人】公安机关在抓捕到可疑人员后，提取出该人的声纹特征，为避免该人使用伪造身份，可将其声纹特征放入已知人员的声纹库，查询其真实身份

动态声纹布控平台

动态声纹布控平台：以布控、预警为导向，通过声纹生物特征与语音内容多维识别，在包含电信和互联网范围内实行有效动态布控、预警，消除潜在风险。
动态声纹全网布控是基于声纹识别技术，结合与技术侦查、自动监听等技术，将各种通信及语音中的声纹特征及语音内容进行实时、远程、非接触式的主动识别，实现对涉暴、涉恐、涉毒、涉稳等重点防范人员的布控预警，提示安保及公安人员采取控制措施，并持续跟踪监控，可广泛应用于重点区域、重点时段、重点频段、重点社交媒体等语音通信场景，特别适用于对安保要求极为严格的大型峰会或有领导人出席的重要会议区域。
动态声纹全网布控平台能够实时搜索和识别目标人物，既可报警黑名单上的嫌疑人以提高公共安全，还能记录音频流中出现的所有声纹进行归档，建立声纹人员的档案库，实现重点人员的语音分析和行为预测。

四、声纹识别大平台建设内容

声纹识别大平台的核心是声纹识别系统，其建设主要分为声纹数据库、声纹识别引擎、声纹鉴定工作站三大部分，由此构成采集、自动建模、自动检索、鉴定、自动预警等一整套智能化业务系统。
声纹库数据为整个声纹大系统的基础，为构建更加完善的声纹基础数据库，建设采集来源应包括：

标采：通过专业标准的声纹采集设备按照标准采集流程进行声纹采集，并与现在数据形成人、像、声等多维度关联，适用于各派出所采集点；
电信：采用技侦手段从电信运营商处获取电话信道中的语音信息；
网络语音：通过专业手段从网络或嫌疑人手机中获取语音数据，如：从嫌疑人手机中读取微信语音数据；
其它：录音笔等其它方式录制下来的语音数据；

声纹检索引擎是声纹识别系统的核心，是声纹库建设及价值发挥的关键技术手段，目前，业内领先的声纹检索引擎最高可支持上千万库容，适应多种格式的语音检材数据，实时返回检索结果。
声纹鉴别工作站为声纹业务人员的日常操作与实战应用系统，主要部署在省厅及各个市局，提供声纹信息管理、下载、查询、复核及声纹鉴定报告等具体任务。
声纹数据库、声纹识别引擎、声纹鉴定工作站为声纹识别系统中不可或缺的三大部分，为动态声纹全网布控平台提供有力保证。

五、总结

声纹识别大平台建设是公安机关的信息化工作的重要一环，其需求急迫、专业技术性强、应用广泛，能够有效助力公安机关遏制与打击犯罪、提高风险预警与动态布控能力，突破传统布控模式，实现公安机关的高技术手段和战法的创新，构建和强化安全的社会环境。