法官论坛

首页
> 法官论坛 > 理论研究

行庭审记录改革提升司法审判效率-语音识别技术在庭审中的运用
2017/05/10 10:36:58

陈辽敏 萧方训
随着信息化建设的深入开展,大数据、云计算、人工智能等技术开始进入司法审判领域。语音识别技术集中了智能、云、大数据等多项应用,在杭州市西湖法院开展的庭审记录方式改革中展示出记录准确度高、高效方便的特点,为深入开展庭审记录方式改革,提高庭审质量和效率,提升司法供给能力提供了有力的工具。
一、庭审适用语音识别技术的基本情况
杭州市西湖法院作为省高院智能语音识别系统试点法院,在今年6月7日,利用语音识别技术进行庭审记录,先后审理了涉外离婚纠纷案件、危险驾驶罪案件以及盗窃罪案件,实现了庭审语音同步转化为文字并自动生成庭审笔录。后又于今年7月、8月经过数次庭审实践,智能语音识别系统语音识别灵敏,文字转化正确率高,对普通话的语音识别率每次均达到90%以上,具备了在庭审记录中推广应用的条件。
其中:
案号
开庭时间
案由
总字数
错误字数
识别准确率
(2016)浙0106刑初 401
2016年6月7日
危险驾驶罪
1309
30
97.7%
(2016)浙0106刑初403号
016年6月7日
盗窃罪
2277
87
96.2%
(2016)浙0106民初4093号
016年6月7日
离婚
3329
160
95.0%
(2016)浙0106刑初475号
2016年7月5日
盗窃罪
3324
54
98.38%
(2016)浙0106刑初479号
2016年7月5日
危险驾驶罪
1141
11
99.04%
二、语音识别技术介绍
人工智能方兴未艾,近年来取得长足进步,语音识别是其中之一。机器的智慧来源于它能看到的各种各样的数据,数据对于机器学习来说是非常非常重要的。不论是语音识别、图像识别,还是AlphaGo,如果想要达到一个能跟人PK的程度,一定需要非常丰富的数据,并且经过快速的学习。人工智能进步的本质是大数据驱动下的机器学习的进步,随着深度学习技术和大数据处理能力的提升,近几年语音识别技术有了突飞猛进的进展。目前在百万词库上,语音识别准确率已经超过90%(图片来自谷歌的报道)。
随着语音技术与大数据技术的发展,人们越来越重视发掘以前沉睡的数据价值。例如,之前“您的电话有可能被录音”,录音后如果需要进行分析和挖掘,只能人工听,成本极高。各种视频中的语音数据也是如此。随着语音识别技术的发展,就可以对录音转写后的文字信息进行更加有效的利用。
杭州市西湖法院庭审语音识别采用的是阿里云小Ai语音识别技术,虽然是语音识别的试用版本,但在语音识别的准确率上达到了较高水平。在应用于法院庭审之前,阿里云语音识别服务器已经对司法领域知识库进行了大量学习,大大提升了对于庭审过程中法言法语的有效识别能力。
阿里云小Ai语音识别技术依靠阿里云的强大后台,基于云计算和大数据,强调模型的先进性与大数据快速迭代。通过深度学习技术(DNN、CNN、BLSTM)实现,背靠阿里云的云计算技术,语音识别的训练速度可以做到万小时级别的语音数据在天级别内训练完成。这样的迭代速度,超过了业界平均水平,主要得益于阿里云的核心技术——CPU/GPU多机多卡声学模型训练。语音识别是一个由多种算法构成的复杂系统,部分较适合在GPU(图形处理器)中实现,部分较适合在CPU(中央处理器)中实现。阿里巴巴云计算拥有CPU、GPU混合云的方案,既有大量CPU机器,也有GPU的机器,二者之间通过高速网络连接,可以取得最佳的效果。而在语音识别领域,有大量的算法需要进行并行化的处理,并在GPU上进行实现。如果每一个算法都从头开始实现,效率将会非常低下。针对这一问题,阿里云开发了基于GPU的多机多卡的中间件。基于这一中间件,市面上的深度学习的算法都可以方便、高效地部署到GPU集群上。阿里云小Ai语音识别提供了一体机的技术架构,实现将单路语音数据转成文字、转写是流式进行、延迟不超过500ms、转写过程中会自动进行纠错。
阿里云小Ai语音识别在杭州市西湖法院使用的版本为公有云版本,部署方案为各发言角色的声音通过定向麦传入装有语音识别软件的电脑,电脑将庭审语音通过互联网连接阿里云云端的语音识别服务器,语音识别成文字后,再回传至庭审现场的电脑。庭审语音信息在云端的语音、文字信息虽然在公有云上,但经阿里云在安全技术上的控制,可以保障庭审信息的安全。
这一语音识别的公有云版本有以下几方面优点:
1、语音识别云端服务的统一更新,版本更新方便快速
2、语音识别服务稳定性好,云端有备份有保障
3、识别准确率高,可快速学习并分享语料学习成果
4、部署方便快捷,只要相应法庭硬件设备部署完成,通过公有云方案无需本地服务部署,便可迅速实现语音识别。
三、庭审记录现场操作及效果
庭审前,技术人员在庭审法官、书记员以及各方当事人的庭审电脑上先行安装了“语音转写软件”。书记员将案件基本信息提前交给开发人员输入语音识别系统服务器进行机器学习。庭审时,电脑连入互联网,使用人只需要点击软件即实现“一键开启”。软件按照审判员、书记员、原被告(或者辩护人、公诉人)预先设置角色,一台电脑配一个角色,语音文字转换时自动注明发言人角色,有效区分庭审发言对象及发言内容。语音及识别结果实时保存,并依次按照时间顺序实时显示在各方电脑上,法官、原被告可全程观看包括己方在内的所有文字,只要保持正常语速,发音基本准确,系统即可转化,还能自动根据上下文对个别字词进行修正,具有很高的准确性。重复率越高,读取越准确,具备随时学习的能力。根据发言人的停顿时间超过系统所设定的延时时间,字幕还自动对文字进行标点符号标注、断句、分行处理,最终形成完整的有角色名、有上下文关系的庭审笔录,庭审结束后书记员只需要简单核对、修改即可。上述开庭案件中,庭审时法官、原被告、公诉人直接在各自电脑软件界面、被告人通过数字法庭大屏幕同步观看文字字幕,效果良好。
四、庭审记录推行语音识别技术的意义
(一)、缓解案多人少矛盾,进一步解放书记员
随着案件的高位增长,案多人少的矛盾直接影响司法的高效运行。审判权运行机制改革中,员额法官将精力集中于案件的审理裁判,但书记员供给能力不足,将不可避免地使法官的不少精力仍纠缠于具体的事务处理。庭审记录占据书记员的大块时间,引入高智能的语音识别技术,通过书记员简单地庭审前处理操作,可以在多数简易案件中适用语音转文字记录,书记员完全可以庭审时不在场,有效节约了书记员的时间,增强书记员的司法产出能力。
(二)、提高庭审质量,增强庭审笔录的客观性
高智能语音识别记录,记录的全面性及准确率并不亚于一般书记员水平。庭审记录经过书记员的理解、归纳、取舍,难免出现偏差,机器识别则能原汁原味地,一个感叹词都不漏地记录当事人声音,人长时间工作容易开小差,而机器不会疲劳,其在客观性与全面性方面大有可取之处。在整个庭审中将语音识别技术引入法庭记录,能提高庭审质量。
(三)、深入改革,补前期庭审记录方式之短板
2014年8月以来,浙江法院系统为有效缓解案多人少矛盾,充分依托信息化解放生产力,践行“机器换人”,倒逼庭审规范高效,在全国首开先河探索以录音录像代替书记员庭审笔录,明显提升了庭审质量和效率。2016年1至5月,以录音录像代替书记员庭审笔录案件达10.8万件,约占开庭案件52.3%。但庭审如果只有录音录像没有文字记录,在法官判决书制作以及领导签发需参考庭审记录时就会有不便。语音转文字的书面记录,进一步消除了书记员不在场制作庭审记录的顾虑,补前期庭审记录方式之短板,将有力推进庭审记录改革的深入进行。
五、试点中存在的问题
通过阿里云小Ai语音识别在法院庭审过程中的试用,也存在一些需要不断优化和提升之处。
(一)、识别能力方面。缺乏逻辑关系或固定搭配组合,读取错误率会明显偏高,对于身份证号、门牌号、车牌号等组合识别能力较弱。识别过程中断句、标点等方面不正常多见。机器仅仅从说话时间停顿长短上判断处理分句分段,同一对象的讲话被分成了很多段。机器目前听不懂地方方言,对带有口音的普通话读取能力也较弱。
(二)、庭前准备方面。为提升对于案件当事人、案件特定关键词的识别率,需要提前同步案件信息到阿里云服务器进行学习。目前这一前期的准备工作需要有一定的提前量,且案件信息录入、上传等工作需要手工完成,还未实现自动化、产品化。
(三)、用户体验方面。目前版本的功能主要在实现语音识别并提升准确率,但在一些人性化的功能上,如定制笔录模板、界面庭审标识化、过程标记、笔录编辑、笔录下载打印等方面,还有较大的提升空间。
(四)、设备配置方面。语音识别系统安装在云端,目前需要连接互联网。数字法庭因内外网隔离,普遍未接入互联网。现行版本各发言角色均需要连接互联网的电脑一台,对于复杂的庭审角色较多,设备配置成本较高,设备兼容性有待提高。
六、庭审语音转文字技术的优化
针对以上试点过程中的问题,杭州市西湖法院与阿里云语音识别团队保持经常性沟通。目前语音识别新的版本已经在持续开发和优化中:
(一)、在语音识别能力上,身份证和门牌号的数字识别阿里云已经完成开发,断句、标点的读取也在优化中。目前阿里云小Ai语音识别前期主要针对普通话进行,后续随着对方言语料的模型学习,逐步实现对于方言的语音识别。
(二)、在庭前案件信息学习上,在语音识别版本中将加入让法官或书记员录入案件信息的页面,录入后自动同步阿里云进行语料学习,研究与法院后台案件管理系统打通,实现案件信息一键同步阿里云,而语音识别文字、录音等在庭审完成后自动同步案件到管理后台,减少法官和书记员的工作量。
(三)、在用户体验上,需要不断提升法官、书记员以及当事人体验,从法官、书记员及当事人实际使用的需求和庭审现场习惯出发,提高具体操作的方便程度,根据个案需求提供个性化服务,提高相应优化的功能在新的版本中逐步上线。
(四)、在设备配置上,研发通过一台联网电脑实现对多麦声音的语音识别和转化,尽可能兼容现有数字法庭设备,降低硬件配置成本。
在浙江省高院的大力支持下,杭州市西湖法院在庭审中适用语音识别技术时间,虽然时间不长,但该项技术受到了法官、书记员的普遍认同。语音识别技术的推广应用,将进一步解放书记员,实现庭审成本的降低和庭审效率的提升。下一步,杭州市西湖法院结合庭审记录录音录像改革将语音识别技术推广到刑事、民商事案件的庭审中,逐渐实现全面铺开到所有庭审中。除了庭审之外,语音识别技术还将运用到司法领域的其他环节,如调解、合议、12368热线、各种会议等。对语音识别的文字,还可以实现对识别结果的高频词分析、内容检索、知识挖掘等,实现对语音信息的挖掘,充分发挥大数据的价值。

Produced By 大汉网络 大汉版通发布系统