王敏 汪依帆 黃維
摘要
立法智能分析平臺(tái)為法律咨詢者提供法律案件的智能分析和成果展現(xiàn)。用戶通過系統(tǒng)提交需要咨詢的法律案件,分析系統(tǒng)提取提交案件的文字信息,通過篩選、清洗、智能識(shí)別和自然語言處理等操作挖掘出案件關(guān)鍵點(diǎn)內(nèi)容,找出與已發(fā)生案件的相識(shí)點(diǎn)和沖突點(diǎn),建立相關(guān)案件的關(guān)系模型,最后由可視化系統(tǒng)實(shí)現(xiàn)分析成果展示,為廣大用戶提供智能化的法律咨詢服務(wù)。
【關(guān)鍵詞】立法平臺(tái) 大數(shù)據(jù) 智能分析 法律咨詢
1 引言
1.1 平臺(tái)現(xiàn)狀
大數(shù)據(jù)時(shí)代有關(guān)法律信息化、法律智能化的產(chǎn)業(yè)服務(wù)層出不窮,人們的法律意識(shí)所有提升,對法律信息的獲取率顯著增長,人們可以容易的從現(xiàn)存法律數(shù)據(jù)數(shù)據(jù)庫中檢索到所需的法律法規(guī)和案件信息?,F(xiàn)有法律數(shù)據(jù)管理系統(tǒng),可以對存入法律數(shù)據(jù)庫的法律法規(guī)和案件信息進(jìn)行全文檢索,包括標(biāo)題、日期、分類、效力級別等信息,在獲得檢索結(jié)果后,如果進(jìn)一步地查找相關(guān)法條,需要花費(fèi)大量的時(shí)間和精力才能找到案情相關(guān)信息。當(dāng)查到相關(guān)法律法規(guī)條款后,直接進(jìn)行相應(yīng)條款的案件類型和要素識(shí)別的智能化程度還不高,難以自動(dòng)判定法律法規(guī)中的沖突點(diǎn)、相似點(diǎn),對法律法規(guī)的立改廢和用戶的法律咨詢不足實(shí)現(xiàn)智能化參考與服務(wù)。
1.2 需求分析
立法智能分析平臺(tái)為法律咨詢者提供法律案件的智能分析和成果展現(xiàn)。用戶通過系統(tǒng)提交需要咨詢的法律案件,分析系統(tǒng)提取提交案件的文字信息,通過篩選、清洗、智能識(shí)別和自然語言處理等操作挖掘出案件關(guān)鍵點(diǎn)內(nèi)容,找出與己發(fā)生案件的相識(shí)點(diǎn)和沖突點(diǎn),建立相關(guān)案件的關(guān)系模型,最后由可視化系統(tǒng)實(shí)現(xiàn)分析成果展示,為廣大用戶提供智能化的法律咨詢服務(wù)。
2 立法大數(shù)據(jù)平臺(tái)的構(gòu)建
2.1 平臺(tái)數(shù)據(jù)來源
立法大數(shù)據(jù)數(shù)據(jù)來源主要有以下幾個(gè)途徑:
(1)立法機(jī)構(gòu)提供的官方數(shù)據(jù),該數(shù)據(jù)也是最具有權(quán)威的數(shù)據(jù)。
(2)各立法系統(tǒng)平臺(tái)數(shù)據(jù),該數(shù)據(jù)可以通過網(wǎng)絡(luò)爬取方式獲得,具有一定的法律基礎(chǔ),有參考價(jià)值,數(shù)據(jù)更新快,但是各地域可能存在立法數(shù)據(jù)差異問題。
(3)通過第三方平臺(tái)購買的數(shù)據(jù),該數(shù)據(jù)的可靠性由第三方?jīng)Q定,但會(huì)存在數(shù)據(jù)版權(quán)等問題。
(4)用戶自己上傳的案例數(shù)據(jù),該數(shù)據(jù)不作為法律依據(jù),但是可以作為案例分析和平臺(tái)驗(yàn)證數(shù)據(jù),具有應(yīng)用實(shí)踐作用和案例參考價(jià)值。
2.2 平臺(tái)架構(gòu)設(shè)計(jì)
大數(shù)據(jù)立法智能分析系統(tǒng)分別為:數(shù)據(jù)采集系統(tǒng)、智能分析系統(tǒng)、數(shù)據(jù)管理系統(tǒng)和服務(wù)與應(yīng)用系統(tǒng)四個(gè)子系統(tǒng)組成。如圖1所示。
數(shù)據(jù)采集系統(tǒng)用于采集原始數(shù)據(jù),原始數(shù)據(jù)的基本信息包括來源網(wǎng)址、采集時(shí)間、標(biāo)題、全文、發(fā)布單位、發(fā)布時(shí)間、類別、效力級別、時(shí)效性等??赏ㄟ^網(wǎng)絡(luò)爬蟲、文件導(dǎo)入、數(shù)據(jù)庫遷移合并、網(wǎng)絡(luò)提交等方式獲取立法相關(guān)數(shù)據(jù),采集系統(tǒng)將對數(shù)據(jù)進(jìn)行清洗和質(zhì)檢。數(shù)據(jù)管理系統(tǒng)對采集符合要求的數(shù)據(jù)進(jìn)行統(tǒng)一入口管理,數(shù)據(jù)存儲(chǔ)有分布式數(shù)據(jù)庫和本地?cái)?shù)據(jù)庫兩種方式。智能分析系統(tǒng)獲取到原始數(shù)據(jù)基本信息,檢測數(shù)據(jù)相似性、沖突性和建立關(guān)系模型,分析的成果數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。系統(tǒng)采用基于hadoop的分布式計(jì)算、基于spark的迭代式計(jì)算、基于 storm的流式計(jì)算、基于tensorflow的深度神經(jīng)網(wǎng)絡(luò)計(jì)算實(shí)現(xiàn)數(shù)據(jù)來智能分析功能。服務(wù)與應(yīng)用系統(tǒng)從數(shù)據(jù)庫中獲取分析后數(shù)據(jù)進(jìn)行可視化顯示。實(shí)現(xiàn)系統(tǒng)的對外服務(wù)接口,為用戶提供友好的分析展現(xiàn)界面。
3 立法平臺(tái)關(guān)鍵技術(shù)
智能化的立法大數(shù)據(jù)平臺(tái)包含了較多的新技術(shù)領(lǐng)域,從立法數(shù)據(jù)定義、采集技術(shù)方案、數(shù)據(jù)質(zhì)檢標(biāo)準(zhǔn)、清洗規(guī)則、存儲(chǔ)模式、大數(shù)據(jù)計(jì)算架構(gòu)、智能分析模型、法律文本提取、文本規(guī)則分析、信息推送、數(shù)據(jù)可視化呈現(xiàn)等技術(shù)都是一個(gè)及其復(fù)雜的系統(tǒng)工程,平臺(tái)技術(shù)主要集中在以下幾點(diǎn):
3.1 數(shù)據(jù)融合技術(shù)
立法基礎(chǔ)數(shù)據(jù)是整個(gè)平臺(tái)的數(shù)據(jù)支撐,數(shù)據(jù)收集難度依取決于數(shù)據(jù)采集來源,立法平臺(tái)數(shù)據(jù)收集是多源異構(gòu)數(shù)據(jù)整合,需對不同格式的數(shù)據(jù)格式進(jìn)行歸一化處理,對不同數(shù)據(jù)字段進(jìn)行統(tǒng)一標(biāo)準(zhǔn)合并,對重復(fù)數(shù)據(jù)進(jìn)行去重處理,對立法沖突數(shù)據(jù)進(jìn)行標(biāo)記分類等。
3.2 智能分析技術(shù)
數(shù)據(jù)智能分析是平臺(tái)的核心支撐,數(shù)據(jù)分析體現(xiàn)兩個(gè)層面:
(1)海量立法原始數(shù)據(jù)批量處理,通過hadoop平臺(tái)進(jìn)行處理可以滿足效率和性能需求;
(2)基于tensorfiow的深度神經(jīng)網(wǎng)絡(luò)計(jì)算平臺(tái),由多臺(tái)GPU服務(wù)器集群組成,實(shí)現(xiàn)多GPU并行計(jì)算,對現(xiàn)有立法文本數(shù)據(jù)進(jìn)行自然語言處理,對現(xiàn)有案例文件庫進(jìn)行學(xué)習(xí)和訓(xùn)練,建立立法數(shù)據(jù)分析特征庫,系統(tǒng)對用戶體提交的立法案例進(jìn)行分析識(shí)別。智能分析技術(shù)核心目標(biāo)是建立立法數(shù)據(jù)與法律案件的多維度關(guān)系模型,設(shè)計(jì)出基于分布式、多GPU的高性能、高可靠的并行算法。
3.3 大數(shù)據(jù)存儲(chǔ)
立法大數(shù)據(jù)的存儲(chǔ)系統(tǒng)分為兩個(gè)級別:
(1)原始數(shù)據(jù)庫,存儲(chǔ)海量原始數(shù)據(jù),采用HDFS分布式文件存儲(chǔ)系統(tǒng),由數(shù)據(jù)管理系統(tǒng)統(tǒng)一訪問接口與權(quán)限控制,優(yōu)化并行訪問策略,提升系統(tǒng)應(yīng)用效率。
(2)成果運(yùn)行數(shù)據(jù)庫,存取數(shù)據(jù)較小的成果數(shù)據(jù),采用關(guān)系型數(shù)據(jù)庫mysql,由數(shù)據(jù)管理系統(tǒng)提供統(tǒng)一服務(wù)接口,完成業(yè)務(wù)數(shù)據(jù)的交互。
3.4 數(shù)據(jù)可視化
數(shù)據(jù)展示部分為了適應(yīng)不同終端的顯示效果,界面布局采用響應(yīng)式布局。按立法主題的不同設(shè)計(jì)對應(yīng)的呈現(xiàn)風(fēng)格,數(shù)據(jù)呈現(xiàn)應(yīng)體現(xiàn)良好的設(shè)計(jì)效果和行業(yè)專業(yè)性,將數(shù)據(jù)的基本信息、相似性、沖突性等分析成果通過圖形化和交互式動(dòng)畫效果等手段進(jìn)行顯示。
4 結(jié)束語
隨著云計(jì)算、大數(shù)據(jù)、人工智能的高速發(fā)展,利用大數(shù)據(jù)和人工智能解決法律糾紛問題的越來受到人們的重視,針對傳統(tǒng)的結(jié)構(gòu)化系統(tǒng)的運(yùn)行,系統(tǒng)數(shù)據(jù)處理速度慢、計(jì)算效率低下、準(zhǔn)確度不高,提出一種基于大數(shù)據(jù)的立法智能分析平臺(tái)具有較強(qiáng)的使用價(jià)值。為了滿足人們對法律的咨詢需求,還需立足法律行業(yè)、促進(jìn)國家立法建設(shè),服務(wù)人類社會(huì),實(shí)現(xiàn)立法大數(shù)據(jù)的平臺(tái)建設(shè)與長期服務(wù)社會(huì)。
參考文獻(xiàn)
[1]張茜.論大數(shù)據(jù)時(shí)代我國網(wǎng)絡(luò)服務(wù)提供者的法律責(zé)任[J].合肥工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2018(08).
[2]張敏.我國大數(shù)據(jù)交易的立法思考[J].學(xué)習(xí)與實(shí)踐,2018(07).
[3]張偉.醫(yī)療大數(shù)據(jù)平臺(tái)數(shù)據(jù)高并發(fā)方案設(shè)計(jì)與關(guān)鍵技術(shù)分析[J].信息技術(shù)與網(wǎng)絡(luò)安全,2018(04).