1.本發(fā)明涉及礦山安全管理技術(shù)領(lǐng)域,特別涉及一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)。
背景技術(shù):
2.礦山安全管理通常以礦山在生產(chǎn)過(guò)程中積累的安全隱患排查數(shù)據(jù)作為原始數(shù)據(jù)來(lái)源,這些安全隱患檢查數(shù)據(jù)中包含了隱患發(fā)生時(shí)間、地點(diǎn)、隱患問(wèn)題描述等大量有效信息。但是安全檢查數(shù)據(jù)存在記錄隨意、用語(yǔ)不規(guī)范、行業(yè)習(xí)慣用語(yǔ)多、問(wèn)題描述不清晰等問(wèn)題,限制了其更深層次的有效利用,同時(shí),礦山安全生產(chǎn)管理的特殊性和復(fù)雜性使得相應(yīng)的
采礦安全信息維度眾多、內(nèi)容龐大、層次多極化,因而在傳統(tǒng)模式下,管理人員很難全面、實(shí)時(shí)、直觀地掌控和分析礦山的安全生產(chǎn)狀況。面對(duì)這些格式多樣、標(biāo)準(zhǔn)不一、以文本數(shù)據(jù)為主的非結(jié)構(gòu)化數(shù)據(jù),礦山企業(yè)缺乏有效的分析方法,難以從海量的安全數(shù)據(jù)中提取出可指導(dǎo)安全生產(chǎn)的有價(jià)值信息,造成了數(shù)據(jù)資源的堆積與浪費(fèi)。
3.經(jīng)過(guò)分析研究,這些安全隱患記錄數(shù)據(jù)呈現(xiàn)出突出的大數(shù)據(jù)4v特征,即數(shù)據(jù)體量(volume)大、種類(variety)多樣、數(shù)據(jù)增長(zhǎng)速度(velocity)快、價(jià)值(value)密度低。受限于傳統(tǒng)數(shù)據(jù)分析的方法與功能,這些安全數(shù)據(jù)只用于完成簡(jiǎn)單的安全問(wèn)題處理、報(bào)表分析和數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)的生命周期相當(dāng)短暫,在隱患排查完成后即以分散化、無(wú)序化的形式堆積,沉淀成為大量的歷史數(shù)據(jù),對(duì)于增加隱患排查的針對(duì)性、可視化描述安全隱患的分布規(guī)律和關(guān)聯(lián)關(guān)系等遠(yuǎn)未起到支撐作用。
4.大數(shù)據(jù)分析技術(shù)是通過(guò)分析挖掘算法實(shí)現(xiàn)從海量的、價(jià)值密度較低的數(shù)據(jù)中,提取出其中潛在有用的信息的過(guò)程,而且分析的對(duì)象可以是任何類型的數(shù)據(jù)。因此本文引入大數(shù)據(jù)分析中的文本挖掘與可視化方法,對(duì)這些礦山安全隱患數(shù)據(jù)進(jìn)行分析,挖掘安全隱患中的隱藏知識(shí),以實(shí)現(xiàn)安全管控從事后分析到事前預(yù)防、從被動(dòng)應(yīng)對(duì)到主動(dòng)防控、從單一要素到精細(xì)協(xié)同的安全管理智能化的目標(biāo)。
技術(shù)實(shí)現(xiàn)要素:
5.本發(fā)明的目的在于提供一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),基于大數(shù)據(jù)平臺(tái),以面向不同維度的安全管理主題挖掘、安全風(fēng)險(xiǎn)的智能辨識(shí)、安全隱患的產(chǎn)生與分布規(guī)律、安全事件產(chǎn)生機(jī)理的知識(shí)挖掘等大數(shù)據(jù)分析為基礎(chǔ),建成以智能分析、辨識(shí)、挖掘以及知識(shí)發(fā)現(xiàn)為核心內(nèi)容的智慧安全分析與預(yù)警體系,為礦山安全風(fēng)險(xiǎn)識(shí)別、危險(xiǎn)源分級(jí)、安全防控策略以及安全應(yīng)急處置提供支持。
6.為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供如下方案:
7.一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),包括:
8.大數(shù)據(jù)采集模塊,用于采集不同來(lái)源、不同格式的安全隱患數(shù)據(jù);
9.大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊,用于對(duì)采集的安全隱患數(shù)據(jù)進(jìn)行提取、清洗、標(biāo)準(zhǔn)化預(yù)處理;
10.大數(shù)據(jù)分析模塊,用于以數(shù)據(jù)挖掘模型庫(kù)為基礎(chǔ),對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析,并對(duì)分析結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ);
11.大數(shù)據(jù)可視化模塊,用于對(duì)大數(shù)據(jù)分析結(jié)果進(jìn)行可視化呈現(xiàn),便于安全管理者進(jìn)行風(fēng)險(xiǎn)預(yù)警與科學(xué)決策。
12.優(yōu)選地,所述大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊具體用于:
13.整合行業(yè)語(yǔ)義詞庫(kù):整合包括采礦工程、礦井通風(fēng)、礦山地質(zhì)勘探、礦山應(yīng)急救援、礦業(yè)詞匯術(shù)語(yǔ)在內(nèi)的礦山生產(chǎn)專業(yè)詞庫(kù)以及安全管理相關(guān)詞庫(kù);
14.構(gòu)建自定義詞庫(kù):在整合行業(yè)語(yǔ)義詞庫(kù)的基礎(chǔ)上,通過(guò)對(duì)礦山安全主題數(shù)據(jù)進(jìn)行詞義分解和關(guān)鍵語(yǔ)義提取,分析礦山安全管理中關(guān)注的要素,同時(shí)結(jié)合礦山安全管理特點(diǎn)構(gòu)建專門用于礦山安全主題大數(shù)據(jù)分析的語(yǔ)義詞庫(kù);
15.動(dòng)態(tài)更新停用詞詞庫(kù):去掉安全主題數(shù)據(jù)中的包括虛詞、副詞、序號(hào)在內(nèi)的無(wú)意義內(nèi)容,保留與安全主題相關(guān)的特征詞。
16.優(yōu)選地,所述大數(shù)據(jù)分析模塊包括:
17.數(shù)據(jù)維度劃分單元,以5w1h分析方法為指導(dǎo),通過(guò)安全風(fēng)險(xiǎn)的成因要素聚類分析,結(jié)合礦山安全主題數(shù)據(jù)的特點(diǎn)及構(gòu)成,抽象并歸集安全主題數(shù)據(jù)的描述維度,并對(duì)各維度進(jìn)行概念分層和屬性劃分;
18.數(shù)據(jù)挖掘模型庫(kù),包括多種數(shù)據(jù)挖掘模型,所述數(shù)據(jù)挖掘模型實(shí)例化后嵌入所述數(shù)據(jù)挖掘模型庫(kù),便于大數(shù)據(jù)分析時(shí)進(jìn)行調(diào)用;使用時(shí),針對(duì)不同的安全主題數(shù)據(jù),選擇適合的數(shù)據(jù)挖掘模型進(jìn)行大數(shù)據(jù)分析。
19.優(yōu)選地,所述數(shù)據(jù)挖掘模型庫(kù)包括:
20.主題挖掘模型,用于揭示礦山頻發(fā)、高危、高風(fēng)險(xiǎn)的安全管理主題,實(shí)現(xiàn)安全管理主題域的挖掘與歸集;
21.語(yǔ)義網(wǎng)絡(luò)分析模型,用于以網(wǎng)絡(luò)格式表達(dá)知識(shí)構(gòu)造的模型,通過(guò)計(jì)算語(yǔ)義距離及安全隱患要素詞性,構(gòu)建安全隱患要素及其共現(xiàn)關(guān)系的集合,深層次地表示安全隱患結(jié)構(gòu)、層次及安全隱患間的因果關(guān)系,從而直接表達(dá)出安全隱患的語(yǔ)義關(guān)系;
22.關(guān)聯(lián)規(guī)則挖掘模型,用于挖掘礦山各類危險(xiǎn)源之間潛在的、隱含的關(guān)聯(lián);
23.隱患分類模型,用于根據(jù)礦山安全隱患數(shù)據(jù)中蘊(yùn)含的安全隱患的規(guī)律、規(guī)則和知識(shí),進(jìn)行安全隱患的自動(dòng)分類,以實(shí)現(xiàn)非結(jié)構(gòu)化礦山隱患文本資源的有序整合;
24.事故預(yù)測(cè)模型,用于揭示安全隱患可能的發(fā)展走向,并對(duì)由安全隱患積累導(dǎo)致的安全生產(chǎn)事故進(jìn)行預(yù)測(cè)。
25.優(yōu)選地,所述主題挖掘模型采用的算法包括hdp算法、lda算法、dtm算法、lsa算法和tf?idf算法;所述語(yǔ)義網(wǎng)絡(luò)分析模型采用的算法包括lsa算法和bm25算法;所述關(guān)聯(lián)規(guī)則挖掘模型采用的算法包括apriori算法;所述隱患分類模型采用的算法包括支持向量機(jī)算法、k最近鄰算法、人工神經(jīng)網(wǎng)絡(luò)算法和樸素貝葉斯算法;所述事故預(yù)測(cè)模型采用的算法包括統(tǒng)計(jì)回歸算法、時(shí)間序列算法、馬爾科夫鏈算法、灰色預(yù)測(cè)算法、神經(jīng)網(wǎng)絡(luò)算法和鏈路預(yù)測(cè)算法。
26.優(yōu)選地,所述大數(shù)據(jù)可視化模塊包括:
27.優(yōu)選地,所述大數(shù)據(jù)可視化模塊包括:
28.圖形可視化單元,用于按照人的行為、物的因素、環(huán)境影響、管理問(wèn)題、地點(diǎn)位置五
個(gè)因素對(duì)安全隱患數(shù)據(jù)中提取的高頻詞匯進(jìn)行分類,并通過(guò)圖形進(jìn)行可視化展示,以便于后續(xù)通過(guò)大數(shù)據(jù)分析方法智能辨識(shí)礦山生產(chǎn)過(guò)程中的主要危險(xiǎn)源;
29.時(shí)序特征可視化單元,用于利用時(shí)間線工具對(duì)安全隱患頻次進(jìn)行統(tǒng)計(jì)并以柱狀圖的形式進(jìn)行可視化展示,對(duì)安全隱患在時(shí)間維度呈現(xiàn)出的變化趨勢(shì)進(jìn)行擬合和預(yù)測(cè),通過(guò)設(shè)置預(yù)警值的方式,實(shí)現(xiàn)基于頻次特征的礦山安全隱患預(yù)警;
30.多維特征可視化單元,用于采用?;鶊D對(duì)安全隱患在時(shí)間、空間、責(zé)任主體和隱患類型呈現(xiàn)出的多維特征進(jìn)行可視化展示;
31.層次特征可視化單元,用于利用層次邊緣捆綁技術(shù)對(duì)礦山安全隱患的層次結(jié)構(gòu)特征進(jìn)行可視化展示。
32.優(yōu)選地,所述圖形可視化單元通過(guò)以下圖形中的一種或多種進(jìn)行可視化展示:詞云圖、瀑布圖、?;鶊D、層次邊緣捆綁圖以及forceatlas圖形。
33.優(yōu)選地,所述礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)還包括系統(tǒng)管理模塊,所述系統(tǒng)管理模塊用于進(jìn)行數(shù)據(jù)接口管理、知識(shí)庫(kù)管理、數(shù)據(jù)挖掘模型庫(kù)管理和可視化組件管理。
34.本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:
35.(1)面向文本挖掘的安全隱患多維數(shù)據(jù)集構(gòu)建;
36.本發(fā)明對(duì)礦山安全隱患數(shù)據(jù)進(jìn)行清洗整理,建立安全隱患文本語(yǔ)料庫(kù),通過(guò)分詞、詞頻統(tǒng)計(jì)獲得隱患高頻詞表,對(duì)隱患信息進(jìn)行多維度分類及可視化,獲取安全隱患在致因、時(shí)間、空間維度分布規(guī)律,以詞云圖、社會(huì)網(wǎng)絡(luò)圖形式實(shí)現(xiàn)礦山安全隱患信息管理可視化。
37.(2)安全隱患主題的形成與聚類分析;
38.本發(fā)明基于主題挖掘算法構(gòu)建礦山安全隱患主題挖掘模型,對(duì)礦山隱患數(shù)據(jù)進(jìn)行深入挖掘,提取出隱患信息中隱含的隱患種類分布,并通過(guò)抽樣算法確定最佳隱患主題數(shù)量,得到反映礦山安全問(wèn)題的隱患主題,實(shí)現(xiàn)了礦山安全隱患數(shù)據(jù)中存在隱患問(wèn)題主題的自動(dòng)獲取,對(duì)礦山安全管理工作具有重要意義。
39.(3)基于安全隱患語(yǔ)義網(wǎng)絡(luò)的安全隱患辨識(shí);
40.本發(fā)明構(gòu)建礦山安全隱患語(yǔ)義網(wǎng)絡(luò)圖,實(shí)現(xiàn)對(duì)礦山安全隱患問(wèn)題的整體描述,結(jié)合中心性分析得出礦山安全隱患各要素間影響程度,并進(jìn)一步探索以隱患語(yǔ)義網(wǎng)絡(luò)圖為基礎(chǔ)的安全隱患辨識(shí)分析方法,為礦山隱患辨識(shí)分析提供一種新的途徑。
41.(4)面向關(guān)聯(lián)規(guī)則模型的安全隱患并發(fā)特征分析;
42.本發(fā)明構(gòu)建了礦山隱患關(guān)聯(lián)規(guī)則挖掘模型,對(duì)安全隱患信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘出引發(fā)安全事故的隱患間的內(nèi)部關(guān)聯(lián)規(guī)律,實(shí)現(xiàn)了礦山安全隱患數(shù)據(jù)關(guān)聯(lián)規(guī)則的自動(dòng)獲取,通過(guò)獲取的隱患關(guān)聯(lián)規(guī)則可有效指導(dǎo)安全隱患檢查工作,提高礦山安全隱患排查效率。
43.(5)安全大數(shù)據(jù)分析的實(shí)體化應(yīng)用;
44.本發(fā)明利用大數(shù)據(jù)平臺(tái)數(shù)據(jù)挖掘和匯聚分析優(yōu)勢(shì),建立多維數(shù)據(jù)分析場(chǎng)景和分析模型,通過(guò)可視化技術(shù)的運(yùn)用,將海量數(shù)據(jù)直觀展示,智慧安全管理重點(diǎn)數(shù)據(jù)醒目呈現(xiàn),異常數(shù)據(jù)及時(shí)預(yù)警,發(fā)揮數(shù)據(jù)運(yùn)營(yíng)價(jià)值,動(dòng)態(tài)監(jiān)管礦山安全狀況。
附圖說(shuō)明
45.為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使
用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
46.圖1是本發(fā)明實(shí)施例提供的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)的框架示意圖;
47.圖2是本發(fā)明實(shí)施例提供的礦山安全隱患描述模型示意圖;
48.圖3是本發(fā)明實(shí)施例提供的時(shí)序特征可視化結(jié)果示意圖;
49.圖4是本發(fā)明實(shí)施例提供的多維特征可視化結(jié)果示意圖;
50.圖5是本發(fā)明實(shí)施例提供的層次特征可視化結(jié)果示意圖;
51.圖6是本發(fā)明實(shí)施例提供的礦山安全隱患辨識(shí)與預(yù)警的整體路線圖;
52.圖7是本發(fā)明實(shí)施例提供的人的安全行為詞云圖;
53.圖8是本發(fā)明實(shí)施例提供的物的不安全因素詞云圖;
54.圖9是本發(fā)明實(shí)施例提供的環(huán)境的影響因素詞云圖;
55.圖10是本發(fā)明實(shí)施例提供的管理問(wèn)題詞云圖;
56.圖11是本發(fā)明實(shí)施例提供的高頻隱患地點(diǎn)氣泡圖;
57.圖12是本發(fā)明實(shí)施例提供的礦山安全隱患lda主題挖掘模型結(jié)構(gòu)圖;
58.圖13是本發(fā)明實(shí)施例提供的礦山安全隱患lda主題挖掘模型原理圖;
59.圖14是本發(fā)明實(shí)施例提供的吉布斯算法計(jì)算過(guò)程示意圖;
60.圖15是本發(fā)明實(shí)施例提供的礦山隱患主題挖掘流程示意圖;
61.圖16是本發(fā)明實(shí)施例提供的吉布斯抽樣算法結(jié)果示意圖;
62.圖17是本發(fā)明實(shí)施例提供的金屬地下礦山安全隱患語(yǔ)義網(wǎng)絡(luò)圖;
63.圖18是本發(fā)明實(shí)施例提供的隱患語(yǔ)義網(wǎng)絡(luò)密度分析結(jié)果示意圖。
具體實(shí)施方式
64.為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
65.本發(fā)明的實(shí)施例提供了一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),如圖1所示,所述系統(tǒng)包括:
66.大數(shù)據(jù)采集模塊,用于采集不同來(lái)源、不同格式的安全隱患數(shù)據(jù);
67.大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊,用于對(duì)采集的安全隱患數(shù)據(jù)進(jìn)行提取、清洗、標(biāo)準(zhǔn)化預(yù)處理;
68.大數(shù)據(jù)分析模塊,用于以數(shù)據(jù)挖掘模型庫(kù)為基礎(chǔ),對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析,并對(duì)分析結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ);
69.大數(shù)據(jù)可視化模塊,用于對(duì)大數(shù)據(jù)分析結(jié)果進(jìn)行可視化呈現(xiàn),便于安全管理者進(jìn)行風(fēng)險(xiǎn)預(yù)警與科學(xué)決策。
70.在本發(fā)明的實(shí)施例中,上述各模塊以礦山安全隱患大數(shù)據(jù)平臺(tái)為基礎(chǔ)性平臺(tái),基礎(chǔ)性平臺(tái)分為云計(jì)算和大數(shù)據(jù)分析兩部分,云計(jì)算為安全隱患數(shù)據(jù)的存儲(chǔ)、模型計(jì)算提供支持,大數(shù)據(jù)分析為安全隱患數(shù)據(jù)提取、加工、分析和深層次利用提供支撐。從事務(wù)處理和服務(wù)角度,所述系統(tǒng)可以劃分成數(shù)據(jù)資產(chǎn)管理和平臺(tái)運(yùn)維管理兩部分,數(shù)據(jù)資產(chǎn)管理主要
包括基礎(chǔ)數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理,平臺(tái)運(yùn)維管理包括知識(shí)庫(kù)、算法庫(kù)、執(zhí)行分析腳本和數(shù)據(jù)可視化管理等。
71.進(jìn)一步地,所述大數(shù)據(jù)采集層將不同來(lái)源、不同格式的安全隱患數(shù)據(jù)按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行集中存儲(chǔ)。安全隱患數(shù)據(jù)來(lái)源廣泛,采集形式多樣,安全隱患數(shù)據(jù)主要來(lái)源于不同周期、不同主題的礦山現(xiàn)場(chǎng)安全檢查工作,數(shù)據(jù)表現(xiàn)為非結(jié)構(gòu)化文本數(shù)據(jù)以及圖像、視頻資料,數(shù)據(jù)采集形式分為電腦端和移動(dòng)端軟件兩種。
72.進(jìn)一步地,所述大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊具體用于:
73.整合行業(yè)語(yǔ)義詞庫(kù):整合包括采礦工程、礦井通風(fēng)、礦山地質(zhì)勘探、礦山應(yīng)急救援、礦業(yè)詞匯術(shù)語(yǔ)在內(nèi)的礦山生產(chǎn)專業(yè)詞庫(kù)以及安全管理相關(guān)詞庫(kù);
74.構(gòu)建自定義詞庫(kù):在整合行業(yè)語(yǔ)義詞庫(kù)的基礎(chǔ)上,通過(guò)對(duì)礦山安全主題數(shù)據(jù)進(jìn)行詞義分解和關(guān)鍵語(yǔ)義提取,分析礦山安全管理中關(guān)注的要素,同時(shí)結(jié)合礦山安全管理特點(diǎn)構(gòu)建專門用于礦山安全主題大數(shù)據(jù)分析的語(yǔ)義詞庫(kù);
75.動(dòng)態(tài)更新停用詞詞庫(kù):去掉安全主題數(shù)據(jù)中的包括虛詞、副詞、序號(hào)在內(nèi)的無(wú)意義內(nèi)容,保留與安全主題相關(guān)的特征詞。
76.本發(fā)明實(shí)施例中,所述大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊將安全隱患文本數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、清洗、標(biāo)準(zhǔn)化處理后,歸集為不同主題的數(shù)據(jù)倉(cāng)庫(kù),生成面向決策分析需求的數(shù)據(jù)立方體。安全隱患數(shù)據(jù)清洗包括缺失數(shù)據(jù)填補(bǔ)、錯(cuò)誤數(shù)據(jù)修正、以及數(shù)據(jù)格式統(tǒng)一等;針對(duì)文本數(shù)據(jù)特征,需結(jié)合礦山安全知識(shí)構(gòu)建安全隱患標(biāo)準(zhǔn)化詞庫(kù),運(yùn)用詞庫(kù)實(shí)現(xiàn)安全隱患描述的標(biāo)準(zhǔn)化分詞,并從時(shí)間、空間、致因、類型、責(zé)任主體等維度構(gòu)建安全隱患數(shù)據(jù)立方體。
77.進(jìn)一步地,所述大數(shù)據(jù)分析模塊包括:
78.數(shù)據(jù)維度劃分單元,以5w1h分析方法為指導(dǎo),通過(guò)安全風(fēng)險(xiǎn)的成因要素聚類分析,結(jié)合礦山安全主題數(shù)據(jù)的特點(diǎn)及構(gòu)成,抽象并歸集安全主題數(shù)據(jù)的描述維度,并對(duì)各維度進(jìn)行概念分層和屬性劃分;
79.數(shù)據(jù)挖掘模型庫(kù),包括多種數(shù)據(jù)挖掘模型,所述數(shù)據(jù)挖掘模型實(shí)例化后嵌入所述數(shù)據(jù)挖掘模型庫(kù),便于大數(shù)據(jù)分析時(shí)進(jìn)行調(diào)用;使用時(shí),針對(duì)不同的安全主題數(shù)據(jù),選擇適合的數(shù)據(jù)挖掘模型進(jìn)行大數(shù)據(jù)分析。
80.其中,確定數(shù)據(jù)觀察的角度與知識(shí)挖掘路徑,是大數(shù)據(jù)分析的前提和基礎(chǔ),這需要對(duì)大量隱患信息進(jìn)行維度化、標(biāo)準(zhǔn)化處理。安全隱患排查記錄數(shù)據(jù)均以非結(jié)構(gòu)或半結(jié)構(gòu)化的文字形式記錄,同時(shí)數(shù)據(jù)的記錄方式受到檢查人員用語(yǔ)習(xí)慣影響存在較大差異,為安全知識(shí)挖掘帶來(lái)了難度,為此,探索一種安全數(shù)據(jù)結(jié)構(gòu)化表達(dá)方式十分重要,滿足從多個(gè)維度對(duì)安全問(wèn)題進(jìn)行描述的要求。為確保對(duì)安全問(wèn)題描述維度抽取過(guò)程的全面性,本發(fā)明實(shí)施例中以5w1h分析方法(即六何分析方法)為指導(dǎo),最終提煉出的礦山安全隱患描述模型如圖2所示。
81.數(shù)據(jù)挖掘模型庫(kù)是安全隱患分析與辨識(shí)的核心部件。通過(guò)分析各類數(shù)據(jù)挖掘算法的優(yōu)勢(shì)與適用條件,結(jié)合礦山安全隱患數(shù)據(jù)特征,選擇適合處理礦山安全隱患數(shù)據(jù)的模型,在將模型實(shí)例化后嵌入系統(tǒng)模型庫(kù),便于數(shù)據(jù)分析時(shí)的自動(dòng)化、便捷化調(diào)用。
82.具體地,所述數(shù)據(jù)挖掘模型庫(kù)包括主題挖掘模型、語(yǔ)義網(wǎng)絡(luò)分析模型、關(guān)聯(lián)規(guī)則挖掘模型、隱患分類模型和事故預(yù)測(cè)模型。
83.主題挖掘模型用于揭示礦山頻發(fā)、高危、高風(fēng)險(xiǎn)的安全管理主題,實(shí)現(xiàn)安全管理主
題域的挖掘與歸集,以此提高礦山安全管理工作的針對(duì)性。主題挖掘模型是一種概率生成模型,常用于挖掘大規(guī)模文檔集的潛在主題,其基本原理是通過(guò)詞項(xiàng)在文檔集中的共現(xiàn)信息,利用概率反推文檔的主題結(jié)構(gòu),進(jìn)而得到整個(gè)文檔集的主題分布。主題挖掘模型采用的算法包括:hdp算法、lda算法、dtm算法、lsa算法和tf?idf算法等。其中,lda算法具有較強(qiáng)的泛化能力,適合處理大量數(shù)據(jù)集,同時(shí)該算法對(duì)于描述不規(guī)范、存在大量專業(yè)詞匯的文本數(shù)據(jù)具有較高的準(zhǔn)確度,因此,本發(fā)明實(shí)施例中選用lda算法進(jìn)行安全隱患數(shù)據(jù)的主題挖掘。
84.隨著礦山安全隱患數(shù)據(jù)容量不斷擴(kuò)大,安全隱患文本表現(xiàn)出海量、無(wú)序、離散特征,梳理安全隱患語(yǔ)義脈絡(luò)成為礦山安全管理的難題之一。語(yǔ)義網(wǎng)絡(luò)分析模型是一種以網(wǎng)絡(luò)格式表達(dá)知識(shí)構(gòu)造的模型,通過(guò)計(jì)算語(yǔ)義距離及安全隱患要素詞性,構(gòu)建安全隱患要素及其共現(xiàn)關(guān)系的集合,深層次地表示安全隱患結(jié)構(gòu)、層次及安全隱患間的因果關(guān)系,從而直接表達(dá)出安全隱患的語(yǔ)義關(guān)系。語(yǔ)義網(wǎng)絡(luò)分析模型采用的算法主要包括潛在語(yǔ)義分析(lsa)算法和bm25算法等。
85.安全隱患的各類危險(xiǎn)源不是孤立存在的,它們之間存在潛在的、隱含的關(guān)聯(lián),礦山各類危險(xiǎn)源之間隱含關(guān)聯(lián)規(guī)則的揭示對(duì)提高危險(xiǎn)源識(shí)別的準(zhǔn)確性和隱患排查效率具有重要作用。關(guān)聯(lián)規(guī)則挖掘模型用于挖掘礦山各類危險(xiǎn)源之間潛在的、隱含的關(guān)聯(lián)。apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的經(jīng)典算法,利用apriori算法,通過(guò)設(shè)置適當(dāng)?shù)闹С侄?、置信度和提升度閾值可以挖掘出引發(fā)礦山安全事故的隱患間的內(nèi)部關(guān)聯(lián)規(guī)律,以此為基礎(chǔ)構(gòu)建一種關(guān)聯(lián)隱患預(yù)警方法,為隱患的預(yù)測(cè)性排查和安全事故致因的隱含性要素揭示提供模型支持,有助于礦山企業(yè)實(shí)現(xiàn)本質(zhì)安全。
86.隱患分類模型用于根據(jù)礦山安全隱患數(shù)據(jù)中蘊(yùn)含的安全隱患的規(guī)律、規(guī)則和知識(shí),進(jìn)行安全隱患的自動(dòng)分類,以實(shí)現(xiàn)非結(jié)構(gòu)化礦山隱患文本資源的有序整合。常用的文本分類算法包括:支持向量機(jī)算法、k最近鄰算法、人工神經(jīng)網(wǎng)絡(luò)算法和樸素貝葉斯算法等。其中,支持向量機(jī)方法可以保證解的唯一性和全局最優(yōu)性,解決了神經(jīng)網(wǎng)絡(luò)等算法難以避免的局部極值問(wèn)題,且算法復(fù)雜度與樣本維度無(wú)關(guān),具有穩(wěn)定性、魯棒性、高準(zhǔn)確率等優(yōu)點(diǎn),因此,本發(fā)明實(shí)施例中優(yōu)選采用svm算法進(jìn)行安全隱患類型的分類。
87.準(zhǔn)確的事故隱患預(yù)測(cè)能夠?qū)踩[患消滅在萌芽狀態(tài),使安全生產(chǎn)事故由事后處置轉(zhuǎn)變?yōu)槭虑邦A(yù)防,保證礦山企業(yè)生產(chǎn)安全。事故預(yù)測(cè)模型用于揭示安全隱患可能的發(fā)展走向,并對(duì)由安全隱患積累導(dǎo)致的安全生產(chǎn)事故進(jìn)行預(yù)測(cè)。常用的事故預(yù)測(cè)算法有統(tǒng)計(jì)回歸算法、時(shí)間序列算法、馬爾科夫鏈算法、灰色預(yù)測(cè)算法、神經(jīng)網(wǎng)絡(luò)算法和鏈路預(yù)測(cè)算法等。本發(fā)明實(shí)施例中采用arima模型對(duì)由安全隱患積累導(dǎo)致的安全生產(chǎn)事故進(jìn)行預(yù)測(cè),通過(guò)揭示安全隱患可能的發(fā)展走向,使管理人員以全新的視角解決安全隱患特征提取及預(yù)測(cè)等諸多問(wèn)題。
88.進(jìn)一步地,所述大數(shù)據(jù)可視化模塊包括:
89.圖形可視化單元,用于按照人的行為、物的因素、環(huán)境影響、管理問(wèn)題、地點(diǎn)位置五個(gè)因素對(duì)安全隱患數(shù)據(jù)中提取的高頻詞匯進(jìn)行分類,并通過(guò)圖形進(jìn)行可視化展示,以便于后續(xù)通過(guò)大數(shù)據(jù)分析方法智能辨識(shí)礦山生產(chǎn)過(guò)程中的主要危險(xiǎn)源;
90.其中,所述圖形可視化單元通過(guò)以下圖形中的一種或多種進(jìn)行可視化展示:詞云圖、瀑布圖、桑基圖、層次邊緣捆綁圖以及forceatlas圖形等;
91.時(shí)序特征可視化單元,用于利用時(shí)間線工具對(duì)安全隱患頻次進(jìn)行統(tǒng)計(jì)并以柱狀圖
的形式進(jìn)行可視化展示,對(duì)安全隱患在時(shí)間維度呈現(xiàn)出的變化趨勢(shì)進(jìn)行擬合和預(yù)測(cè),通過(guò)設(shè)置預(yù)警值的方式,實(shí)現(xiàn)基于頻次特征的礦山安全隱患預(yù)警。時(shí)序特征可視化結(jié)果如圖3所示。
92.多維特征可視化單元,用于采用桑基圖對(duì)安全隱患在時(shí)間、空間、責(zé)任主體和隱患類型呈現(xiàn)出的多維特征進(jìn)行可視化展示。
93.礦山安全檢查從多個(gè)維度上考量隱患發(fā)生的原因及具體情況,包括時(shí)間、地點(diǎn)、隱患問(wèn)題、責(zé)任人、獎(jiǎng)懲措施、整改辦法等,多維數(shù)據(jù)可視化可以幫助安全管理人員發(fā)現(xiàn)數(shù)據(jù)多個(gè)屬性維度間的關(guān)系,而高維可視化越有效,識(shí)別出潛在的模式、相關(guān)性或離群值的概率越高。?;鶊D可以突出呈現(xiàn)安全隱患的關(guān)鍵信息流動(dòng),同時(shí)形象地展現(xiàn)隱患特征在不同隱患主體之間的比例關(guān)系,有助于管理人員把握安全隱患細(xì)節(jié)。采用?;鶊D對(duì)安全隱患在時(shí)間、空間、責(zé)任主體和隱患類型等維度呈現(xiàn)出的多維特征進(jìn)行可視化,結(jié)果如圖4所示。圖中的每個(gè)分支代表1條信息流,分支的寬度和流向分別呈現(xiàn)了不同維度安全隱患的發(fā)生頻率及特點(diǎn)。
94.層次特征可視化單元,用于利用層次邊緣捆綁技術(shù)對(duì)礦山安全隱患的層次結(jié)構(gòu)特征進(jìn)行可視化展示。
95.礦山安全隱患數(shù)據(jù)量龐大且層次結(jié)構(gòu)不清晰,需要借助可視化方法對(duì)數(shù)據(jù)的結(jié)構(gòu)和形式進(jìn)行轉(zhuǎn)換,更好地呈現(xiàn)出數(shù)據(jù)間關(guān)聯(lián)、層級(jí)與脈絡(luò)。層次邊緣捆綁技術(shù)可以用于表示節(jié)點(diǎn)間的網(wǎng)絡(luò)關(guān)系,適合節(jié)點(diǎn)較多的數(shù)據(jù)關(guān)系可視化。本發(fā)明利用層次邊緣捆綁技術(shù)對(duì)礦山安全隱患的層次結(jié)構(gòu)特征進(jìn)行可視化,結(jié)果如圖5所示。
96.進(jìn)一步地,所述礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)還包括系統(tǒng)管理模塊,所述系統(tǒng)管理模塊用于進(jìn)行數(shù)據(jù)接口管理、知識(shí)庫(kù)管理、數(shù)據(jù)挖掘模型庫(kù)管理和可視化組件管理。
97.系統(tǒng)管理模塊能夠保證系統(tǒng)在安全隱患數(shù)據(jù)來(lái)源增加、數(shù)據(jù)挖掘模型擴(kuò)充以及可視化形式日益豐富的情況下具有良好的升級(jí)能力。
98.下面以三山島金礦安全管理體系和大數(shù)據(jù)平臺(tái)為例,對(duì)本發(fā)明的實(shí)施過(guò)程進(jìn)行詳細(xì)的闡述。
99.本實(shí)施例中礦山安全隱患辨識(shí)與預(yù)警的整體路線如圖6所示。
100.由于安全隱患排查原始數(shù)據(jù)具有記錄隨意、內(nèi)容丟失、錄入錯(cuò)誤等問(wèn)題,為了保證文本挖掘效果首先對(duì)原始數(shù)據(jù)進(jìn)行規(guī)范化處理,剔除責(zé)任人、責(zé)任單位等內(nèi)容、僅保留數(shù)據(jù)中時(shí)間、地點(diǎn)、隱患問(wèn)題部分,同時(shí)對(duì)記錄中不規(guī)范格式及錯(cuò)別字進(jìn)行糾正,處理后的規(guī)范信息如表1所示。
101.表1部分安全隱患檢查隱患信息
[0102][0103][0104]
由于文本挖掘?qū)ο鬄榈V山隱患排查信息,數(shù)據(jù)中包含大量礦山生產(chǎn)專業(yè)詞匯,為了提高文本分詞的準(zhǔn)確性,在進(jìn)行文本挖掘前需添加自定義詞庫(kù)。因此,針對(duì)安全管控過(guò)程中涉及到的安全問(wèn)題描述,結(jié)合通用語(yǔ)義庫(kù)、礦山生產(chǎn)專業(yè)詞匯、安全管理專用場(chǎng)景等,構(gòu)建普遍適用于金屬地下礦山的語(yǔ)義分詞庫(kù)。
[0105]
分詞選用jieba包進(jìn)行,取前200經(jīng)過(guò)處理的高頻詞作為有效分詞結(jié)果(最小詞頻大于45),部分高頻詞如表2所示。
[0106]
表2部分高頻隱患詞表
[0107]
[0108]
分詞后將被拆分的同義詞進(jìn)行合并如戴安全帽、安全帽;裂隙、裂縫等。由于挖掘?qū)ο鬄殡[患排查信息,分詞后出現(xiàn)大量采場(chǎng)、安全、隱患等詞匯,這些詞匯雖然可以判斷文本內(nèi)容但對(duì)隱患挖掘及分析沒(méi)有明顯作用故將其刪除。
[0109]
經(jīng)過(guò)分詞與詞頻統(tǒng)計(jì)后的安全隱患詞匯中包含了大量隱含信息,其中各類詞匯混雜。有表示各類設(shè)施與物品的名詞例如導(dǎo)爆管、風(fēng)機(jī)、配電箱等,也有表示作業(yè)行為的動(dòng)詞包括掘進(jìn)、沖幫等,表示地點(diǎn)位置的頂板、迎頭、斜坡道等。而確定數(shù)據(jù)觀察的角度與知識(shí)挖掘路徑,是大數(shù)據(jù)分析的前提和基礎(chǔ),這需要對(duì)大量隱患信息進(jìn)行維度化、標(biāo)準(zhǔn)化處理。安全隱患排查記錄數(shù)據(jù)均以非結(jié)構(gòu)或半結(jié)構(gòu)化的文字形式記錄,同時(shí)數(shù)據(jù)的記錄方式受到檢查人員用語(yǔ)習(xí)慣影響存在較大差異,為安全知識(shí)挖掘帶來(lái)了難度,為此,探索一種安全數(shù)據(jù)結(jié)構(gòu)化表達(dá)方式十分重要,滿足從多個(gè)維度對(duì)安全問(wèn)題進(jìn)行描述的要求。
[0110]
為確保對(duì)安全問(wèn)題描述維度抽取過(guò)程的全面性,將5w1h要素分析法與礦山的安全生產(chǎn)管理相結(jié)合,擴(kuò)展并形成具備普遍適用性的安全管理要素集,通過(guò)安全風(fēng)險(xiǎn)的成因要素聚類分析,結(jié)合礦山安全主題數(shù)據(jù)的特點(diǎn)及主要內(nèi)容構(gòu)成,抽象并歸集安全主題數(shù)據(jù)的描述維度,并對(duì)各維度進(jìn)行概念分層和屬性劃分,形成適用于金屬地下礦山安全主題數(shù)據(jù)結(jié)構(gòu)化表達(dá)的體系框架。
[0111]
在完成安全主題數(shù)據(jù)的維度定義與格式化的基礎(chǔ)上,進(jìn)一步采用文本聚類方法,將文本特征詞歸集到相應(yīng)的維度,形成安全主題多維數(shù)據(jù)集。采用數(shù)理統(tǒng)計(jì)分析方法對(duì)安全風(fēng)險(xiǎn)產(chǎn)生的頻次數(shù)據(jù)進(jìn)行加工,形成多維數(shù)據(jù)集中關(guān)于安全風(fēng)險(xiǎn)發(fā)生次數(shù)方面的事實(shí)數(shù)據(jù),同時(shí)為安全隱患的時(shí)空分布規(guī)律研究與內(nèi)蘊(yùn)知識(shí)發(fā)現(xiàn)提供格式化的數(shù)據(jù)集合,實(shí)現(xiàn)大量描述性的安全主題數(shù)據(jù)的標(biāo)準(zhǔn)化和格式化,基于此可得到的安全隱患多維特征分析圖。
[0112]
根據(jù)現(xiàn)代安全理論企業(yè)安全生產(chǎn)管理要素分為人、物、環(huán)、管,即人員的不安全作業(yè)行為、設(shè)備物料的不安全狀態(tài)、作業(yè)環(huán)境的缺陷以及在安全管理中出現(xiàn)的問(wèn)題都是引發(fā)事故的原因。為了從事故致因維度探究礦山安全隱患數(shù)據(jù)中隱含的信息,按照人的行為、物的因素、環(huán)境影響、管理問(wèn)題、地點(diǎn)位置五個(gè)因素對(duì)隱患高頻詞匯進(jìn)行分類并通過(guò)詞云圖的方式進(jìn)行可視化表示,利用大數(shù)據(jù)分析方法智能辨識(shí)礦山生產(chǎn)過(guò)程中的主要危險(xiǎn)源。隱患詞匯分類說(shuō)明如表3所示。
[0113]
表3金屬地下礦山隱患詞語(yǔ)分類說(shuō)明
[0114][0115][0116]
人員不安全行為分析:
[0117]
為了揭示安全隱患信息中人員不安全行為所涉及隱患問(wèn)題,首先對(duì)隱患詞匯按照人的不安全行為進(jìn)行分類,分類后結(jié)果如表4所示。
[0118]
表4人的不安全行為分類結(jié)果(部分)
[0119][0120]
從表中可以看出在人的行為中錨桿支護(hù)作業(yè)問(wèn)題出現(xiàn)頻率最高其次為掘進(jìn)、沖幫、吊掛等作業(yè)行為,反映出在該礦山生產(chǎn)作業(yè)時(shí)支護(hù)作業(yè)出現(xiàn)隱患問(wèn)題最多,且較為嚴(yán)重其次為掘進(jìn)、沖幫、吊掛等作業(yè)行為。
[0121]
為了更直觀的展示分類中人的安全行為概況,采用finebi進(jìn)行詞云圖繪制,通過(guò)調(diào)節(jié)詞云圖形與顏色并將分后統(tǒng)計(jì)好的詞頻加載生成詞云圖,如圖7所示。圖中字體大小代表該問(wèn)題出現(xiàn)頻率,頻率越高字體越大。通過(guò)詞云圖的形式將安全隱患信息中人的安全行為進(jìn)行可視化表示,描述出安全隱患中人因問(wèn)題的分布情況,相比圖表形式使信息表達(dá)更直觀高效。
[0122]
物的不安全因素分析:
[0123]
為了揭示隱患信息中材料設(shè)備等不安全因素的影響情況,對(duì)隱患詞匯按照物的不安全狀態(tài)進(jìn)行分類,分類后結(jié)果如表5所示。
[0124]
表5物的不安全因素分類結(jié)果(部分)
[0125][0126]
從表中可以看出在物的因素中風(fēng)帶、風(fēng)機(jī)、配電箱、炸藥等排名靠前說(shuō)明這些設(shè)備和材料出現(xiàn)隱患問(wèn)題較為頻繁。從炸藥、導(dǎo)爆管、殘藥等詞匯高頻出現(xiàn)可以看出,礦山爆破
作業(yè)中存在不安全因素較多。吉普車、
鏟運(yùn)機(jī)、電機(jī)車、卡車暴露出車輛問(wèn)題頻繁發(fā)生。使用詞云圖對(duì)礦山生產(chǎn)中物的不安全因素進(jìn)行可視化表示,如圖8所示。
[0127]
環(huán)境影響分析:
[0128]
對(duì)隱患詞匯按照環(huán)境的影響因素進(jìn)行分類,分類后結(jié)果如表6所示,從表中可以看出在環(huán)境的影響中浮石、照明問(wèn)題較為嚴(yán)重,其次為積水、通風(fēng)、淤泥等環(huán)境問(wèn)題。
[0129]
表6環(huán)境影響因素分類結(jié)果(部分)
[0130][0131][0132]
使用詞云圖對(duì)礦山生產(chǎn)中環(huán)境的影響因素進(jìn)行可視化表示,如圖9所示。
[0133]
管理問(wèn)題分析:
[0134]
對(duì)隱患詞匯按照管理問(wèn)題進(jìn)行分類,分類后結(jié)果如表7所示,從管理問(wèn)題中可以看出文明生產(chǎn)問(wèn)題突出,戴安全帽、缺少防護(hù)措施、超載等安全管理問(wèn)題較為常見。在管理問(wèn)題中從超載、超員、超速、安全帶等詞匯可以看出,運(yùn)輸作業(yè)中暴露出的管理缺陷較為嚴(yán)重。
[0135]
表7管理問(wèn)題分類結(jié)果(部分)
[0136][0137]
使用詞云圖對(duì)礦山生產(chǎn)中管理問(wèn)題進(jìn)行可視化表示,如圖10所示。
[0138]
隱患地點(diǎn)分析:
[0139]
對(duì)隱患詞匯按照隱患發(fā)生地點(diǎn)進(jìn)行分類,分類后結(jié)果如表8所示。
[0140]
表8隱患地點(diǎn)分類結(jié)果(部分)
[0141][0142]
從表中可以看出,在隱患發(fā)生地點(diǎn)中頂板出現(xiàn)頻率最高暴露出頂板文件較為嚴(yán)峻,其次為迎頭(掘進(jìn)面)、路面與風(fēng)井。使用氣泡圖對(duì)礦山生產(chǎn)中隱患高頻率發(fā)生地點(diǎn)進(jìn)行可視化表示,如圖11所示。
[0143]
由于礦山安全隱患數(shù)據(jù)存在數(shù)據(jù)量大、隱患問(wèn)題復(fù)雜多類等特點(diǎn),在礦山安全管理中難以實(shí)現(xiàn)針對(duì)隱患數(shù)據(jù)對(duì)隱患類別進(jìn)行劃分,更難以發(fā)現(xiàn)安全隱患問(wèn)題中隱藏的隱患主題。鑒于此,引入主題挖掘算法通過(guò)構(gòu)建礦山隱患主題挖掘模型,對(duì)礦山生產(chǎn)作業(yè)中存在的隱患問(wèn)題進(jìn)行深入挖掘,通過(guò)獲取的能反映出礦山安全問(wèn)題的隱患主題,指導(dǎo)礦山安全管理工作針對(duì)性的開展。
[0144]
由于lda主題模型具有較強(qiáng)的泛化能力,適合處理大量數(shù)據(jù)集,同時(shí)該模型對(duì)于描述不規(guī)范、存在大量專業(yè)詞匯的文本數(shù)據(jù)具有較高的準(zhǔn)確度,因此選取lda主題模型對(duì)礦山安全隱患文本數(shù)據(jù)進(jìn)行隱患主題挖掘。
[0145]
lda主題模型基于貝葉斯概率結(jié)構(gòu),具有挖掘文本數(shù)據(jù)中隱患主題的能力。該模型將文檔數(shù)據(jù)集中的每篇文檔視為非單一主題,而整體文檔是由一系列主題按比例相混雜構(gòu)成的。
[0146]
礦山安全隱患主題挖掘模型由三層貝葉斯概率結(jié)構(gòu)組成,由上至下依次為隱患數(shù)據(jù)、隱患主題、隱患特征詞,安全隱患主題挖掘?qū)嵸|(zhì)為利用隱患詞匯的共現(xiàn)特征來(lái)挖掘隱患的主題。其結(jié)構(gòu)圖如圖12所示。
[0147]
lda主題模型作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),其模型原理如圖13所示。圖中k為隱患主題數(shù),n表示隱患數(shù)據(jù)集d中隱患總數(shù)。公式中主題為φ
1:k
,φ
k
表示第k個(gè)隱患主題的特征詞分布,φ
k
為v維向量(v為詞典中詞匯總數(shù));θ
d
表示第d條隱患記錄的主題分布,θ
d
是k維向量(k為隱患主題總數(shù)),θ
d,k
表表示第k個(gè)隱患主題在第d條隱患記錄中的比例;z
d
表示第d條隱患數(shù)據(jù)的全體,其中z
d,n
是第d條隱患數(shù)據(jù)中第n個(gè)隱患詞匯的主題;w
d
為第d條隱患中所有的隱患詞匯,其中w
d,n
表示第d條隱患數(shù)據(jù)中第n個(gè)隱患詞匯。
[0148]
圖中聯(lián)合分布以及l(fā)da模型的后驗(yàn)概率分別如式(1)式(2)所示:
[0149][0150]
[0151]
從礦山lda主題模型的隱患主題生成過(guò)程中可以看出,在模型運(yùn)算中需要對(duì)兩個(gè)參數(shù)進(jìn)行估計(jì);“隱患集
?
隱患主題”分布θ
d
和“隱患主題
?
隱患詞匯”分布φ
k
。通常使用吉布斯(gibbs)抽樣算法對(duì)這兩個(gè)參數(shù)進(jìn)行計(jì)算估計(jì),計(jì)算過(guò)程如公式(3)所示。
[0152][0153]
吉布斯(gibbs)抽樣算法的核心原理為:以循環(huán)的條件分布抽樣方法,使得每次抽樣結(jié)果近于全概率分布,也就是在每次抽樣時(shí)只對(duì)一個(gè)分量進(jìn)行采樣,并且除該分量之外的其他的分量保持不變。因此吉布斯抽樣算法適用于大規(guī)模數(shù)據(jù)集中,并且實(shí)現(xiàn)起來(lái)較為容易。圖14為吉布斯算法計(jì)算過(guò)程,圖中p(zi|z
?
i
,d,w)為更新規(guī)則,作用為排除當(dāng)前詞的主題分配。
[0154]
在對(duì)礦山安全隱患進(jìn)行主題挖掘前需要對(duì)礦山安全隱患數(shù)據(jù)進(jìn)行預(yù)處理,處理過(guò)程包括隱患分詞與詞頻統(tǒng)計(jì)。為保證主題挖掘準(zhǔn)確度,首先需要對(duì)分詞結(jié)果進(jìn)行加權(quán),隨后采用gibbs抽樣算法進(jìn)行l(wèi)da主題模型參數(shù)估計(jì),通過(guò)10折交叉檢驗(yàn)獲得最優(yōu)參數(shù),將結(jié)果帶入lda
?
gibbs模型進(jìn)行計(jì)算,獲取最終主題挖掘結(jié)果。具體流程如圖15所示。
[0155]
采用“困惑度”對(duì)lda主題模型最佳主題數(shù)進(jìn)行估計(jì),在困惑度最小時(shí)可確定最佳主題數(shù)量。通常困惑度越小,主題模型的泛化能力和推廣性就越好,困惑度計(jì)算公式如式(4):
[0156][0157]
式中:p表示困惑度;n_d表示第d條隱患數(shù)據(jù)中的隱患詞數(shù);w_(d,i)為第d條隱患數(shù)據(jù)中第i個(gè)隱患詞匯。在實(shí)驗(yàn)中依次對(duì)隱患主題數(shù)t取值10,20,
…
,100,取a經(jīng)驗(yàn)值為50/t,β=0.01,采用10折交叉檢驗(yàn),迭代訓(xùn)練1000次,迭代測(cè)試100次。如圖16是運(yùn)用gibbs抽樣算法的計(jì)算結(jié)果,從圖中可以看出,在困惑度最低且出現(xiàn)拐點(diǎn)處確定最優(yōu)主題數(shù)為10個(gè)。
[0158]
由于礦山安全隱患復(fù)雜多變,但每種隱患都不能忽視,出現(xiàn)頻率較小的安全隱患若不能及時(shí)發(fā)現(xiàn)仍可能導(dǎo)致安全事故發(fā)生,因此在主題模型計(jì)算前引入tf
?
idf算法進(jìn)行詞向量加權(quán),加權(quán)算法如式(5)。
[0159][0160]
式中:tf(t,d)表示詞頻;idf(t)表示逆向文件頻率。將隱患分詞結(jié)果經(jīng)過(guò)tf
?
idf算法加權(quán)后帶入?yún)?shù)運(yùn)用lda
?
gibbs模型計(jì)算,得到安全隱患主題10個(gè),將獲取的安全隱患主題中的噪聲主題詞進(jìn)行刪除處理,同時(shí)結(jié)合礦山生產(chǎn)實(shí)際情況對(duì)獲取的安全隱患主題進(jìn)行總結(jié)劃分。經(jīng)過(guò)整理的主題挖掘結(jié)果見表9所示。
[0161]
表9基于lda的礦山安全隱患主題挖掘結(jié)果
[0162][0163]
通過(guò)對(duì)主題挖掘結(jié)果進(jìn)行分析及實(shí)地調(diào)研發(fā)現(xiàn),獲得的10個(gè)安全隱患主題很好的反應(yīng)了該礦山在2011年至2021年間存在的主要安全隱患類型。因此說(shuō)明lda主題模型對(duì)礦山安全隱患文本數(shù)據(jù)進(jìn)行主題挖掘的結(jié)果具有實(shí)際意義,并且獲得的礦山安全隱患主題對(duì)隱患排查與治理具有重要參考價(jià)值。
[0164]
語(yǔ)義網(wǎng)絡(luò)思想及圍繞語(yǔ)義網(wǎng)絡(luò)目標(biāo)實(shí)現(xiàn)所開發(fā)的一系列技術(shù),稱為語(yǔ)義網(wǎng)絡(luò)技術(shù),簡(jiǎn)稱語(yǔ)義技術(shù)(semantic technology)。語(yǔ)義技術(shù)為異構(gòu)數(shù)據(jù)提供數(shù)據(jù)互操作的技術(shù)基礎(chǔ),也為大數(shù)據(jù)的有效分析提供一種技術(shù)途徑。語(yǔ)義網(wǎng)絡(luò)(語(yǔ)義技術(shù))的主要思想包括:
[0165]
(1)任何信息系統(tǒng)都需要數(shù)據(jù);
[0166]
(2)數(shù)據(jù)表示要獨(dú)立于具體的應(yīng)用和平臺(tái),以保證最大程度的可重用性;
[0167]
(3)采用統(tǒng)一的數(shù)據(jù)概念表示,以保證數(shù)據(jù)表示獨(dú)立于具體系統(tǒng)(可采用triple/tuple形式);
[0168]
(4)數(shù)據(jù)應(yīng)能描述網(wǎng)絡(luò)資源(要采用rdf/rdfs或其他類似的語(yǔ)言);
[0169]
(5)數(shù)據(jù)應(yīng)提供初步推理支持(要采用owl或其他知識(shí)表示語(yǔ)言)。值得注意的是rdf/rdfs/owl均采用triple語(yǔ)義模型。
[0170]
以下介紹語(yǔ)義網(wǎng)絡(luò)在礦山安全隱患分析當(dāng)中的應(yīng)用。
[0171]
礦山安全管理知識(shí)可視化需要對(duì)原始安全數(shù)據(jù)中隱含的關(guān)聯(lián)關(guān)系、潛在規(guī)律進(jìn)行分析挖掘,礦山安全大數(shù)據(jù)為安全管理知識(shí)可視化提供了數(shù)據(jù)來(lái)源。對(duì)于“大數(shù)據(jù)”的概念,idc將其定義為:大數(shù)據(jù)必須是高速、實(shí)時(shí)的數(shù)據(jù)量,且數(shù)據(jù)量超過(guò)100tb;如果數(shù)據(jù)量不大,那么年增長(zhǎng)數(shù)據(jù)量必須大于60%。該定義只是給出了大數(shù)據(jù)量化的標(biāo)準(zhǔn),但并不能代表全部大數(shù)據(jù)的定義,如不相關(guān)和不準(zhǔn)確的數(shù)據(jù)就不是大數(shù)據(jù)。礦山安全生產(chǎn)過(guò)程中積累的海量安全數(shù)據(jù)要成為大數(shù)據(jù),需要按照一致性、完整性、實(shí)時(shí)性、精確性、實(shí)體統(tǒng)一性原則對(duì)數(shù)據(jù)進(jìn)行篩選,只有同時(shí)滿足這五個(gè)原則才能保證數(shù)據(jù)的有效性,從而保證安全管理者獲取安全信息的及時(shí)性、準(zhǔn)確性、完整性,這也是提高安全管理者對(duì)安全信息認(rèn)知的時(shí)效性和精度以及保證安全管理者及時(shí)、精準(zhǔn)、有效做出安全管理決策的關(guān)鍵。
[0172]
根據(jù)統(tǒng)計(jì)發(fā)現(xiàn),礦山生產(chǎn)過(guò)程中受到700多種安全隱患的威脅,如果對(duì)些隱患進(jìn)行
實(shí)時(shí)監(jiān)控,一天將產(chǎn)生300gb左右的數(shù)據(jù)量。根據(jù)對(duì)礦山安全大數(shù)據(jù)特征的分析和對(duì)礦山安全大數(shù)據(jù)屬性的分析可知,礦山安全大數(shù)據(jù)具有4“v”特征,同時(shí)也具有多來(lái)源對(duì)象、多時(shí)空尺度、多主題類型、多專業(yè)領(lǐng)域等屬性。由此可知,礦山安全監(jiān)測(cè)監(jiān)控系統(tǒng)24h不間斷進(jìn)行監(jiān)測(cè)監(jiān)控的風(fēng)速、礦壓、溫度、人員定位、供電、各種機(jī)電設(shè)備開停、視頻監(jiān)控錄像、安全隱患記錄、礦石產(chǎn)量等數(shù)據(jù)屬于大數(shù)據(jù)的范疇。對(duì)這些安全大數(shù)據(jù)進(jìn)行分析挖掘和知識(shí)可視化研究,揭示其中隱含的重要信息、規(guī)律、規(guī)則和知識(shí),對(duì)提高安全管理的科學(xué)性具有重要意義。
[0173]
對(duì)于詞頻分析只是把隱患因素看作單一的個(gè)體,而事故發(fā)生由多個(gè)隱患因素導(dǎo)致。事故發(fā)生各類理論所涉及的因素不同,但理論呈現(xiàn)出相似的結(jié)構(gòu),可統(tǒng)一用集合表達(dá),描述如式(6):
[0174]
sn={t1,t2,t3,t4,
…
,tn}
???
(6)
[0175]
其中:sn為安全事故;tn為隱患因素。
[0176]
根據(jù)分詞后整理所得高頻詞表,利用共現(xiàn)分析方法分析安全隱患檢查數(shù)據(jù)中各隱患因素的共現(xiàn)規(guī)律,并確定礦山安全隱患因素集合。共現(xiàn)分析原理是統(tǒng)計(jì)一組詞語(yǔ)在同一文本中出現(xiàn)的次數(shù),并通過(guò)詞語(yǔ)與共現(xiàn)關(guān)系的集合反應(yīng)隱患數(shù)據(jù)的主體內(nèi)容,進(jìn)而達(dá)到在文本數(shù)據(jù)中集中挖掘隱含知識(shí)的目的。通過(guò)共詞分析導(dǎo)出共現(xiàn)vna矩陣,既表示各詞匯同時(shí)出現(xiàn)情況,如表10所示。
[0177]
表10礦山安全隱患詞匯共現(xiàn)矩陣(部分)
[0178][0179]
將共現(xiàn)矩陣導(dǎo)入netdraw工具繪制語(yǔ)義網(wǎng)絡(luò)圖,通過(guò)調(diào)整布局后得到如圖17所示的金屬地下礦山安全隱患語(yǔ)義網(wǎng)絡(luò)圖。
[0180]
圖中各隱患詞匯節(jié)點(diǎn)間的連線表示兩個(gè)隱患詞匯共同出現(xiàn)在同一條安全隱患檢查記錄中,而連線的線條粗細(xì)程度代表同出現(xiàn)的頻率,頻率越高線條越粗。網(wǎng)絡(luò)圖中節(jié)點(diǎn)方塊的大小代表節(jié)點(diǎn)中心度,方塊越大則節(jié)點(diǎn)中心度越大,節(jié)點(diǎn)中心度大小表示出該節(jié)點(diǎn)在語(yǔ)義網(wǎng)絡(luò)中的地位以及重要程度。
[0181]
語(yǔ)義網(wǎng)絡(luò)節(jié)點(diǎn)中包括:
[0182]
人的各類作業(yè)與不安全行為(掘進(jìn)、沖幫、刷頂、錨桿支護(hù)、超載等);
[0183]
設(shè)備材料(風(fēng)帶、風(fēng)機(jī)、配電箱、炸藥等);
[0184]
環(huán)境問(wèn)題(積水、照明、坑洼、淤泥等);
[0185]
隱患地點(diǎn)(頂板、路面、迎頭等);
[0186]
安全隱患狀態(tài)與程度(冒落、不達(dá)標(biāo)、不徹底、破碎等)。
[0187]
借助語(yǔ)義網(wǎng)絡(luò)可以很明顯的看出各類隱患詞之間的關(guān)聯(lián)關(guān)系。隱患語(yǔ)義網(wǎng)絡(luò)通過(guò)節(jié)點(diǎn)間箭頭與連線,將礦山生產(chǎn)中類作業(yè)與不安全行為、設(shè)備材料、環(huán)境問(wèn)題、隱患地點(diǎn)、隱患狀態(tài)與程度關(guān)聯(lián)在一起形成對(duì)安全隱患較為完整的描述。
[0188]
安全隱患語(yǔ)義網(wǎng)絡(luò)分析流程如下:
[0189]
(1)語(yǔ)義中心性分析
[0190]
中心性(centrality)是社交網(wǎng)絡(luò)分析(social network analysis,sna)中常用的一個(gè)概念,用以表達(dá)社交網(wǎng)絡(luò)中一個(gè)點(diǎn)或者一個(gè)人在整個(gè)網(wǎng)絡(luò)中所在中心的程度,這個(gè)程度用數(shù)字來(lái)表示就被稱作為中心度(也就是通過(guò)知道一個(gè)節(jié)點(diǎn)的中心性來(lái)了解判斷這個(gè)節(jié)點(diǎn)在這個(gè)網(wǎng)絡(luò)中所占據(jù)的重要性的概念)。
[0191]
既在礦山安全隱患語(yǔ)義網(wǎng)絡(luò)中,中心度越高的隱患具有更大的影響力。在中心性分析中,度中心度表示網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)直接連接的總和。既在礦山安全隱患語(yǔ)義網(wǎng)絡(luò)中代表某個(gè)隱患問(wèn)題與其他隱患問(wèn)題在安全隱患檢查中同時(shí)出現(xiàn)的次數(shù)總和,也就是說(shuō)度中心度越大,該隱患問(wèn)題在礦山安全隱患中的影響程度越大。
[0192]
為了對(duì)礦山安全隱患語(yǔ)義網(wǎng)絡(luò)進(jìn)行中心性分析,將得到的礦山安全隱患共現(xiàn)vna矩陣導(dǎo)入社會(huì)網(wǎng)絡(luò)分析算法中,對(duì)隱患語(yǔ)義網(wǎng)絡(luò)進(jìn)行中心性與網(wǎng)絡(luò)密度分析。隱患語(yǔ)義網(wǎng)絡(luò)中心性分析結(jié)果如表11所示,表中為節(jié)點(diǎn)度中心度排名前20的高頻隱患詞。
[0193]
表11隱患語(yǔ)義網(wǎng)絡(luò)中心性分析結(jié)果
[0194][0195]
同時(shí),輸出結(jié)果中包括了語(yǔ)義網(wǎng)絡(luò)中心勢(shì)及相關(guān)參數(shù),在結(jié)果中網(wǎng)絡(luò)中心勢(shì)(network centralization)為8.75%,網(wǎng)絡(luò)異質(zhì)性(heterogeneity)為5.30%。通常來(lái)說(shuō)語(yǔ)義網(wǎng)絡(luò)中心勢(shì)越接近于100%其集中趨勢(shì)越明顯。
[0196]
根據(jù)隱患語(yǔ)義網(wǎng)絡(luò)中心性分析結(jié)果,金屬地下礦山安全隱患語(yǔ)義網(wǎng)絡(luò)中心勢(shì)為8.75%,根據(jù)中心勢(shì)概念可以發(fā)現(xiàn)隱患網(wǎng)絡(luò)中隱患問(wèn)題集中趨勢(shì)不明顯,這表明該金屬地下礦山安全隱患問(wèn)題以及隱患類型相對(duì)分散。
[0197]
從表11中可以發(fā)現(xiàn),“浮石”、“頂板”、“迎頭”、“錨桿支護(hù)”點(diǎn)度中心度數(shù)值較高,其中“浮石”、“頂板”點(diǎn)度中心度值為9309、7555,說(shuō)明它們?cè)诰W(wǎng)絡(luò)中最為重要,它們是礦山安全隱患語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)中的核心。
[0198]
從表中可以看出“頂板”、“迎頭”、“路面”等表示空間位置的詞匯點(diǎn)度中心度數(shù)值較高,因此這些地點(diǎn)是安全隱患發(fā)生的重點(diǎn)區(qū)域,“浮石”、“錨桿支護(hù)”、“積水”、“風(fēng)帶”、“照明”等表示隱患內(nèi)容的詞匯點(diǎn)度中心度數(shù)值較高,表明這些問(wèn)題為需要重點(diǎn)防范的安全隱患。
[0199]
(2)語(yǔ)義網(wǎng)絡(luò)密度分析
[0200]
語(yǔ)義網(wǎng)絡(luò)密度是指在網(wǎng)絡(luò)中各節(jié)點(diǎn)間的連接緊密程度,網(wǎng)絡(luò)密度由網(wǎng)絡(luò)中實(shí)際存在的節(jié)點(diǎn)間連接總數(shù)與理論上可能存在的節(jié)點(diǎn)間連接數(shù)量相比得到,也就是說(shuō)網(wǎng)絡(luò)中節(jié)點(diǎn)
間的連接關(guān)系越多則網(wǎng)絡(luò)密度越大。并且網(wǎng)絡(luò)整體的密度越大,該網(wǎng)絡(luò)對(duì)其中節(jié)點(diǎn)產(chǎn)生的影響就越大。通過(guò)網(wǎng)絡(luò)密度分析得到網(wǎng)絡(luò)密度分析結(jié)果如圖18所示。
[0201]
從網(wǎng)絡(luò)密度分析結(jié)果中可知,該礦山安全隱患語(yǔ)義網(wǎng)絡(luò)密度(matrixaverage)為0.0399,結(jié)果呈強(qiáng)關(guān)聯(lián)性,表明該礦山安全隱患語(yǔ)義網(wǎng)絡(luò)中各隱患節(jié)點(diǎn)間具有較強(qiáng)關(guān)聯(lián)性。
[0202]
之后,進(jìn)行面向關(guān)聯(lián)大數(shù)據(jù)分析的安全隱患誘導(dǎo)與演化分析。
[0203]
關(guān)聯(lián)規(guī)則反映的是一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。當(dāng)我們查找英文文獻(xiàn)的時(shí)候,可以發(fā)現(xiàn)有兩個(gè)英文詞都能形容關(guān)聯(lián)的含義。第一個(gè)是相關(guān)性relevance,第二個(gè)是關(guān)聯(lián)性association,兩者都可以用來(lái)描述事件之間的關(guān)聯(lián)程度。主要相關(guān)的算法是apriori算法,使用候選項(xiàng)集找頻繁項(xiàng)集。
[0204]
apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。
[0205]
該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集,使用了遞推的方法。
[0206]
礦山安全事故的發(fā)生是由各類隱患共同作用而促成的,同時(shí)也說(shuō)明各類安全隱患并不是單獨(dú)存在的,它們之間或多或少存在著一定關(guān)聯(lián)關(guān)系,如采場(chǎng)出現(xiàn)風(fēng)機(jī)損壞或者風(fēng)筒破損的情況時(shí)會(huì)導(dǎo)致采場(chǎng)通風(fēng)變差、氧氣濃度降低、溫度升高等問(wèn)題,因此不同安全隱患間有一定的內(nèi)在關(guān)聯(lián)性。
[0207]
安全事故的直接致因是安全隱患,而安全隱患的產(chǎn)生是由危險(xiǎn)源的失控引起的。由“傷害金字塔”模型可知,要消除死亡、重傷害等安全事故,就必須消除人的不安全行為、物的不安全狀態(tài)和管理上的缺陷以及潛在的危險(xiǎn)源等。但是暴露安全隱患的各類危險(xiǎn)源之間并不是孤立的,它們之間存在潛在的、隱含的關(guān)聯(lián)。
[0208]
如有研究表明,支護(hù)問(wèn)題是否完好對(duì)頂板事故發(fā)生具有直接影響;通風(fēng)混亂、風(fēng)量不足和無(wú)風(fēng)微風(fēng)等是導(dǎo)致co等有毒氣體積聚事故的主要原因。揭示暴露安全隱患的各類危險(xiǎn)源之間隱含的關(guān)聯(lián)關(guān)系,對(duì)提高危險(xiǎn)源識(shí)別的準(zhǔn)確性和隱患排查效率具有重要作用。
[0209]
礦山安全隱患關(guān)聯(lián)分析的核心內(nèi)容是通過(guò)對(duì)歷史記錄的安全隱患信息進(jìn)行深入分析,挖掘出引發(fā)安全事故的隱患間是否存在關(guān)聯(lián),以及哪些隱患容易同時(shí)引發(fā)安全事故。通過(guò)構(gòu)建礦山安全隱患關(guān)聯(lián)規(guī)則模型可以實(shí)現(xiàn)對(duì)隱患間內(nèi)部關(guān)聯(lián)進(jìn)行深入挖掘分析,從而探索關(guān)聯(lián)規(guī)則挖掘方法在金屬礦山安全隱患信息管理中的應(yīng)用,為礦山安全管理決策提供支持。
[0210]
apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的經(jīng)典算法,根據(jù)數(shù)據(jù)類型以及數(shù)據(jù)量選擇apriori算法進(jìn)行隱患關(guān)聯(lián)規(guī)則挖掘。首先根據(jù)礦山隱患數(shù)據(jù)特征構(gòu)建基于apriori算法的礦山隱患關(guān)聯(lián)規(guī)則模型。
[0211]
將礦山安全隱患檢查中記錄的每條隱患數(shù)據(jù)記為b1,則b1表示該次檢查中發(fā)現(xiàn)的隱患信息??蓪踩[患數(shù)據(jù)集b視為由b1組成的集合,可表示為式(7):
[0212]
b={b1,b2,b3,
…
b
i
…
,b
n
}
???
(7)
[0213]
將礦山安全隱患中每項(xiàng)隱患問(wèn)題看作一個(gè)項(xiàng)目t1,則可將所有隱患問(wèn)題構(gòu)成集合t,每項(xiàng)隱患檢查數(shù)據(jù)b1都屬于隱患問(wèn)題集合t的一個(gè)子集。表示為式(8):
[0214]
t={t1,t2,t3,
…
t
j
…
,t
m
}
???
(8)
[0215]
設(shè)定隱患問(wèn)題集合將t1在隱患數(shù)據(jù)集b上的支持度定義為隱患數(shù)據(jù)b中包含隱患問(wèn)題t的數(shù)量占b數(shù)據(jù)集總數(shù)的百分比,支持度(support)計(jì)算公式如式(9):
[0216][0217]
其中‖b‖表示安全隱患數(shù)據(jù)總數(shù),‖{b∈b
│
t_1∈b}‖表示安全隱患數(shù)據(jù)集合中包含有t1隱患問(wèn)題的隱患條數(shù)。當(dāng)support(t1)比最小支持度閥值大時(shí),則將t1稱為頻繁項(xiàng)集,也就是說(shuō)t1隱患問(wèn)題被頻繁查出。
[0218]
當(dāng)設(shè)定隱患集t1出現(xiàn)時(shí),有一定的概率可以推出隱患項(xiàng)集t2,則稱t1、t2之間存在關(guān)聯(lián)性,表示為且的概率稱為置信度(confidence)。置信度可以反應(yīng)出關(guān)聯(lián)規(guī)則的準(zhǔn)確程度,指在b隱患數(shù)據(jù)集中同時(shí)包含t1和t2隱患問(wèn)題的隱患條數(shù)占僅包含t1隱患問(wèn)題的隱患條數(shù)的比重。如式(10)所示,式中t1稱為關(guān)聯(lián)規(guī)則前項(xiàng),t2稱為關(guān)聯(lián)規(guī)則后項(xiàng)。
[0219][0220]
將關(guān)聯(lián)規(guī)則應(yīng)用于礦山安全隱患檢查工作中的意義在于,如若發(fā)現(xiàn)t1隱患暴露問(wèn)題時(shí),可以有針對(duì)的排查t2隱患問(wèn)題是否存在。在進(jìn)行安全隱患檢查時(shí),通過(guò)關(guān)聯(lián)規(guī)則進(jìn)行檢查比隨機(jī)檢查的工作方式效率更高。
[0221]
規(guī)則提升度為置信度與規(guī)則后項(xiàng)先驗(yàn)概率的比值,如式(11)所示,并且規(guī)則提升度能夠反映規(guī)則后項(xiàng)受到規(guī)則前項(xiàng)的影響程度。當(dāng)規(guī)則提升度大于1時(shí),表示該規(guī)則前項(xiàng)是否出現(xiàn)對(duì)后項(xiàng)影響程度很大,即該規(guī)則具有較強(qiáng)現(xiàn)實(shí)意義;若提升度小于1,表示在前項(xiàng)影響下后項(xiàng)的出現(xiàn)概率小于先驗(yàn)概率,則此關(guān)聯(lián)規(guī)則無(wú)現(xiàn)實(shí)意義;若提升度等于1,表明該規(guī)則的前項(xiàng)與后項(xiàng)相互獨(dú)立,無(wú)關(guān)聯(lián)關(guān)系。
[0222][0223]
在進(jìn)行關(guān)聯(lián)規(guī)則挖掘模型構(gòu)建時(shí)選擇apriori程序包,設(shè)定合適的支持度和置信度閾值是關(guān)聯(lián)規(guī)則挖掘結(jié)果是否有效的關(guān)鍵點(diǎn),閥值設(shè)定過(guò)低則會(huì)使結(jié)果數(shù)據(jù)龐大且得不到有用信息,若是設(shè)定過(guò)高有可能無(wú)法得到期望的結(jié)果。目前在進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),參數(shù)設(shè)定主要依據(jù)行業(yè)的特點(diǎn)與經(jīng)驗(yàn),同時(shí)需結(jié)合多次試驗(yàn)與結(jié)果分析保證挖掘有效性。
[0224]
地下金屬礦山由于作業(yè)條件復(fù)雜導(dǎo)致隱患種類數(shù)量較多,在進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí)為了避免一些潛在關(guān)聯(lián)性因素被遺漏,在進(jìn)行挖掘時(shí)設(shè)定較低的閥值。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)分析選取的參數(shù)為support>0.01、confident>0.5,運(yùn)行算法后得到51條符合條件的關(guān)聯(lián)規(guī)則結(jié)果。
[0225]
表12中列出了結(jié)果中部分比較有價(jià)值的規(guī)則。表中rules表示關(guān)聯(lián)規(guī)則內(nèi)容,support表示規(guī)則的支持度,confident表示規(guī)則置信度,lift為規(guī)則提升度,count為該規(guī)則在數(shù)據(jù)中出現(xiàn)的次數(shù)。
[0226]
表12關(guān)聯(lián)規(guī)則挖掘結(jié)果(部分)
[0227][0228]
同時(shí)為了更直觀展示地下金屬礦山安全隱患間的關(guān)聯(lián)關(guān)系,可進(jìn)行可視化繪圖展示,此處不再贅述。
[0229]
之后,將大數(shù)據(jù)分析模型進(jìn)行算法建模并加以軟件實(shí)現(xiàn),封裝于大數(shù)據(jù)平臺(tái),通過(guò)模型的自組織與自調(diào)度,實(shí)現(xiàn)不同安全主題數(shù)據(jù)分析需求的實(shí)時(shí)響應(yīng)。
[0230]
(1)大數(shù)據(jù)分析模型構(gòu)建:基于大數(shù)據(jù)分析與可視化技術(shù)完成安全隱患時(shí)空分布規(guī)律可視化、安全管理主題與關(guān)聯(lián)規(guī)則挖掘、語(yǔ)義網(wǎng)絡(luò)分析等模型與算法的構(gòu)建。
[0231]
(2)大數(shù)據(jù)分析模型封裝:部署安全主題大數(shù)據(jù)的提取、清洗、轉(zhuǎn)換等數(shù)據(jù)結(jié)構(gòu)化操作,采用計(jì)算機(jī)建模等方法,對(duì)所有大數(shù)據(jù)分析模型和算法進(jìn)行代碼化封裝。
[0232]
(3)模型自組織與自調(diào)度:基于高性能的大數(shù)據(jù)存儲(chǔ)與分析平臺(tái),通過(guò)模型的自組織與自調(diào)度,實(shí)現(xiàn)不同安全主題數(shù)據(jù)分析需求的實(shí)時(shí)響應(yīng)。
[0233]
(4)構(gòu)建礦山安全生產(chǎn)大數(shù)據(jù)倉(cāng)庫(kù),用于存儲(chǔ)和調(diào)用機(jī)器學(xué)習(xí)結(jié)果。
[0234]
最后,借助商務(wù)智能分析工具完成可視化系統(tǒng)的搭建,將安全生產(chǎn)大數(shù)據(jù)分析的實(shí)體化應(yīng)用形成的各種分析圖表和模型進(jìn)行集成化展示,通過(guò)模型的自組織與自調(diào)度,實(shí)現(xiàn)不同安全隱患數(shù)據(jù)分析需求的實(shí)時(shí)響應(yīng),保證所建立的算法與模型可以提供實(shí)時(shí)化的分析服務(wù),為礦山不同安全管理層級(jí)提供有力的數(shù)據(jù)支撐,實(shí)現(xiàn)大數(shù)據(jù)分析功能的實(shí)體化與系統(tǒng)化。
[0235]
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。技術(shù)特征:
1.一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,包括:大數(shù)據(jù)采集模塊,用于采集不同來(lái)源、不同格式的安全隱患數(shù)據(jù);大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊,用于對(duì)采集的安全隱患數(shù)據(jù)進(jìn)行提取、清洗、標(biāo)準(zhǔn)化預(yù)處理;大數(shù)據(jù)分析模塊,用于以數(shù)據(jù)挖掘模型庫(kù)為基礎(chǔ),對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析,并對(duì)分析結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ);大數(shù)據(jù)可視化模塊,用于對(duì)大數(shù)據(jù)分析結(jié)果進(jìn)行可視化呈現(xiàn),便于安全管理者進(jìn)行風(fēng)險(xiǎn)預(yù)警與科學(xué)決策。2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊具體用于:整合行業(yè)語(yǔ)義詞庫(kù):整合包括采礦工程、礦井通風(fēng)、礦山地質(zhì)勘探、礦山應(yīng)急救援、礦業(yè)詞匯術(shù)語(yǔ)在內(nèi)的礦山生產(chǎn)專業(yè)詞庫(kù)以及安全管理相關(guān)詞庫(kù);構(gòu)建自定義詞庫(kù):在整合行業(yè)語(yǔ)義詞庫(kù)的基礎(chǔ)上,通過(guò)對(duì)礦山安全主題數(shù)據(jù)進(jìn)行詞義分解和關(guān)鍵語(yǔ)義提取,分析礦山安全管理中關(guān)注的要素,同時(shí)結(jié)合礦山安全管理特點(diǎn)構(gòu)建專門用于礦山安全主題大數(shù)據(jù)分析的語(yǔ)義詞庫(kù);動(dòng)態(tài)更新停用詞詞庫(kù):去掉安全主題數(shù)據(jù)中的包括虛詞、副詞、序號(hào)在內(nèi)的無(wú)意義內(nèi)容,保留與安全主題相關(guān)的特征詞。3.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述大數(shù)據(jù)分析模塊包括:數(shù)據(jù)維度劃分單元,以5w1h分析方法為指導(dǎo),通過(guò)安全風(fēng)險(xiǎn)的成因要素聚類分析,結(jié)合礦山安全主題數(shù)據(jù)的特點(diǎn)及構(gòu)成,抽象并歸集安全主題數(shù)據(jù)的描述維度,并對(duì)各維度進(jìn)行概念分層和屬性劃分;數(shù)據(jù)挖掘模型庫(kù),包括多種數(shù)據(jù)挖掘模型,所述數(shù)據(jù)挖掘模型實(shí)例化后嵌入所述數(shù)據(jù)挖掘模型庫(kù),便于大數(shù)據(jù)分析時(shí)進(jìn)行調(diào)用;使用時(shí),針對(duì)不同的安全主題數(shù)據(jù),選擇適合的數(shù)據(jù)挖掘模型進(jìn)行大數(shù)據(jù)分析。4.根據(jù)權(quán)利要求3所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘模型庫(kù)包括:主題挖掘模型,用于揭示礦山頻發(fā)、高危、高風(fēng)險(xiǎn)的安全管理主題,實(shí)現(xiàn)安全管理主題域的挖掘與歸集;語(yǔ)義網(wǎng)絡(luò)分析模型,用于以網(wǎng)絡(luò)格式表達(dá)知識(shí)構(gòu)造的模型,通過(guò)計(jì)算語(yǔ)義距離及安全隱患要素詞性,構(gòu)建安全隱患要素及其共現(xiàn)關(guān)系的集合,深層次地表示安全隱患結(jié)構(gòu)、層次及安全隱患間的因果關(guān)系,從而直接表達(dá)出安全隱患的語(yǔ)義關(guān)系;關(guān)聯(lián)規(guī)則挖掘模型,用于挖掘礦山各類危險(xiǎn)源之間潛在的、隱含的關(guān)聯(lián);隱患分類模型,用于根據(jù)礦山安全隱患數(shù)據(jù)中蘊(yùn)含的安全隱患的規(guī)律、規(guī)則和知識(shí),進(jìn)行安全隱患的自動(dòng)分類,以實(shí)現(xiàn)非結(jié)構(gòu)化礦山隱患文本資源的有序整合;事故預(yù)測(cè)模型,用于揭示安全隱患可能的發(fā)展走向,并對(duì)由安全隱患積累導(dǎo)致的安全生產(chǎn)事故進(jìn)行預(yù)測(cè)。5.根據(jù)權(quán)利要求4所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述主題挖掘模型采用的算法包括hdp算法、lda算法、dtm算法、lsa算法和tf
?
idf算法;
所述語(yǔ)義網(wǎng)絡(luò)分析模型采用的算法包括lsa算法和bm25算法;所述關(guān)聯(lián)規(guī)則挖掘模型采用的算法包括apriori算法;所述隱患分類模型采用的算法包括支持向量機(jī)算法、k最近鄰算法、人工神經(jīng)網(wǎng)絡(luò)算法和樸素貝葉斯算法;所述事故預(yù)測(cè)模型采用的算法包括統(tǒng)計(jì)回歸算法、時(shí)間序列算法、馬爾科夫鏈算法、灰色預(yù)測(cè)算法、神經(jīng)網(wǎng)絡(luò)算法和鏈路預(yù)測(cè)算法。6.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述大數(shù)據(jù)可視化模塊包括:圖形可視化單元,用于按照人的行為、物的因素、環(huán)境影響、管理問(wèn)題、地點(diǎn)位置五個(gè)因素對(duì)安全隱患數(shù)據(jù)中提取的高頻詞匯進(jìn)行分類,并通過(guò)圖形進(jìn)行可視化展示,以便于后續(xù)通過(guò)大數(shù)據(jù)分析方法智能辨識(shí)礦山生產(chǎn)過(guò)程中的主要危險(xiǎn)源;時(shí)序特征可視化單元,用于利用時(shí)間線工具對(duì)安全隱患頻次進(jìn)行統(tǒng)計(jì)并以柱狀圖的形式進(jìn)行可視化展示,對(duì)安全隱患在時(shí)間維度呈現(xiàn)出的變化趨勢(shì)進(jìn)行擬合和預(yù)測(cè),通過(guò)設(shè)置預(yù)警值的方式,實(shí)現(xiàn)基于頻次特征的礦山安全隱患預(yù)警;多維特征可視化單元,用于采用桑基圖對(duì)安全隱患在時(shí)間、空間、責(zé)任主體和隱患類型呈現(xiàn)出的多維特征進(jìn)行可視化展示;層次特征可視化單元,用于利用層次邊緣捆綁技術(shù)對(duì)礦山安全隱患的層次結(jié)構(gòu)特征進(jìn)行可視化展示。7.根據(jù)權(quán)利要求6所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述圖形可視化單元通過(guò)以下圖形中的一種或多種進(jìn)行可視化展示:詞云圖、瀑布圖、?;鶊D、層次邊緣捆綁圖以及forceatlas圖形。8.根據(jù)權(quán)利要求1
?
7中任一項(xiàng)所述的基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),其特征在于,所述礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)還包括系統(tǒng)管理模塊,所述系統(tǒng)管理模塊用于進(jìn)行數(shù)據(jù)接口管理、知識(shí)庫(kù)管理、數(shù)據(jù)挖掘模型庫(kù)管理和可視化組件管理。
技術(shù)總結(jié)
本發(fā)明公開了一種基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng),包括:大數(shù)據(jù)采集模塊,用于采集不同來(lái)源、不同格式的安全隱患數(shù)據(jù);大數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理模塊,用于對(duì)采集的安全隱患數(shù)據(jù)進(jìn)行提取、清洗、標(biāo)準(zhǔn)化預(yù)處理;大數(shù)據(jù)分析模塊,用于以數(shù)據(jù)挖掘模型庫(kù)為基礎(chǔ),對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析,并對(duì)分析結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ);大數(shù)據(jù)可視化模塊,用于對(duì)大數(shù)據(jù)分析結(jié)果進(jìn)行可視化呈現(xiàn),便于安全管理者進(jìn)行風(fēng)險(xiǎn)預(yù)警與科學(xué)決策。本發(fā)明構(gòu)建了以智能分析、辨識(shí)、挖掘以及知識(shí)發(fā)現(xiàn)為核心內(nèi)容的智慧安全分析與預(yù)警體系,能夠?yàn)榈V山安全風(fēng)險(xiǎn)識(shí)別、危險(xiǎn)源分級(jí)、安全防控策略以及安全應(yīng)急處置提供支持。支持。支持。
技術(shù)研發(fā)人員:侯杰 李國(guó)清 趙威 王浩 強(qiáng)興邦
受保護(hù)的技術(shù)使用者:山東黃金礦業(yè)(萊州)有限公司三山島金礦
技術(shù)研發(fā)日:2021.08.11
技術(shù)公布日:2021/11/24
聲明:
“基于大數(shù)據(jù)分析的礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)的制作方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)