

分享:城鎮(zhèn)燃?xì)夤艿栏g失效邏輯回歸預(yù)測(cè)模型的構(gòu)建與應(yīng)用
隨著我國(guó)城鎮(zhèn)化建設(shè)步伐的加快,作為城市生命線(xiàn)之一的燃?xì)夤艿腊l(fā)展迅速。與此同時(shí),城鎮(zhèn)燃?xì)夤艿篱L(zhǎng)時(shí)間運(yùn)行帶來(lái)的燃?xì)獍踩珕?wèn)題不可忽視,近年來(lái)城鎮(zhèn)燃?xì)獗ㄊ鹿蕰r(shí)有發(fā)生,造成了惡劣的社會(huì)影響。經(jīng)調(diào)研得知,燃?xì)夤艿朗窃斐沙擎?zhèn)燃?xì)馐鹿实氖滓?因此分析城鎮(zhèn)燃?xì)夤艿朗У脑?預(yù)測(cè)其失效的概率,對(duì)預(yù)防城鎮(zhèn)燃?xì)馐鹿视兄种匾囊饬x。
在管道失效方面,國(guó)內(nèi)外學(xué)者進(jìn)行了大量的研究工作。管道失效受多種因素共同影響,且不同的因素對(duì)管道失效的影響程度也有所不同[1-4]。2015年李琴等[5]利用遺傳算法和BP神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)腐蝕管道失效壓力的預(yù)測(cè)。2016年,駱正山等[6]分析了管道腐蝕速率的相關(guān)因素,提出了一種基于主成分分析和支持向量機(jī)(PCA-SVM)算法的管道速率預(yù)測(cè)模型。同年,CHOI等[7]提出了一種基于有限元分析方法的海底管道失效壓力評(píng)估計(jì)算方法。2019年FU等[8]通過(guò)埋地鋼管不同失效模式之間的相關(guān)性來(lái)確定鋼管的失效概率。2020年ZHANG等[9]通過(guò)收集管道特征數(shù)據(jù)和管道失效數(shù)據(jù),結(jié)合貝葉斯網(wǎng)絡(luò)提出了一種基于管道特征腐蝕和外部干擾引起的管道失效預(yù)測(cè)模型。以上研究大都是針對(duì)長(zhǎng)輸管道進(jìn)行的,在城鎮(zhèn)燃?xì)夤艿朗Х矫骢r有研究,長(zhǎng)輸管道和城鎮(zhèn)燃?xì)夤艿涝谄渌幁h(huán)境、管道壓力、管材等方面又有著巨大差異,所以對(duì)城鎮(zhèn)燃?xì)夤艿赖氖а芯匡@得十分重要。
近年來(lái),基于機(jī)器學(xué)習(xí)的失效預(yù)測(cè)被廣泛應(yīng)用,并在實(shí)踐中證明了其可行性。但是傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)在預(yù)測(cè)模型構(gòu)建時(shí)存在以下不足:一是采集的失效數(shù)據(jù)呈多點(diǎn)分布,傳統(tǒng)的數(shù)據(jù)處理匯總方式費(fèi)時(shí)費(fèi)力;二是要求開(kāi)發(fā)人員能夠熟練掌握TensorFlow等第三方代碼庫(kù),對(duì)編程能力要求較高;三是機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程需要消耗大量的計(jì)算資源,若開(kāi)發(fā)環(huán)境中硬件資源受限,則將無(wú)法進(jìn)行大規(guī)模的模型構(gòu)建;四是在本地構(gòu)建完成的模型,缺乏便捷的方式將其快速部署,實(shí)用性不強(qiáng)。
總體來(lái)看,現(xiàn)有成果缺乏對(duì)城鎮(zhèn)燃?xì)夤艿赖氖ьA(yù)測(cè),同時(shí)傳統(tǒng)的失效預(yù)測(cè)模式又受計(jì)算環(huán)境和計(jì)算場(chǎng)景的制約。云環(huán)境、云計(jì)算技術(shù)的快速發(fā)展給城鎮(zhèn)燃?xì)夤艿赖氖ьA(yù)測(cè)供了新的方向。作者結(jié)合云環(huán)境,分析了城鎮(zhèn)燃?xì)夤艿里L(fēng)險(xiǎn)并辨別影響城鎮(zhèn)燃?xì)夤艿朗У闹饕?建立了基于邏輯回歸算法的城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)模型。
1. 城鎮(zhèn)燃?xì)夤艿朗г蚝椭饕蚍治?/span>
1.1 城鎮(zhèn)燃?xì)夤艿朗г蚍治?/span>
造成城鎮(zhèn)燃?xì)夤艿朗У脑驈?fù)雜多樣,事故的發(fā)生往往是多種因素耦合的結(jié)果。對(duì)燃?xì)夤艿朗г虻姆治鲇欣诒苊馔?lèi)事故的再次發(fā)生,將事故發(fā)生的鏈條切斷[10]。同時(shí)對(duì)城鎮(zhèn)燃?xì)夤艿朗г蜻M(jìn)行有效分析,明確燃?xì)夤艿朗У母骷?jí)致因因素,是建立管道失效預(yù)測(cè)模型的第一步。
人機(jī)環(huán)管模型與城鎮(zhèn)燃?xì)夤艿赖陌踩兄芮械穆?lián)系,不僅貫穿了城鎮(zhèn)燃?xì)夤艿郎a(chǎn)、運(yùn)行以及后期維護(hù)的整個(gè)過(guò)程,也是直接影響安全生產(chǎn)的重要因素,只有深入研究其特點(diǎn)和規(guī)律,采取對(duì)應(yīng)的安全管理措施和技術(shù)方法,阻斷事故發(fā)生的鏈條,才能盡可能地減少事故的發(fā)生。田云祥等[11]對(duì)2011~2017年所發(fā)生的燃?xì)馐鹿蔬M(jìn)行統(tǒng)計(jì)分析后得出,86%的事故是由于人的各種不安全行為導(dǎo)致的。人的不安全行為會(huì)增加操作失誤,設(shè)備的不安全狀態(tài)會(huì)增加設(shè)備故障或失效,環(huán)境的不安全因素會(huì)增加外力干擾,企業(yè)的管理缺陷會(huì)增加燃?xì)夤景踩芾硎?。?dāng)各種失效因素達(dá)到事故發(fā)生的閾值時(shí),事故便會(huì)發(fā)生。綜上,根據(jù)事故發(fā)展的過(guò)程,在確定事故一級(jí)致因因素時(shí),可以選取人機(jī)環(huán)管模型作為燃?xì)夤艿朗У囊患?jí)致因因素指標(biāo),將致因因素分為四個(gè)方面:人(人的不安全行為)、機(jī)(設(shè)備的不安全狀態(tài))、環(huán)(環(huán)境因素)、管(企業(yè)管理缺陷)[12]。結(jié)合燃?xì)馐鹿实念I(lǐng)域特點(diǎn),對(duì)每個(gè)方面進(jìn)行具體解釋。
1.1.1 人的不安全行為
人的不安全行為主要由于操作人員的安全技能不足和燃?xì)庥脩?hù)的安全意識(shí)淡薄。操作人員在進(jìn)行維搶修作業(yè)時(shí),因自身安全技能和專(zhuān)業(yè)知識(shí)不足,不能及時(shí)處理問(wèn)題或違章施工,從而導(dǎo)致管道失效;燃?xì)庥脩?hù)在日常使用燃?xì)鈺r(shí),因安全意識(shí)淡薄而帶來(lái)的違規(guī)使用,導(dǎo)致事故發(fā)生。
1.1.2 設(shè)備的不安全狀態(tài)
設(shè)備的不安全狀態(tài)主要指燃?xì)夤艿来嬖诘墓收先毕?即燃?xì)夤艿赖淖陨砣毕莺秃笃谑褂眠^(guò)程中由于腐蝕等因素導(dǎo)致的缺陷。
1.1.3 環(huán)境因素
環(huán)境因素指自然界中的各種不穩(wěn)定因素如洪水、地震、腐蝕等,這些不穩(wěn)定因素易對(duì)燃?xì)庠O(shè)施造成不同程度的影響。
1.1.4 企業(yè)管理缺陷
企業(yè)管理缺陷主要包括企業(yè)管理標(biāo)準(zhǔn)及規(guī)章制度不合理、安全管理混亂、安全巡檢人員責(zé)任心不強(qiáng)等。
以上四個(gè)方面的致因因素相互作用,共同影響著城鎮(zhèn)燃?xì)夤艿赖陌踩\(yùn)行。魚(yú)骨圖具有直觀形象的特點(diǎn),被廣泛應(yīng)用到各類(lèi)問(wèn)題的影響因素分析中[13]。引起城鎮(zhèn)燃?xì)夤艿朗У囊蛩剌^多,所以在事故一級(jí)致因因素的基礎(chǔ)上,通過(guò)整理和分析大量城鎮(zhèn)燃?xì)馐鹿拾咐?/span>[14],構(gòu)建出城鎮(zhèn)燃?xì)夤艿朗У聂~(yú)骨模型,如圖1所示,從而分析得出燃?xì)夤艿朗У亩?jí)致因因素,確定燃?xì)夤艿朗У闹乱蝮w系,為后文失效致因的重要度分析提供理論支持。
1.2 燃?xì)夤艿朗е饕蚍治?/span>
為了提高燃?xì)夤艿朗ьA(yù)測(cè)模型的準(zhǔn)確率,需要對(duì)多種失效原因進(jìn)行梳理分析,找出其中最主要的原因[15]。利用K均值聚類(lèi)算法完成詞向量的聚類(lèi),從而實(shí)現(xiàn)燃?xì)夤艿朗е饕蚍治觥?/span>K均值聚類(lèi)過(guò)程如下:首先,選取K個(gè)特征對(duì)象作為每個(gè)簇的初始聚類(lèi)中心點(diǎn);然后,計(jì)算其余對(duì)象與各個(gè)簇中心點(diǎn)的距離,并將其分配到距離最近的簇;對(duì)于一個(gè)給定的包含n個(gè)d維數(shù)據(jù)點(diǎn)的數(shù)據(jù)集X及類(lèi)別K,選取歐式距離作為相似度指標(biāo),聚類(lèi)目標(biāo)是使得各聚類(lèi)平方和最小,即最小化,見(jiàn)式(1)。
|
(1) |
將前文中對(duì)城鎮(zhèn)燃?xì)夤艿朗г虻姆治鲎鳛槭鹿试蚍诸?lèi)的原始標(biāo)簽,從而實(shí)現(xiàn)管道失效原因的自動(dòng)分類(lèi)。然后,通過(guò)聚類(lèi)法分析燃?xì)夤艿朗е饕?聚類(lèi)數(shù)設(shè)置為5,迭代數(shù)設(shè)置為50,輸出的聚類(lèi)結(jié)果散點(diǎn)圖如圖2所示。
散點(diǎn)圖中的5個(gè)聚類(lèi)簇分別為:簇1(管道腐蝕),簇2(燃?xì)庥脩?hù)違規(guī)使用),簇3(險(xiǎn)情處置能力不足),簇4(違規(guī)施工),簇5(用戶(hù)燃?xì)庠O(shè)施故障老化)。根據(jù)聚類(lèi)分析可知,城鎮(zhèn)燃?xì)夤艿朗г蛑饕性诖?(管道腐蝕),即燃?xì)夤艿朗鹿拾l(fā)生的主要原因?yàn)楣艿栏g。所以,作者通過(guò)挖掘燃?xì)夤艿栏g的各類(lèi)特征之間的關(guān)聯(lián)規(guī)則,預(yù)測(cè)城鎮(zhèn)燃?xì)夤艿朗?從而達(dá)到預(yù)防燃?xì)夤艿朗鹿实哪康摹?/span>圖3為研究路線(xiàn)圖。
2. 云環(huán)境中燃?xì)夤艿朗ьA(yù)測(cè)模型
2.1 數(shù)據(jù)構(gòu)成
為了保障燃?xì)夤艿朗ьA(yù)測(cè)模型的準(zhǔn)確性和合理性,作者收集了影響燃?xì)夤艿劳暾缘暮诵臄?shù)據(jù),并對(duì)收集的數(shù)據(jù)進(jìn)行全面分析,獲取燃?xì)夤艿赖膮?shù)信息。數(shù)據(jù)主要包括燃?xì)夤艿朗?shù)據(jù)和管道設(shè)計(jì)指標(biāo)。
(1)燃?xì)夤艿朗?shù)據(jù)
根據(jù)2019~2021年的燃?xì)馐鹿蕡?bào)告,收集每起事故發(fā)生的管道樁號(hào)、時(shí)間、事故原因等信息。
(2)管道設(shè)計(jì)指標(biāo)
調(diào)研收集各大燃?xì)夤緝?nèi)部數(shù)據(jù),查閱有關(guān)國(guó)家標(biāo)準(zhǔn)如GB/T 9711-2011《石油天然氣工業(yè)管線(xiàn)輸送系統(tǒng)用鋼管》, GB 50028-2006《城鎮(zhèn)燃?xì)庠O(shè)計(jì)規(guī)范》等,確定與燃?xì)夤艿涝O(shè)計(jì)指標(biāo)有關(guān)的數(shù)據(jù)。數(shù)據(jù)包括管道基礎(chǔ)數(shù)據(jù)、檢測(cè)監(jiān)測(cè)數(shù)據(jù)、防腐蝕檢測(cè)數(shù)據(jù)、運(yùn)維數(shù)據(jù)等。
對(duì)收集的數(shù)據(jù)進(jìn)行整合,并將其分為管道基本屬性數(shù)據(jù)、管道檢測(cè)數(shù)據(jù)和管道運(yùn)維數(shù)據(jù)三大類(lèi),形成包括樁號(hào)、管道壓力、缺陷長(zhǎng)度在內(nèi)的13個(gè)腐蝕影響因素,建立如圖4所示的城鎮(zhèn)燃?xì)夤艿栏g因素指標(biāo)體系。
燃?xì)夤艿栏g影響因素的部分?jǐn)?shù)據(jù)如表1所示。通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),燃?xì)夤艿朗е饕扇細(xì)夤艿栏g泄漏導(dǎo)致,而管道腐蝕受管道投入年份(服役時(shí)間)、埋深、壓力等因素影響。為了在眾多因素中確定影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,作者利用廣義灰色關(guān)聯(lián)分析法獲取關(guān)聯(lián)度較高的腐蝕因素作為后續(xù)預(yù)測(cè)模型的影響因素集。
管道樁號(hào) | 鋼管類(lèi)型 | 投入年份 | 焊縫類(lèi)型 | 管道壓力 | 埋深/m | 土壤腐蝕性 | 土壤類(lèi)型 | 壁厚/mm | 管道材料 | 缺陷長(zhǎng)度/mm | 陰極保護(hù)方式 | 所屬公司 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
001 | 直管 | 2014 | 螺旋焊縫 | 高壓A | 1.4 | 中 | 砂質(zhì)土 | 10.3 | L415N | 62 | 犧牲陽(yáng)極 | K燃?xì)?/span> |
002 | 直管 | 2016 | 螺旋焊縫 | 次高壓B | 1.2 | 中 | 砂質(zhì)土 | 7.14 | L415M | 42 | 犧牲陽(yáng)極 | H燃?xì)?/span> |
003 | 直管 | 2011 | 螺旋焊縫 | 高壓B | 0.6 | 弱 | 壤土 | 7.14 | L415M | 33 | 外加電流 | C燃?xì)?/span> |
004 | 直管 | 2016 | 螺旋焊縫 | 中壓B | 0.9 | 中 | 黏質(zhì)土 | 7.14 | L415N | 58 | 犧牲陽(yáng)極 | Z燃?xì)?/span> |
005 | 直管 | 2013 | 螺旋焊縫 | 高壓B | 1.3 | 弱 | 砂質(zhì)土 | 8.74 | L415M | 67 | - | K燃?xì)?/span> |
006 | 直管 | 2015 | 螺旋焊縫 | 次高壓B | 1.6 | 中 | 壤土 | 8.74 | L415M | 25 | 犧牲陽(yáng)極 | Z燃?xì)?/span> |
廣義灰色關(guān)聯(lián)分析法主要利用系統(tǒng)中各個(gè)因素之間發(fā)展趨勢(shì)的相似性,通過(guò)定量分析的方法來(lái)確定各因素之間關(guān)聯(lián)度[16],主要包含相對(duì)關(guān)聯(lián)度、絕對(duì)關(guān)聯(lián)度和綜合關(guān)聯(lián)度。設(shè)置參照序列為X0(k)=X0(1),X0(2),…,X0(m),m為樣本量。影響因素序列為Xi(k),由于上述腐蝕因素指標(biāo)體系內(nèi)有13個(gè)腐蝕影響因素,所以i=1,2,…,13,并對(duì)參照序列和影響因素序列進(jìn)行歸一化處理。
(1)絕對(duì)關(guān)聯(lián)度計(jì)算
根據(jù)歸一化處理后的數(shù)據(jù),參照式(2)~(4)進(jìn)行絕對(duì)關(guān)聯(lián)度a0i的計(jì)算。
|
(2) |
|
(3) |
|
(4) |
(2)相對(duì)關(guān)聯(lián)度計(jì)算
設(shè)相對(duì)關(guān)聯(lián)度為r0i則其計(jì)算公式見(jiàn)式(5)。
|
(5) |
(3)綜合關(guān)聯(lián)度計(jì)算
在廣義灰色關(guān)聯(lián)分析中,綜合關(guān)聯(lián)度是將絕對(duì)關(guān)聯(lián)度和相對(duì)關(guān)聯(lián)度進(jìn)行權(quán)重計(jì)算后得出的,它可以比較全面地反映系統(tǒng)中不同指標(biāo)的變化程度和重要程度,其計(jì)算公式見(jiàn)式(6)~(9)。
|
(6) |
|
(7) |
|
(8) |
|
(9) |
式中:ρ0i表示綜合關(guān)聯(lián)度;θi表示分辨系數(shù),為了平衡絕對(duì)關(guān)聯(lián)度和綜合關(guān)聯(lián)度結(jié)果的不同傾向,運(yùn)用離差最大化為分辨系數(shù)賦值;DA,i表示絕對(duì)關(guān)聯(lián)度的總離差;DR,i表示相對(duì)關(guān)聯(lián)度的總離差。
為了研究表1中各個(gè)因素對(duì)城鎮(zhèn)燃?xì)夤艿赖母g影響的重要程度,將數(shù)據(jù)歸一化后代入公式(2)~(9),計(jì)算出城鎮(zhèn)燃?xì)夤艿栏g影響因素的綜合關(guān)聯(lián)度,結(jié)果如表2所示,腐蝕影響因素依次用C1、C2、……、C13代替。
腐蝕因素 | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 | C9 | C10 | C11 | C12 | C13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
a0i | 0.501 | 0.512 | 0.594 | 0.523 | 0.637 | 0.642 | 0.592 | 0.513 | 0.581 | 0.893 | 0.519 | 0.597 | 0.502 |
r0i | 0.559 | 0.532 | 0.632 | 0.601 | 0.569 | 0.639 | 0.617 | 0.502 | 0.627 | 0.648 | 0.529 | 0.637 | 0.520 |
θi | 0.361 | 0.377 | 0.553 | 0.473 | 0.586 | 0.569 | 0.519 | 0.457 | 0.596 | 0.764 | 0.464 | 0.551 | 0.394 |
ρ0i | 0.538 | 0.524 | 0.611 | 0.564 | 0.609 | 0.641 | 0.604 | 0.507 | 0.600 | 0.835 | 0.524 | 0.615 | 0.512 |
由表2可知,城鎮(zhèn)燃?xì)夤艿栏g影響因素對(duì)管道腐蝕影響的關(guān)聯(lián)度從大到小排序?yàn)镃10、C6、C12、C3、C5、C7、C9、C4、C1、C2、C11、C13、C8。選擇其中關(guān)聯(lián)度超過(guò)60%的影響因素[17]作為影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,即管道材料、埋深、陰極保護(hù)方式、投入年份、管道壓力、土壤腐蝕性、壁厚,同時(shí)將這7個(gè)影響因素作為后續(xù)預(yù)測(cè)模型的因素集。
2.2 云環(huán)境的概念及內(nèi)涵
云環(huán)境是指能夠從動(dòng)態(tài)虛擬化的資源池中向用戶(hù)或者各種應(yīng)用系統(tǒng)按需提供計(jì)算能力、存儲(chǔ)能力或者虛擬機(jī)服務(wù)等的互聯(lián)網(wǎng)或者大數(shù)據(jù)環(huán)境。城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)與云環(huán)境結(jié)合,可以使失效預(yù)測(cè)具有資源共享的能力,并處于高度協(xié)同的環(huán)境中。在云環(huán)境中,所有信息公開(kāi)透明,時(shí)時(shí)共享。操作人員可以充分了解管道的各項(xiàng)信息指標(biāo)以及維檢修的數(shù)據(jù),并根據(jù)所掌握的數(shù)據(jù)利用云平臺(tái)提供的各種機(jī)器學(xué)習(xí)算法組件進(jìn)行實(shí)時(shí)的計(jì)算預(yù)測(cè)。同時(shí),借助云服務(wù)器和虛擬平臺(tái)調(diào)用數(shù)據(jù),可使數(shù)據(jù)處理不再受物理硬件、場(chǎng)景、地域的限制,使移動(dòng)預(yù)測(cè)成為常態(tài)。
作者所使用的機(jī)器學(xué)習(xí)PAI平臺(tái)是阿里云打造的一款人工智能云計(jì)算平臺(tái),提供包含數(shù)據(jù)標(biāo)注、模型構(gòu)建、模型訓(xùn)練、模型部署、推理優(yōu)化在內(nèi)的AI開(kāi)發(fā)全鏈路服務(wù),PAI平臺(tái)集成了大量穩(wěn)定的機(jī)器學(xué)習(xí)算法組件。其可視化的建模方式,為開(kāi)發(fā)者提供了低門(mén)檻、高性能的云原生AI工程化能力。
2.3 邏輯回歸算法
在城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)中,管道失效發(fā)生與否可以被看作一個(gè)二值變量,而邏輯回歸算法的因變量實(shí)質(zhì)上是一個(gè)二值分類(lèi)因變量,所以作者通過(guò)建立邏輯回歸模型對(duì)城鎮(zhèn)燃?xì)夤艿赖氖эL(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。邏輯回歸算法是機(jī)器學(xué)習(xí)中比較常用的一種用于分類(lèi)的監(jiān)督學(xué)習(xí)算法[18]。利用邏輯回歸算法可以預(yù)測(cè)在不同的影響因素下,某種情況發(fā)生的概率。構(gòu)建邏輯回歸模型的核心是結(jié)合已經(jīng)獲得的樣本數(shù)據(jù),在有限時(shí)間內(nèi)進(jìn)行訓(xùn)練,獲得回歸系數(shù),在確保良好的學(xué)習(xí)效果的基礎(chǔ)上,使得邏輯回歸模型具備較好的預(yù)測(cè)能力。考慮到燃?xì)夤艿朗в绊懸蛩厥欠沁B續(xù)變量,作者使用邏輯回歸中的邏輯回歸二分類(lèi)模型[19]搭建燃?xì)夤艿朗ьA(yù)測(cè)模型。
假設(shè)在燃?xì)夤艿朗в绊懸蛩氐淖饔孟?管道失效的概率為p,其取值范圍為0~1,則管道不失效的概率為1-p,p/(1-p)為燃?xì)夤艿朗У倪壿嫽貧w值。取自然對(duì)數(shù),其中,自變量X1,X2,…,Xk為影響管道失效的因素,如管道壓力、埋深、土壤腐蝕性等因素,因變量為p,則邏輯回歸函數(shù)可以表示為
|
(10) |
式中:β0為常量,β1,β2,…,βk為回歸系數(shù)。
根據(jù)公式(2)可得
|
(11) |
利用公式(3)可以定量預(yù)測(cè)燃?xì)夤艿朗У母怕?從而達(dá)到預(yù)防燃?xì)夤艿朗У哪康摹?nbsp;
2.4 管道失效預(yù)測(cè)模型的構(gòu)建流程
管道失效預(yù)測(cè)模型的構(gòu)建流程如圖5所示。利用PAI平臺(tái)進(jìn)行模型的構(gòu)建,具體操作步驟如下:
第一步,進(jìn)行數(shù)據(jù)讀取,將搜集的數(shù)據(jù)上傳到云環(huán)境中。PAI平臺(tái)的數(shù)據(jù)儲(chǔ)存在阿里云的DataWorks管理控制臺(tái)中,在DataWorks中完成相應(yīng)的表結(jié)構(gòu)設(shè)計(jì)后,如圖6所示,將數(shù)據(jù)導(dǎo)入控制臺(tái),完成存儲(chǔ)。存儲(chǔ)在DataWorks中的數(shù)據(jù)可以在PAI平臺(tái)中直接利用讀數(shù)據(jù)表組件進(jìn)行跨項(xiàng)目讀取,從而完成數(shù)據(jù)讀取。
第二步,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括數(shù)據(jù)清洗、缺失值填充以及類(lèi)型變換等操作。因?yàn)槊總€(gè)樣本的狀態(tài)只考慮失效或未失效,所以燃?xì)夤艿朗P偷念A(yù)測(cè)也可以歸屬于分類(lèi)問(wèn)題。本研究中輸入數(shù)據(jù)包括8個(gè)特征列和1個(gè)目標(biāo)列,在數(shù)據(jù)預(yù)處理的過(guò)程中,需要根據(jù)每個(gè)字段的含義將字符類(lèi)型轉(zhuǎn)換為數(shù)值類(lèi)型。
(1)二值類(lèi)數(shù)據(jù):以管道材料字段為例,其取值為L(zhǎng)415N和L415M,可以用0表示L415N,用1表示L415M。
(2)多值類(lèi)數(shù)據(jù):以土壤腐蝕性字段為例,有弱、中、強(qiáng)三個(gè)等級(jí)(劃分依據(jù)),由弱到強(qiáng)可以依次映射為0~2的數(shù)值。
數(shù)據(jù)處理的結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)腳本如圖7所示。
第三步,進(jìn)行特征工程。特征工程指的是通過(guò)一系列方法將模型訓(xùn)練所需要的數(shù)據(jù)進(jìn)行相應(yīng)的處理,使得數(shù)據(jù)能在模型訓(xùn)練過(guò)程中發(fā)揮更好作用的過(guò)程[20]。由于邏輯回歸模型的輸入數(shù)據(jù)必須為double類(lèi)型,所以在本研究中首先通過(guò)類(lèi)型轉(zhuǎn)換組件將輸入特征轉(zhuǎn)換為double類(lèi)型,然后使用過(guò)濾式特征選擇組件,利用信息熵和基尼系數(shù)來(lái)判斷每個(gè)特征對(duì)于結(jié)果的影響。同時(shí),為了消除量綱對(duì)模型結(jié)果的影響,需要進(jìn)行無(wú)量綱化[21],使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一規(guī)格,使用歸一化組件將原始特征數(shù)值的范圍映射到0~1。
第四步,利用云算法進(jìn)行模型的訓(xùn)練和預(yù)測(cè)。使用拆分組件將數(shù)據(jù)集按照一定的比例拆分成訓(xùn)練集和測(cè)試集,利用機(jī)器學(xué)習(xí)中的邏輯二分類(lèi)組件訓(xùn)練燃?xì)夤艿朗ьA(yù)測(cè)模型,設(shè)置模型訓(xùn)練的最大迭代次數(shù)為400次,模型訓(xùn)練成功后將其保存到PMML中,PMML利用XML描述和存儲(chǔ)數(shù)據(jù)挖掘模型,在模型中可以看到邏輯回歸方程中的相關(guān)變量如回歸系數(shù)、自由度等。將模型和測(cè)試集共同輸入預(yù)測(cè)組件,進(jìn)行失效結(jié)果預(yù)測(cè)。將燃?xì)夤艿朗У倪壿嬛刀x為1,不失效的邏輯值定義為0,把概率p=0.5作為管道是否失效的臨界值,若p>0.5則被認(rèn)為失效,p<0.5則被認(rèn)為不失效。
第六步,進(jìn)行模型評(píng)估,本研究中使用混淆矩陣和二分類(lèi)評(píng)估組件對(duì)模型進(jìn)行共同評(píng)估。
3. 預(yù)測(cè)模型分析
3.1 可視化工作流
通過(guò)對(duì)2019~2021年燃?xì)夤艿朗鹿蕯?shù)據(jù)、各大燃?xì)夤酒脚_(tái)內(nèi)部數(shù)據(jù)以及有關(guān)國(guó)家標(biāo)準(zhǔn)進(jìn)行指標(biāo)分解,拆分出燃?xì)夤艿朗в绊懸蛩?將得到13 102條樣本數(shù)據(jù)組成試驗(yàn)數(shù)據(jù)集,隨機(jī)抽取70%數(shù)據(jù)作為模型的訓(xùn)練集,30%數(shù)據(jù)作為模型的測(cè)試集,將數(shù)據(jù)導(dǎo)入阿里云PAI平臺(tái),利用邏輯回歸二分類(lèi)算法進(jìn)行預(yù)測(cè)模型構(gòu)建,云環(huán)境中整個(gè)可視化建模的工作流如圖8所示。
3.2 模型效果評(píng)估指標(biāo)
用混淆矩陣[22]和受試者操作特征(ROC)曲線(xiàn)評(píng)估模型的預(yù)測(cè)準(zhǔn)確率。混淆矩陣可用來(lái)描述城鎮(zhèn)燃?xì)夤艿朗У恼鎸?shí)結(jié)果和預(yù)測(cè)結(jié)果之間的關(guān)聯(lián),是評(píng)估預(yù)測(cè)模型性能的一種常用方法,同時(shí)引入精準(zhǔn)率、召回率和F1值作為評(píng)價(jià)指標(biāo),對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估。對(duì)于一個(gè)分類(lèi)問(wèn)題,其結(jié)果一般有4種情況,如表3所示。
分類(lèi) | 實(shí)際為正 | 實(shí)際為負(fù) |
---|---|---|
分類(lèi)為正 | 真正TP | 假正FP |
分類(lèi)為負(fù) | 假負(fù)FN | 真負(fù)TN |
則準(zhǔn)確率A的計(jì)算公式為
|
(12) |
式中:nTP表示預(yù)測(cè)數(shù)據(jù)中結(jié)果為真正TP的數(shù)據(jù)份數(shù);nTN表示預(yù)測(cè)數(shù)據(jù)中結(jié)果為真負(fù)TN的數(shù)據(jù)份數(shù);nFN表示預(yù)測(cè)數(shù)據(jù)中結(jié)果為假負(fù)FN的數(shù)據(jù)份數(shù);nFP表示預(yù)測(cè)數(shù)據(jù)中結(jié)果為假正FP的數(shù)據(jù)份數(shù)。
精準(zhǔn)率P的計(jì)算公式為
|
(13) |
召回率R的計(jì)算公式為
|
(14) |
F1值綜合表述了精準(zhǔn)率和召回率的輸出結(jié)果,其值越高則說(shuō)明模型的輸出效果越好,其計(jì)算公式為
|
(15) |
為了更加直觀地判斷模型的預(yù)測(cè)效果,引入特異度和靈敏度來(lái)繪制ROC曲線(xiàn)。ROC曲線(xiàn)的橫軸表示假正率(RFP),縱軸表示真正率(RTP),ROC曲線(xiàn)下的陰影面積就代表AUC值,通常用AUC值來(lái)表示模型的好壞,值越大則說(shuō)明模型效果越好,表4展示了模型好壞與AUC值之間的關(guān)系。
AUC值 | 模型性能 |
---|---|
1 | 完美分類(lèi)器 |
0.5~1 | 分類(lèi)效果優(yōu)于隨機(jī)猜測(cè) |
0.5 | 分類(lèi)效果等于隨機(jī)猜測(cè) |
0~0.5 | 分類(lèi)效果劣于隨機(jī)猜測(cè) |
3.3 預(yù)測(cè)結(jié)果分析
本研究以阿里云PAI平臺(tái)為實(shí)現(xiàn)平臺(tái),利用可視化建模模塊,通過(guò)對(duì)數(shù)據(jù)進(jìn)行有關(guān)處理操作并對(duì)模型參數(shù)進(jìn)行相應(yīng)調(diào)整,實(shí)現(xiàn)了城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)模型的構(gòu)建,最終通過(guò)混淆矩陣和ROC曲線(xiàn)對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),其結(jié)果如圖9所示。
由圖9(a)混淆矩陣可知,在63份管道未失效數(shù)據(jù)中,有56份預(yù)測(cè)正確,7份預(yù)測(cè)為管道失效;在52份管道失效數(shù)據(jù)中,有46份預(yù)測(cè)正確,6份預(yù)測(cè)為管道未失效。采用以上公式計(jì)算模型的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值,結(jié)果見(jiàn)表5。由表5中的數(shù)據(jù)可知,基于邏輯回歸的管道失效預(yù)測(cè)模型在預(yù)測(cè)管道失效與否的時(shí)候表現(xiàn)較好,其F1值分別為0.90和0.88,準(zhǔn)確率為0.89,預(yù)測(cè)模型總體上達(dá)到了較高水準(zhǔn)。
預(yù)測(cè)結(jié)果 | nTP | nFP | A | P | R | F1 |
---|---|---|---|---|---|---|
未失效 | 56 | 6 | 0.89 | 0.90 | 0.89 | 0.90 |
失效 | 46 | 7 | 0.87 | 0.88 | 0.88 |
ROC曲線(xiàn)可以直觀地展示出模型的預(yù)測(cè)效果。根據(jù)圖9(b)可知,基于邏輯回歸的管道失效預(yù)測(cè)模型的AUC值為0.86,說(shuō)明該模型的效果優(yōu)于隨機(jī)猜測(cè),與使用混淆矩陣進(jìn)行評(píng)估的結(jié)果一致。
3.4 云環(huán)境中計(jì)算和線(xiàn)下計(jì)算時(shí)間對(duì)比
比較了兩種計(jì)算模式即云環(huán)境中和線(xiàn)下的計(jì)算速率。線(xiàn)下計(jì)算是在PC機(jī)使用Python語(yǔ)言,依托深度學(xué)習(xí)的TensorFlow框架搭建邏輯回歸預(yù)測(cè)模型,使用與云環(huán)境中相同的數(shù)據(jù)進(jìn)行模型計(jì)算。PC機(jī)的配置為:CPU6核,2.81 GHz;內(nèi)存16 G。表6為云環(huán)境中和線(xiàn)下兩種模式對(duì)比。
對(duì)照內(nèi)容 | 云環(huán)境中計(jì)算 | 線(xiàn)下計(jì)算 |
---|---|---|
耗時(shí)/s | 90.15 | 334.26 |
模型準(zhǔn)確率/% | 0.89 | 0.76 |
模型發(fā)布方式 | 支持一鍵發(fā)布 | 需要代碼支持 |
工作內(nèi)容 | 準(zhǔn)備數(shù)據(jù) | 準(zhǔn)備數(shù)據(jù)、編寫(xiě)代碼、模型評(píng)估 |
綜合兩種計(jì)算模式的對(duì)比結(jié)果,云環(huán)境中的模型構(gòu)建相比線(xiàn)下模型構(gòu)建有著耗時(shí)短、準(zhǔn)確率高、操作簡(jiǎn)單等優(yōu)點(diǎn),構(gòu)建模型時(shí)無(wú)需很強(qiáng)的代碼基礎(chǔ)便可完成機(jī)器學(xué)習(xí)模型的構(gòu)建和計(jì)算。
3.5 案例分析
2021年6月13日,湖北省十堰市發(fā)生重大燃?xì)獗ㄊ鹿?事故造成26人死亡,138人受傷,直接經(jīng)濟(jì)損失約5 395.41萬(wàn)元。經(jīng)調(diào)查得知,引發(fā)事故的直接原因是天然氣中壓鋼管?chē)?yán)重腐蝕導(dǎo)致破裂,泄漏的天然氣遇商戶(hù)排油煙管道排出的火星發(fā)生爆炸,是一起由于管道失效引發(fā)的燃?xì)獗ㄊ鹿?。提取出該次事故燃?xì)夤艿赖氖в绊懸蛩厝?/span>表7所示。
投入年份 | 管道壓力 | 埋深/m | 土壤腐蝕性 | 壁厚/mm | 管道材料 | 陰極保護(hù)方式 |
---|---|---|---|---|---|---|
2005 | 中壓B | 1.5 | 中 | 7.14 | L415N | 犧牲陽(yáng)極 |
將該事故中管道失效影響因素經(jīng)數(shù)據(jù)化處理后導(dǎo)入預(yù)測(cè)模型,在PMML中得到邏輯回歸方程中的回歸系數(shù)如表8所示。結(jié)果表明,基于邏輯回歸算法的燃?xì)夤艿朗ьA(yù)測(cè)模型對(duì)此次案例的預(yù)測(cè)結(jié)果為“1”,即失效,這和實(shí)際情況保持一致,從而驗(yàn)證了該預(yù)測(cè)模型的有效性和實(shí)用性。
系數(shù) | 影響因素 | 回歸系數(shù)值 |
---|---|---|
β1 | 年份 | 0.198 |
β2 | 管道壓力 | -0.347 |
β3 | 埋深 | -4.013 |
β4 | 土壤腐蝕性 | 4.223 |
β5 | 壁厚 | 2.153 |
β6 | 管道材料 | 2.299 |
β7 | 陰極保護(hù)方式 | 3.437 |
β0 | 常量 | 4.558 |
4. 結(jié)論
通過(guò)在云環(huán)境中構(gòu)建城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)模型,計(jì)算城鎮(zhèn)燃?xì)夤艿赖氖Ц怕?實(shí)現(xiàn)了對(duì)城鎮(zhèn)燃?xì)夤艿栏g失效的精準(zhǔn)預(yù)測(cè),同時(shí)打破了傳統(tǒng)失效預(yù)測(cè)模式在計(jì)算環(huán)境和計(jì)算場(chǎng)景上的束縛,取得了以下結(jié)論:
(1)使用廣義灰色關(guān)聯(lián)分析法確定了7種影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,并將這7種關(guān)鍵因素作為邏輯回歸預(yù)測(cè)模型的影響因素集;
(2)云環(huán)境中構(gòu)建的預(yù)測(cè)模型在計(jì)算時(shí)間上要明顯優(yōu)于傳統(tǒng)的線(xiàn)下模型,進(jìn)一步提高了城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測(cè)的計(jì)算速率;
(3)云環(huán)境中構(gòu)建的邏輯回歸預(yù)測(cè)模型,減少了傳統(tǒng)模型構(gòu)建過(guò)程中開(kāi)發(fā)困難、部署不及時(shí)等不足,同時(shí)通過(guò)實(shí)例驗(yàn)證了模型的有效性和實(shí)用性,可為城鎮(zhèn)燃?xì)夤艿赖陌踩芾硖峁﹨⒖家罁?jù)。
文章來(lái)源——材料與測(cè)試網(wǎng)