
隨著我國城鎮(zhèn)化建設(shè)步伐的加快,作為城市生命線之一的燃?xì)夤艿腊l(fā)展迅速。與此同時(shí),城鎮(zhèn)燃?xì)夤艿篱L時(shí)間運(yùn)行帶來的燃?xì)獍踩珕栴}不可忽視,近年來城鎮(zhèn)燃?xì)獗ㄊ鹿蕰r(shí)有發(fā)生,造成了惡劣的社會(huì)影響。經(jīng)調(diào)研得知,燃?xì)夤艿朗窃斐沙擎?zhèn)燃?xì)馐鹿实氖滓?因此分析城鎮(zhèn)燃?xì)夤艿朗У脑?預(yù)測其失效的概率,對預(yù)防城鎮(zhèn)燃?xì)馐鹿视兄种匾囊饬x。
在管道失效方面,國內(nèi)外學(xué)者進(jìn)行了大量的研究工作。管道失效受多種因素共同影響,且不同的因素對管道失效的影響程度也有所不同[1-4]。2015年李琴等[5]利用遺傳算法和BP神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對腐蝕管道失效壓力的預(yù)測。2016年,駱正山等[6]分析了管道腐蝕速率的相關(guān)因素,提出了一種基于主成分分析和支持向量機(jī)(PCA-SVM)算法的管道速率預(yù)測模型。同年,CHOI等[7]提出了一種基于有限元分析方法的海底管道失效壓力評(píng)估計(jì)算方法。2019年FU等[8]通過埋地鋼管不同失效模式之間的相關(guān)性來確定鋼管的失效概率。2020年ZHANG等[9]通過收集管道特征數(shù)據(jù)和管道失效數(shù)據(jù),結(jié)合貝葉斯網(wǎng)絡(luò)提出了一種基于管道特征腐蝕和外部干擾引起的管道失效預(yù)測模型。以上研究大都是針對長輸管道進(jìn)行的,在城鎮(zhèn)燃?xì)夤艿朗Х矫骢r有研究,長輸管道和城鎮(zhèn)燃?xì)夤艿涝谄渌幁h(huán)境、管道壓力、管材等方面又有著巨大差異,所以對城鎮(zhèn)燃?xì)夤艿赖氖а芯匡@得十分重要。
近年來,基于機(jī)器學(xué)習(xí)的失效預(yù)測被廣泛應(yīng)用,并在實(shí)踐中證明了其可行性。但是傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)在預(yù)測模型構(gòu)建時(shí)存在以下不足:一是采集的失效數(shù)據(jù)呈多點(diǎn)分布,傳統(tǒng)的數(shù)據(jù)處理匯總方式費(fèi)時(shí)費(fèi)力;二是要求開發(fā)人員能夠熟練掌握TensorFlow等第三方代碼庫,對編程能力要求較高;三是機(jī)器學(xué)習(xí)模型的訓(xùn)練過程需要消耗大量的計(jì)算資源,若開發(fā)環(huán)境中硬件資源受限,則將無法進(jìn)行大規(guī)模的模型構(gòu)建;四是在本地構(gòu)建完成的模型,缺乏便捷的方式將其快速部署,實(shí)用性不強(qiáng)。
總體來看,現(xiàn)有成果缺乏對城鎮(zhèn)燃?xì)夤艿赖氖ьA(yù)測,同時(shí)傳統(tǒng)的失效預(yù)測模式又受計(jì)算環(huán)境和計(jì)算場景的制約。云環(huán)境、云計(jì)算技術(shù)的快速發(fā)展給城鎮(zhèn)燃?xì)夤艿赖氖ьA(yù)測供了新的方向。作者結(jié)合云環(huán)境,分析了城鎮(zhèn)燃?xì)夤艿里L(fēng)險(xiǎn)并辨別影響城鎮(zhèn)燃?xì)夤艿朗У闹饕?建立了基于邏輯回歸算法的城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測模型。
1. 城鎮(zhèn)燃?xì)夤艿朗г蚝椭饕蚍治?/span>
1.1 城鎮(zhèn)燃?xì)夤艿朗г蚍治?/span>
造成城鎮(zhèn)燃?xì)夤艿朗У脑驈?fù)雜多樣,事故的發(fā)生往往是多種因素耦合的結(jié)果。對燃?xì)夤艿朗г虻姆治鲇欣诒苊馔愂鹿实脑俅伟l(fā)生,將事故發(fā)生的鏈條切斷[10]。同時(shí)對城鎮(zhèn)燃?xì)夤艿朗г蜻M(jìn)行有效分析,明確燃?xì)夤艿朗У母骷?jí)致因因素,是建立管道失效預(yù)測模型的第一步。
人機(jī)環(huán)管模型與城鎮(zhèn)燃?xì)夤艿赖陌踩兄芮械穆?lián)系,不僅貫穿了城鎮(zhèn)燃?xì)夤艿郎a(chǎn)、運(yùn)行以及后期維護(hù)的整個(gè)過程,也是直接影響安全生產(chǎn)的重要因素,只有深入研究其特點(diǎn)和規(guī)律,采取對應(yīng)的安全管理措施和技術(shù)方法,阻斷事故發(fā)生的鏈條,才能盡可能地減少事故的發(fā)生。田云祥等[11]對2011~2017年所發(fā)生的燃?xì)馐鹿蔬M(jìn)行統(tǒng)計(jì)分析后得出,86%的事故是由于人的各種不安全行為導(dǎo)致的。人的不安全行為會(huì)增加操作失誤,設(shè)備的不安全狀態(tài)會(huì)增加設(shè)備故障或失效,環(huán)境的不安全因素會(huì)增加外力干擾,企業(yè)的管理缺陷會(huì)增加燃?xì)夤景踩芾硎А.?dāng)各種失效因素達(dá)到事故發(fā)生的閾值時(shí),事故便會(huì)發(fā)生。綜上,根據(jù)事故發(fā)展的過程,在確定事故一級(jí)致因因素時(shí),可以選取人機(jī)環(huán)管模型作為燃?xì)夤艿朗У囊患?jí)致因因素指標(biāo),將致因因素分為四個(gè)方面:人(人的不安全行為)、機(jī)(設(shè)備的不安全狀態(tài))、環(huán)(環(huán)境因素)、管(企業(yè)管理缺陷)[12]。結(jié)合燃?xì)馐鹿实念I(lǐng)域特點(diǎn),對每個(gè)方面進(jìn)行具體解釋。
1.1.1 人的不安全行為
人的不安全行為主要由于操作人員的安全技能不足和燃?xì)庥脩舻陌踩庾R(shí)淡薄。操作人員在進(jìn)行維搶修作業(yè)時(shí),因自身安全技能和專業(yè)知識(shí)不足,不能及時(shí)處理問題或違章施工,從而導(dǎo)致管道失效;燃?xì)庥脩粼谌粘J褂萌細(xì)鈺r(shí),因安全意識(shí)淡薄而帶來的違規(guī)使用,導(dǎo)致事故發(fā)生。
1.1.2 設(shè)備的不安全狀態(tài)
設(shè)備的不安全狀態(tài)主要指燃?xì)夤艿来嬖诘墓收先毕?即燃?xì)夤艿赖淖陨砣毕莺秃笃谑褂眠^程中由于腐蝕等因素導(dǎo)致的缺陷。
1.1.3 環(huán)境因素
環(huán)境因素指自然界中的各種不穩(wěn)定因素如洪水、地震、腐蝕等,這些不穩(wěn)定因素易對燃?xì)庠O(shè)施造成不同程度的影響。
1.1.4 企業(yè)管理缺陷
企業(yè)管理缺陷主要包括企業(yè)管理標(biāo)準(zhǔn)及規(guī)章制度不合理、安全管理混亂、安全巡檢人員責(zé)任心不強(qiáng)等。
以上四個(gè)方面的致因因素相互作用,共同影響著城鎮(zhèn)燃?xì)夤艿赖陌踩\(yùn)行。魚骨圖具有直觀形象的特點(diǎn),被廣泛應(yīng)用到各類問題的影響因素分析中[13]。引起城鎮(zhèn)燃?xì)夤艿朗У囊蛩剌^多,所以在事故一級(jí)致因因素的基礎(chǔ)上,通過整理和分析大量城鎮(zhèn)燃?xì)馐鹿拾咐?/span>[14],構(gòu)建出城鎮(zhèn)燃?xì)夤艿朗У聂~骨模型,如圖1所示,從而分析得出燃?xì)夤艿朗У亩?jí)致因因素,確定燃?xì)夤艿朗У闹乱蝮w系,為后文失效致因的重要度分析提供理論支持。
1.2 燃?xì)夤艿朗е饕蚍治?/span>
為了提高燃?xì)夤艿朗ьA(yù)測模型的準(zhǔn)確率,需要對多種失效原因進(jìn)行梳理分析,找出其中最主要的原因[15]。利用K均值聚類算法完成詞向量的聚類,從而實(shí)現(xiàn)燃?xì)夤艿朗е饕蚍治觥?/span>K均值聚類過程如下:首先,選取K個(gè)特征對象作為每個(gè)簇的初始聚類中心點(diǎn);然后,計(jì)算其余對象與各個(gè)簇中心點(diǎn)的距離,并將其分配到距離最近的簇;對于一個(gè)給定的包含n個(gè)d維數(shù)據(jù)點(diǎn)的數(shù)據(jù)集X及類別K,選取歐式距離作為相似度指標(biāo),聚類目標(biāo)是使得各聚類平方和最小,即最小化,見式(1)。
將前文中對城鎮(zhèn)燃?xì)夤艿朗г虻姆治鲎鳛槭鹿试蚍诸惖脑紭?biāo)簽,從而實(shí)現(xiàn)管道失效原因的自動(dòng)分類。然后,通過聚類法分析燃?xì)夤艿朗е饕?聚類數(shù)設(shè)置為5,迭代數(shù)設(shè)置為50,輸出的聚類結(jié)果散點(diǎn)圖如圖2所示。
散點(diǎn)圖中的5個(gè)聚類簇分別為:簇1(管道腐蝕),簇2(燃?xì)庥脩暨`規(guī)使用),簇3(險(xiǎn)情處置能力不足),簇4(違規(guī)施工),簇5(用戶燃?xì)庠O(shè)施故障老化)。根據(jù)聚類分析可知,城鎮(zhèn)燃?xì)夤艿朗г蛑饕性诖?(管道腐蝕),即燃?xì)夤艿朗鹿拾l(fā)生的主要原因?yàn)楣艿栏g。所以,作者通過挖掘燃?xì)夤艿栏g的各類特征之間的關(guān)聯(lián)規(guī)則,預(yù)測城鎮(zhèn)燃?xì)夤艿朗?從而達(dá)到預(yù)防燃?xì)夤艿朗鹿实哪康摹?/span>圖3為研究路線圖。
2. 云環(huán)境中燃?xì)夤艿朗ьA(yù)測模型
2.1 數(shù)據(jù)構(gòu)成
為了保障燃?xì)夤艿朗ьA(yù)測模型的準(zhǔn)確性和合理性,作者收集了影響燃?xì)夤艿劳暾缘暮诵臄?shù)據(jù),并對收集的數(shù)據(jù)進(jìn)行全面分析,獲取燃?xì)夤艿赖膮?shù)信息。數(shù)據(jù)主要包括燃?xì)夤艿朗?shù)據(jù)和管道設(shè)計(jì)指標(biāo)。
(1)燃?xì)夤艿朗?shù)據(jù)
根據(jù)2019~2021年的燃?xì)馐鹿蕡?bào)告,收集每起事故發(fā)生的管道樁號(hào)、時(shí)間、事故原因等信息。
(2)管道設(shè)計(jì)指標(biāo)
調(diào)研收集各大燃?xì)夤緝?nèi)部數(shù)據(jù),查閱有關(guān)國家標(biāo)準(zhǔn)如GB/T 9711-2011《石油天然氣工業(yè)管線輸送系統(tǒng)用鋼管》, GB 50028-2006《城鎮(zhèn)燃?xì)庠O(shè)計(jì)規(guī)范》等,確定與燃?xì)夤艿涝O(shè)計(jì)指標(biāo)有關(guān)的數(shù)據(jù)。數(shù)據(jù)包括管道基礎(chǔ)數(shù)據(jù)、檢測監(jiān)測數(shù)據(jù)、防腐蝕檢測數(shù)據(jù)、運(yùn)維數(shù)據(jù)等。
對收集的數(shù)據(jù)進(jìn)行整合,并將其分為管道基本屬性數(shù)據(jù)、管道檢測數(shù)據(jù)和管道運(yùn)維數(shù)據(jù)三大類,形成包括樁號(hào)、管道壓力、缺陷長度在內(nèi)的13個(gè)腐蝕影響因素,建立如圖4所示的城鎮(zhèn)燃?xì)夤艿栏g因素指標(biāo)體系。
燃?xì)夤艿栏g影響因素的部分?jǐn)?shù)據(jù)如表1所示。通過數(shù)據(jù)分析發(fā)現(xiàn),燃?xì)夤艿朗е饕扇細(xì)夤艿栏g泄漏導(dǎo)致,而管道腐蝕受管道投入年份(服役時(shí)間)、埋深、壓力等因素影響。為了在眾多因素中確定影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,作者利用廣義灰色關(guān)聯(lián)分析法獲取關(guān)聯(lián)度較高的腐蝕因素作為后續(xù)預(yù)測模型的影響因素集。
廣義灰色關(guān)聯(lián)分析法主要利用系統(tǒng)中各個(gè)因素之間發(fā)展趨勢的相似性,通過定量分析的方法來確定各因素之間關(guān)聯(lián)度[16],主要包含相對關(guān)聯(lián)度、絕對關(guān)聯(lián)度和綜合關(guān)聯(lián)度。設(shè)置參照序列為X0(k)=X0(1),X0(2),…,X0(m),m為樣本量。影響因素序列為Xi(k),由于上述腐蝕因素指標(biāo)體系內(nèi)有13個(gè)腐蝕影響因素,所以i=1,2,…,13,并對參照序列和影響因素序列進(jìn)行歸一化處理。
(1)絕對關(guān)聯(lián)度計(jì)算
根據(jù)歸一化處理后的數(shù)據(jù),參照式(2)~(4)進(jìn)行絕對關(guān)聯(lián)度a0i的計(jì)算。
(2)相對關(guān)聯(lián)度計(jì)算
設(shè)相對關(guān)聯(lián)度為r0i則其計(jì)算公式見式(5)。
(3)綜合關(guān)聯(lián)度計(jì)算
在廣義灰色關(guān)聯(lián)分析中,綜合關(guān)聯(lián)度是將絕對關(guān)聯(lián)度和相對關(guān)聯(lián)度進(jìn)行權(quán)重計(jì)算后得出的,它可以比較全面地反映系統(tǒng)中不同指標(biāo)的變化程度和重要程度,其計(jì)算公式見式(6)~(9)。
式中:ρ0i表示綜合關(guān)聯(lián)度;θi表示分辨系數(shù),為了平衡絕對關(guān)聯(lián)度和綜合關(guān)聯(lián)度結(jié)果的不同傾向,運(yùn)用離差最大化為分辨系數(shù)賦值;DA,i表示絕對關(guān)聯(lián)度的總離差;DR,i表示相對關(guān)聯(lián)度的總離差。
為了研究表1中各個(gè)因素對城鎮(zhèn)燃?xì)夤艿赖母g影響的重要程度,將數(shù)據(jù)歸一化后代入公式(2)~(9),計(jì)算出城鎮(zhèn)燃?xì)夤艿栏g影響因素的綜合關(guān)聯(lián)度,結(jié)果如表2所示,腐蝕影響因素依次用C1、C2、……、C13代替。
由表2可知,城鎮(zhèn)燃?xì)夤艿栏g影響因素對管道腐蝕影響的關(guān)聯(lián)度從大到小排序?yàn)镃10、C6、C12、C3、C5、C7、C9、C4、C1、C2、C11、C13、C8。選擇其中關(guān)聯(lián)度超過60%的影響因素[17]作為影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,即管道材料、埋深、陰極保護(hù)方式、投入年份、管道壓力、土壤腐蝕性、壁厚,同時(shí)將這7個(gè)影響因素作為后續(xù)預(yù)測模型的因素集。
2.2 云環(huán)境的概念及內(nèi)涵
云環(huán)境是指能夠從動(dòng)態(tài)虛擬化的資源池中向用戶或者各種應(yīng)用系統(tǒng)按需提供計(jì)算能力、存儲(chǔ)能力或者虛擬機(jī)服務(wù)等的互聯(lián)網(wǎng)或者大數(shù)據(jù)環(huán)境。城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測與云環(huán)境結(jié)合,可以使失效預(yù)測具有資源共享的能力,并處于高度協(xié)同的環(huán)境中。在云環(huán)境中,所有信息公開透明,時(shí)時(shí)共享。操作人員可以充分了解管道的各項(xiàng)信息指標(biāo)以及維檢修的數(shù)據(jù),并根據(jù)所掌握的數(shù)據(jù)利用云平臺(tái)提供的各種機(jī)器學(xué)習(xí)算法組件進(jìn)行實(shí)時(shí)的計(jì)算預(yù)測。同時(shí),借助云服務(wù)器和虛擬平臺(tái)調(diào)用數(shù)據(jù),可使數(shù)據(jù)處理不再受物理硬件、場景、地域的限制,使移動(dòng)預(yù)測成為常態(tài)。
作者所使用的機(jī)器學(xué)習(xí)PAI平臺(tái)是阿里云打造的一款人工智能云計(jì)算平臺(tái),提供包含數(shù)據(jù)標(biāo)注、模型構(gòu)建、模型訓(xùn)練、模型部署、推理優(yōu)化在內(nèi)的AI開發(fā)全鏈路服務(wù),PAI平臺(tái)集成了大量穩(wěn)定的機(jī)器學(xué)習(xí)算法組件。其可視化的建模方式,為開發(fā)者提供了低門檻、高性能的云原生AI工程化能力。
2.3 邏輯回歸算法
在城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測中,管道失效發(fā)生與否可以被看作一個(gè)二值變量,而邏輯回歸算法的因變量實(shí)質(zhì)上是一個(gè)二值分類因變量,所以作者通過建立邏輯回歸模型對城鎮(zhèn)燃?xì)夤艿赖氖эL(fēng)險(xiǎn)進(jìn)行預(yù)測。邏輯回歸算法是機(jī)器學(xué)習(xí)中比較常用的一種用于分類的監(jiān)督學(xué)習(xí)算法[18]。利用邏輯回歸算法可以預(yù)測在不同的影響因素下,某種情況發(fā)生的概率。構(gòu)建邏輯回歸模型的核心是結(jié)合已經(jīng)獲得的樣本數(shù)據(jù),在有限時(shí)間內(nèi)進(jìn)行訓(xùn)練,獲得回歸系數(shù),在確保良好的學(xué)習(xí)效果的基礎(chǔ)上,使得邏輯回歸模型具備較好的預(yù)測能力??紤]到燃?xì)夤艿朗в绊懸蛩厥欠沁B續(xù)變量,作者使用邏輯回歸中的邏輯回歸二分類模型[19]搭建燃?xì)夤艿朗ьA(yù)測模型。
假設(shè)在燃?xì)夤艿朗в绊懸蛩氐淖饔孟?管道失效的概率為p,其取值范圍為0~1,則管道不失效的概率為1-p,p/(1-p)為燃?xì)夤艿朗У倪壿嫽貧w值。取自然對數(shù),其中,自變量X1,X2,…,Xk為影響管道失效的因素,如管道壓力、埋深、土壤腐蝕性等因素,因變量為p,則邏輯回歸函數(shù)可以表示為
式中:β0為常量,β1,β2,…,βk為回歸系數(shù)。
根據(jù)公式(2)可得
利用公式(3)可以定量預(yù)測燃?xì)夤艿朗У母怕?從而達(dá)到預(yù)防燃?xì)夤艿朗У哪康摹?/span>
2.4 管道失效預(yù)測模型的構(gòu)建流程
管道失效預(yù)測模型的構(gòu)建流程如圖5所示。利用PAI平臺(tái)進(jìn)行模型的構(gòu)建,具體操作步驟如下:
第一步,進(jìn)行數(shù)據(jù)讀取,將搜集的數(shù)據(jù)上傳到云環(huán)境中。PAI平臺(tái)的數(shù)據(jù)儲(chǔ)存在阿里云的DataWorks管理控制臺(tái)中,在DataWorks中完成相應(yīng)的表結(jié)構(gòu)設(shè)計(jì)后,如圖6所示,將數(shù)據(jù)導(dǎo)入控制臺(tái),完成存儲(chǔ)。存儲(chǔ)在DataWorks中的數(shù)據(jù)可以在PAI平臺(tái)中直接利用讀數(shù)據(jù)表組件進(jìn)行跨項(xiàng)目讀取,從而完成數(shù)據(jù)讀取。
第二步,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括數(shù)據(jù)清洗、缺失值填充以及類型變換等操作。因?yàn)槊總€(gè)樣本的狀態(tài)只考慮失效或未失效,所以燃?xì)夤艿朗P偷念A(yù)測也可以歸屬于分類問題。本研究中輸入數(shù)據(jù)包括8個(gè)特征列和1個(gè)目標(biāo)列,在數(shù)據(jù)預(yù)處理的過程中,需要根據(jù)每個(gè)字段的含義將字符類型轉(zhuǎn)換為數(shù)值類型。
(1)二值類數(shù)據(jù):以管道材料字段為例,其取值為L415N和L415M,可以用0表示L415N,用1表示L415M。
(2)多值類數(shù)據(jù):以土壤腐蝕性字段為例,有弱、中、強(qiáng)三個(gè)等級(jí)(劃分依據(jù)),由弱到強(qiáng)可以依次映射為0~2的數(shù)值。
數(shù)據(jù)處理的結(jié)構(gòu)化查詢語言(SQL)腳本如圖7所示。
第三步,進(jìn)行特征工程。特征工程指的是通過一系列方法將模型訓(xùn)練所需要的數(shù)據(jù)進(jìn)行相應(yīng)的處理,使得數(shù)據(jù)能在模型訓(xùn)練過程中發(fā)揮更好作用的過程[20]。由于邏輯回歸模型的輸入數(shù)據(jù)必須為double類型,所以在本研究中首先通過類型轉(zhuǎn)換組件將輸入特征轉(zhuǎn)換為double類型,然后使用過濾式特征選擇組件,利用信息熵和基尼系數(shù)來判斷每個(gè)特征對于結(jié)果的影響。同時(shí),為了消除量綱對模型結(jié)果的影響,需要進(jìn)行無量綱化[21],使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一規(guī)格,使用歸一化組件將原始特征數(shù)值的范圍映射到0~1。
第四步,利用云算法進(jìn)行模型的訓(xùn)練和預(yù)測。使用拆分組件將數(shù)據(jù)集按照一定的比例拆分成訓(xùn)練集和測試集,利用機(jī)器學(xué)習(xí)中的邏輯二分類組件訓(xùn)練燃?xì)夤艿朗ьA(yù)測模型,設(shè)置模型訓(xùn)練的最大迭代次數(shù)為400次,模型訓(xùn)練成功后將其保存到PMML中,PMML利用XML描述和存儲(chǔ)數(shù)據(jù)挖掘模型,在模型中可以看到邏輯回歸方程中的相關(guān)變量如回歸系數(shù)、自由度等。將模型和測試集共同輸入預(yù)測組件,進(jìn)行失效結(jié)果預(yù)測。將燃?xì)夤艿朗У倪壿嬛刀x為1,不失效的邏輯值定義為0,把概率p=0.5作為管道是否失效的臨界值,若p>0.5則被認(rèn)為失效,p<0.5則被認(rèn)為不失效。
第六步,進(jìn)行模型評(píng)估,本研究中使用混淆矩陣和二分類評(píng)估組件對模型進(jìn)行共同評(píng)估。
3. 預(yù)測模型分析
3.1 可視化工作流
通過對2019~2021年燃?xì)夤艿朗鹿蕯?shù)據(jù)、各大燃?xì)夤酒脚_(tái)內(nèi)部數(shù)據(jù)以及有關(guān)國家標(biāo)準(zhǔn)進(jìn)行指標(biāo)分解,拆分出燃?xì)夤艿朗в绊懸蛩?將得到13 102條樣本數(shù)據(jù)組成試驗(yàn)數(shù)據(jù)集,隨機(jī)抽取70%數(shù)據(jù)作為模型的訓(xùn)練集,30%數(shù)據(jù)作為模型的測試集,將數(shù)據(jù)導(dǎo)入阿里云PAI平臺(tái),利用邏輯回歸二分類算法進(jìn)行預(yù)測模型構(gòu)建,云環(huán)境中整個(gè)可視化建模的工作流如圖8所示。
3.2 模型效果評(píng)估指標(biāo)
用混淆矩陣[22]和受試者操作特征(ROC)曲線評(píng)估模型的預(yù)測準(zhǔn)確率。混淆矩陣可用來描述城鎮(zhèn)燃?xì)夤艿朗У恼鎸?shí)結(jié)果和預(yù)測結(jié)果之間的關(guān)聯(lián),是評(píng)估預(yù)測模型性能的一種常用方法,同時(shí)引入精準(zhǔn)率、召回率和F1值作為評(píng)價(jià)指標(biāo),對模型的預(yù)測效果進(jìn)行評(píng)估。對于一個(gè)分類問題,其結(jié)果一般有4種情況,如表3所示。
則準(zhǔn)確率A的計(jì)算公式為
式中:nTP表示預(yù)測數(shù)據(jù)中結(jié)果為真正TP的數(shù)據(jù)份數(shù);nTN表示預(yù)測數(shù)據(jù)中結(jié)果為真負(fù)TN的數(shù)據(jù)份數(shù);nFN表示預(yù)測數(shù)據(jù)中結(jié)果為假負(fù)FN的數(shù)據(jù)份數(shù);nFP表示預(yù)測數(shù)據(jù)中結(jié)果為假正FP的數(shù)據(jù)份數(shù)。
精準(zhǔn)率P的計(jì)算公式為
召回率R的計(jì)算公式為
F1值綜合表述了精準(zhǔn)率和召回率的輸出結(jié)果,其值越高則說明模型的輸出效果越好,其計(jì)算公式為
為了更加直觀地判斷模型的預(yù)測效果,引入特異度和靈敏度來繪制ROC曲線。ROC曲線的橫軸表示假正率(RFP),縱軸表示真正率(RTP),ROC曲線下的陰影面積就代表AUC值,通常用AUC值來表示模型的好壞,值越大則說明模型效果越好,表4展示了模型好壞與AUC值之間的關(guān)系。
3.3 預(yù)測結(jié)果分析
本研究以阿里云PAI平臺(tái)為實(shí)現(xiàn)平臺(tái),利用可視化建模模塊,通過對數(shù)據(jù)進(jìn)行有關(guān)處理操作并對模型參數(shù)進(jìn)行相應(yīng)調(diào)整,實(shí)現(xiàn)了城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測模型的構(gòu)建,最終通過混淆矩陣和ROC曲線對模型的預(yù)測結(jié)果進(jìn)行評(píng)價(jià),其結(jié)果如圖9所示。
由圖9(a)混淆矩陣可知,在63份管道未失效數(shù)據(jù)中,有56份預(yù)測正確,7份預(yù)測為管道失效;在52份管道失效數(shù)據(jù)中,有46份預(yù)測正確,6份預(yù)測為管道未失效。采用以上公式計(jì)算模型的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值,結(jié)果見表5。由表5中的數(shù)據(jù)可知,基于邏輯回歸的管道失效預(yù)測模型在預(yù)測管道失效與否的時(shí)候表現(xiàn)較好,其F1值分別為0.90和0.88,準(zhǔn)確率為0.89,預(yù)測模型總體上達(dá)到了較高水準(zhǔn)。
ROC曲線可以直觀地展示出模型的預(yù)測效果。根據(jù)圖9(b)可知,基于邏輯回歸的管道失效預(yù)測模型的AUC值為0.86,說明該模型的效果優(yōu)于隨機(jī)猜測,與使用混淆矩陣進(jìn)行評(píng)估的結(jié)果一致。
3.4 云環(huán)境中計(jì)算和線下計(jì)算時(shí)間對比
比較了兩種計(jì)算模式即云環(huán)境中和線下的計(jì)算速率。線下計(jì)算是在PC機(jī)使用Python語言,依托深度學(xué)習(xí)的TensorFlow框架搭建邏輯回歸預(yù)測模型,使用與云環(huán)境中相同的數(shù)據(jù)進(jìn)行模型計(jì)算。PC機(jī)的配置為:CPU6核,2.81 GHz;內(nèi)存16 G。表6為云環(huán)境中和線下兩種模式對比。
綜合兩種計(jì)算模式的對比結(jié)果,云環(huán)境中的模型構(gòu)建相比線下模型構(gòu)建有著耗時(shí)短、準(zhǔn)確率高、操作簡單等優(yōu)點(diǎn),構(gòu)建模型時(shí)無需很強(qiáng)的代碼基礎(chǔ)便可完成機(jī)器學(xué)習(xí)模型的構(gòu)建和計(jì)算。
3.5 案例分析
2021年6月13日,湖北省十堰市發(fā)生重大燃?xì)獗ㄊ鹿?事故造成26人死亡,138人受傷,直接經(jīng)濟(jì)損失約5 395.41萬元。經(jīng)調(diào)查得知,引發(fā)事故的直接原因是天然氣中壓鋼管嚴(yán)重腐蝕導(dǎo)致破裂,泄漏的天然氣遇商戶排油煙管道排出的火星發(fā)生爆炸,是一起由于管道失效引發(fā)的燃?xì)獗ㄊ鹿?。提取出該次事故燃?xì)夤艿赖氖в绊懸蛩厝?/span>表7所示。
將該事故中管道失效影響因素經(jīng)數(shù)據(jù)化處理后導(dǎo)入預(yù)測模型,在PMML中得到邏輯回歸方程中的回歸系數(shù)如表8所示。結(jié)果表明,基于邏輯回歸算法的燃?xì)夤艿朗ьA(yù)測模型對此次案例的預(yù)測結(jié)果為“1”,即失效,這和實(shí)際情況保持一致,從而驗(yàn)證了該預(yù)測模型的有效性和實(shí)用性。
4. 結(jié)論
通過在云環(huán)境中構(gòu)建城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測模型,計(jì)算城鎮(zhèn)燃?xì)夤艿赖氖Ц怕?實(shí)現(xiàn)了對城鎮(zhèn)燃?xì)夤艿栏g失效的精準(zhǔn)預(yù)測,同時(shí)打破了傳統(tǒng)失效預(yù)測模式在計(jì)算環(huán)境和計(jì)算場景上的束縛,取得了以下結(jié)論:
(1)使用廣義灰色關(guān)聯(lián)分析法確定了7種影響城鎮(zhèn)燃?xì)夤艿栏g的關(guān)鍵因素,并將這7種關(guān)鍵因素作為邏輯回歸預(yù)測模型的影響因素集;
(2)云環(huán)境中構(gòu)建的預(yù)測模型在計(jì)算時(shí)間上要明顯優(yōu)于傳統(tǒng)的線下模型,進(jìn)一步提高了城鎮(zhèn)燃?xì)夤艿朗ьA(yù)測的計(jì)算速率;
(3)云環(huán)境中構(gòu)建的邏輯回歸預(yù)測模型,減少了傳統(tǒng)模型構(gòu)建過程中開發(fā)困難、部署不及時(shí)等不足,同時(shí)通過實(shí)例驗(yàn)證了模型的有效性和實(shí)用性,可為城鎮(zhèn)燃?xì)夤艿赖陌踩芾硖峁﹨⒖家罁?jù)。
文章來源——材料與測試網(wǎng)