1 MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)背景及目標(biāo)
MES以面向數(shù)據(jù)的模型為核心系統(tǒng),連接實(shí)時(shí)數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù),對(duì)生產(chǎn)過(guò)程進(jìn)行過(guò)程監(jiān)視、控制和診斷、環(huán)境監(jiān)測(cè)、單元整合、模擬和優(yōu)化,并進(jìn)行物料平衡、生產(chǎn)計(jì)劃、調(diào)度、排產(chǎn)、離線在線模擬與優(yōu)化等操作管理等優(yōu)點(diǎn),迎合了石化企業(yè)的發(fā)展需求,在石化行業(yè)中得到廣泛應(yīng)用。中石油也于2004年在大連石化進(jìn)行了MES試點(diǎn),隨后在各下屬20多家企業(yè)分別開(kāi)展了MES推廣項(xiàng)目。MES系統(tǒng)在各公司生產(chǎn)中運(yùn)用后,對(duì)裝置的實(shí)時(shí)監(jiān)控更加全面,可以及時(shí)準(zhǔn)確反映生產(chǎn)實(shí)際,已經(jīng)成為了各級(jí)生產(chǎn)管理人員不可或缺的助手。
吉林石化公司于2007年被列入中油MES第2期推廣項(xiàng)目,經(jīng)過(guò)1期、2期、3期歷時(shí)3年多的項(xiàng)目實(shí)施,目前該系統(tǒng)已經(jīng)在13個(gè)分廠順利上線,并正式投入運(yùn)行。作為MES系統(tǒng)維護(hù)人員責(zé)任重大,如何第一時(shí)間發(fā)現(xiàn)問(wèn)題、解決問(wèn)題擺在了面前,通過(guò)這幾年的系統(tǒng)實(shí)施與維護(hù)所積累的經(jīng)驗(yàn)而產(chǎn)生了《MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)》,該系統(tǒng)可以自動(dòng)對(duì)MES系統(tǒng)運(yùn)行中比較容易出現(xiàn)的故障進(jìn)行監(jiān)視,并且可以對(duì)一些故障進(jìn)行自動(dòng)處理,如果不能自動(dòng)處理的故障以短信形式通知維護(hù)人員手動(dòng)處理;形成日?qǐng)?bào)、月報(bào)等日志形式便于相關(guān)人員統(tǒng)計(jì)與分析MES運(yùn)行狀況。該系統(tǒng)大大提高了MES系統(tǒng)運(yùn)行的穩(wěn)定性,對(duì)日后MES系統(tǒng)優(yōu)化和擴(kuò)容提供參考依據(jù),讓MES系統(tǒng)更好的服務(wù)于生產(chǎn)。
2 MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)解決方案
2.1 MES系統(tǒng)常見(jiàn)故障分析
MES系統(tǒng)架構(gòu)如圖1所示,日常系統(tǒng)運(yùn)行中圖中紅色字標(biāo)注的服務(wù)器上運(yùn)行的服務(wù)及本身,會(huì)因未原岡經(jīng)常出現(xiàn)服務(wù)中斷或服務(wù)器宕機(jī)情況,如果這些事故發(fā)現(xiàn)與處理不及時(shí),會(huì)造成數(shù)據(jù)收集的中斷,大大降低了MES系統(tǒng)的可用性。大部分地區(qū)MES維護(hù)都是被動(dòng)地發(fā)現(xiàn)系統(tǒng)故障,一方面由工廠人員打電話反應(yīng),另一方面是由維護(hù)人員定時(shí)對(duì)MES系統(tǒng)進(jìn)行手動(dòng)巡檢,發(fā)現(xiàn)和處理問(wèn)題都不夠及時(shí),尤其是節(jié)假日更難對(duì)系統(tǒng)運(yùn)行狀況進(jìn)行監(jiān)視。
圖1 故障分析
2.2 MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)架構(gòu)
系統(tǒng)采用3層架構(gòu),前臺(tái)通過(guò)Ⅲ瀏覽器訪問(wèn),中間層采用C#.net2005技術(shù)開(kāi)發(fā),存儲(chǔ)層采用Oracle數(shù)據(jù)庫(kù)存儲(chǔ)。系統(tǒng)架構(gòu)如圖2所示,整個(gè)維護(hù)平臺(tái)由定時(shí)運(yùn)行接口去啟動(dòng)檢查操作,各檢查模塊發(fā)現(xiàn)故障后啟動(dòng)自動(dòng)處理,并將處理結(jié)果(可能失敗或不能自動(dòng)處理)以短信的方式通知給維護(hù)人員,并將該事故記錄到系統(tǒng)中。維護(hù)人員可通過(guò)維護(hù)日志記錄查看和記錄事故處理情況,并通過(guò)系統(tǒng)對(duì)指定時(shí)間段內(nèi)發(fā)生的事故進(jìn)行統(tǒng)計(jì)。
2.3 各功能模塊簡(jiǎn)述
(1)定時(shí)運(yùn)行模塊
系統(tǒng)需求:需要提供能定時(shí)循環(huán)運(yùn)行指定端口的接口;
技術(shù)實(shí)現(xiàn):利用后臺(tái)進(jìn)程,調(diào)用System.Threading包下的類(lèi)庫(kù)實(shí)現(xiàn)指定調(diào)用指定名稱(chēng)接口的功能,每個(gè)接口是否運(yùn)行和運(yùn)行頻率可通過(guò)前臺(tái)配置修改;
(2)維護(hù)日志管理模塊
系統(tǒng)需求:需要在系統(tǒng)中記錄運(yùn)行結(jié)果;
技術(shù)實(shí)現(xiàn):將運(yùn)行結(jié)果保存到數(shù)據(jù)庫(kù)中,不同服務(wù)運(yùn)行類(lèi)型用字段區(qū)分;
圖2 MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)架構(gòu)圖
(3)短信報(bào)警模塊
系統(tǒng)需求:需要將指定信息以短信方式通知給指定維護(hù)人員;
技術(shù)實(shí)現(xiàn):調(diào)用短信發(fā)送硬件設(shè)備的即時(shí)發(fā)送接口發(fā)送短信信息;
(4)未授權(quán)賬號(hào)登陸情況告警
系統(tǒng)需求:當(dāng)前系統(tǒng)允許任何擁有中油郵箱的用戶登陸系統(tǒng),即使該用戶在系統(tǒng)中未授權(quán)也能瀏覽部分信息;
應(yīng)對(duì)措施:為了及時(shí)發(fā)現(xiàn)用戶需要登錄系統(tǒng)的需求,同時(shí)加強(qiáng)系統(tǒng)安全性,每日將使用未授權(quán)用戶登錄的用戶帳號(hào)記錄到系統(tǒng)中,由維護(hù)人員確認(rèn)是應(yīng)在系統(tǒng)中授權(quán)的用戶還是非法攻擊的用戶;
技術(shù)實(shí)現(xiàn):利用后臺(tái)進(jìn)程,每日凌晨使用sql語(yǔ)句查詢Sql Server數(shù)據(jù)庫(kù)中人員信息表(SecurityVcrson),如果發(fā)現(xiàn)FirstName和LastName2個(gè)字段同名的記錄就是未授權(quán)帳戶,維護(hù)人員通過(guò)系統(tǒng)查詢到這些用戶后,聯(lián)系相關(guān)工廠人員確認(rèn)未授權(quán)用戶身份,根據(jù)情況選擇刪除非法攻擊用戶或在MES系統(tǒng)中配置未授權(quán)帳戶的信息和權(quán)限;
措施效果:將未授權(quán)用戶的發(fā)現(xiàn)時(shí)間縮短至24小時(shí)以內(nèi);
(5)操作監(jiān)控計(jì)算偏差進(jìn)程報(bào)警和恢復(fù)
系統(tǒng)漏洞:計(jì)算偏差服務(wù)不穩(wěn)定,有時(shí)會(huì)因未知原因運(yùn)行失敗,影響計(jì)算結(jié)果;
應(yīng)對(duì)措施:定時(shí)檢查該服務(wù)運(yùn)行狀況,如果發(fā)現(xiàn)運(yùn)行失敗立即通知維護(hù)人員重啟服務(wù):
技術(shù)實(shí)現(xiàn):操作監(jiān)控計(jì)算偏差進(jìn)程的運(yùn)行結(jié)果會(huì)在Oracle庫(kù)中保存,通過(guò)查詢這個(gè)運(yùn)行結(jié)果可以知道上1次計(jì)算偏差的結(jié)果是否正常。如果運(yùn)行不正常,運(yùn)行記錄表(Ip_Msg Log)中同一個(gè)Trans_Id_No下沒(méi)有Typ字段為1的記錄或者Typ為1的記錄結(jié)果不是Variance Monitoring done,如果發(fā)現(xiàn)了這樣的記錄通知管理員進(jìn)程異常。
措施效果:將OM計(jì)算偏差服務(wù)運(yùn)行失敗的損失降低到60分鐘以內(nèi);
(6)交接班日志處理
系統(tǒng)滿洞:交接班日志有時(shí)會(huì)在服務(wù)器后臺(tái)鎖死生成的日志文件,造成前臺(tái)無(wú)法編輯日志,影響系統(tǒng)數(shù)據(jù)正常錄入。
應(yīng)對(duì)措施:及時(shí)發(fā)現(xiàn)服務(wù)器上鎖死的日志文件,通過(guò)關(guān)閉該文件的方式將其解鎖;
技術(shù)實(shí)現(xiàn):在服務(wù)器上運(yùn)行服務(wù)進(jìn)程,調(diào)用Win32API類(lèi)庫(kù),引用kernel32.dll提供的控制句柄方法。第1次通過(guò)手動(dòng)的方式讓程序記錄下要關(guān)閉文件的窗體旬柄和關(guān)閉按鈕在該窗體的相對(duì)位置,然后對(duì)系統(tǒng)每次彈出的窗體進(jìn)行判斷,如果是該窗體句柄自動(dòng)計(jì)算關(guān)閉按鈕的位置,點(diǎn)擊該關(guān)閉按鈕來(lái)關(guān)閉窗體;
措施效果:避免日志文件鎖死情況的出現(xiàn);
(7)RDI檢查
系統(tǒng)漏洞:如果某個(gè)RDI端口數(shù)據(jù)采集的任何一個(gè)環(huán)節(jié)發(fā)生如服務(wù)運(yùn)行失效或網(wǎng)絡(luò)中斷的情況,該RDI數(shù)據(jù)的采集就會(huì)失敗,導(dǎo)致這部分?jǐn)?shù)據(jù)的丟失;
應(yīng)對(duì)措施:及時(shí)發(fā)現(xiàn)RDI端口采集失敗的事故,通知維護(hù)人員。檢查數(shù)據(jù)傳輸環(huán)節(jié)上出現(xiàn)的問(wèn)題,人工處理該事故;
技術(shù)實(shí)現(xiàn):對(duì)每個(gè)RDI選取5~10個(gè)能夠正常采數(shù)數(shù)據(jù)的采樣點(diǎn),每隔5分鐘掃描1次采樣點(diǎn)的采數(shù)情況,如果所有采樣點(diǎn)采數(shù)的可信度都不是100,則判定該RDI的運(yùn)行異常,將事故通知維護(hù)人員;
措施效果:將RDI數(shù)據(jù)采集中斷事故發(fā)現(xiàn)時(shí)間縮短到10分鐘(由定時(shí)程序的配置時(shí)間決定)以內(nèi);
(8)PHD主服務(wù)監(jiān)控
系統(tǒng)漏洞:PHD服務(wù)有時(shí)會(huì)因未知原因運(yùn)行不正常,導(dǎo)致所有的系統(tǒng)基礎(chǔ)數(shù)據(jù)無(wú)法正常采集。
應(yīng)對(duì)措施:如果所有KDI端口采數(shù)都異常判定PHD主服務(wù)運(yùn)行異常,重新啟動(dòng)PHD主服務(wù);如果在60分鐘以內(nèi)能夠重啟PHD主服務(wù)由于RDI端口數(shù)據(jù)采集采用了斷點(diǎn)續(xù)傳功能不會(huì)丟失任何數(shù)據(jù);
技術(shù)實(shí)現(xiàn):通過(guò)對(duì)單個(gè)RDI端口檢查的調(diào)用獲知所有RDI采數(shù)都異常的情況,判定PHD主服務(wù)異常。調(diào)用System.Collections.Generic包下的Process類(lèi)的方法調(diào)用PHDMAN環(huán)境,在該環(huán)境下自動(dòng)運(yùn)行PI-ID主服務(wù)停止和啟動(dòng)命令,重啟PHD主服務(wù);
措施效果:將PHD主服務(wù)運(yùn)行異常的損失縮短到30分鐘以內(nèi),達(dá)到了RDI端口數(shù)據(jù)采集斷點(diǎn)續(xù)傳功能支持的60分鐘范圍要求;
(9)服務(wù)器檢查
系統(tǒng)漏洞:MES系統(tǒng)數(shù)據(jù)采集服務(wù)器分布在各分廠,由于生產(chǎn)環(huán)境的變化情況較為復(fù)雜,偶爾會(huì)出現(xiàn)人為或非人為的網(wǎng)口所動(dòng)、網(wǎng)線異常等網(wǎng)絡(luò)傳輸失敗的情況,服務(wù)器的運(yùn)行情況檢查也不方便。
應(yīng)對(duì)措施:在服務(wù)器上運(yùn)行后臺(tái)程序,將服務(wù)器運(yùn)行情況定時(shí)自動(dòng)檢查情況寫(xiě)入到數(shù)據(jù)庫(kù)中,一旦發(fā)生異常及時(shí)通知給維護(hù)人員;
技術(shù)實(shí)現(xiàn):調(diào)用Win32API類(lèi)庫(kù),通過(guò)System.Envi-ronment類(lèi)獲知CPU個(gè)數(shù),通過(guò)System.Diagnostics.Per-formaaceCounter()接口獲知CPU占用率,通過(guò)System.ManagementClass類(lèi)獲知物理內(nèi)存占用情況等運(yùn)行情況,通過(guò)System.Management.WqlObjcetQuery0接口獲知硬盤(pán)分區(qū)使用情況,通過(guò)System.Net.Networklnformation包下的類(lèi)獲知與其他服務(wù)器網(wǎng)絡(luò)通信情況;
措施效果:自動(dòng)監(jiān)控所有服務(wù)器運(yùn)行情況,將硬件異常情況發(fā)現(xiàn)的時(shí)間縮短至5分鐘以內(nèi);
(10)監(jiān)控后臺(tái)服務(wù)運(yùn)行情況
系統(tǒng)需求:需要加強(qiáng)對(duì)指定服務(wù)器上指定服務(wù)的運(yùn)行情況的監(jiān)控,如果發(fā)現(xiàn)服務(wù)停掉或通過(guò)其他方法獲知服務(wù)運(yùn)行不正常(即雖然處于運(yùn)行狀態(tài),但實(shí)際上已經(jīng)不工作)可設(shè)置為自動(dòng)重啟;
應(yīng)對(duì)措施:使用后臺(tái)程序定時(shí)巡檢指定服務(wù),配置自動(dòng)重啟腳本以便按指定順序重啟服務(wù);
技術(shù)實(shí)現(xiàn):通過(guò)調(diào)用System.Management包下的類(lèi)控制指定服務(wù)器上指定服務(wù)名的服務(wù),按管理員的配置設(shè)置重啟順序;
措施效果:將因服務(wù)異常發(fā)生的事故損失時(shí)間降低到10-20分鐘以內(nèi);
(11)Oracle服務(wù)器巡檢
系統(tǒng)需求:需要監(jiān)控指定名稱(chēng)的Oracle數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)和Sessions使用數(shù)量;
應(yīng)對(duì)措施: 定時(shí)調(diào)用sql獲取Oracle數(shù)據(jù)庫(kù)Sessions數(shù)量(225),如果取不到則數(shù)據(jù)庫(kù)運(yùn)行不正常,如果Sessions數(shù)量接近最大Sessions值,通知管理員該情況;
技術(shù)實(shí)現(xiàn):調(diào)用System.Data.OracleClient包下的類(lèi)實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的sql查詢;
措施效果:及時(shí)掌握Oracle庫(kù)使用情況;
(12)Sql Server服務(wù)器
系統(tǒng)漏洞:Sql Server服務(wù)器有時(shí)會(huì)因未知原因死機(jī);
應(yīng)對(duì)措施: 定時(shí)調(diào)用sql獲取Sql Server數(shù)據(jù)庫(kù)鏈接,如果能獲取鏈接說(shuō)明服務(wù)器運(yùn)行正常,否則通知維護(hù)人員及時(shí)處理事故;
技術(shù)實(shí)現(xiàn):調(diào)用System.Data.SqlClient包下的類(lèi)實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的sql查詢;
措施效果:及時(shí)掌握Sql Server服務(wù)器死機(jī)情況。
3 結(jié)語(yǔ)
建立MES系統(tǒng)運(yùn)行報(bào)警及處理系統(tǒng)平臺(tái),完成了對(duì)MES系統(tǒng)運(yùn)行中比較容易出現(xiàn)的故障進(jìn)行監(jiān)視,對(duì)一些故障進(jìn)行自動(dòng)處理,如果不能自動(dòng)處理的故障以短信形式通知維護(hù)人員手動(dòng)處理:形成日?qǐng)?bào)、月報(bào)等日志形式,匯總各類(lèi)系統(tǒng)故障,便于相關(guān)人員統(tǒng)計(jì)與分析H嘍運(yùn)行狀況。
該系統(tǒng)的部分功能已在吉林石化公司中應(yīng)用,實(shí)際效果非常明顯,MES系統(tǒng)運(yùn)行的穩(wěn)定性得到了顯著的提高。以前都是被動(dòng)的發(fā)現(xiàn)系統(tǒng)故障,一方面由工廠人員打電話反應(yīng),另一方面是由維護(hù)人員定時(shí)對(duì)MES系統(tǒng)進(jìn)行手動(dòng)巡檢,發(fā)現(xiàn)和處理問(wèn)題都不夠及時(shí),尤其是節(jié)假日更難對(duì)系統(tǒng)運(yùn)行狀況進(jìn)行監(jiān)視。現(xiàn)在大大縮短了處理IdES系統(tǒng)常見(jiàn)故障的時(shí)間,由原來(lái)處理故障時(shí)間為2h~3個(gè)工作日縮短為幾秒鐘~2h,同時(shí)也大大減輕了維護(hù)人員的壓力。形成的故障日志便于相關(guān)人員統(tǒng)計(jì)與分析MES系統(tǒng)的運(yùn)行狀況,也為我們?nèi)蘸髮?duì)MES系統(tǒng)進(jìn)行優(yōu)化與擴(kuò)容提供了最有利的參考依據(jù)。其余部分功能由于許多客觀原因有待于進(jìn)一步完善,爭(zhēng)取早日應(yīng)用到實(shí)際當(dāng)中。
總之,MES系統(tǒng)運(yùn)行報(bào)警及處理平臺(tái)在保證MES系統(tǒng)正常運(yùn)行中起到了決定性的作用。也希望該系統(tǒng)能夠在其他地區(qū)公司得到推廣及應(yīng)用,讓我們的系統(tǒng)發(fā)揮更大的作用。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標(biāo)題:制造執(zhí)行系統(tǒng)MES運(yùn)行報(bào)警及處理平臺(tái)建設(shè)
本文網(wǎng)址:http://www.guhuozai8.cn/html/solutions/1401935349.html