自治故障管理系統(tǒng)推理規(guī)則的智能學(xué)習(xí)技術(shù)
計(jì)算機(jī)工程與科學(xué)
頁(yè)數(shù): 10 2023-05-15
摘要: 隨著高性能計(jì)算機(jī)系統(tǒng)規(guī)模急劇增加,系統(tǒng)整體的固有可靠性逐步降低,產(chǎn)生了“可靠性墻”問(wèn)題。為了應(yīng)對(duì)這一挑戰(zhàn),天河高性能計(jì)算機(jī)系統(tǒng)設(shè)計(jì)了自治故障管理系統(tǒng),通過(guò)該系統(tǒng)實(shí)時(shí)監(jiān)控、分析、管理全系統(tǒng)的報(bào)警、故障和錯(cuò)誤。自治故障管理系統(tǒng)所收集的故障消息垂直涵蓋系統(tǒng)的各個(gè)邏輯層次,水平覆蓋系統(tǒng)的全部功能模塊,因此故障消息之間存在邏輯上的因果關(guān)系,即一個(gè)故障源會(huì)導(dǎo)致后續(xù)一系列的故障事件。提出了一... (共10頁(yè))