1、前言
現在醫療行業使用的PC服務器CPU一般采用Intel或者AMD的服務器處理器,而小型機的CPU如IBM則使用Power4或者Power5這樣的處理器,因此在CPU、內存、主頻、擴展性等方面,小型機和PC服務器架構完全不同。還有服務器上運行的操作系統也不同:PC服務器上一般運行Windows或者Linux,而小型機上運行Unix如AIX、Solaris、HP—uN、IRIX等。因此在小型機的日常運行維護方面是不同于PC服務器的。
2、IBM小型機日常運行維護
IBM小型機常運行的AIX操作系統,AIX(Advanced Interactive eX—ecutive)是IBM開發的一套UNIX操作系統。一般用來運行Oracle、Sybase、DB2等大型數據庫系統。
一般小型機系統管理員需定期對系統做檢查,以期及時發現故障或排除潛在故障。一般都是使用AIX有關命令來實現:
使用df命令檢查文件系統是否已滿,如果文件系統滿。尤其是/usr、/trap等,會造成登錄、啟動應用等種種問題,所以當文件系統運行到一定程度時,需及時調整。errpt命令檢查系統錯誤日志,檢查是否有硬件類型錯誤,及時修復;是否有軟件類型錯誤,及時分析,如需清除,可用errclear0命令將其全部清除ovmstat、iodtat、topas、gar、netstat等命令用于小型機性能監測,檢查系統運行是否碰到瓶頸,包括CPU是否太過繁忙,內存是否充足,數據交換指令是否頻繁,I/0讀寫是否過忙,網絡是否通暢等。
使用命令find/-name core-ls檢查oore文件是否生成。oore文件一般是應用產生的,用于分析應用錯誤,產生core文件后,會在errpt中產生core_dump錯誤報告。如問題未能解決,可將core文件備份后交由相關技術部門進行詳細分析。mail命令系統錯誤往往也會通過mail提示,系統管理員需定時檢查。diag命令可以定時對系統做監測,last命令檢查系統登錄信息,看看是否有非法用戶登錄,ping命令檢查網絡是否正常。內網和外網訪問是否正常等等。其他應用系統運行是否正常也可以使用有關命令來檢查。
3、定期對小型機巡檢
在日常運維的基礎上,然后是季度、半年或者一年對小型機進行一次全面的巡檢,主要目的是通過巡檢,及時發現小型機和外設的軟硬件存在的問題.并給予修復及解決。小型機的巡檢內容包括:檢查系統硬件情況(設備故障燈是否有亮,包括硬盤,陣列,光纖交換機,系統故障燈。磁帶機等是否有其它異常情況)、系統錯誤報告(errlog、有否發給root用戶的錯誤報告(mail)、關鍵系統的文件使用率是否大于80%、內存交換區使用率是否超過70%、內存交換區的大小是否為物理內存的1.5倍、檢查備份情況(是否系統備份、用戶數據備份、磁帶機是否需要清洗)、通信(網卡、IP、路由表、pillg、/etdhmls、DNS設置等)、是否有數據保護方式如RAIDIO/RAID5。是否有Hot spare;系統DUMP設置是否正確、檢查系統參數是否正確、檢查系統參數是否正確、檢查rootvg是否有鏡象、機房環境(電壓、濕度)、系統性能有無性能瓶頸(topas.vmstat)、補丁程序PTF、微碼(是否需要升級)、HACMP測試以及系統硬件診斷等。
4.IBM小型機故障定位處理
IBM小型機故障定位方法包括小型機I/O柜上的顯示面板上的Cheekr,ointa信息。ErorCdlde,和SRNs三步。
首先是Checkpoints檢查點是系統加電CMOS初始化程序(initialprogram lOAd(IPL)運行后顯示在I/O柜的顯示面板上一系列信息。當交流電源接到系統后,IPL流程就開始了,IPL流程包括四個步驟:
第一步:Service Proessor的初始化主機開始于交流電源接到系統后,直到OK顯示在I/O柜上的顯示面板上為止。在這個步驟會顯示8xxx或9xxx cheekpoints代碼。
第二步:由serviceProcessor引導的硬件初始化,按下I/O柜上的白色電源開關。這個步驟會顯示9xxxeheckpoints。91 FF是最后的代碼標志著第三步驟的開始。
第三步:系統同件的初始化,一個系統處理器接管控制并繼續初始化系統資源,這個步驟會顯示Exxx。E105是最后的代碼標志著第四步驟AIX啟動的開始,在這個過程中還會顯示各種位置碼(位置碼代表著系統的每一個部分)。
第四步:AIX啟動。當AIX開始啟動時。顯示面板上的代碼為Oxxx,同時位置碼會出現在第二行。當AIX的登錄窗口出現在控制臺上時第四步驟結束同時顯示面板上再無任何信息出現。
當ErrorCode系統運行有錯誤發現時,一個8位碼會顯示在顯示面板上,同時在第二行顯示相對應問題硬件的位置碼。SRNs(Service request numbers,服務請求碼)當系統運行有錯誤被發現時,SRNs碼會以XXX—XXX的形式顯示在顯示面板上,同時在AIX的error log中也會有記載。以上所有代碼都會有相應的步驟解決。由于代碼繁多,要在出現問題后記錄下代碼,查看代碼資料確定小型機的出現問題所在。
IBM小型機軟件故障包括系統和應用軟件故障、對于AIX操作系統來說,可以通過日常的運行維護來解決部分軟件故障,如當文件系統空間不夠時.可通過刪除垃圾文件和增加文件系統大小等來解決;平時需多檢查文件系統的完整性,文件系統必須先umount,再做檢查和修復,否則可導致未知的后果。檢查出小型機出現內存泄漏,即系統或應用進程無法將使用過的內存釋放,使可用內存的容量逐漸減少。如果可用內存降到某最小值將造成系統或應用程序無法FORK子進程,就會造成系統癱瘓。通�?梢杂肞s和sar命令來查看小型機內存和CPU占用率的大概情況以及各進程的內存和CPU占用率的發展趨勢。如果發現內存泄漏導致系統緩慢,最好及最簡單的解決辦法為重新啟動系統,釋放占用的內存空間。查看HACMP服務運行是否正常.對這些一般不會出問題的應用一旦檢查發現有問題,處理的辦法應按照步驟先關閉服務后再重起有關的服務進程,此類應用故障大部分能夠得到解決。HACMP將診測并響應于三種類型的故障:網卡故障、網絡工作和節點故障。Oracle數據庫的故障一般是表空間不夠,需重新增加;如果是網絡不通的話,通過有關命令進行診斷,找出解決辦法。
5、總結
以上的敘述只是IBM小型機的基本運維方法,需不斷從實踐操作中吸取經驗,細心檢查,耐心找出發生故障的原因并給予解決.保證小型機及其應用軟件正常運作,確保醫療信息等業務系統能夠準確、安全、穩定地為大眾提供服務。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:論IBM小型機維護管理
本文網址:http://m.guhuozai8.cn/html/consultation/1083967145.html