范文网 总结报告 PC服务器 HP PC服务器培训讲义(全文)

PC服务器 HP PC服务器培训讲义(全文)

PC服务器 HP PC服务器培训讲义目录一、HP 产品学习。。。。。。。。。。。

PC服务器 HP PC服务器培训讲义

目录

一、HP 产品学习.................................................................................................................- 1 -

1.1 HP PC Server产品介绍 .........................................................................................- 1 -

1.2 HP PC Server官方网站介绍..................................................................................- 2 -

1.3 HP PC Server常用手册 .........................................................................................- 5 -

1.4 HP PC Server常用技术 .........................................................................................- 6 -

1.5 HP PC Server OS安装 ...........................................................................................- 7 -

1.6 HP PC Server常见配置 .........................................................................................- 8 -

1.7 HP PC Server常用软件 .........................................................................................- 8 -

二、HP PC Server故障诊断 ...............................................................................................- 9 -

2.1故障诊断前的工作 . ................................................................................................- 9 -

2.2故障诊断流程 . ..................................................................................................... - 10 -

2.3 硬盘故障 . ............................................................................................................ - 17 -

2.4 内存故障 . ............................................................................................................ - 20 -

2.5 Raid卡故障 ......................................................................................................... - 20 -

2.6 CPU/PPM故障 . ................................................................................................... - 22 -

2.7 电源故障 . ............................................................................................................ - 22 -

2.8 风扇故障 . ............................................................................................................ - 23 -

2.9主板故障 . ............................................................................................................. - 24 -

一、HP 产品学习

1.1 HP PC Server产品介绍

HP 公司的PC 服务器也就是ProLiant 系列服务器,HP 称之为Prliant 工业标准服务器。HP ProLiant 工业标准服务器包括:

ProLiant DL 系列::高密度机架式服务器系列;提供最高灵活性及管理能力

ProLiant ML 系列: 高扩展性服务器系列;为实现最高内部存储及I/O灵活性所专门设计

ProLiant BL 系列:超密度刀片式服务器系列;为实现迅速部署与管理

ProLiant SL 系列:可扩展系列

1.2 HP PC Server官方网站介绍

1.2.1中文支持网站

HP 支持中心中文网站的网址如下:

https://h20565.www2.hp.com/portal/site/hpsc/public/

网站功能介绍:

下载选项:

驱动程序、软件和固件

资料库:

搜索技术资料库

查看热点问题:

查看次数最多的文档:

咨询、公告和声明:

手册:

任务:

排除故障问题

设置和安装

学习与使用

保养与维护

论坛:

产品技术信息与经验交流

部件、维修和保修:

部件更换说明/视频

维修中心

保修检测

1.2.2英文支持网站

HP 支持中心英文网站的网址如下:

https://h20000.www2.hp.com/bizsupport/TechSupport/Home.jsp

在这个网站上,我们可以做如下事情:

Tasks

Download drivers and software--下载驱动和软件

Troubleshoot a problem--诊断一个故障

Setup, install, and configure--设置、安装和配置

Discover and use a product--产品信息

Perform regular maintenance--故障解决

Upgrade and migrate

Recycle and dispose

Resources

Customer Self Repair

Diagnose problem or Chat (HP Instant Support)

Support Forums

Guided troubleshooting

Manuals--手册

Submit a support case

See more...

1.2.3备件查询网站

HP 备件查询中心的网址如下: .aspx

分为:Quick Search和hierarchy

Quick Search:快速查询,只需输入设备的SN ,就可以查询这个设备使用的备件的信息;hierarchy :按照产品查询,这个需要一级一级的选择产品类型,最终查找到某款产品的备件信息;

1.2.4技术论坛网站

我们解决故障除过借助手册之外,也可以借助于技术论坛,能够提供一种新的思路给你。 技术论坛官方链接:

https://h30499.www3.hp.com/t5/%E5%B7%A5%E4%B8%9A%E6%A0%87%E5%87%86%E6%9C%8D%E5%8A%A1%E5%99%A8/bd-p/hpsc-173

1.2.5利用官方网站下载手册

手册是我们最常使用的文档,无论是产品了解、安装配置还是故障解决,都需要去查看手册中相应的内容;

我们常用的手册有:

产品手册:《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》 RAID 卡手册:《HP Smart Array XXX Controller User Guide》;

利用官方网站下载手册如下所示:

中文网站下载地址:

https://h20565.www2.hp.com/portal/site/hpsc/public/-->点击“资料库”下面的“手册”链接-->选择产品-->选择操作系统-->选择需要的手册进行下载

英文网站下载地址:

https://h20000.www2.hp.com/bizsupport/TechSupport/Home.jsp -->选择“Resources ”下面的“Manuals ”-->选择产品-->选择操作系统-->选择需要的手册进行下载

注意:中文的手册不如英文的全面,所以最好还是使用英文的手册;

HP smart array raid卡手册下载链接有很多入口,我们这里介绍一种常用的入口:

在服务器手册下载界面,例如上例中HP DL360G5手册下载界面-->在搜索search 框内输入smart array 进行搜索,在显示的搜索结果-->点击Note: The following is a list of documents that match "Smart Array". Alternatively, you may click here to search for products that match "Smart Array".就可以找到与smart array匹配的全系列产品-->选择一款smart array raid卡-->manual。

1.2.6利用官方网站下载软件、驱动、补丁和固件

服务器对于一些故障,比如在运行过程驱动丢失,我们需要重新安装驱动;又或者由于个别硬件设备驱动程序太低、固件firmware 版本太低存在bug ,这个时候我们就需要升级驱动程序或者固件firmware 来解决问题。我们需要关注以下硬件驱动程序:raid 卡和网卡;以下硬件的固件版本:BIOS firmware和raid 卡firmware 。

HP PC服务器驱动程序和软件下载链接:

同样HP PC服务器驱动程序和软件下载链接也有很多,我们这里介绍一种常用的,登陆 https://h20000.www2.hp.com/bizsupport/TechSupport/Product.jsp?lang=en&cc=us&taskId=135&prodTypeId=15351&prodCatId=241435-->选择一款设备;

1.2.7利用官方网站查询备件

备件查询我们除过使用《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》这本手册之外,亦可借助官方网站的备件查询工具,另官方网站使用序列号查询出来的备件是设备出厂的配置,这样有助于我们判断问题,知道哪些东西是客户后来另增加。注意:HP 官方上查询备件,首先要准备好设备的序列号。

备件查询官方链:.aspx-->输入序列号即可以查询 Eg:HP DL580G4(PN :410058-B21,SN :CNG703S05V )电源PN 查询演示:

电源描述:Power supply assembly - Three outputs with 910W low line input and 1300W high line input - With power factor correction (PFC),PN :406421-001

1.2.8利用官方网站查看备件更换视频

备件更换的步骤我们除过使用《HP ProLiant DL/ML XXX Server Maintenance and Service Guide 》相关章节之外,HP 官方网站还为我们提供了备件更换的视频。

HP 服务器备件更换视频链接:

>根据提示一步一步选择你要拆卸机型--> Remove/Replace Videos-->选择你要拆卸的部件

1.2.9利用官方网站查看设备保修状态

在给客户服务的时候,客户会问我们如何在官方查询设备是否在原厂保修范围内,这时我们就会用到,这也是我们专业服务的一种体现。注意:原厂表修查询需要提前准备好设备的PN 和SN ;

服务器原厂保修查询链接:

https://h10025.www1.hp.com/ewfrf/wc/weInput?lc=zh-hans&dlc=zh-hans&cc=cn&product=1842756 -->根据提示选择国家/地区,输入设备产品号PN 和序列号SN

1.2.10中国HP 售后专区—服务器及存储

登陆https://www8.hp.com/cn/zh/support-drivers/esupport/iss.html

这个专区里面提供了比较丰富的版块:如何使用产品、操作系统与驱动下载及安装、维护与升级方法及故障排除与解决;

1.2.11其他常见问题

通过以上技术文档、驱动程序和软件下载我们不难发现,在每款设备的支持页面的左侧还为我们丰富的支持资源;HP 官方支持资源还提供了设备的问题诊断、设备安装及配置、设备升级以及备件更换的视频,这对我们学习HP PC服务器提供非常便利的条件。

1.3 HP PC Server常用手册

1.3.1 Maintenance and Service Guide

Maintenance andService Guide----维护和服务指南

chapter3:illustrated parts 图解零件目录,机械部件和系统部件,不同类型,此节可查询备件号。

chapter4:removal and replacement procedures移动和替换硬件步骤和注意事项,分类说明。

chapter5:cabling 电缆线,SAS 和SCSI 电缆线安装和注意事项。

chapter6:diagnostic tools诊断工具介绍。

chapter7:component identification组件标示。前视图和后视图,服务器内部和外部指示灯的含义,SAS 和SCSI 硬盘活动和状态指示灯的含义以及组合的含义。为故障诊断提供依据。

chapter8:specifications 组件规格。

chapter9:acronymsand abpeviations本手册缩词查询。

1.3.2 Troubleshooting Guide

chapter3:common problem resolution常规问题的解决。内存处理原则,硬盘指示灯的组合。

chapter4:diagnostic flowcharts诊断流程和处理故障流程。

chapter5:Hardware problems 硬件故障,电源问题,一般硬件问题,内部系统和外部设备问题。

chapter6:software problems软件问题。

chapter7:software tools and solutions软件工具和措施。

configuration tools设置工具。

management tools管理工具。

diagnostic tools诊断工具。

firmware maintenance 固件维护。

chapter8:error messages错误信息,为故障诊断提供依据。

ADU error messages 阵列诊断工具错误信息。

POST error messages and beep codes。

Event list error messages 事件列表错误信息。

windows event log processor error codes windows 登录错误代码。 Insight diagnostic processor errorcodes 处理器错误代码。

1.4 HP PC Server常用技术

1.4.1 内存技术

详见手册《Memory technology evolution: an overview of system memory technologies》、《HP Advanced Memory Error Detection Technology》&《DDR3 memory technology》。

1.4.2 RAID卡技术

详见手册《HP Smart Array controller technology 》、《HP Smart Array Controllers for HP

ProLiant Servers User Guide 》&《Configuring Arrays on HP Smart Array Controllers Reference Guide》。

1.4.3 硬盘卡技术

详见手册《Server drive technology》、《Serial ATA technology》、《Performance factors for HP ProLiant Serial Attached SCSI 》、《Solid state storage technology for ProLiant servers 》、《Serial Attached SCSI technologies and architectures 》&《HP Smart Array controller technology 》。

1.4.4 ILO技术

详见手册《HP Integrated Lights-Out 2 User Guide》&《HP_iLO2_iLO3管理口配置及使用手册》。

1.5 HP PC Server OS安装

Smart Start光盘是HP 常用的光盘之一,可以用来安装操作系统,做离线诊断等; 下载地址: -->选择―Tasks‖下面的―Download drivers and software‖-->选择产品-->选择操作系统-->选择需要的驱动和软件进行下载;

大致界面如下:

1. 通过Smart Start(以下简称为SS ) 8.5引导服务器启动首先看到语言选项,默认选 择English 。

2. 选择agree 接受许可。

3. 进入主菜单后可以看到以下几个选项:

1)install ——导航安装操作系统

2)Run saved installation——保存导航

3)maintenance ——维护界面

4)system erase——格式化

5)reboot ——重启系统

4. 进入维护界面看到以下几个选项:

1)HP Lighte-out configuration——ILO 配置界面

2)HP array configuration and diagnosis——阵列配置工具&阵列诊断工具

3)HP insight diagnosis——硬件诊断工具

4)creat a bootable USB key——创建USB 启动盘

5)USB punchout creation utility——创建USB KEY

使用指南参见《PC 服务器培训教材-HP_SmartStart智能导航光盘操作指南》。

1.6 HP PC Server常见配置

1.6.1配置BIOS :

详见手册《Configuring the HP ProLiant Server BIOS for Low Latency OS Kernel Environments White Paper》;《HP ROM-Based Setup Utility User Guide》,错误防范指导: 《Error Prevention Guide》

1.6.2内存配置:

详见手册《Maintenance andService Guide》第57页;

1.6.3 smart array raid卡配置

详见1.4.2 raid卡技术。

1.6.4 ILO配置

详见1.4.3 ILO技术。

1.7 HP PC Server常用软件

System Management Homepage:

详见手册《HP Insight Management Agents User Guide》&《HP Insight Diagnostics User Guide 》。

HP System tools--> Array Configuration Utility:

详见手册《HP Array Configuration Utility User Guide》。

HP System tools--> Array Diagnostics Utility:

详见手册《HP Array Configuration Utility User Guide 》&《HP ProLiant Servers Troubleshooting Guide》-->Error messages-->ADU error Messages。

HP System tools-->HP Proliant Integrated management Log Viewer,

详见手册《HP Integrated Lights-Out 2 User Guide》&《HP_iLO2_iLO3管理口配置及使用手册》。

二、HP PC Server故障诊断

2.1故障诊断前的工作

症状信息

在解决服务器问题之前,应收集以下信息:

● 发生故障之前发生了什么情况?在执行哪些步骤后出现了问题?

● 服务器发生故障前做过哪些改动?

● 最近是否添加或删除了硬件或软件?如果是,是否记得在服务器设置实用程序中根据需要更改了相应设置?

● 服务器出现问题症状有多长时间?

● 如果问题随机出现,会持续多长时间?出现的频率如何?

为了回答上述问题,可能会用到以下信息:

● 运行 HP Insight Diagnostics(然后使用调查页查看当前配置,或将其与以前的配置进行比较。

● 有关信息,请参阅硬件和软件的记录。

● 查看服务器 LED 指示灯及其状态。

做好服务器诊断的准备工作

1. 确保服务器所处的操作环境不仅供电充足,而且能够控制温度及湿度。

2. 记录系统显示的所有错误消息。

3. 取出所有软盘、CD-ROM 、DVD-ROM 和 USB 驱动器。

4. 如果要脱机诊断服务器,应断开服务器和外围设备的电源。如果可能,一定要按照正常的关机步骤

进行操作:

a. 退出所有应用程序。

b. 退出操作系统。

c. 断开服务器电源。

5. 断开测试时无需用到的所有外围设备(所有启动服务器时都不需要的设备)。如果要使用打印机打印错误消息,则不要断开打印机。

6. 准备好解决问题所需的所有工具和实用程序,例如 Torx 螺丝刀、环回适配器、防静电腕带和软件

最小化检测:将服务器降级到最低硬件配置

在故障排除过程中,可能会要求您将服务器降级到最低硬件配置。最低配置仅包含引导服务器和成功通

过 POST 所需的组件。

在要求您将服务器降级到最低配置时,请卸下以下组件(如果已安装):

● 所有额外的 DIMM

仅保留引导服务器所需的最低 DIMM 数量:一个或一对 DIMM 。有关详细消息,请参阅服务器用

户指南中的内存准则。

● 所有额外的散热风扇(如果适用)

有关最低风扇配置,请参阅服务器用户指南。

● 所有额外的电源(如果适用),仅保留一个安装的电源

● 所有硬盘驱动器

● 所有光驱(DVD-ROM 、CD-ROM 等) ● 所有中间卡选件 ● 所有扩展卡 DIMM 操作准则

注意: DIMM 操作不当可能导致 DIMM 组件和主板接口损坏。 在取放 DIMM 时,请遵循以下准则: ● 防止静电释放。

● 在取放 DIMM 时,请仅拿住其两侧的边缘。 ● 不要触摸 DIMM 底部的连接电路部分。 ● 严禁用手指夹住 DIMM 表面。 ● 不要触摸 DIMM 两侧的组件。 ● 严禁弯折 DIMM 。

在安装 DIMM 时,请遵循以下准则:

● 在插接 DIMM 时,请将 DIMM 与插槽对准。

● 要对准和插接 DIMM ,请用两个手指拿住 DIMM 的两侧边缘。 ● 在插接 DIMM 时,请用两个手指在 DIMM 的顶部轻轻向下按压。 硬盘驱动器准则

SAS 和 SATA 硬盘驱动器准则

在服务器中添加硬盘驱动器时,请遵守以下常规准则: ● 系统将自动设定所有驱动器号。

● 如果只使用一个硬盘驱动器,请将该驱动器安装在驱动器号最小的托架中。

● 当多个驱动器被分到同一个驱动器阵列中时,这些驱动器必须具有相同的容量,以使存储空间效率 达到最大。

● 同一逻辑卷中的驱动器必须具有相同类型:

ACU 不支持在同一逻辑卷中混用 SAS 和 SATA 驱动器。

ACU 不支持在同一逻辑卷中混用传统驱动器和固态驱动器 (SSD)。 SCSI 硬盘驱动器准则

● 每个 SCSI 驱动器必须具有唯一的 ID 。 ● 系统会自动设定所有 SCSI ID。

● 如果只使用一个 SCSI 硬盘驱动器,请将该驱动器安装在驱动器号最小的托架中。 ● 当多个驱动器被分到同一个驱动器阵列中时,这些驱动器必须具有相同的容量,以使存储空间效率达到最大。

2.2故障诊断流程

为了有效地解决问题,HP 建议您从本节的第一个流程图―初始诊断流程图‖开始着手,按照相应的诊断流程进行操作。如果其它流程图没有提供故障排除解决方法,应按照―常规诊断流程图‖中的诊断步骤进行操作。常规诊断流程图是一般的故障排除流程,如果问题不是针对特定服务器的或难以按其它流程图归类,则可以使用该流程图。 可用的流程图包括: ● 初始诊断流程图 ● 常规诊断流程图

● 开机故障

服务器开机故障流程图 ● POST 故障流程图

服务器和 p 系列服务器刀片 POST 故障流程图 ● 操作系统引导故障流程图 ● 服务器故障指示流程图 1. 初始诊断流程图

可以使用以下流程图启动诊断过程。

2. 常规诊断流程图

常规诊断流程图提供一般的故障排除方法。如果您无法确定问题,或其它流程图无法解决问题,请使用以下流程图。

3. 开机故障流程图

某些服务器具有一个内置运行状况 LED 指示灯和一个外置运行状况 LED 指示灯,而其它服务器只有

一个系统运行状况 LED 指示灯。系统运行状况 LED 指示灯提供的功能与两个单独的内置和外置运行

状况 LED 指示灯相同。根据型号的不同,内置和外置运行状况 LED 指示灯可能会保持恒定,也可能

会闪烁。这两种情况表示相同的症状。

有关服务器 LED 指示灯的位置及其状态信息,详见手册《HP ProLiant XXX Server Maintenance and Service Guide》--> Component identification章节内容。 症状:

● 服务器没有启动。

● 系统电源 LED 指示灯不亮或呈琥珀色。

● 外置运行状况 LED 指示灯呈红色、呈红色闪烁、呈琥珀色或呈琥珀色闪烁。 ● 内置运行状况 LED 指示灯呈红色、呈红色闪烁、呈琥珀色或呈琥珀色闪烁。 ● 系统运行状况 LED 指示灯呈红色、呈红色闪烁、呈琥珀色或呈琥珀色闪烁。 可能的原因:

● 电源未正确就位或发生故障 ● 电源线松动或发生故障

● 电源出问题

● 组件未正确就位或互锁问题

4. POST故障流程图 症状:

● 服务器未完成 POST 。

注: 服务器在系统尝试访问引导设备时已完成了 POST 。 ● 服务器完成了 POST ,但是出现错误。 可能的问题:

● 内部组件未正确就位或发生故障。

● KVM 设备发生故障(更换显示器尝试)。 ● 视频设备发生故障(一般主板集成显卡)。

5. 操作系统引导故障流程图 症状:

● 服务器无法引导以前安装的操作系统。

● 服务器无法引导 SmartStart (确认放置了正确的可用的CD/DVD)。 可能的原因:

● 损坏的操作系统。

● 硬盘驱动器子系统出问题。

● RBSU 中的引导顺序设置不正确。

6. 服务器故障指示流程图 症状:

● 服务器可以引导,但 Insight Management Agents 报告故障事件

● 服务器可以引导,但内置、外置或组件运行状况 LED 指示灯呈红色或琥珀色 注: 有关服务器 LED 指示灯的位置以及相关的状态信息,请参阅服务器文档。 可能的原因:

● 内部或外部组件未正确就位或发生故障 ● 安装了不支持的组件 ● 冗余故障

● 系统的温度过高(风扇或者机房环境)

某些服务器具有一个内置运行状况 LED 指示灯和一个外置运行状况 LED 指示灯,而其它服务器只有一个系统运行状况 LED 指示灯。系统运行状况 LED 指示灯提供的功能与两个单独的内置和外置运行状况 LED 指示灯相同。根据型号的不同,内置和外置运行状况 LED 指示灯可能会保持恒定,也可能会闪烁。这两种情况表示相同的症状。

7. 硬件问题诊断

详见手册《HP ProLiant Servers Troubleshooting Guide》--> Hardware problems章节内容。 8. 软件问题诊断

详见手册《HP ProLiant Servers Troubleshooting Guide》--> Software problems章节内容。 9. 软件工具和解决方案

服务器配置工具、管理工具、诊断工具、分析工具及固件维护,详见手册《HP ProLiant Servers Troubleshooting Guide》--> Software tools and solutions章节内容。 诊断过程可用资源:

1. Error messages:详见手册《HP ProLiant Servers Troubleshooting Guide》-->Error messages

--> POST error messages and beep codes/ Port 85 codes and iLO messages/ Event list error messages/ ADU error messages/ Windows Event Log processor error codes/ Insight Diagnostics processor error codes。

2. HP 管理软件:System Management Homepage/HP system tools ACU/ADU/ HP Proliant

Integrated management Log Viewer。

3. 操作系统层面:windows-->系统日志、设备管理器/linux-->cat /var/log/messages、dmesg 、

dmidecode 、lspci 、fdisk –l 。

4. BIOS 设置:详见手册《HP ROM-Based Setup Utility User Guide》、《HP 服务器BIOS 进

入说明文档》&《HP 服务器BIOS 进入说明文档》。

5. HP smartstart光盘:详见文档《HP smartstart光盘的使用总结》。

6. LED 指示灯含义:详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service

Guide 》--> Component identification章节内容。

7. 服务器拆卸步骤:详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service

Guide 》-->Removal and replacement procedures章节内容。

8. 服务器配置:详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》

-->Illustrated parts catalog。

2.3 硬盘故障

HP 服务器上使用的硬盘常见的有三种SCSI 、SAS 和SATA ;硬盘故障时物理上故障灯会点亮,管理软件SMH 、ACU 和ADU 会有硬盘报错。

SCSI 硬盘故障时fault 灯会红灯告警。

SCSI 硬指示灯组合含义:

SAS 硬盘有故障时,fault 灯会亮红灯。

SAS 硬盘指示灯组合含义:

注意:硬盘故障时,内部健康并不会亮红灯告警。 更换方法:

在riad 卡控制下:如果硬盘在RAID 组中,并且RAID 级别为冗余,HP Smart array raid卡都支持在线热插拔硬盘,换盘之后,数据会自动同步;详见手册《HP Smart Array XXXX Controller User Guide》-->Replacing, moving, or adding hard drives章节内容。

不在raid 卡控制下:如果硬盘不在RAID 组中,出现故障之后,如果硬盘不能再被读写,硬盘上的数据无法被备份出来,那么硬盘上的数据就已经丢失;这种情况下,换盘之后数据需要额外恢复。

物理更换硬盘步骤详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》-->Removal and replacement procedures--> Hot-plug SAS/SCSI hard drive章节内容。

2.4 内存故障

1. 显示的系统内存数量小于安装的物理内存数量。

2. 光通路诊断板上的内存相关的指示灯点亮,同时主板上内存条旁边的指示灯点亮。

3. 管理软件HP System Management Homepage/P Proliant Integrated management Log Viewer 有内存报错。

内存故障诊断详见手册《System Memory Troubleshooting Best Practices for HP ProLiant Servers》。

更换方法:经过故障诊断,我们可以判定是否是内存及插槽的故障;如果不是,按照相应故障的处理办法进行解决;如果是,首先尝试更换内存(或者做交叉测试),如果更换之后,故障依旧,则需要更换插槽(主板或者内存板),更换内存。

物理更换内存步骤详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》-->Removal and replacement procedures--> FBDIMMs章节内容。

注意:服务器内存一般2条为一个bank (组),更换内存时也是一对一对更换。

2.5 Raid卡故障

Raid 卡故障时,设备一般已不能进入操作系统,设备承载业务也将停止(注意:raid 卡电池故障不会影响设备正常运行,不过raid 卡性能会降低)。

Raid 卡类型判断:

Windows :管理→设备管理器→SCSI 设备

Linux :more /proc/pci lsmod > devices.txt.

POST 阶段:

Raid 卡故障后,设备已经不能正常进入操作系统,只能通过POST 过程进行诊断, 也就是只能通过POST 代码进行故障诊断,raid 卡故障时POST 阶段会有1700系列代码信息产生,我们可以根据1700的系列代码的含义做出判断,详见手册《HP ProLiant Servers Troubleshooting Guide》-->Error messages -->POST error messages and beep codes-->1700 Series 。注意对于集成在主板上的raid 卡,例如smart array 5i&6i卡,因为这种卡集成在主板上,这类卡故障,我们需要更换主板。

注意申请的raid 卡备件需要清除里面的配置信息,自检F8进入raid 卡BIOS-->

Delete logical drive,因为有时候会与硬盘里面的配置信息冲突导致数据丢失。

更换方法:

第一步 关闭服务器; 并且切断将服务器电源

第二步 打开服务器机箱,将故障RAID 卡上的连接线缆去除

第三步 取下故障的RAID 卡

第四步 更换上新的RAID 卡,并且重新连接线缆

第五步 恢复服务器电源,并且开机

第六步 无需对硬盘进行任何操作,系统恢复成正常状态,见下图显示状态为正常状态(前提是RAID 卡故障,未对硬盘数据产生影响)

2.6 CPU/PPM故障

PPM 是给CPU 供电的设备,所以PPM 故障会导致响应的CPU 被禁用。

PPM 故障,如果主板上没有集成 PPM :

如果可以,检查主板PPM/CPU故障指示灯和光通诊断板上的PPM/CPU故障灯,确定 PPM/CPU 是否发生故障。

如果重新安装 PPM/CPU 无效,则只留下一个 PPM/CPU,然后重新启动服务器,确认PPM/CPU是否正常工作,然后分别安装每个PPM/CPU,每次执行一次重新启动。

若确定的PPM/CPU更换之后,告警依然未消除,可以进行交叉测试,确认是否是槽位问题,若是PPM/CPU槽位问题,需要更换相应板卡。

经过判断,我们判定需要更换哪些备件,备件更换步骤详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》-->Removal and replacement procedures。

2.7 电源故障

现象1:设备只配置了一个电源,电源控制按钮不起作用,且复位按钮不起作用(服务器不启动)。

现象2:电源冗余,设备上配置了2个或者2个以上的电源,故障的电源错误指示灯亮起、光通诊断板上电源故障灯亮起、前面板外部故障灯亮起。

对于现象1:

确保交流电供应正常:包括插座和电源线;

确保内存安装正确,如果内存安装不正确的话,设备也可能起不来;

确保CPU 安装正确,如果CPU 安装不正确的话,设备也可能起不来;

确保光路诊断板上的电源故障指示灯和电源模块上的相应故障指示灯没有点亮; 确保电源按钮和复位按钮能够正常使用:

a. 断开服务器电源线的连接。

b. 重新连接电源线。

c. 重新安装操作员信息面板电缆。

d. 按电源控制按钮以重新启动服务器。如果按钮失效,请更换操作员信息面板组合件。 e. 按复位按钮以重新启动服务器。如果按钮失效,请更换操作员信息面板组合件。 确定服务器上没有新添加部件,如果新添加了部件,导致电源负荷过大,也可能无法启动,这个时候,需要拆除新添加的部件再启动;

如果以上均没有问题,请按照如下顺序更换部件尝试:

a. 更换电源模块;

b. 更换主板(或者电源分配板),如果电源模块没有问题,但是服务器还是无法启动,那么应该是主板或者电源分配板故障

对于故障现象2:

此现象已经直接表明是电源模块的问题了,直接更换电源模块即可;

如果更换之后仍然在相同的位置出现报错,那么就是相应的插槽有问题,需要更换主板或者电源背板。

更换方法:

经过判断,我们判定需要更换那些备件,如果电源冗余,我们直接在线直接插拔更换更换电源,如果是其他部件,我们可以按照相应的办法进行处理。部件更换步骤详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide 》-->Removal and replacement procedures 。

2.8 风扇故障

风扇是给设备散热的,风扇故障首先其他的冗余风扇的转速会升高,物理上:风扇故障灯点亮,光通诊断板上风扇告警灯亮起,系统内部健康灯亮红灯告警;系统上:管理软件SMH 和ILO 日志会有风扇报错。

注意:对于有的服务器来讲,即便是在风扇冗余的情况下,比较的重要位置的风扇,比如IO 风扇、CPU 风扇故障会引起宕机,设备重启POST 阶段有风扇报错,并停留在那里,风扇故障得到解决之后,POST 才能正常通过。例如:HP ML530G2 IO风扇故障。 若更换之后,告警依然存在,可以延伸到风扇槽位主板或者IO 板故障。

更换方法:

经过判断,我们判定需要更换哪些备件,备件更换步骤详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》-->Removal and replacement procedures。实际操作中我们进行交叉测试,来确定是否是槽位问题。

2.9主板故障

主板问题一般是综合性的问题,一般的故障现象是:在确保其他部件OK 的情况下,设备无法启动。

POST 诊断法:如果可以执行POST ,根据POST 的结果去判定是否是主板的问题;如果发现其他部件的问题则先解决其他部件的问题;在POST 过程中,也可以根据蜂鸣声去判定问题;

指示灯法:查看光路诊断板和主板上的指示灯,如果有其他部件问题,进行解决;如果没有,则需要更换主板;

更换方法:

经过故障诊断,我们可以判定是否是主板的故障;如果不是,按照相应故障的处理办法进行解决;如果是,则更换主板;物理更换主板详见手册《HP ProLiant DL/ML XXX Server Maintenance and Service Guide》-->Removal and replacement procedures。

上一篇
下一篇
返回顶部