您的位置:时时app平台注册网站 > 彩世界网址 > 虚拟机管理程序、虚拟化和云: 深入剖析 PowerVM

虚拟机管理程序、虚拟化和云: 深入剖析 PowerVM

2019-10-12 09:23

对于第一个示例问题涉及的LPAR,我发现当把SAN磁盘交换回老的p670服务器并启动它时,问题没有出现。用户能够访问他们的应用程序,CPU承受正常的负载,CPU利用率为80%多(10%内核 70%用户)。因此,我能够断定是p570服务器上特有的某些东西导致了问题,而不是迁移过程中引入的某些东西。

对于两个示例问题,我都不得不联系 IBM。对于第一个问题,IBM 调动从 VIO 支持到内核团队的多方面人员参与解决问题。对于第二个问题,只有硬件技术人员参与,我提供了来自 snap 命令的信息以供分析。

以下是 PowerVM 的其他功能。

一旦发现有麻烦了,最明智的举动就是别乱动。就像印地安纳·琼斯在“夺宝奇兵”中一样,如果发现踩上地板就会有飞镖射向您,那么就停在原地,不要继续前进了。更多的变动只会让问题复杂化,可能把情况弄得更糟。当一个问题影响系统正常运行时,不得不解决多个问题是没有意义的。

多处更改会导致两种情况之一。首先,如果这些更改解决了问题,那么您不知道哪个更改是有效的操作。如果您不关心究竟是什么解决了问题,这可能没什么大不了的,但是出色的系统管理员都希望掌握更多知识,因为他们知道问题往往会在同一地方多次出现。第二,如果问题没有解决,这可能会引入更多复杂性。继续这样做,您会不知道要取消哪个更改。如果走得足够远,系统会乱成一锅粥而您被弄得一头雾水。(xkcd 上有一个关于这种情况的笑话。)

共享专用容量(Shared dedicated capacity):获取专用资源的优势,不会产生资源浪费。此功能允许 “捐赠” 专用处理器分区的空闲 CPU 周期,将它们提供给共享池使用,进而提高整体系统性能。专用分区维持着对专用 CPU 周期的绝对优先权,共享仅在专用分区没有使用其所有资源时发生。在基于 POWER6 和 POWER7 处理器的服务器上,支持使用此功能。

步骤3:再现问题

对于第二个示例,最终只能执行备份和恢复。对于块重定位失败,没有企业乐意采用临时解决方法。根据 IBM Support 所说,这个问题很少见,只能执行 mksysb 把数据备份到好的磁盘上并恢复系统,没有其他选择。恢复操作系统之后,就可以以安全的方式热交换坏磁盘并更换它,而不会危及硬件上的其他 LPAR。

  • PowerVM 在单一系统上支持多个操作环境。
  • 支持每个处理器核心最多 10 个 VM。
  • 处理器、内存和 I/O 资源可在 VM 之间动态迁移。
  • VM 可使用专用或共享(受限制或不受限制)的处理器资源。
  • 处理器资源可基于工作负载需求在 VM 之间自动转移。
  • 一组 VM 的处理器资源可受到限制,减少软件授权成本。
  • Power Systems 服务器和 VIOS 的存储资源可集中化到池中,以优化资源利用率。
  • 简化入门级 Power Systems 服务器和刀片服务器的 VM 创建和管理。
  • 支持在 Linux on PowerVM 上运行许多 x86 Linux 应用程序。
  • 活动的 AIX 和 Linux VM 可在服务器之间迁移,从而消除了计划的中断。
  • 智能地将内存从一个 VM 转移到另一个 VM,以提高内存利用率。
  • 简化光纤通道 SAN 环境的管理并提高性能。

故障排除过程

对于第一个示例问题涉及的 LPAR,我发现当把 SAN 磁盘交换回老的 p670 服务器并启动它时,问题没有出现。用户能够访问他们的应用程序,CPU 承受正常的负载,CPU 利用率为 80% 多(10% 内核 70% 用户)。因此,我能够断定是 p570 服务器上特有的某些东西导致了问题,而不是迁移过程中引入的某些东西。

您可以在一个由集成虚拟化管理器管理的系统上创建逻辑分区和安装操作系统。要使用 IVM 部署虚拟化配置,请完成以下任务:

步骤2:先从基本命令开始,然后增加复杂性

首先应该查阅生产商和销售商自己的资料。IBM 这样的公司在网上公开他们的所有手册、Redbook、技术文件甚至 man 页面以供研究。只需在主站点的搜索栏中输入简单的关键字,就可以找到大量可能有帮助的建议和信息。

支持的操作系统版本:

问题2:出故障的硬盘无法解除镜像

IBM AIX 中的实际问题。您会了解相关的工具和知识,从而提升解决可能会遇到的一些棘手问题的技能...

您可以创建逻辑分区,安装操作系统,并按需为硬件管理控制台 (HMC) 管理的系统部署容量。

我的一台服务器具有镜像的root磁盘。有一天,错误报告指出在其中一个磁盘上坏块无法重新定位。我知道这是硬件故障的先兆,所以开始解除镜像。但是,服务器说无法完全解除镜像,因为其中一个逻辑卷只有一个好拷贝,它就在出故障的磁盘上。我应该怎么解决这个问题并更换硬件?

如何从无法撤销配置的磁盘恢复服务器,或者取出无法移出这个磁盘的物理分区中的数据?

功能

对于第一个示例问题,我让用户马上退出系统,然后我终止应用程序。我知道在性能很差时用户的查询和输入会中断,这可能会破坏他们的数据,在我检查系统之前不希望他们的环境有进一步的变动。尽管用户不愿意听到他们现在不能使用新的服务器,但是知道我正在查找问题的原因,他们会很高兴。另外,这让我有时间按自己的方式执行其他故障排除步骤。

把一个启用了 Workload Manager 的服务器迁移到更快的硬件上,但是工作不正常,除非是把 LPAR 概要文件设置为使用专用的 CPU 而不是动态 CPU。这是为什么?

优点:

在我学功夫时,听到了一位二级黑带在公共汽车站制伏小偷的故事。同学们都想知道她用哪一招放倒了进攻者。是金虎式吗?还是八卦掌中的圈掌?我们甚至想像她非常厉害,用醉八仙把对方放倒了。结果都不是:她使用的是白带在班上最初学习的技术之一-肘击前胸,再拳击鼻子。

我的一台服务器具有镜像的 root 磁盘。有一天,错误报告指出在其中一个磁盘上坏块无法重新定位。我知道这是硬件故障的先兆,所以开始解除镜像。但是,服务器说无法完全解除镜像,因为其中一个逻辑卷只有一个好拷贝,它就在出故障的磁盘上。我应该怎么解决这个问题并更换硬件?

PowerVM Enterprise 拥有两项行业领先的新功能,分别名为活动内存共享 (Active Memory Sharing) 和动态分区迁移 (Live Partition Mobility)

当时,我需要把一个AIX5.3LPAR从基于POWER4?的老式IBMpSeries?p670服务器迁移到基于POWER6?全新的 pSeriesp...

实际发生的情况

回页首

AIX提供了用于检查服务器的各个方面的命令,包括硬件和软件。即使是最基本的命令也会为分析问题提供很好的基础。当信息不够或仍然有些东西表现不正常时,可以开始尝试更复杂、更强大的工具。但是,应该从最简单的命令和想法开始,然后再使用更强大的工具。

记住这两个示例问题,现在看看解决它们的过程。

  • 在需求高峰时期,性能可能受到影响。PowerVM 的 Linux 虚拟化实现拥有支持极细粒度的资源管理和控制的机制,但在高峰时期,仍然存在性能降级的可能。
  • 使用 IBM PowerVM,您可以虚拟化 10 个逻辑分区 (LPAR) 来共享一个 CPU,甚至共享 NIC,这种做法对性能(太少的硬件上具有太多活动)和可用性(考虑一个 CPU 失败的后果)具有负面影响。虚拟化的灵活性和可配置性可能导致产生设计很糟糕的系统,进而导致公司放弃其整个虚拟化战略。
  • 安全:在过去,如果一台服务器受到破坏,可以将漏洞限制于该服务器。使用虚拟化,物理服务器内的每个逻辑分区或虚拟环境都可能受到破坏。尽管系统管理员有能力确保物理机器内的逻辑分区无法彼此访问,但您不应该忽视物理安全。
  • 举例来说,尽管在许多情况下不需要使用专用的硬件管理控制台 (HMC) ,大部分 IBM System p 使用者仍会使用 HMC 来执行其 Linux 逻辑分区和虚拟化配置。如果管理员离开他的办公桌并打开着控制台,入侵者就有可能获得对物理服务器内每个逻辑环境的访问。

按照科学的方法,任何假想和试验的关键一点是,能够重建过程并产生相同的结果。如果做不到,结论至少是不确定的。在最糟糕的情况下,这会颠覆科学家的理论并损害他们的名誉,就像在上世纪90年代宣称实现了室温冷聚变的物理学家一样。

对于 第二个示例问题,我先通过查看 errpt 输出寻找硬件问题,然后使用 unmirrorvg 命令 — 尝试解除镜像的简单但强大的工具 — 而不是对磁盘上的每个逻辑卷运行 rmlvcopy。当我发现有一个逻辑卷无法删除时,就使用 lspv、lsvg 和 migratepv 等其他基本命令收集信息。我尝试用 extendvg 和 mirrorvg 在另一个磁盘上创建卷组的另一个拷贝。这仍然留下了一些旧的分区,所以我更进一步,用 syncvg 和 synclvdom 协调 Object Data Manager 与服务器。最后,我用 migratelp 尝试把各个逻辑分区转移出这个磁盘。不幸的是,这些工具都不奏效,但是它们提供了大量信息。

要使用 HMC 部署虚拟化配置,请完成以下任务:

当时,我需要把一个AIX5.3LPAR从基于POWER4?的老式IBMpSeries?p670服务器迁移到基于POWER6?全新的 pSeriesp570服务器上。老的服务器资源不足(使用WorkloadManager管理服务器上主要应用程序的资源),因此新硬件上新的动态处理器资源应该会提供我需要的计算能力。我对这个LPAR执行了mksysb,然后使用NetworkInstallationManager在新硬件上恢复它并通过SAN磁盘映射它。

一旦发现有麻烦了,最明智的举动就是别乱动。就像印地安纳·琼斯在 “夺宝奇兵” 中一样,如果发现踩上地板就会有飞镖射向您,那么就停在原地,不要继续前进了。更多的变动只会让问题复杂化,可能把情况弄得更糟。当一个问题影响系统正常运行时,不得不解决多个问题是没有意义的。

  • 输入虚拟 I/O 服务器的激活代码。
  • 安装虚拟 I/O 服务器。
  • 准备虚拟 I/ l服务器管理分区。
  • 创建 AIX 和 Linux 逻辑分区,向它们分配资源。
  • 在逻辑分区中安装 AIX 和 Linux。

或者,按我的说法:如果一开始不成功,那么在其他地方试试是否可以造成同样的问题。

步骤 8:走极端

虚拟磁带:PowerVM 拥有两种在基于 POWER6 和 POWER7 处理器的服务器上使用磁带设备的虚拟化方法,这些方法简化了备份和还原操作。两种方法都受 Power VM Express、Standard 或 Enterprise Edition 支持:

对于第二个示例问题,我先通过查看errpt输出寻找硬件问题,然后使用unmirrorvg命令-尝试解除镜像的简单但强大的工具-而不是对磁盘上的每个逻辑卷运行rmlvcopy.当我发现有一个逻辑卷无法删除时,就使用lspv、lsvg和migratepv等其他基本命令收集信息。我尝试用extendvg和mirrorvg在另一个磁盘上创建卷组的另一个拷贝。这仍然留下了一些旧的分区,所以我更进一步,用syncvg和 synclvdom协调ObjectDataManager与服务器。最后,我用migratelp尝试把各个逻辑分区转移出这个磁盘。不幸的是,这些工具都不奏效,但是它们提供了大量信息。

步骤 4:研究问题

选择 PowerVM

记住这两个示例问题,现在看看解决它们的过程。

如果做一处更改之后问题没有解决,通常希望取消它并尝试其他措施。在第一个示例中就是这种情况:当我对比两个服务器的 Hardware Management Console 概要文件时,看到它们不一样。我注意到老的 POWER4 硬件使用专用的 CPU,而新的 POWER6 硬件使用不封顶的共享 CPU 池。我想知道这一差异如何影响 CPU 性能,所以修改了 POWER6 硬件上的概要文件以使用专用的 CPU。奇怪的是,根据用户的反馈,服务器 “正常” 了,我在处理器上看到了负载。因此,我知道问题肯定与 CPU 资源有关,但是需要查明为什么会这样。

PowerVM 动态分区迁移现在可用于配备了两个硬件管理控制台 (HMC)、支持更大且更灵活的配置的环境。 PowerVM 分区同时支持物理和虚拟 I/O,还支持动态、异构的多路径 I/O。凭借此支持功能,分区可拥有一个同时包含物理(比如专用 FC 适配器)和虚拟(比如 NPIV)适配器的存储设备的路径。在基于 POWER6 和 POWER7 处理器的服务器上具有 AIX V5.3 和 AIX V6.1 分区的动态分区迁移环境支持多路径 I/O。

我启动了这个LPAR,直到启动应用程序之前看起来一切顺利。突然之间,用户开始打电话来了。他们根本无法访问自己的产品了。当我登录时,发现服务器完全是空闲的。服务器上根本没有消耗资源很多的进程。用户为什么会遇到问题?

我把这个步骤放在故障排除步骤列表的中间位置,这是因为有时候必须早点儿这么做,有时候要晚一些。但是根据我的经验,我觉得最好先完成前四个步骤,然后再考虑取消所有更改。如果在故障排除过程开始时马上取消更改,问题很可能没有解决,下一次尝试相同的工作时还会遇到相同的麻烦。如果在过程中过晚回退,会影响正常运行时间,或者让问题复杂化,到了不可能回退的程度。

部署:部署您的虚拟化配置包含以下任务:

问题1:服务器更大,而计算能力却降低了

对于这些信息源,主要的使用技巧是使用适当的关键字集。如果我使用 Google 这样一般性的网站研究 AIX 问题,那么会确保搜索字符串以 AIX 开头,以便排除与其他风格的 UNIX 相关的信息。然后,可能会包含命令的输出或 errpt 产生的标签等内容。我还会确保在特定的短语前后加上双引号 (""),以便把搜索限制在这些特定的问题,避免无关的信息,对于常用的单词(比如 Logical Volume Manager)尤其应该这么做。

  • 可选:输入虚拟化引擎技术的激活代码。
  • 可选:创建虚拟 I/O 服务器逻辑分区。
  • 可选:安装虚拟 I/O 服务器。
  • 创建 AIX 和 Linux 逻辑分区,向它们分配资源。
  • 在逻辑分区中安装 AIX 和 Linux。

在管理AIX服务器时,如果某些东西出了问题,而您有再现问题所需的资源,那么在另一个相似类型的LPAR上执行相同的操作,看看是否会产生相同的结果。如果在另一个服务器上修改相同的属性会造成相同的结果,就可以推论这个操作就是问题的根源。但是,如果产生了完全相反的结果,那么要研究服务器之间的细微差别,尝试推测造成问题的原因。

如果上面的所有步骤都不奏效,您决定开始更改主要组件或者对服务器做更激进的操作,那么要记住一条最重要的规则:每次只更改一处。

集成虚拟化管理器(IVM):集成虚拟化管理器 (IVM) 允许您使用一个基于浏览器的易用界面来管理工作负载。

步骤1:别乱动

当时,我需要把一个 AIX 5.3 LPAR 从基于 POWER4™ 的老式 IBM pSeries® p670 服务器迁移到基于 POWER6® 的全新的 pSeries p570 服务器上。老的服务器资源不足(使用 Workload Manager 管理服务器上主要应用程序的资源),因此新硬件上新的动态处理器资源应该会提供我需要的计算能力。我对这个 LPAR 执行了 mksysb,然后使用 Network Installation Manager 在新硬件上恢复它并通过 SAN 磁盘映射它。

PowerVM 使用 IVM 管理虚拟机:IVM 可帮助您:

还需要提供一些信息,让 IBM Support 可以调出您的账户 — 通常是服务器所在地的电话号码、序列号、合同号或物理位置。这一信息很大程度上取决于您建立的是硬件案例还是软件案例。

动态分区迁移:将一个正在运行的 AIX 或 Linux 分区从一个物理 Power Systems 服务器迁移到另一个服务器,且不会发生应用程序中断,动态分区迁移可以帮助客户端避免针对计划的系统维护、配置和工作负载管理的应用程序中断。也可以将分区从一个基于 POWER6 处理器的服务器迁移到一个基于 POWER7 处理器的服务器,以简化向较新平台的升级。

在我学功夫时,听到了一位二级黑带在公共汽车站制伏小偷的故事。同学们都想知道她用哪一招放倒了进攻者。是金虎式吗?还是八卦掌中的圈掌?我们甚至想像她非常厉害,用醉八仙把对方放倒了。结果都不是:她使用的是白带在班上最初学习的技术之一 — 肘击前胸,再拳击鼻子。

管理您的虚拟机

既然我已经提供了问题的背景,该您来回答了。总结一下:

虚拟 I/O 服务器(VIO):支持您共享 I/O 资源。虚拟 I/O 服务器是一个提供特殊用途的分区,向客户端分区提供虚拟 I/O 资源。虚拟 I/O 服务器拥有与客户端共享的资源。为一个分区分配的物理适配器可分享给一个或多个其他分区。虚拟 I/O 服务器消除了针对专用的网络适配器、磁盘适配器和磁盘驱动器的需求。

在本文中,按相似的方式学习如何解决 IBM AIX® 中的实际问题。您会了解相关的工具和知识,从而提升解决可能会遇到的一些棘手问题的技能。本文给出我曾经遇到的两个有意思的场景,提供探测异常情况的步骤。然后停一下,让您推测什么出了问题,最后给出答案。

  • AIX 5.3、AIX 6.1 和 AIX 7
  • IBM i 6.1 和 IBM i 7.1
  • Red Hat Enterprise Linux 5 和 Red Hat Enterprise Linux 6(当 Red Hat 发布时)
  • SUSE Linux Enterprise Server 10 和 SUSE Linux Enterprise Server 11

对于我的第二个示例,在我联系 IBM Support 之后,他们说惟一的方法是生成 mksysb 映像以恢复服务器。由于我们没有更多东西可失去了,与我的管理员团队讨论之后,我们打算对 root 磁盘做三重镜像,然后从服务器上拨出磁盘。拨出磁盘可能导致服务器无法引导。但是,潜在的风险是拨出磁盘可能干扰更大的服务器,让它上面的所有 LPAR 崩溃。我们真敢这么做吗?

图 1 显示了 PowerVM 虚拟机管理程序的架构:

对于磁盘坏块重定位失败的问题,在 Google 上使用短语 AIX "bad block relocation" failure 进行搜索产生了几百个结果,但是看起来没有与我的情况相符的。

缺点:

步骤 5:取消所有更改

Power 是没有限制的虚拟化。一些企业打算依靠 PowerVM 虚拟化将多个工作负载整合到较少系统上,从而提高服务器利用率,降低成本。Power VM 为基于 Power Systems 平台的高级 RAS 功能和领先性能为 AIX、IBM i 和 Linux 应用程序提供了一个安全的、可扩展的虚拟化环境。

步骤 7:求助于 IBM Support

  • 硬件管理控制台 (HMC):将一个系统计划(使用 SPT 创建)导入 HMC,HMC 可将该计划部署到托管的系统。HMC 基于系统计划中指定的逻辑分区配置来创建逻辑分区。
  • 虚拟 I/O 服务器:虚拟 I/O 服务器是一种在自己的逻辑分区中运行的软件,向托管系统上的客户端逻辑分区提供虚拟 I/O 资源。虚拟 I/O 服务器支持一个或多个客户端逻辑分区与附加的磁盘或光学设备共享物理适配器。
  • 集成虚拟化管理器:集成虚拟化管理器是未由 HMC 管理的托管系统上的管理分区(虚拟 I/O 服务器)的用户界面。您可以使用集成虚拟化管理器在托管系统上创建 AIX 和 Linux 客户端逻辑分区。您也可以在托管系统上配置虚拟存储和虚拟以太网。

步骤 6:每次只更改一处规则

回页首

如果已经尝试了所有合理的步骤,需要新的想法,通常应该联系 IBM Support。他们有高级的故障排除工具,有精通操作系统和相关产品(比如 VIO 和 PowerHA)的每个方面的专家,可以调出相关的案例以证实并协助解决相似的问题。但是,如果您以前没有拨打过 800-IBM-SERV,有几点需要了解。

NPIV :NPIV 支持从多个客户端分区直接访问光纤通道适配器,从而简化光纤通道 SAN 环境的管理。PowerVM Express、Standard 和 Enterprise Edition 中都提供了 NPIV 支持,以便支持所有基于 POWER6 和 POWER7 的服务器(包括刀片服务器)上的 AIX V5.3、AIX V6.1、IBM i 6.1.1 和 SUSE Linux Enterprise Server 11 分区。

造成第一个问题的是 Workload Manager。使用它的应用程序被限制为只能使用 CPU 的 50%。因此,当系统管理程序轮询循环探测到那个 LPAR 时,它问 “您需要多少 CPU?” 服务器回复,“我目前只使用分配的 CPU 的一半儿。” 因此,系统管理程序会动态地把 CPU 标称值减少一半儿。这个循环重复几次之后,CPU 计算能力多次减半,基本上接近零了。为了解决这个问题,把 Workload Manager 池调整为最多使用 CPU 的 100%,这样动态的 CPU 标称值会适当地限制其本身。

或者,按我的说法:如果一开始不成功,那么在其他地方试试是否可以造成同样的问题。

使用集成虚拟化管理器部署虚拟化

故障排除过程

使用硬件管理控制台部署虚拟化

我推荐的其他信息源包括其他系统管理员经常访问的各个新闻组、论坛和站点。成天与服务器打交道的人往往会经常访问技术站点,并对在工作过程中看到的东西发表评论。对于公开的求助,大多数系统管理员乐于提供指点,或通过电子邮件往来提供帮助。另外,常常可以找到与操作系统和软件的其他版本相关的旧信息,可以通过它们找到更多信息。

回页首

有时候,没有其他方法能够解决问题,只能尝试大多数人认为是发疯的某些非正统措施。当您已经绝望,甚至工作或生命岌岌可危时,通常会这么做。在这种情况下,IBM 支持人员常常会说,“如果您这么做,就会处于不受支持的状态,必须重新开始,然后我们才能够支持它。” 但是,如果您的解决方案是有效的,可能能够化险为夷。

多个共享处理器池(Multiple shared processor pools):使用此功能,系统几乎为您执行了所有管理工作。您只需向分区分配优先级,虚拟机管理程序便会根据您应用程序的需要分配处理能力。此功能支持在分配给共享池的分区之间执行自动、非破坏性的处理能力平衡。这会提供更高的吞吐量以及减少基于处理器的软件授权成本的潜力。

步骤 2:先从基本命令开始,然后增加复杂性

  • 在工作负载需求变化时,活动内存共享智能地将系统内存从一个分区转移到另一个分区。
  • 动态分区迁移支持将正在运行的分区从一个服务器迁移到另一个服务器,且不会发生应用程序中断,从而提高了系统利用率、应用程序可用性并节省了能源。有了动态分区迁移,由于定期服务器维护而发生的计划应用程序中断就会成为过去。

您来回答

  • 支持将众多计算机资源作为一项资源来看待和执行,从而简化 IT 管理。
  • 提高灵活性,使您的组织可使用共享容量同时满足预料之中和预料之外的服务器需求峰值。

步骤 1:别乱动

活动内存共享:支持系统内存的更有效利用,PowerVM 的高级内存共享能力可基于不断变化的工作负载需求,向正在运行的虚拟分区动态重新分配内存。

问题 2:出故障的硬盘无法解除镜像

可用于部署虚拟化配置的工具如下:

结束语

支持的硬件平台:

步骤 3:再现问题

  • 对于基于 POWER6 和 POWER7 处理器的服务器上的 AIX V5.3、AIX V6.1 和 SUSE Linux Enterprise Server 11 分区,NPIV 支持 PowerVM LPAR 使用共享物理 HBA 资源访问 SAN 磁带库。
  • 对于基于 POWER6 和 POWER7 处理器的服务器上的 AIX V5.3、AIX V6.1 和 SUSE Linux Enterprise Server 11 分区,虚拟磁带支持允许顺序共享所选的 SAS 磁带设备。

如果您有主意了,就继续。

回页首

例如,AIX errpt 是在各种风格的 UNIX® 中都能够找到的基本工具之一。它提供关于硬件和软件问题的各种信息。如果使用 –a 标志或 –j 选项和标识码,会产生更详细的输出,输出描述问题的类型、受影响的组件以及系统如何根据错误的类型做出反应。如果它提供的信息不够,可以用 diag 命令进一步检查系统,这个命令会在硬件和操作系统的各个部分上运行测试。

PowerVM Lx86 支持:您可以在 POWER 上运行 x86 Linux 应用程序,此功能支持动态执行 x86 Linux 指令,将它们映射到基于 POWER 的系统上的指令,并缓存映射的指令以优化性能。

对于 第一个示例问题,我让用户马上退出系统,然后我终止应用程序。我知道在性能很差时用户的查询和输入会中断,这可能会破坏他们的数据,在我检查系统之前不希望他们的环境有进一步的变动。尽管用户不愿意听到他们现在不能使用新的服务器,但是知道我正在查找问题的原因,他们会很高兴。另外,这让我有时间按自己的方式执行其他故障排除步骤。

图 1. PowerVM 虚拟机管理程序的架构
彩世界网址 1 

对于第一个示例,由于时间的原因,我实际上不得不回退了服务器迁移操作。如果这个生产服务器停运更长时间,用户和公司就会损失金钱。重新安排这项工作花了一周时间,这让我能够多做一些研究,但是当我再次尝试迁移时,问题又出现了。对于第二个示例,无法对硬件问题执行回退。无法告诉服务器,“回到发生坏块重定位错误之前的状态!” 我不得不继续努力克服磁盘的故障。

预备知识

示例问题

回页首

我启动了这个 LPAR,直到启动应用程序之前看起来一切顺利。突然之间,用户开始打电话来了。他们根本无法访问自己的产品了。当我登录时,发现服务器完全是空闲的。服务器上根本没有消耗资源很多的进程。用户为什么会遇到问题?

IVM 不需要使用 HMC 管理单一系统上的 LPAR。使用 IVM,客户端可创建 LPAR 来对单一系统进行分区,提供虚拟存储和虚拟以太网的管理。

首先描述我作为系统管理员遇到的两个问题。

  • 配备了 POWER5、POWER6 和 POWER7 处理器的 IBM Power Systems

有时候,解决问题最明智的做法是取消已经做的所有更改,回到原来的状态。这个步骤并非总是可行的。有时候,过分热心的 C 级执行官强迫您回退他们的服务器。或者,由于时间紧迫,有必要这么做。无论如何,回退是可供选择的最好的战术之一。

  1. 安装虚拟 I/O 服务器。
  2. 创建逻辑分区并向它们分配虚拟或物理资源。
  3. 在逻辑分区中安装操作系统。
  4. 按需部署容量。

还必须让支持人员了解问题的严重程度或优先级。优先级分为从 1 到 4 几个级别。1 级通常涉及系统停止运行或生产影响,对于这个级别会马上把电话转给技术人员。4 级意味着处理时间可以长一些,通常用于一般的管理问题。

在决定使用 PowerVM 作为您的虚拟化工具之前,考虑以下优缺点。

您描述问题并建立支持案例之后,会给您一个跟踪号 — 通常称为 PMR。这个号码向与您协作的其他支持人员标识这个案例。硬件和软件 PMR 是惟一的,如果您的问题跨越边界,就需要得到新的号码。

微分区支持:微分区技术允许对系统进行调节,整合多种独立的工作负载,这有助于降低成本。可将微分区的大小定义为一个处理器的 1/10,并以小到一个处理器的 1/100 的增量更改它。可以为每个核心创建最多 10 个微分区。

在信息时代,只需敲几下键盘,点几次鼠标,就能够获得大量信息。更好的是,系统管理员往往是大型社区的成员,社区记录了很多人多年的经验。

AIX 提供了用于检查服务器的各个方面的命令,包括硬件和软件。即使是最基本的命令也会为分析问题提供很好的基础。当信息不够或仍然有些东西表现不正常时,可以开始尝试更复杂、更强大的工具。但是,应该从最简单的命令和想法开始,然后再使用更强大的工具。

希望您对系统管理员如何排除 AIX 服务器的故障、可以使用的战略、应该避免的做法以及在哪里寻找解决问题的建议有了一些认识。这些步骤并不完全适合所有情况,还有其他选择,但是这些步骤可以指出正确的方向。

首先,您应该有 IBM 合同号。有多个支持级别,从最高级的由专人负责的 24x7x365 支持直到适用于非关键服务器的上午 8 点到下午 5 点支持。可以直接从 IBM 购买这些支持服务包,也可以与增值销售商签订合同。

问题 1:服务器更大,而计算能力却降低了

在管理 AIX 服务器时,如果某些东西出了问题,而您有再现问题所需的资源,那么在另一个相似类型的 LPAR 上执行相同的操作,看看是否会产生相同的结果。如果在另一个服务器上修改相同的属性会造成相同的结果,就可以推论这个操作就是问题的根源。但是,如果产生了完全相反的结果,那么要研究服务器之间的细微差别,尝试推测造成问题的原因。

按照科学的方法,任何假想和试验的关键一点是,能够重建过程并产生相同的结果。如果做不到,结论至少是不确定的。在最糟糕的情况下,这会颠覆科学家的理论并损害他们的名誉,就像在上世纪 90 年代宣称实现了室温冷聚变的物理学家一样。

本文由时时app平台注册网站发布于彩世界网址,转载请注明出处:虚拟机管理程序、虚拟化和云: 深入剖析 PowerVM

关键词: