硬核案例分享,一文带你拆解PHP语言体系下的容器化改造

本文分享自华为云社区《》,作者: HuaweiCloudDeveloper。

本文主要介绍了PHP语言体系应用现代化改造上云的案例。PHP在互联网公司应用广泛,PHP语言体系下的容器化改造与常见的Java语言存在一定差异,本文以夺冠集团的应用场景为背景,提供了PHP语言应用的容器改造案例,通过容器化、OPCache技术、Apollo配置中心等方案解决了弹性伸缩慢、资源利用率低、配置混乱等问题,完成生意兔等应用的华为云迁移、现代化改造等工作,效率和存储利用率提升了数倍以上。

夺冠集团是河南头部互联网企业,致力于运用小程序产品技术,为商家和企业提供“互联网营销+数字化经营”一体化商业解决方案。夺冠集团旗下拥有夺冠魔方、生意兔、海豚知道、夺冠生活圈、小魔推、船到、小镇外卖、创意兔等众多产品线和完善的售后服务体系。近年来,夺冠凭借过硬的产品技术与服务品质在国内脱颖而出,与阿里、百度、腾讯、字节跳动等一线互联网企业均保持紧密合作。

夺冠集团应用开发以PHP语言为主,业务多样化,代表处通过多次交流均未能从商务上打动客户。DTSE介入后,针对客户业务上的痛点问题,对客户进行了深入的调研,并为客户提供了基于华为云的应用现代化改造方案,成功打动客户CTO及高层领导,获得应用现代化改造的试点机会。

在与客户的交流中,客户表示业务最近几年可见较大的发展机会,且业务发展对资源消耗较大,但是客户业务系统的IT架构无法支撑未来业务发展,最主要的问题是弹性伸缩效率不高,会因为突发流量导致系统崩溃,同时运维效率存在瓶颈。

面对客户提出的问题,DTSE经过深入调研分析,客户的IT系统问题主要以下两个原因导致的,一是在服务扩缩容方面,客户应用直接在服务器部署,基于服务器的备份镜像做弹性伸缩,镜像大小高达200G,即浪费了弹性伸缩时间,又增加了存储成本;二是在突发流量感知方面,客户基于系统负载、CPU利用率和内存利用率进行负载监控,此类指标只有业务流量实际处理起来后才会发生变化,对于流量感知是滞后的,故不能及时的感知到突发流量。

对于运维效率方面,客户随着业务的发展,现有的运维人员已经不能满足业务运维需要,正在招聘多名运维人员。经过与运维开发同事的交流,主要是由以下两个原因导致了运维人员的效率低下,一是客户开发和运维边界混乱,很多开发环节的操作都需要运维介入,比如业务系统新版本的上线、测试环境配置的更新、日志的收集查找等等;二是客户的多个应用混合部署在多台服务器上,对应关系完全靠人工维护,且应用配置杂乱无章,完全依赖手工管理和同步。

  • 在调研过程中,还发现客户的应用系统还存在以下问题:
  • 应用间耦合部署,当发生突发流量、受到攻击时,会发生资源相互争抢等现象。
  • 未处理好弹性伸缩后,新扩容应用的负载均衡问题。
  • 应用和数据的灾备机制不健全,可靠性低。
  • PHP应用执行效率低下。

与客户领导沟通时,客户对于应用架构升级非常感兴趣,但是对于业务升级还是有比较大的担忧,主要在以下三个方面:首先客户希望架构升级不能给业务带来的影响;其次希望架构升级后,尽量避免对于现有开发人员技术栈的冲击;第三,希望尽量减少架构升级所带来的额外成本。考虑到企业业务稳定发展、企业技术栈与人员稳定性,客户对于升级改造存在较大的疑虑。

综合考虑业务问题与客户关注问题,项目组决定采用以样板改造先行,打消客户疑虑,以样板效果推动项目发展的应对策略。

分析客户业务体系,当前有约20个应用,全景图如图1所示,各个应用之间的技术栈基本相同。

与客户共同商讨,建议采用循序渐进的策略,先试点后复制推广,与客户沟通后决定先选择标杆应用进行架构优化试点。

同时为了保证业务稳定,我们计划先测试后生产,提高改造效率,尽快完成试点,划定业务改造范围,为了客户体验,优先改造不需要开发人员参与的部分,对业务影响小的部分,保证改造过程平稳,其余部分则只在测试环境上优化,并由客户决定是否上生产环境。

图1 夺冠集团应用技术架构全景图

针对客户关心的三个具体问题,DTSE提供了不停机的切换方案,保证架构升级的业务连续性。同时,加强客户沟通,通过高层汇报、日常项目例会为客户决策层、具体项目执行层详细说明了新架构对于开发技术栈要求不变的特点。重点介绍了新架构所能带来的资源利用率的提升,减少客户对于成本的担忧。通过技术与日常项目运作,让客户整体上消除了对于新技术带来挑战的顾虑,坚定了对改造项目的支持。

夺冠集团所有应用的后端都是PHP语言实现的,基于PHP-FPM运行,主要有以下特点:

  • 客户应用每次请求都是一个进程,且会依次执行扫描、解析、编译,最后才会执行代码,故资源使用量极高。
  • 客户应用中的大部分进程都实现了无状态化,但是往往多个进程的代码会混杂在一起,难以拆分。
  • 客户在程序设计时,并未考虑此应用需要在云上运行,不符合云原生要素要求,因此,还有部分进程是有状态的。
  • 客户在上线新版本时,采用远程FTP的方式直接修改测试环境代码,采用git拉取的方式更新生产环境代码。

因此,对于夺冠集团的业务改造,也不单单是容器化这么简单,我们需要从业务到流程,全面的对于夺冠的应用进行改造,这并不是一个简单的事情。

针对客户应用存在的痛点和问题,项目组提供了基于华为云的应用现代化改造方案,整体方案如图2所示。包括基于CCE和CCI的容器化方案、基于Apollo配置中心方案、基于流量监控的弹性伸缩方案等多个子方案。此方案优点是:

  • 应用集群基于CCE服务做容器化、无状态部署,资源相互隔离,避免相互抢占影响的现象。
  • 配置统一管理,可管、可控、可视,不再需要人工手动维护,提升运维效率。
  • 基于流量的弹性伸缩,提前感知流量变化,提高弹性伸缩反应时间。
  • 应用集群通过NAT网关实现对外部三方服务的访问,单IP外置化,不再与集群强耦合。

图2 夺冠集团应用现代化改造方案

4.3.1 基于CCE和CCI的容器化方案

客户在服务器上部署的应用镜像高达200G,且多个应用混杂在同一个镜像中,所以我们并没有选择直接将应用镜像进行容器化的方案,而是对客户的业务流程进行了详细的分析和拆解,尽量将每个镜像做到最小。

以生意兔应用为例,其业务的部署架构如图3所示。

图3 生意兔的部署架构

我们将生意兔的nginx路由拆出,并由k8s提供的nginx ingress替换,然后将WorkerMan的网关和注册中心拆出,剩余的生意兔业务相关的部分,因为代码耦合所以暂时部署在同一个容器中,等待客户开发人员将各个进程的代码剥离开,即可分开独立部署。最终客户业务镜像被缩减到了180M,且配合CCE和CCI,实现了秒级扩容。

在项目过程中多次因为业务流程未对齐而修改方案的情况发生,主要是因为客户对于容器化并没有清晰的概念,并不清楚那些问题会影响容器化的方案,所以建议在进行改造前对于客户开发和运维人员进行一次简单的赋能,便于问题提前暴露。

4.3.2 基于Apollo配置中心方案

对于客户配置混乱的问题,DTSE给客户提供了基于Apollo的配置中心方案,页面化操作,一键修改所有负载的配置,不再需要运维人员手动的维护。如图4所示,且Apollo也是采用容器化部署,搭建方便,如图3所示。

图4 基于Apollo的配置中心方案

针对测试和生产环境,我们为客户分别部署了两套独立的环境,测试环境直接将账号提供给开发测试人员,可以由测试人员直接修改环境配置,不再需要运维参与,而生产账号由运维人员控制,并只允许运维人员修改。

4.3.3 基于流量监控的弹性伸缩方案

为了进一步解决客户弹性伸缩慢的痛点,DTSE提供了基于Prometheus流量监控的弹性伸缩方案,如图5所示。相较于通用的资源使用率做弹性伸缩,直接利用容器的网络监控数据作为弹性伸缩指标,在突发流量到来的时候更早的感知到负载的变化,更加迅速的触发弹性伸缩。基于此方案我们将客户最终弹性伸缩的时间缩短了一倍有余。

图5 基于基于Prometheus流量监控的弹性伸缩方案

4.3.4 基于CodeArts的CICD方案

为了进一步解决客户运维效率低的问题,DTSE提供了基于CodeArts的CICD方案,如图6所示,建立从代码到部署的流水线,由客户开发人员自行进行新版本发布,让运维和开发人员职责归位。

图6 基于CodeArts的CICD方案

并推荐客户结合业界最佳实践,在一段有限的时间内,逐步将代码QC、代码门禁、自动化测试等配置加入流水线,进一步提高自动化程度,进而提高交付质量。

4.3.5 PHP性能优化方案

针对客户PHP应用运行效率低下问题,我们发现主要是因为客户没有使用OPCache技术导致的,因为在客户原有的环境中,使用OPCache会导致新发布的版本需要三到五分钟才能生效,不利于开发和测试,所以也没有在公司内部推广,但是在容器化之后,则无需担心缓存问题,OPCache加速的原理如图7所示,使用OPCache技术可以为应用带来4倍多的性能提升。

图7 OPCache加速的原理

对于客户关注的弹性伸缩问题,我们测试发现,当前CCE突发弹性到CCI还需要20多秒的时间,其中180M的镜像加载占用了13s,建议产品对于镜像加载过程进行优化,进一步缩短突发弹性扩容时间。

对于客户关注的成本问题,通常采用CCE和CCI配合的方案,由于CCE节点池扩容较慢,在此期间突发扩容到CCI,为了进一步减少客户成本,建议产品增加此场景的调度功能,当CCE有充足的资源时,主动将CCI上的容器调度到CCE上。

当前CodeArts Build虽然可以编译容器镜像,但是对于基础环境镜像支持不足,在很多基础环境镜像的编译时会按照很多基础组件比如make等等,会需要较高的权限,但是CodeArts Build官方环境,会因为缺乏权限而导致构建失败。

根据W3 Techs的统计,PHP仍然是当今使用最广泛的服务器端语言,仍然作为互联网的主干,为至少百分之七十的网站提供后端支持[1]。尤其是在中小企业类互联网公司,PHP仍被大量使用,通常这类企业存在技术升级力量储备弱、应用架构历史债务重等问题。

牵引这类客户上云,简单的商务折扣已经难以打动,而平滑过渡的升级方案、全栈云的技术支持对其更加具有吸引力。由DTSE提供方案建议和技术支持,引导客户进行试点验证,进而推广复制,并保障业务改造的平滑过度,循序渐进的将客户业务迁移上华为云,实现客户与华为云双赢。

本文介绍了PHP语言体系应用现代化案例,实现了许多与业务无关的通用性应用改造方案,如PHP应用容器化架构方案、基于Prometheus的弹性伸缩方案等等,为此类型客户提供了一个可参考的案例。

[1] https://timotijhof.net/posts/2023/an-internet-of-php/

关注点击下方,第一时间了解华为云新鲜技术~

「炼丹」师的福音!支持AMD,PyTorch 1.8来了

研究院(FAIR)基于Torch推出了PyTorch,用于自然语言处理等应用程序。

近日,Facebook发布了PyTorch 1.8新版本,加入了对AMD ROCm的支持,可以不用去配置Docker在原生环境下运行。

其中一些重大更新包括:

  • 支持通过 torch.fx进行函数转换;
  • 增加和调整 API以支持 FFT( torch.fft )、线性代数函数( torch.linalg )
  • 添加了复杂张量自动求导(autograd)的支持,并提升了矩阵计算 hessian 和 jacobian 的能力;
  • 对分布式训练进行了重大更新和改进,包括:改进 NCCL 可靠性,支持管道并行,RPC 分析,支持添加梯度压缩的通讯 钩子。

在PyTorch 1.8版本中,官方对一些PyTorch库也进行了相应的更新,主要包括 TorchCSPRNG、TorchVision、TorchText 和 TorchAudio。

PyTorch 1.8版本中的功能分为稳定版 (Stable)、测试版 (Beta) 和原型版 (Prototype)。

新增及更新 API

新增及更新 API 包括:与 NumPy 兼容的额外 API,及在推理和训练时方面,提高代码性能的额外 API。

PyTorch 1.8 主要更新功能简介:

  • [稳定版] Torch.fft 支持高性能 NumPy 中的 FFT

实现了 NumPy np.ft 功能的同时,还支持硬件加速和 autograd

  • [测试版] torch.linalg 将支持 NumPy 中的线性代数函

为常见的线性代数运算提供与 NumPy 类似的支持,支持 Cholesky 分解、 行列式、特征值等功能。

  • [测试版] 利用 FX 进行 Pthon 代码转换。

增强分布式训练

PyTorch 1.8支持稳定的异步错误/超时处理,以提高 NCCL 稳定性;

此外,还增加了对管道并行的支持,可将数据拆解成更小的块以提高并行计算效率。

并可以通过 DDP 中的通讯钩子进行梯度压缩,用于控制如何在workers之间同步梯度。

此外,PyTorch 1.8 还增加了一些 prototype 特性,具体如下:

  • ZeroRedundancyOptimizer:有助于减少每个线程的内存占用;
  • 进程组 NCCL 发送/接收:允许用户在 Python 层(而非 C++ 层)实现集合操作;
  • RPC 中用 TensorPipe 支持 CUDA:为使用 PyTorch RPC 和多 GPU 机器的用户带来速度提升;
  • 远程模块:允许用户像操作本地模块那样操作远程 worker 上的模块。

PyTorch 移动端

本次更新发布了图像分割模型DeepLabV3在安卓和IOS,能更好地帮助新用户将 PyTorch 模型部署在移动端。

PyTorch 移动端新增教程包括:

  • iOS 端用 DeepLabV3 进行图像分割
  • Android 端用 DeepLabV3 进行图像分割

同时为老用户提供开发工具,让其更得心应手地用 PyTorch 进行移动端开发。

性能优化工具

新增测试版benchmark utils ,使用户能够更轻松地监控模型性能。还开放了一个自动量化 API,能改进 Eager Mode Quantization。

  • Benchmark utils

Benchmark utils 允许用户进行精确的性能测量,并提供组合工具,帮助制定基准和进行后期处理。

  • FX Graph Mode Quantization

新增的自动量化 API,它通过增加函数支持和自动化量化过程,改进 Eager Mode Quantization。

硬件支持

PyTorch 1.8 版本新增了两个 测试版本特性

  • 强化 PyTorch Dispatcher 的能力,使其适应 C++ 中后端开发

支持用户在 pytorch/pytorch repo 之外创建新的树外设备,并与本地 PyTorch 设备保持同步。

  • AMD GPU 二进制文件现已推出

新增对 ROCm wheel 的支持。

需要注意的是,PyTorch 1.8 仅在 Linux 系统中支持 AMD ROCm。

参考资料:

https://www.phoronix.com/scan.php?page=news_item&px=PyTorch-1.8-Released

https://pytorch.org/blog/pytorch-1.8-released/

https://twitter.com/cHHillee/status/1367621538791317504

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。