服务器之家:专注于服务器技术及软件下载分享
分类导航

服务器资讯|IT/互联网|云计算|区块链|软件资讯|操作系统|手机数码|百科知识|免费资源|头条新闻|

服务器之家 - 新闻资讯 - 云计算 - 从K8s到FaaS,在哈啰AI平台的落地实践

从K8s到FaaS,在哈啰AI平台的落地实践

2023-05-06 18:54未知服务器之家 云计算

为什么哈啰AI平台需要Faas Al平台当前的痛点 一是运维复杂问题,AI平台有多种不同语言的模型推理服务, 如python、C++(tf-serving)、Java等,各自管理上百个不同类型的模型;架构也很复杂,存在大型单体应用、多container应用、小型GPU应

为什么哈啰AI平台需要Faas

Al平台当前的痛点

从K8s到FaaS,在哈啰AI平台的落地实践

一是运维复杂问题,AI平台有多种不同语言的模型推理服务, 如python、C++(tf-serving)、Java等,各自管理上百个不同类型的模型;架构也很复杂,存在大型单体应用、多container应用、小型GPU应用等多种服务组织方式;同时,手动运维有余,自动化工具不足。

二是稳定性问题,成百上千模型集中式部署,存在明显热点问题,在应对一些突发流量的时候,自动伸缩速度也存在问题。同时,模型cpu、gpu资源竞争问题也困扰了我们。

三是IDC成本问题,存在资源利用率低的问题,有很大的提升空间。

Al平台对新架构的诉求

Al平台分为在线服务域(决策、特征)和模型训练域(模型、训练),模型平台是模型训练域的一个子域。

我们希望Al平台在应对突发流量时,可以快速响应,保持稳定的服务;对于低频的模型,可以实现缩容到0;对于快速迭代的模型,可以方便进行AB灰度。同时我们希望成本可控、易于运维、易于部署。

云原生演进与Faas选型

从K8s到Faas

从K8s到FaaS,在哈啰AI平台的落地实践

Faas能给我们带来极致弹性,可缩容至0;运维成本更低,带来更低的开发复杂度和更好的运维效率。这与AI平台的特点也是分不开的。模型是无状态的,生命周期短,冷启动时间短,业务需求变动快,开发周期短,流量零散而难预测,突发流量多。

Faas技术选型

从K8s到FaaS,在哈啰AI平台的落地实践

经过调研,最终花落Knative。Knative支持多元触发,如Eventing/http/grpc触发;同时带来弹性扩缩容的能力,可以缩容到0;在AI平台能带来版本管理和流量分配的能力。

Faas在模型平台的落地实践

模型平台Faas化

模型平台Faas化具有很大的价值。一是是平台能力升级,支持大模型、GPU模型及更多模型类型;二是稳定性收益,通过热点模型隔离,避免多模型混布,来更好的应对突发流量;三是人效收益,GPU模型、大模型全程算法自助发布;四是IDC降本收益,降低模型在线服务成本。

模型Faas部署

从K8s到FaaS,在哈啰AI平台的落地实践

我们的模型平台是一个非常完备的平台,无论是算法同学还是工程同学,都可以模型平台上方便的去上传模型,管理模型的入参出参、模型的版本。我们要兼容模型管理的能力,底层有很多异构,如python集群、gpu集群、pmml集群和TF集群等。针对这些异构,我们要用分集群的方式把它变成faas同构的框架。上面有了模型的管理平台,下面有了faas集群,中间的核心是平台路由的改造。当算法和工程同学评估了模型的QPS,可以在平台上勾选faas的一键部署,就能方便的部署到faas集群里,这样就能降低运维成本。

模型自动压测&规格标准化

从K8s到FaaS,在哈啰AI平台的落地实践

Faas部署很大程度上依赖服务本身的资源设置&弹性伸缩设置,适当的设置将极大的减少启动时间、平滑弹性伸缩、最大程度节省资源。我们与压测平台合作,打造自动压测能力,评估模型Pod资源和规格标准化,再调用云原生Faas接口进行Faas部署。

Faas冷启动优化

从K8s到FaaS,在哈啰AI平台的落地实践

Faas通用的痛点是冷启动速度,我们在思考模型的启动,能否有继续提速的空间。于是就有了模型分发服务,它可以把一些模型资源预下载下来,从原来的150毫秒降低到10毫秒左右的单模型的启动。

Faas模型优雅预热

从K8s到FaaS,在哈啰AI平台的落地实践

深度大模型存在预热不充分导致RT突增问题,我们基于Knative的版本管理、流量分配、蓝绿部署等能力,结合自研GraySDK提供了优雅解决方案。

案例:哈啰智能调度Faas改造

从K8s到FaaS,在哈啰AI平台的落地实践

智能调度是是两轮领域的核心场景之一。我们每次去做调度的时候,会进行调度收益的核算,用调入收益减去调出损失,再减去调度成本。业务的峰谷波动明显,计算量大,并且每个城市用的模型不一样,模型非常多,适合Faas的落地。这里我们做了定时预测的Faas化,特征能力的Faas化和模型能力的Faas化。通过效果回收,我们发现IDC成本下降了35%,整体性能上升了20%。

我们的调度业务通过无感切换到 Serverless,有效利用 Serverless 免运维、强隔离、按量计费的特性,既实现了得集群不用再为定时任务预留机器资源,同时在高峰期可以迅速大量扩容,提高了系统计算能力,让业务的稳定性也有了很大的提升。

Faas与AI平台的未来展望

Faas在更多应用场景落地

一是特征平台Faas化,特征的冷热分布十分不均匀,当热点特征高峰期时需要整个服务扩容,存在资源浪费、扩容速度慢、资源抢占等风险。二是内部管理后台,很多后台每天只有个别时段会有运营用户使用,但机器却7*24小时提供服务,可以用Faas的按需分配、缩容到0来提高资源利用率。三是定时能力,定时预测能力在某些时间点存在突增流量,且QPS能打到非常高,如果服务维度部署下,存在空闲期资源的极大浪费。

Faas在更多业务领域落地

一是智能客服——聊天机器,智能客服业务存在很多突发流量,比如用户进入客服问答的随机性很大,当舆情来临时的客服流量激增,也非常适合Faas解决方案。二是智能营销——大促等突发流量,互联网业务的发展离不开智能化营销手段,以电商为例,往往半月一小促,一月一大促,需要更灵活的资源调度方式支持营销业务发展。三是IoT传感器信息处理——各种语音精灵,IOT交互设备绝大部分时间都处于待唤醒状态,结合Faas缩容到0且能快速扩容的能力可以大幅提高资源利用率。

延伸 · 阅读

精彩推荐
  • 云计算Rancher 2.7.2 发布,开放的可互操作性再升级

    Rancher 2.7.2 发布,开放的可互操作性再升级

    Rancher 2.7.2 正式发布,主要提升了扩展性,以大幅强化生态能力。此外,作为 Rancher 的商用企业订阅版,Rancher Prime 进一步强化了其企业订阅价值;Rancher De...

    未知732023-05-06
  • 云计算微软与印度信实工业子公司将在云计算等领域进行合作

    微软与印度信实工业子公司将在云计算等领域进行合作

    【TechWeb】8月13日消息,据国外媒体报道,印度信实工业旗下子公司将同微软进行长期的合作,涉及云计算、人工智能等多个领域。 信实工业公司已在官网...

    Techweb3542019-08-14
  • 云计算关于云原生安全,你得关注这些事!

    关于云原生安全,你得关注这些事!

    变化是唯一不变的,也是不可避免的。一段时间以来,云技术领域的 IT 格局发生了变化。企业正在转向云原生领域和容器、Kubernetes和无服务器框架。...

    新钛云服11442021-09-28
  • 云计算企业需要了解的十个云安全优秀实践

    企业需要了解的十个云安全优秀实践

    IT 安全社区因其共享信息和解决方案的特性而备受认可。如果企业正在迁移到云端,或者倾向于提高应用程序的安全性,可以很好地利用这一点。...

    云联壹云9592022-02-17
  • 云计算Kubernetes 将弃用 Docker

    Kubernetes 将弃用 Docker

    近日,Kubernetes 官方发布公告,宣布自 v1.20 起放弃对 Docker 的支持,届时用户将收到 Docker 弃用警告,并需要改用其他容器运行时。但 Docker 作为容器镜像构...

    开源中国4312020-12-03
  • 云计算使用虚拟私有云的利弊

    使用虚拟私有云的利弊

    虚拟私有云(VPC)实际上是公共云提供商的营销响应,很多提供商发现自己与多年前就已经与OpenStack等私有云竞争。一些企业并不喜欢将数据放置在公共云...

    机房3605782020-06-05
  • 云计算加快边缘计算发展的十大趋势

    加快边缘计算发展的十大趋势

    在边缘计算中,数据处理发生在网络边缘而不是集中式中心。这意味着网络边缘的设备需要具有处理和存储功能。实际上,边缘计算有许多不同的形式。企...

    企业网D1Net2672020-10-20
  • 云计算云原生开发将成为高级部署蓝图

    云原生开发将成为高级部署蓝图

    如今,有些文章介绍了云原生开发蓝图的基础和探索逻辑图,并探讨了在内部部署设施和远程容器上进行云原生开发的用例以及部署蓝图。...

    企业网D1Net2852020-07-12