站长之家,中国草根站长新闻、建站经验、素材资源交流平台!
分类导航

站长新闻|网站运营|建站经验|网站优化|站长资源|站长源码|

服务器之家 - 站长之家 - 建站经验 - 剖析美团内部所采用的网站压力测试方案

剖析美团内部所采用的网站压力测试方案

2021-04-08 01:48美团点评技术团队nateriver520 建站经验

这篇文章主要介绍了美团内部所采用的网站压力测试方案,包括其对开源压力测试工具的应用以及其相关流量拷贝等功能的使用,,需要的朋友可以参考下

美团内部的rpc服务大多构建在thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:

1.使用一些脚本语言如:python、ruby等,读取线上日志构建请求,用多线程模拟用户请求进行压测
2.使用开源工具进行压测
然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:

需要写很多代码解析日志,还原请求,对于比较复杂的请求,解析很容易出错
需要搭建脚本或者工具的运行环境,通常这一过程比较耗时
由于打压方法没有统一,导致打压的结果指标比较混乱,有的结果甚至以终端输出的方式展示,非常不直观
对一个应用的打压测试,由于环境、代码的问题,导致组内同学很难共享
针对上述问题,提供一个简单好用的压测工具是十分有必要的。

是否有必要重复造轮子
在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:

jmeter
jmeter是一个比较老牌的压测工具,主要针对http服务进行打压,该工具在以下方面并不满足美团内部的压测需求:

1.默认不支持thrift的打压测试
2.需要本地安装,并且配置复杂
3.对于用户操作并不友好
剖析美团内部所采用的网站压力测试方案

twitter/iago
是一个由twitter开源的压测工具,支持对http、thrift等服务进行压测,其主要问题如下:

对每个压测应用都需要创建一个项目
压测结果并不直观
流量重放依赖本地文件
项目依赖于一个较老版本的scala,搭建不便
相关文档比较少
除此之外,当时还考察了gatlinggrinderlocust 等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。

综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。

目标
针对之前提到的痛点,新的压测工具主要提供以下功能:

线上流量拷贝
1.简单易用的操作界面(接入压测的时间应该控制在1小时以内)
2.清晰的图表能反映压测应用的各项指标
3.满足包括thrift、http等服务的压测需求


如何构建
抽象

目标已经明确,怎么实现呢?首先是抽象压测的过程。
一个典型的压测过程如图所示,首先在init方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在run方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减就能够得到每次请求的响应时间,利用该结果就可以计算出tp90、平均响应时间、最大响应时间等指标,等压测结束后,通过destroy方法进行资源回收等工作。
剖析美团内部所采用的网站压力测试方案

以上过程可以用接口表示,无论是压测thrift服务还是http服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接口交给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。
 

复制代码

代码如下:


interface runner {
def init(test app) // 初始化压测
def run(test app, string log) // 每次打压请求,传入log方便构建请求
def destroy(test app) // 压测完毕后,回收资源
}

 


拷贝流量
thrift服务打压的难点之一就是如何简单地拷贝线上真实流量用来构建打压请求。一些大型的thrift服务数据结构非常复杂,写打压脚本的时候需要很多代码来解析日志,而且容易出错。 因此提供一个简单好用的拷贝流量方法是十分有必要的。

在这里压测工具提供了一个叫vcr(录像机)的工具来拷贝流量。vcr能够将线上的请求序列化后写到redis里面。

考虑到用户需要查看具体请求和易用性等需求,最终选取了json格式作为序列化和反序列化的协议。同时需要部署在生产环境,为了降低对线上服务的影响,这里采取了单线程异步写的方式来拷贝流量。
剖析美团内部所采用的网站压力测试方案

聚合数据
应用打压完成后,需要一些指标来评估压测结果,常见的指标有:

1.最大响应时间
2.平均响应时间
3.qps
4.tp90
5.tp50
压测工具采用了 influxdb 来完成数据的聚合工作。
以tp90为例子,仅需要一行查询就能实现需求。

sql code复制内容到剪贴板
  1. select percentile(response_time, 90) from test_series group by time(10s)  

 

架构
整体而言,整个打压过程如下:
剖析美团内部所采用的网站压力测试方案

实践
拷贝流量

美团内部的服务大多使用java来构建,vcr以maven package的方式提供给用户。

对用户来说只需要2行代码可以拷贝流量。

为了不影响线上服务,通常选取单台机器进行流量拷贝工作。

java code复制内容到剪贴板
  1. public class testapprpc implements testapp.iface {   

  2.   

  3.     private vcr _vcr = new vcr("testapp"); // 指定拷贝流量的key   

  4.   

  5.     @override  

  6.     public testresponse echo(testrequest req) throws texception {   

  7.         _vcr.copy(req); // 拷贝操作   

  8.         long start = system.currenttimemillis();   

  9.         testresponse response = new testresponse();   

  10.         return response;   

  11.     }   

  12. }  

一旦流量拷贝完成后,通过web界面,用户能够查看日志的收集情况和单条日志的详情。
剖析美团内部所采用的网站压力测试方案

压测逻辑实现
压测工具采用groovy来进行编写。对每个应用来说,只需要实现runner接口就可以实现对应用的打压。
 

复制代码

代码如下:


interface runner {
def init(test app)
def run(test app, string log)
def destroy(test app)
}


以thrift服务为例:

 

java code复制内容到剪贴板
  1. class testservicerunner implements runner {   

  2.   

  3.     rpcservice.client _client   

  4.     ttransport _transport;   

  5.   

  6.     @override  

  7.     def init(test app) {   

  8.         def conf = app.config // 读取应用配置   

  9.         _transport = new tframedtransport(new tsocket(conf.get("thrift_service_host") as string, conf.get("thrift_service_port") as int))   

  10.         tprotocol protocol = new tbinaryprotocol(_transport)   

  11.         _client = new rpcservice.client(protocol)   

  12.         _transport.open()   

  13.     }   

  14.   

  15.     @override  

  16.     def run(test app, string log) {   

  17.         testrequest req = vcr.deserialize(log, testrequest.class// 将拷贝流量反序列化   

  18.         _client.echo(req) // 发送请求   

  19.     }   

  20.   

  21.     @override  

  22.     def destroy(test app) {   

  23.         _transport.close() // 关闭服务   

  24.     }   

  25. }  

创建应用
实现以上接口后,就可以对应用进行打压了。

用户可以通过web界面创建应用,除了必填配置以外,用户可以按照应用灵活配置。
剖析美团内部所采用的网站压力测试方案

性能指标
用户可以通过直观的图表来查看应用的各种性能指标。
剖析美团内部所采用的网站压力测试方案

 

结束语
压测工具上线以来,已经接入了20多个应用,完成数百次打压实验,现在应用的接入时间仅需要15~30分钟。保证了美团服务的稳定和节省了开发同学的时间,使大家告别了以往繁琐冗长的打压测试。

欢迎对这方面有兴趣的同学一起讨论。

延伸 · 阅读

精彩推荐
  • 建站经验关于站内搜索分析的重要性和方法

    关于站内搜索分析的重要性和方法

    SEO!PPC!内容规划!转化率啊!?当我们殚精竭力、勤勤恳恳劳作,加以虔诚的态度,拜请到各位访客,可90%的人都洒脱的挥一挥衣袖不带走一 片云彩,让咱们这...

    建站教程网9312021-06-09
  • 建站经验腾讯高手都在学的「感知性模式设计」是什么?

    腾讯高手都在学的「感知性模式设计」是什么?

    如果沿用到互联网方面的设计,那么感知性模式的例子可能包括:文字信息、版式、配色、布局、插图、图标、形状纹理、间距、交互或者动画等等,这些...

    优设7802021-08-03
  • 建站经验网站中了木马怎么办

    网站中了木马怎么办

    网站中了木马怎么办?网站被黑中了木马也不算是比较稀奇的事情,不过大多数人是遇不到的,一般出现这种情况的网站都是一些比较高端的企业网站,或者...

    站长之家4802021-09-24
  • 建站经验如何在百度知道发外链的技巧

    如何在百度知道发外链的技巧

    百度知道作为国内最大的互动问答平台,每天云集了数以千万计的访客,而且百度关键词搜索结果中,百度知道页面也有着不错的排名,这就让了不少站长...

    站长之家9192021-07-03
  • 建站经验个人站长怎样选择做网站

    个人站长怎样选择做网站

    做网站是为了赚钱,我相信没人会反对,网站有了流量,才能赚钱,本篇文章将为大家介绍做站方向的取舍,使流量来的快,竞争小。 ...

    建站教程网5232020-09-03
  • 建站经验网站更换服务器有什么影响

    网站更换服务器有什么影响

    在我们日常维护 网站 的时候,可能会由于网站打开慢或者网站被攻击, 服务器 内部故障或者外部的原因都会导致我们的网站出现打不开的现象,有时我们...

    东德SEO4182020-12-04
  • 建站经验网站建设初期的SEO优化定位

    网站建设初期的SEO优化定位

    根据 网站建设 的性质我们可以分为两种:一种是产品的商城,一种是做服务的网站。每一个网站在建设之前都会考虑行业的竞争对手的手法还有自身行业...

    站长之家9952021-01-28
  • 建站经验网店运营要学会两条腿走路:网店设计和营销

    网店运营要学会两条腿走路:网店设计和营销

    百度重新收录淘宝店,对于运营淘宝店的店主们应该是一个好消息...

    开店教程网3162020-08-21