问题背景:
系统在月底高峰期出现严重的整体性能问题,经分析应用的线程dump,发现大量线程在等待数据库请求返回或等待数据库连接,而从数据库层面跟踪,存在大量等待事件为磁盘IO的会话,通过windows资源管理器查看,发现磁盘IO出现明显的瓶颈(平均响应时间超长,队列严重)。
从分析结果和现象来说,问题应该很清楚了。但信息中心反馈,这两台数据库服务器是刚更换的高性能服务器,CPU、内存及磁盘等指标都大幅提升,有点懵。
然后,我们与服务器供应商联系,简述了问题现象和从应用及OS层面分析的结果,但对方不认可我们从应用和OS层面的分析数据,哎。。。。
监控数据:
工具解决:
搜索了磁盘IO相关测试工具,发现windows环境下专业测试工具并不多,但微软的Diskspd很不错。
通过设置10G文件的并发随机读写,很快就有规律的重现了服务器的磁盘性能问题,这次服务器提供方没啥好说的了,呵呵。
后来经过服务器方面的分析确认说是磁盘raid卡bug导致,更换了该配件,问题解决。
工具说明:
Diskspd.exe -o1 -b64k -r4k -w20 -d100 -t8 -Sh -D -L -c10G D: estfile.dat
另外,磁盘IO方面还有fio、iometer等跨平台的测试工具,后续有机会再试试,应该都差不多。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...