语雀大规模故障事件，服务器宕机十小时，官方宣布6个月会员补偿

好软猫

新闻热点

1.8W+

2023-10-25

好软猫福利

低价促销,支持正版

恰饭广告,还请支持

🎉 恭喜你发现了宝藏！

立即去挖宝

语雀是蚂蚁集团旗下的在线文档编辑与协同工具。它采用了"结构化知识库管理"的形式，类似于书籍的目录结构。然而，在23日的14:00到15:00之间，语雀遭遇了一次大规模的服务器故障，导致在线文档和官网都无法正常访问。经过近10个小时的故障处理，语雀服务已经完全恢复正常，用户可以正常访问各端语雀，并且功能也已经恢复。官方已发布了完整的故障报告，并宣布将向所有用户赠送6个月的语雀会员。

故障的原因和处理过程

在10月23日下午，负责服务语雀的数据存储运维团队在进行升级操作时，由于新的运维升级工具存在漏洞，导致华东地区的生产环境存储服务器被错误下线。这个问题对语雀的数据服务造成了严重故障，并导致大范围的服务中断。为了尽快恢复服务，我们与数据存储运维团队合作，全力进行数据恢复工作。由于恢复方案和数据量的限制，整个过程耗时较长。

具体的处理过程

14:07 数据存储运维团队收到监控系统报警，确认存储节点机器由于新的运维工具漏洞而下线

14:15 联系硬件团队尝试将下线机器重新上线

15:00 确认由于存储系统使用的机器较老，无法直接上线，立即调整恢复方案为从备份系统中恢复存储数据；

15:10 开始新建存储系统，并从备份中恢复数据。由于语雀的数据量很大，这个过程需要较长时间；

19:00 完成数据恢复，并在2个小时内进行数据校验以确保完整性；

21:00 存储系统通过完整性校验，开始与语雀团队联调；最终，在22点恢复了语雀的全部服务，用户的所有数据都没有丢失。

语雀团队表示

“通过这次故障，我们深刻认识到作为一款服务千万级客户的文档产品，语雀应该在技术风险保障和高可用架构设计方面做得更好。特别是在面对技术变更操作时，应该建立起可监控、可灰度、可回滚的系统化建设和流程审计，从同一地区多副本容灾升级为两地三中心的高可用能力，并设计足够的数据和系统冗余来实现快速恢复，并进行定期的容灾应急演练。只有这样，才能提升在严重基础设施故障时的恢复速度，并从根本上避免这类故障再次发生。”

为了改进和防止类似问题再次发生，语雀团队制定了以下措施

升级硬件版本和机型，以便离线后能够更快地上线。这个措施已经在本次故障修复中完成。
运维团队将加强对运维工具的质量保障和测试，杜绝类似运维漏洞再次发生。
缩小运维动作的灰度范围，增加灰度时间，提前发现问题。
从架构和高可用性方面改进服务，为语雀增加存储系统的异地灾备能力。

为了表达歉意，语雀团队向所有受到故障影响的用户提供了赔偿方案

对于个人用户，我们赠送了6个月的会员服务。操作流程是，在工作台的"账户设置"中，点击左侧的"会员信息"，在会员信息页面点击"立即领取"，即可获得赠送的服务。对于语雀空间用户，由于情况比较复杂，我们将单独制定赔偿方案，请空间管理员留意语雀站内信。

网站名称：好软猫

本站网址：www.haoruanmao.com

资源需求或投诉建议请 📝在线留言

喜欢本站可以 💰点击这儿支持我们

解压密码：www.haoruanmao.com

侵权删除： haoruanmao@qq.com

本站资源均为网络收集，根据中国《计算机软件保护条例》第十七条规定："为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。"本站提供的软件、源码等资源，版权所有者归原开发者所有，仅供个人使用或学习研究，严禁商业或非法用途，严禁打包恶意软件推广或售卖用途，否则后果由用户承担责任。如果您喜欢该软件、源码，请支持正版软件、源码，购买注册以得到更好的正版服务，特此说明。如有资源涉及侵犯您的权益，请及时与我们联系，我们将第一时间进行删除下架

THE END

好软猫福利

免费领流量卡	流量卡包邮	美团外卖红包	饿了么红包
文字消息	文字消息	文字消息	文字消息
文字消息	文字消息	文字消息	文字消息
站长QQ：10448493