语雀大规模故障事件_服务器宕机十小时_官方宣布6个月会员补偿

本文最后更新于2023-10-25,部分内容具有时效性,如有失效,请评论留言
共计1201字,阅读大约5分钟。

语雀蚂蚁集团旗下的在线文档编辑与协同工具。它采用了"结构化知识库管理"的形式,类似于书籍的目录结构。然而,在23日的14:00到15:00之间,语雀遭遇了一次大规模的服务器故障,导致在线文档和官网都无法正常访问。经过近10个小时的故障处理,语雀服务已经完全恢复正常,用户可以正常访问各端语雀,并且功能也已经恢复。官方已发布了完整的故障报告,并宣布将向所有用户赠送6个月的语雀会员。

故障的原因和处理过程

在10月23日下午,负责服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具存在漏洞,导致华东地区的生产环境存储服务器被错误下线。这个问题对语雀的数据服务造成了严重故障,并导致大范围的服务中断。为了尽快恢复服务,我们与数据存储运维团队合作,全力进行数据恢复工作。由于恢复方案和数据量的限制,整个过程耗时较长。

具体的处理过程

14:07 数据存储运维团队收到监控系统报警,确认存储节点机器由于新的运维工具漏洞而下线

14:15 联系硬件团队尝试将下线机器重新上线

15:00 确认由于存储系统使用的机器较老,无法直接上线,立即调整恢复方案为从备份系统中恢复存储数据;

15:10 开始新建存储系统,并从备份中恢复数据。由于语雀的数据量很大,这个过程需要较长时间;

19:00 完成数据恢复,并在2个小时内进行数据校验以确保完整性;

21:00 存储系统通过完整性校验,开始与语雀团队联调;最终,在22点恢复了语雀的全部服务,用户的所有数据都没有丢失。

语雀团队表示

“通过这次故障,我们深刻认识到作为一款服务千万级客户的文档产品,语雀应该在技术风险保障和高可用架构设计方面做得更好。特别是在面对技术变更操作时,应该建立起可监控、可灰度、可回滚的系统化建设和流程审计,从同一地区多副本容灾升级为两地三中心的高可用能力,并设计足够的数据和系统冗余来实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升在严重基础设施故障时的恢复速度,并从根本上避免这类故障再次发生。”

为了改进和防止类似问题再次发生,语雀团队制定了以下措施

  1. 升级硬件版本和机型,以便离线后能够更快地上线。这个措施已经在本次故障修复中完成。
  2. 运维团队将加强对运维工具的质量保障和测试,杜绝类似运维漏洞再次发生。
  3. 缩小运维动作的灰度范围,增加灰度时间,提前发现问题。
  4. 从架构和高可用性方面改进服务,为语雀增加存储系统的异地灾备能力。

为了表达歉意,语雀团队向所有受到故障影响的用户提供了赔偿方案

对于个人用户,我们赠送了6个月的会员服务。操作流程是,在工作台的"账户设置"中,点击左侧的"会员信息",在会员信息页面点击"立即领取",即可获得赠送的服务。对于语雀空间用户,由于情况比较复杂,我们将单独制定赔偿方案,请空间管理员留意语雀站内信。

随机文章

文章不满意?试试随机文章
好软猫文章底线(别以为我没有底线)
THE END