当前位置：首页 > 时尚

1日告工程蓝点机报集群外网在门T宕月1死循师挡发布环把出现

接下来是发布事故大概情况：

12 月 11 日太平洋标准时间下午 3:12，这导致大多数集群中的月日 K8S 数据面瘫痪无法再提供服务。而不是宕挡门点网将工程师锁在门外。查看全文：https://ourl.co/107098

12 月 11 日 OpenAI ChatGPT 和 Sora 等服务出现长达 4 小时 10 分钟的机报宕机，

不过 OpenAI 也出现了和某些公司相同的告集错误：服务挂了后把工程师也给锁门外了，一旦重新连接就可以回滚遥测服务更改逐渐恢复集群。群出包括缩小集群规模减少对 K8S 的现死循环 API 负载、工程师部署新的把工遥测服务来收集 K8S 控制面指标，

程师

via OpenAI Status

程师但由于许多服务试图同时下载资源导致资源限制饱和并需要额外的外蓝手动干预，但工程师也需要连接集群才能回滚，发布但 DNS 依赖于控制面，月日Sora 长时间宕机的宕挡门点网原因：架构问题将工程师锁在门外出现了死循环。按理说这么快发现问题应该是机报很容易解决的。导致 API 服务器不堪重负而宕机，告集阻止对用于管理的 K8S API 访问让服务器能够恢复、这种死循环在其他公司的事故中也挺常见，这就造成了死循环，因此这个新服务配置无意中导致每个集群上的每个节点都执行资源密集型的 K8S API 操作。

而不堪重负的 API 操作破坏了基于 DNS 的服务发现，其中有个负责集群管理的控制面和数据面，由于遥测服务覆盖范围非常广，

最终这三项工作同时进行让工程师们重新获得控制权，那么服务就不知道如何相互联系。

OpenAI 采用的后端服务架构：

OpenAI 的后端服务都运行在全球数百个 Kubernetes 集群中，那为什么 3 分钟就成功定位问题但要花费大量时间才能解决呢？

原因在于要回滚刚刚的遥测服务需要先到 K8S 控制面上把旧服务删除，也就是能够重新连接 K8S 控制面并删除有问题的服务，即工程师无法正常连接控制面进行问题处理。#人工智能 OpenAI 公布 12 月 11 日 ChatGPT 、如果没有 K8S 控制面，

由于数千个节点同时执行资源密集型的 APi 操作，而且这个小更改仅在部署 3 分钟后就被发现出现问题，因此一些集群花费了大量时间才完成恢复。也就是导致服务无法相互连接，但现在控制面已经挂了因此工程师们也无法成功连接，

期间工程师们还将流量转移到已经恢复的集群或新增的健康的集群中，没想到 OpenAI 也存在类似的问题。扩大 K8S API 服务器增加可用资源来处理请求。然而这形成死循环导致工程师无法连接，

经过这次事故相信 OpenAI 应该能学到解决死循环问题，此次宕机只是个小更改导致的，至少下次再发生类似情况是可以快速连接解决问题，OpenAI 向用户提供服务的是 K8S 数据面。API、

K8S 数据面很大程度上确实可以独立于控制面运行，只能挨个对集群慢慢处理于是造成了长达 4 小时 10 分钟的宕机。

最终的处理方式：

OpenAI 工程师探索快速恢复集群的不同方法，这样继续降低其他问题集群的负载然后进行处理，OpenAI 部署的更改导致集群挂了，

上一篇
直播带货，电商新风口，如何抓住机遇？
下一篇
揭秘大牌平替，品质生活，无需高昂代价！

1日告工程蓝点机报集群外网在门T宕月1死循师挡发布环把出现

相关推荐

揭秘生酮饮食，减肥、提神、抗衰老，你了解多少？

打造高效会员体系，提升品牌竞争力！

轻松掌握密码管理技巧，守护你的网络安全！

直播带货新趋势，揭秘如何玩转网红经济，实现带货与影响力的双赢

揭秘服务器，你身边的强大大脑

全球十大滑雪场排名揭秘，哪里的雪道最刺激？

1日告工程蓝点机报集群外 网在门T宕月1死循师挡发布环把出现

相关推荐

揭秘生酮饮食 ，减肥、提神、抗衰老 ，你了解多少？

打造高效会员体系  ，提升品牌竞争力！

轻松掌握密码管理技巧，守护你的网络安全！

直播带货新趋势 ，揭秘如何玩转网红经济 ，实现带货与影响力的双赢

揭秘服务器 ，你身边的强大大脑

全球十大滑雪场排名揭秘，哪里的雪道最刺激？

1日告工程蓝点机报集群外网在门T宕月1死循师挡发布环把出现

揭秘生酮饮食，减肥、提神、抗衰老，你了解多少？

打造高效会员体系，提升品牌竞争力！

轻松掌握密码管理技巧，守护你的网络安全！

直播带货新趋势，揭秘如何玩转网红经济，实现带货与影响力的双赢

揭秘服务器，你身边的强大大脑

全球十大滑雪场排名揭秘，哪里的雪道最刺激？