时政
财经
科技
虚拟货币
其他
登录
#自动化运维
关注
Viking
2周前
AWS 这次事故的原因报告出来了: 简单看了一下,让 AI 总结一下: 1 DNS 记录由 DNS Planner 定期生成一份完整的区域计划,列出应该指向哪些load balancer。 2 DNS Enactor 负责把计划写进 Route 53(Amazon 的 DNS 系统),每个可用区运行一个独立实例。所以有多个。 3 Enactor 开工前只核对一次:确保手里的计划是最新版本。 4 其中一个 Enactor 在更新 DNS 记录时,速度卡了,每改一个endpoint 都要试好几次才成功。 5 在它卡顿的过程中,Planner 生成了多个更新的计划,其他 Enactor 已经快速把最新计划写进了 Route 53。 6 慢的 Enactor 最初检查时认为自己的计划是最新,但由于延迟太久,实际上已经过时。它没有再次检查,直接用的旧计划。 7 快的 Enactor 写完后会清理旧计划,把所有比自己刚应用的版本更旧的计划全部删除。 8 结果:慢 Enactor 正在应用的旧计划被快的 Enactor 删除,导致区域端点的 DNS 记录被清空。 9 区域端点无法解析,连接全部失败,引发区域级服务中断。 感觉设计真的挺复杂的,但是几十万条 DNS 记录只能自动化实现,并发 + 延迟 就造成了竞态条件的问题。
#aws事故
#DNS故障
#区域服务中断
#竞态条件
#自动化运维
分享
评论 0
0
Andy Stewart
4周前
今天分享一个2019年做过的一件牛逼的事情 1800元成本做5G智能售货柜,这个行业记录,6年了还在保持 跟我公司业务没关系,索性今天商业开源了。 一般冷柜大概成本1500,所以我们要在300元内搞定剩下系统 1. 硬件成本5个,树莓派zero,IO扩展版,电磁锁,摄像头,5G上网卡。因为售货柜只上传视频,所以只要不编解码就不用GPU,板子就会便宜。编解码直接用摄像头固件刷好就可以,配置好默认帧率和码率。摄像头选择鱼眼摄像头,广度大,同时把曝光和帧率调好,避免夜晚残影看不到物品。不要用继电器控制锁,换二极管更便宜稳定。5G上网卡比WiFi模块便宜,省板子的钱。定制linux系统,树莓派zero性能足够 2. 商城用微信小程序搞,微信信用分可以过滤那种才买手机但是手机没钱的用户。交易系统关键是只收钱,不要退钱。退钱通过双方电话号码,自己微信解决。这样开发快bug少。对账不要搞花里胡哨的表格,和微信收款顺序金额做成一样即可。售货柜用户全是小商小贩,他们没水平看账目,他们只看你的收款和微信是不是一样,没坑他钱就可以了。只做信任,不要表格分析,他们自己是糊涂账 3. 不要做实时结算,打标压力和成本太大,先开门拿货,后台慢慢算,有微信信用分兜底。后台打标系统秘诀是,先选商品再开门,而不是开门随便拿,这样的好处是,95%的视频购物视频和开门之前选的订单一样,打标平台只用根据视频和订单图片做验证即可,我们统计这一设计,95%订单视频只用2x速度看视频核对订单商品按回车。如果不这样设计,每个打标人员就要仔细看视频并在上百种SKU中人眼对比,效率差100倍 4. 设备运维要做自动化运维,mqtt是标配,这种远程设备一定要做热点链接,要不设备失联,现场维护很懵逼,所以懒猫微服就是失联后自动发热点,方便用户回家手机查看日志或通过手机网络升级系统 5. 最容易出现的问题是,商户那里铁皮房,5G没信号,网络除了5G需要支持WiFi和有线链接,然后每个省份信号不一样,这也是我们选择5G上网卡的原因,方便。5G模块一般全网通太贵,绑定运营商到现场不合适,板子拆开换运营商网卡特别麻烦,现场运维中心也搞不定 6. 硬件生产要现场入库写编号,马克笔标记后,出厂检测有问题可以知道哪台有问题,不要用声音来辨别,现场2000个柜子同时叫的时候,你都不知道哪个娃出事了。别问我为什么知道,这是我实战出来的 7. 最容易出现问题的地方,硬件电源量产不是3C的,生产线柜子出了问题发现电源有问题一个一个的拆开重新初始化很浪费时间。柜门脚要垫垫片,暴力运输后柜门最容易下沉。所有板卡接口出厂要打热熔胶固定,对抗暴力运输 我们搞定全套硬件,操作系统,商城,打标系统,运维系统,柜子制造等等,只用了4个人3个月,没我们牛逼用个10个人做一年不过分 看了我上面攻略中实战关键步骤,轻轻松松可以复刻。 技术人看热闹涨知识,做这行的老板不要过来白P骚扰我,真想问更细节的内容,买一台懒猫微服支持下,知识有价格,买微服咨询,不要白P 喜欢我创业故事的朋友欢迎点赞转发 喜欢我们团队的欢迎买微服支持我们,私信我购买有优惠
#5G智能售货柜
#低成本创新
#微信小程序商城
#自动化运维
#商业开源
分享
评论 0
0
响马
4周前
我不用 claude code。但是在 vs code 下,直接告诉 copilot 想要安装什么就行了。我现在连 k8s 配置和查错都让它干。 都 vibe coding 了,为什么不 vibe ops 呢?
AI编程工具激战:Claude Code、Gemini Cli崛起· 1156 条信息
#VS Code
#Copilot
#K8s配置
#Vibe Coding
#自动化运维
分享
评论 0
0
ilovelife
2个月前
#每日推荐 一站式自动化运维解决方案。 资产管理:支持对资产进行分组,实现对主机、密钥和身份的统一管理和授权。 在线终端:提供在线终端多种协议,支持快捷命令、自定义快捷键和主题风格。 文件管理:支持远程主机 SFTP 大文件的批量上传、下载和在线编辑等操作。
#自动化运维
#资产管理
#在线终端
#文件管理
分享
评论 0
0
Y11
4个月前
使用的模拟面试,还是能看懂一些行业真相,可以看懂JD背后的潜台词: 1. 譬如新媒体运营,通常都是10个手机号开始注册起(一个人管10个账号)。 2. 譬如运维,通常需要懂Python,主要任务是自动化运维,包括自动告警、自动报表、容灾与灾后恢复、自动CICD、堡垒机、自动扩容.KPI主要看效率提升和恢复速度(从几十分钟到几分钟地优化)。 3. 譬如要求学历为‘博士’的各种AI方向的高招岗,主要任务不是实现各种新颖的基础功能,而是要出去参加行业会议,给公司产品站台(哪怕公司产品就是一坨屎),协同新媒体和PR团队发玄学吹牛稿。 即使Job description上写得再美好,转化为KPI和OKR之后,实际使用面试押题功能和模拟面试功能,总是让人更理性地看清楚这到底是干什么的岗位。
#模拟面试
#行业真相
#新媒体运营
#运维
#Python
#自动化运维
#自动告警
#自动报表
#容灾与灾后恢复
#自动CICD
#堡垒机
#自动扩容
#KPI
#效率提升
#恢复速度
#AI
#高招岗
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞