时政
财经
科技
虚拟货币
其他
登录
#SRE
关注
ilovelife
1天前
#今天看了啥 线上故障应急处理:4 年多 on call 经验总结 🙌 思路清晰,有理有据,建议SRE岗位的都读一读
#线上故障
#应急处理
#SRE
#on call
#经验总结
分享
评论 0
0
plantegg
2周前
我来捞一下这篇 3 年前的文章,大家天天离不开 SSH,又感觉这玩意是个程序员就会用,但是我真正会用是看了一本 500 页关于 SSH 的书才知道 SSH 有这么强大,是的,一本 500 页的书只讲 SSH,当年我司的 SRE 送给我的
#SSH
#SRE
#程序员
#技术
#经验分享
分享
评论 0
0
Viking
2周前
我非常喜欢的一本书是 《SRE》 虽然我不是 devops,虽然里面的内容好多都是半知半解,但是里面 google 的方法论一直深深的影响着我,开阔眼界,属于常看常新。 其中有一个章节我记得最清楚,在豆瓣上很多热评都说到: 它的 On Call 机制,闪烁着人文关怀的光环。 1 为了准时下班而安排跨时区的工作交接,使用“follow the sun”(跟随太阳)模型,将值班责任在不同时区的团队间交接,确保每个工程师能准时结束轮班,避免夜班和连续高强度工作。 2 为了保证创造力,不安排超过50%的例行工作,核心原则是限制“toil”(琐碎、重复的手动运营工作,如例行维护、警报处理),不超过总时间的50%,以留出空间给工程项目(如自动化开发、系统优化)。 3 当一个人压力太大时,就应该增加人手,如果单个工程师或团队压力过大(e.g., 超过2个事件/轮班),需立即采取行动,包括增加人手(headcount)、重新分配负载或嵌入更多SRE。管理层有责任干预,确保可持续性。 对比一下国内大厂的工作压力,这真的像在读童话故事...
#SRE
#Google
#On Call机制
#人文关怀
#工作压力
分享
评论 0
0
NadeshikoManju@薫る花は凛と咲く7月5日播出
4周前
怎么说,今天在重保活动的时候,犯了一个很低级的错误,虽然发现的及时没有造成太大的损失,但是还是负罪感爆棚了 还是那句话 SRE 犯错后的代价非常大,处理起来也非常麻烦 所以敬畏生产,谨慎前行 准备在活动时候复盘的时候正儿八经给帮助处理事故的同事认真道个歉了(虽然大家都觉得没啥大不了(但是这是我得做的事
#重保活动
#低级错误
#负罪感
#SRE
#道歉
分享
评论 0
0
NadeshikoManju@薫る花は凛と咲く7月5日播出
1个月前
被同事赞美省心,活好 看目前看起来我自己的秉持的一定要去尝试理解业务的路子是没有错的 搞 SRE 的,一定是要把业务的体感降到最低的
#同事赞美
#省心
#理解业务
#SRE
#降低业务体感
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞