回到顶部

2018第7届TOP100全球软件案例研究峰会---运维专场(AIOps、DevOps、区块链)

2018年12月1日 9:00 ~ 2018年12月3日 17:30

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    随着云计算、 DevOps和 SRE的遍及,区块链技术的发展,运维自动化和效率体系的不断完善,运维已然成为驱动各大公司研发运维流程和理念变革的关键角色,运维人员关注的重点和面临的挑战也更多的聚焦在稳定性、流程效率改进、性能优化、用户体验提升以及成本控制等层面。

    在分布式架构体系下,稳定性保障是一个极为复杂体系建设过程,除稳定性外,每一个不同的阶段都会有不同的挑战。这个挑战究竟何等凶猛?如何借鉴国内外优秀的实践经验?除了技术经验外,思路和模式上又该怎样转变?


    不妨和我们一起来TOP100summit看看!TOP100summit是科技界一年一度的案例研究峰会,每年甄选有学习价值的100个技术创新/研发管理实践,分享他们在本年度最值得的总结、盘点的实践启示。希望本届大会,可以解决当下运维同学们的迷思与困惑。


    本届峰会以“释放AI生产力 让组织向智能化演进”为开幕式主题,旨在推动企业在趋势下拥抱AI、探索和思考AI带来的力量。十八个主题专场,120个案例构成。技术主题将集中在:体验设计、产品创新、运营增长、运维体系、DevOps&SRE、区块链、「大前端」、AI驱动、人工智能、架构演进、团队管理....


    今天,我们将给大家分享组委会历经两个月案例征集,收集到的众多来自海内外优秀的运维技术案例,受篇幅影响,小编挑选5个入围的案例,先睹为快(排名不分先后)。

    蘑菇街SRE&CRE体系建设实践


    赵成.webp.jpg


    赵成

    美丽联合 技术总监


    资深DevOps和运维专家,专栏作家,著有《进化:运维技术变革与实践探索》一书,腾讯云TVP,现任美丽联合集团技术总监。


    案例简述


    随着运维自动化和效率体系的不断完善,运维关注的重点和面临的挑战更多的聚焦在稳定性层面。近两年,随着Google SRE理念的传播和落地,对于稳定性体系建设起到了非常好的引导示范作用。 


    本议题主要分享,蘑菇街在SRE实践方面的经验,以及蘑菇街业务整体搬迁上公有云之后,与云厂商之间的CRE体系建设实践。 


    ROI


    通过SRE和稳定性体系的建设,大大提升了对系统稳定性的把控程度,在3S体系的运作下,也极大的提升了与云厂商的配合效率。


    百度运维自动化向智能化的转型之路


    哈晶晶.webp.jpg


    哈晶晶

    百度 资深架构师


    百度云资深架构师,负责自动化运维平台和智能运维解决方案的产品设计和架构研发,致力于AIOps在百度搜索、广告、信息流、AI、云等核心业务落地,同时,输出百度运维理念、自动化运维产品、智能运维解决方案给行业客户。


    案例简述


    百度运维经历了脚本&工具、自动化运维平台、开放运维平台阶段,在2014年开始智能化运维的探索,并且围绕可用性、成本和效率方向的运维目标在诸多运维场景落地。本次分享将以百度故障处理场景为例,介绍百度故障预防、故障发现、故障诊断和故障止损阶段的AIOps实践经验,同时也会分享百度成熟的智能运维产品和解决方案。


    ROI


    AIOps的核心在于使用大数据和算法变革运维模式,助力业务高速发展,持续提升高质、高效的运维能力,减少自身 dirty work,支撑运营能力提升,为服务增值。在故障发现场景,异常检测算法可减少监控管理的成本,提升监控管理的质量,提升运维人员的能力;在故障预防和故障止损场景,将人的经验进行迁移,使用算法实现智能决策和执行,提供高质量的故障拦截和止损能力,替代运维人员的能力;在较复杂的故障诊断场景中,通过指标关联分析推荐故障的模块和实例,实现智能辅助决策,增强运维人员的能力。



    AIOps在社交平台运维中的应用


    李雄政.webp.jpg

    李雄政

    腾讯SNG社交网络运营部 运维小组负责人


    15年系统开发、集成、运维工作经验,曾任职于华为全球网络运维中心,主管运维平台建设。现就职于腾讯SNG社交网络运营部,负责社交平台业务运维管理。


    案例简述


    本次案例将重点分享AIOps在腾讯SNG社交平台产品中成本、效率、质量上的提升。


    ROI


    目前市面上看,AIOps的一股大潮非常汹涌,本案例给出在海量业务上落地的实践。 决策树、皮尔逊、频繁项集、贝叶斯等理论在运维中的应用。

    1、决策树方法在质量和成本中的应用 – 助力成功率提升到99.99%,成本策略落地 

    2、LR、皮尔逊方法在容量评估、节假日准备上的应用,高效管理容量,容量评估从人肉、自动、准确率大幅提升 

    3、频繁项集、贝叶斯等方法在告警收敛上的应用,快速发现根因


    直播平台的运维保障实践


    张观石.webp.jpg

    张观石

    虎牙 直播业务运维负责人


    10余年网站开发、架构、运维经验;目前关注互联网服务可靠性系统工程、运维平台的规划建设、网站高可用架构等方面;在音视频传输质量评估、微服务运维方面积累了丰富的经验。


    案例简述


    本案例会讲到虎牙是如何从0到1建立音视频质量全链路监控、感知、保障,以及评估我们的质量。直播流程是从主播端->推流点->CDN转推收流点->转码->分发->观众端(各省市、运营商、各种端),整个链路长、实时性要求高,环节多。


    如何做全链路质量数据采集、上报、存储、展示和告警;如何在直播过程中快速发现某条流的卡顿问题,快速修复直播故障,帮助我们从多个方面提升整个组织的效率;如何帮助提升直播平台的音视频的传输质量,提升主播和观众的观看直播的体验。


    ROI


    运维效率的提升,直播质量的提升


    三七互娱故障追踪和故障自愈系统


    童传江.webp.jpg

    童传江

    三七互娱 运维开发负责人


    三七互娱运维开发负责人 ,运维行业7年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。


    案例简述


    在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障治愈系统,成了质量保证部门的刚需,通过行业标准化的paas平台模式和Trace追踪技术,从而实现整个架构的质量可控。


    ROI


    通过半年的开发,对整体业务的质量有了本质的提升。 整个paas和trace系统开发周期2人半年,系统上线后,中级以上故障平均处理时间从20分钟,提升到5分钟左右。


    运维专场目前已公开案例


    • 《三七互娱故障追踪和故障自愈系统》童传江 三七互娱 运维开发负责人

    • 《AIOps在社交平台运维中的应用》李雄政 腾讯 社交平台运维小组负责人

    • 《DevOps落地实践-研发效能解决方案》唐洪山 京东金融 研发支持团队负责人

    • 《蘑菇街SRE&CRE体系建设实践》赵成 美丽联合 技术总监

    • 《百度运维自动化向智能化的转型之路》哈晶晶 百度 资深架构师

    • 《直播平台的运维保障实践》张观石 虎牙直播 直播业务运维负责人

    • 《平安壹钱包DevOps实践》黄河 平安壹钱包 智能运维负责人/资深架构师

    • 《数据驱动的数据中心》杨珂 Salesforce 技术产品总监

    • 《美图基于开源,打造端到端的一体化监控体系》石鹏 美图 运维架构师


      讲师及案例详情欢迎前往官网查看:http://www.top100summit.com/?qd=huodongxing


    举报活动

    活动标签

    最近参与

    • 温馨
      收藏

      (6年前)

    • 大象
      收藏

      (6年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    麦思博(北京)软件技术有限公司

    麦思博(北京)软件技术有限公司

    麦思博(msup)有限公司是一家面向软件研发团队的培训咨询机构,专注于软件研发中心的快速成长,服务于软件开发团队的技能提升、软件工程的实际应用和软件品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重个体的技能提升与职业发展,研发团队的管理与协作。分享世界级软件研发团队最佳管理实践。

    微信扫一扫

    分享此活动到朋友圈

    免费发布