回到顶部

【北京站】Cloudera Developer Training for Spark and Hadoop(CCA-175)

2019年1月26日 9:00 ~ 2019年1月29日 17:00

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    培训内容 
    通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:

    •   Hadoop 机群上进行分布式存储和处理数据。
    •  通在 Hadoop 机群上编写、配置和部署 Apache Spark 应用。 
    •  使用 Spark shell 进行交互式数据分析。 
    •  使用 Spark SQL 查询处理结构化数据。 
    •  使用 Spark Streaming 处理流式数据。 
    •  使用 Flume  Kafka  Spark Streaming 采集流式数据。

    培训对象及学员基础
    本课程适合于具有编程经验的开发员及工程师。无需 Apache Hadoop 基础
    •  培训内容中对 Apache Spark 的介绍所涉及的代码及练习使用 Scala  Python,因此需至少掌握这两个编程语言中的一种。 
    •  需熟练掌握 Linux 命令行。 
    •   SQL 有基本了解。

    建议参加完该课程的学员考取CCA Spark and Hadoop全球认证证书,证书全球通用。

    证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

    QQ截图20180518145058.jpg

    培训费用培训咨询课程大纲

    培训费7360元/人(含授课服务、授课教材、实验手册、培训期间虚拟机、税票费用)。

    报名咨询|:1438118790


    课程大纲

    第一天

    Hadoop 及生态系统介绍 
      Apache Hadoop 概述   数据存储和摄取   数据处理   数据分析和探索   其他生态系统工具   练习环境及分析应用场景介绍
    Apache Hadoop
     文件存储 
      传统大规模系统的问题   HDFS 体系结构   使用 HDFS   Apache Hadoop 文件格式
    Apache Hadoop 机群上的数据处理
     
      YARN 体系结构   使用 YARN
    使用 Apache Sqoop 导入关系数据
     
      Sqoop 简介   数据导入   导入的文件选项   数据导出
    Apache Spark 基础
     
      什么是 Apache Spark   使用 Spark Shell   RDDs( 可恢复的分布式数据集)   Spark 里的函数式编程


    第二天
    Spark RDD
     
      创建 RDD   其他一般性 RDD 操作
    使用键值对 RDD
      键值对 RDD   MapReduce   其他键值对 RDD 操作
    编写和运行 Apache Spark 应用
     
      Spark 应用对比 Spark Shell   创建 SparkContext   创建 Spark 应用(Scala 和 Java)   运行 Spark 应用   Spark应用 WebUI
    配置 Apache Spark 应用
     
      配置 Spark 属性   运行日志 
    Apache Spark 
    的并行处理 
      回顾:机群环境里的 Spark   RDD 分区   基于文件 RDD 的分区   HDFS 和本地化数据   执行并行操作   执行阶段及任务
    Spark 持久化
     
      RDD 演变族谱   RDD 持久化简介   分布式持久化


    第三天
    Apache Spark 数据处理的常见模式
     
      常见 Spark 应用案例   迭代式算法   机器学习   例子:K - Means
    DataFrames 和 Spark SQL
     
      Apache Spark SQL 和 SQL Context   创建 DataFrames   变更及查询 DataFrames   保存 DataFrames   DataFrames 和 RDD   Spark SQL 对比 Impala 和Hive-on-Spark   Spark 2.x 版本上的 Apache Spark SQL
    Apache Kafka
     
      什么是 Apache Kafka   Apache Kafka 概述   如何扩展 Apache Kafka   Apache Kafka 机群架构   Apache Kafka 命令行工具
    使用 Apache Flume 采集实时数据
     
      什么是 Apache Flume   Flume 基本体系结构   Flume 源   Flume 槽   Flume 通道   Flume 配置


    第四天

    集成 Apache Flume 和 Apache Kafka 
      概要   应用案例   配置

    Apache Spark Streaming:DStreams 介绍 
      Apache Spark Streaming 概述   例子:Streaming 访问计数   DStreams   开发 Streaming 应用
    Apache Spark Streaming:批处理
     
      批处理操作   时间分片   状态操作   滑动窗口操作

    Apache Spark Streaming:数据源 
      Streaming 数据源概述   Apache Flume 和Apache Kafka 数据源   例子:使用 Direct 模式连接 Kafka • 数据源



    举报活动

    活动标签

    最近参与

    • test
      收藏

      (5年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    时课网

    时课网

    上海碧茂信息科技有限公司,是中国科学院上海计算技术研究所孵化企业,全球顶级大数据科技公司Cloudera中国区合作伙伴,专业大数据解决方案服务商。 公司成立于2011年,肩负推进中国科学院上海计算技术研究所项目成果产业化的使命,致力于中国企业,尤其是金融、政府、电信等行业的数字化转型战略。

    微信扫一扫

    分享此活动到朋友圈

    免费发布