【热点话题】

达内大数据框架阶段培训课程大纲

发布：Java培训
来源：Java教程
时间：2019-04-23 11:38

大数据高并发基础
大数据 java 加强	学习 java 中关于Concurrent 高并发包、NIO、序列化反序列化（AVRO）、RPC 等相关知识，掌握zookeeper、sqoop 等大数据领域常用工具原理及使用，为后续大数据课程学习、分布式理论理解打下基础。
大数据离线数据分析
Hadoop	Hadoop 是知名的大数据处理工具，包括分布式数据存储系统HDFS、分布式数据计算框架 MapReduce 和资源协调框架Yarn 三大组件。 HDFS:详细讲解 HDFS 使用方式、存储机制、可靠性保证、上传、下载、删除等实现原理、 Java 开发Api、开发插件等内容 MapReduce: 详细讲解MR 理论基础、开发方式、序列化机制、分区机制、Combiner 机制、shuffle 详细流程、MR 案例、MR 性能优化等内容 Yarn: 介绍 Yarn 资源协调框架的基本原理、使用及调优。 Hadoop 是大数据生态中知名的组件，在行业中应用广泛，是学习大数据重要的技术之一。
Flume	Flume 是大数据生态环境中流行的日志收集框架，基于其灵活的可广泛配置的使用方式及优良的效率被广泛的应用在大数据生产环境中。课程中详细讲解Channel、Sink、Selector、Interceptor、Processor 等组件的使用。并通过美团应用案例，展示了 Flume 企业级应用场景的实现方式，并在后续项目中有大量的应用。
Hive	Hive 是基于 Hadoop 的数据仓库工具，通过将结构化的数据文件映射为 HIVE 中的表，并提供类 SQL 的语法实现数据处理。学习内容包括hive 的安装配置、hive 的元数据库、hive 的内部表外部表、hive 的分区表、hive 的分桶表、hive 的语法、hive 的UDF 等内容
Hbase	HBase 是一种分布式、面向列的基于 hadoop的非关系型数据库，适合存储半结构化、非结构化的数据，基于其优良的设计，可以提供良好的实时数据存取能力，并提供更好的横向扩展能力，在企业级大数据开发中占用重要地位。课程中详细介绍了 Hbase 使用方式、Hbase 逻辑结构、Hbase 的理论基础 -LSM 树、Hbase 的实现原理、Hbase 表设计原则等内容，从理论到实践讲解 Hbase 相关知识
Zebra 项目	项目名称：zebra 电信日志数据分析项目业务背景：电信行业通过大量的电信基站为移动设备提供 3G、4G 网络信号，在移动设备通过基站访问网络的过程中，基站将会记录所有的访问数据，此项目通过大数据离线分析技术分析这些日志，得到相关的业务结论指导行业改进。学习目标：通过学习 zebra 电信日志分析项目，掌握企业级大数据离线分析技术应用的技术： flume 收集日志，采用三层结构实现日志收集聚集最终持久化到 hadoop hdfs 中并实现日志收集过程中的失败恢复及负载均衡；hadoop hdfs 分布式存储收集到的日志数据，hadoop mapreduce 进行日志清洗、格式转换； hive 进行日志处理、业务规则计算，按照不同维度分时段统计应用受欢迎程度、网站受欢迎程度、小区上网能力、小区上网喜好等信息； sqoop 技术将处理完成的结果导出到关系型数据库；ECharts 通过web 技术实现结果数据的可视化； Zookeeper 作为集群协调、集群状态监控工具。
大数据实时数据分析
Storm	Storm 是大数据行业中流行的大数据实时分析框架之一，是一个分布式的、高容错的实时计算系统，能够实现具有可靠性保障的分布式实时数据处理，在行业中广泛应用。在课程中讲解包括 Storm 基础、可靠性保证、并发控制、实现原理、Topology、 StormSpout、StormBolt、StormStream、行业应用等相关内容。
Kafka	Kafka 是一种具有高吞吐能力的分布式发布订阅消息系统，具有传统消息队列相关特性，此外具有一些独特的设计，可以实现分布式持久化的消息队列，在实时处理过程中通常用做数据缓存，为实时处理系统提供缓冲能力。在课程中包括 kafka 的安装配置、基本概念、实现原理、可靠性保障等相关理论及应用相关内容。
分布式编程思想	大数据问题的本质是海量数据，大数据解决方案的核心理念是分布式，分布式场景有其独特的问题、解决方案、设计思想，本节通过讨论分布式在各种技术背景、业务场景下的应用，揭示分布式技术的原理及应用原则。
网站流量分析项目	项目名称：电商网站流量分析项目学习目标：通过电商网站流量分析项目掌握企业级大数据离线分析、实时分析的的架构设计、技术应用及业务背景：网站在运营过程中除了产生大量的业务数据外还会产生大量的用户行为数据，包括用户访问网站时鼠标点击、浏览器信息、会话信息、语言环境、所处地域等相关信息，网站流量分析项目通过大数据离线、实时分析技术，分析用户产生的大量行为数据，得到网站运行方关注的各项业务指标数据，引导网站改进其页面布局、广告投放等相关运营行为，提升网站运行效率。应用的技术：通过在网站的前台页面中进行 js 埋点收集用户访问网站的行为信息；通过Ngnix 和 Tomcat 服务器集群收集用户产生的行为数据，并通过 Flume来进行收集、汇聚数据并分发到HDFS 和 Kafka 为离线分析和实时分析提供数据来源；离线分析中通过 MR、Hive 等技术实现业务指标的离线计算，并通过 Sqoop 导出结果数据到关系型数据库；实时分析中通过 Storm 消费 Kafka 中的数据实现实时计算，中间数据通过 HBase 进行存储，结果数据通过JDBC 写出到关系型数据库中；最终通过大数据可视化技术将结果数据展示给最终用户。计算指标包括网站的 PV、UV、VV、Bounce Rate、独立 ip、平均在线时长、新独立访客、访问深度等信息。整个系统分为数据收集、数据传递、数据分析三部分，数据分析又分为离线数据分析和实时数据分析，应对数据分析的不同的实时性需求。
大数据内存计算框架
SCALA	Scala 是一门函数式编程的语言，是学习 Spark 的基础，并在其他场景下也有广泛应用是一门多范式的编程语言，集成面向对象编程和函数式编程的各种特性。 Scala 视一切数据类型皆对象，且支持闭包、lambda 等特性，语法简洁。Scala 使用Actor 作为并发模型，与 Akka 框架自然契合，是一种基于数据共享为主要机制的并发开发模式。 Scala 语言灵活、代码简介、高并发处理机制优良，特别适合于复杂的函数型计算，是 Spark 学习的基础语言。 Scala 的语法内容包括：方法定义、变量、字符串、泛型、Option、集合、程序控制结构、匿名函数、类、Class Case 样例类。模式匹配、traits、extends、函数式编程、高阶函数、AKKA 编程等内容。学员学习完成后可以掌握 Scala 这门语言，并理解函数式编程这种编程范式。
SPARK	知名的内存计算框架，可用来构建大型的、低延迟的数据分析应用程序，在迭代处理计算方面比 Hadoop 快 100 倍以上。 Spark 构建了自己的整个大数据处理生态系统，如流处理、图计算、机器学习、类 SQL 查询等方面都有自己的技术，并且是 Apache 顶级项目。基于其良好的设计、超强的性能、良好的编程接口、丰富的生态体系，在大数据开发领域发展迅速，特别是最近几年在国内的大数据开发领域中得到了广泛的应用。内容包括SparkCore：Spark 核心计算模型。包括 Spark 基础、RDD 弹性分布式数据集、DAG 有向无环图、Spark 原理（懒执行机制、宽依赖、窄依赖、Transformation 类型方法、Action 类型方法、流水线优化、Shuffle 过程等）、Spark 中的函数等内容，通过学习可以掌握 Spark 心计算机制。 SparkSQL:基于 Spark 的 SQL 编程接口，可以实现在 Spark 中通过类 SQL 的方式操作数据，因其基于性能优良的 Spark 工作，性能相对于 Hive 有大幅提升 SparkStreaming：基于Spark 实现的流式计算，相对于 Storm 在吞吐率、可靠性保证、开发便利程度上都有质的飞跃 SparkMllib：基于 Spark 的机器学习相关组件，可以实现海量数据下的机器学习。
推荐系统项目	学习目标：通过学习推荐系统项目掌握推荐系统相关算法、了解海量数据场景下自动化推荐技术、提升综合运用大数据技术的能力、提高对算法、WEB 技术、互联网架构等技术的应用能力，实现企业级大数据开发的架构设计、需求分析、业务实现等环节，掌握大数据技术的综合运用能力。业务背景：在线学习网站在运营时产生了大量用户的访问、浏览、购买课程、支付等相关数据，通过这些数据为用户精准推荐相关产品，提升网站的用户体验。应用的技术：综合应用之前所学技术实现，包括大数据离线分析技术、大数据实时分析技术、WEB 技术、可视化技术、算法、机器学习等技术实现该项目。主要过程包括：收集业务系统数据库中结构化数据、日志系统中的行为数据，构建基于hive 的数据仓库，基于数据仓库中的基础数据，利用推荐算法实现基于商品的推荐系统，为在线学习网站高效推荐提供支持。
Python 爬虫、数据可视化
Python 语言及爬虫	Python 是一种脚本化语言 , 具有简单易用、天然开源、生态丰富、应用范围广泛的特点。在大数据技术中，数据获取是第一步骤，其中利用爬虫获取互联网中公开的数据是一种非常常见的场景。 Python 爬虫技术在爬虫领域具有很广泛的应用, 课程中将介绍Python 的基本语法、基于 Python 的爬虫实现、Scrapy、PySpider 等爬虫框架，使学员具有基于 Python 的爬虫开发能力。
数据可视化	数据可视化技术是大数据处理过程中的结果展示相关技术，通过相关工具将分析结果展示为直观的、美观的图形页面，为最终用户提供展内容包括：利用 Echarts 等 Web 前端技术实现大数据可视化利用相关大数据可视化工具实现大数据可视化等内容

【免责声明】本文部分系转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，如涉及作品内容、版权和其它问题，请在30日内与我们联系，我们会予以重改或删除相关文章，以保证您的权益！

上一篇：达内大数据互联网架构阶段培训课程大纲

下一篇：达内数据挖掘与机器学习算法阶段（线上教学）培训课程大纲

猜你喜欢

新达内鸿蒙系统培训怎么样

2025-09-26

新达内Java就业培训学多久

2025-09-25

C#和Java哪个更值得学？

2024-07-01

Java开发高端课程免费试学

大咖讲师+项目实战全面提升你的职场竞争力

海量实战教程
1V1答疑解惑
行业动态分析
大神学习路径图

达内大数据框架阶段培训课程大纲

发布：Java培训
来源：Java教程
时间：2019-04-23 11:38

大数据高并发基础
大数据 java 加强	学习 java 中关于Concurrent 高并发包、NIO、序列化反序列化（AVRO）、RPC 等相关知识，掌握zookeeper、sqoop 等大数据领域常用工具原理及使用，为后续大数据课程学习、分布式理论理解打下基础。
大数据离线数据分析
Hadoop	Hadoop 是知名的大数据处理工具，包括分布式数据存储系统HDFS、分布式数据计算框架 MapReduce 和资源协调框架Yarn 三大组件。 HDFS:详细讲解 HDFS 使用方式、存储机制、可靠性保证、上传、下载、删除等实现原理、 Java 开发Api、开发插件等内容 MapReduce: 详细讲解MR 理论基础、开发方式、序列化机制、分区机制、Combiner 机制、shuffle 详细流程、MR 案例、MR 性能优化等内容 Yarn: 介绍 Yarn 资源协调框架的基本原理、使用及调优。 Hadoop 是大数据生态中知名的组件，在行业中应用广泛，是学习大数据重要的技术之一。
Flume	Flume 是大数据生态环境中流行的日志收集框架，基于其灵活的可广泛配置的使用方式及优良的效率被广泛的应用在大数据生产环境中。课程中详细讲解Channel、Sink、Selector、Interceptor、Processor 等组件的使用。并通过美团应用案例，展示了 Flume 企业级应用场景的实现方式，并在后续项目中有大量的应用。
Hive	Hive 是基于 Hadoop 的数据仓库工具，通过将结构化的数据文件映射为 HIVE 中的表，并提供类 SQL 的语法实现数据处理。学习内容包括hive 的安装配置、hive 的元数据库、hive 的内部表外部表、hive 的分区表、hive 的分桶表、hive 的语法、hive 的UDF 等内容
Hbase	HBase 是一种分布式、面向列的基于 hadoop的非关系型数据库，适合存储半结构化、非结构化的数据，基于其优良的设计，可以提供良好的实时数据存取能力，并提供更好的横向扩展能力，在企业级大数据开发中占用重要地位。课程中详细介绍了 Hbase 使用方式、Hbase 逻辑结构、Hbase 的理论基础 -LSM 树、Hbase 的实现原理、Hbase 表设计原则等内容，从理论到实践讲解 Hbase 相关知识
Zebra 项目	项目名称：zebra 电信日志数据分析项目业务背景：电信行业通过大量的电信基站为移动设备提供 3G、4G 网络信号，在移动设备通过基站访问网络的过程中，基站将会记录所有的访问数据，此项目通过大数据离线分析技术分析这些日志，得到相关的业务结论指导行业改进。学习目标：通过学习 zebra 电信日志分析项目，掌握企业级大数据离线分析技术应用的技术： flume 收集日志，采用三层结构实现日志收集聚集最终持久化到 hadoop hdfs 中并实现日志收集过程中的失败恢复及负载均衡；hadoop hdfs 分布式存储收集到的日志数据，hadoop mapreduce 进行日志清洗、格式转换； hive 进行日志处理、业务规则计算，按照不同维度分时段统计应用受欢迎程度、网站受欢迎程度、小区上网能力、小区上网喜好等信息； sqoop 技术将处理完成的结果导出到关系型数据库；ECharts 通过web 技术实现结果数据的可视化； Zookeeper 作为集群协调、集群状态监控工具。
大数据实时数据分析
Storm	Storm 是大数据行业中流行的大数据实时分析框架之一，是一个分布式的、高容错的实时计算系统，能够实现具有可靠性保障的分布式实时数据处理，在行业中广泛应用。在课程中讲解包括 Storm 基础、可靠性保证、并发控制、实现原理、Topology、 StormSpout、StormBolt、StormStream、行业应用等相关内容。
Kafka	Kafka 是一种具有高吞吐能力的分布式发布订阅消息系统，具有传统消息队列相关特性，此外具有一些独特的设计，可以实现分布式持久化的消息队列，在实时处理过程中通常用做数据缓存，为实时处理系统提供缓冲能力。在课程中包括 kafka 的安装配置、基本概念、实现原理、可靠性保障等相关理论及应用相关内容。
分布式编程思想	大数据问题的本质是海量数据，大数据解决方案的核心理念是分布式，分布式场景有其独特的问题、解决方案、设计思想，本节通过讨论分布式在各种技术背景、业务场景下的应用，揭示分布式技术的原理及应用原则。
网站流量分析项目	项目名称：电商网站流量分析项目学习目标：通过电商网站流量分析项目掌握企业级大数据离线分析、实时分析的的架构设计、技术应用及业务背景：网站在运营过程中除了产生大量的业务数据外还会产生大量的用户行为数据，包括用户访问网站时鼠标点击、浏览器信息、会话信息、语言环境、所处地域等相关信息，网站流量分析项目通过大数据离线、实时分析技术，分析用户产生的大量行为数据，得到网站运行方关注的各项业务指标数据，引导网站改进其页面布局、广告投放等相关运营行为，提升网站运行效率。应用的技术：通过在网站的前台页面中进行 js 埋点收集用户访问网站的行为信息；通过Ngnix 和 Tomcat 服务器集群收集用户产生的行为数据，并通过 Flume来进行收集、汇聚数据并分发到HDFS 和 Kafka 为离线分析和实时分析提供数据来源；离线分析中通过 MR、Hive 等技术实现业务指标的离线计算，并通过 Sqoop 导出结果数据到关系型数据库；实时分析中通过 Storm 消费 Kafka 中的数据实现实时计算，中间数据通过 HBase 进行存储，结果数据通过JDBC 写出到关系型数据库中；最终通过大数据可视化技术将结果数据展示给最终用户。计算指标包括网站的 PV、UV、VV、Bounce Rate、独立 ip、平均在线时长、新独立访客、访问深度等信息。整个系统分为数据收集、数据传递、数据分析三部分，数据分析又分为离线数据分析和实时数据分析，应对数据分析的不同的实时性需求。
大数据内存计算框架
SCALA	Scala 是一门函数式编程的语言，是学习 Spark 的基础，并在其他场景下也有广泛应用是一门多范式的编程语言，集成面向对象编程和函数式编程的各种特性。 Scala 视一切数据类型皆对象，且支持闭包、lambda 等特性，语法简洁。Scala 使用Actor 作为并发模型，与 Akka 框架自然契合，是一种基于数据共享为主要机制的并发开发模式。 Scala 语言灵活、代码简介、高并发处理机制优良，特别适合于复杂的函数型计算，是 Spark 学习的基础语言。 Scala 的语法内容包括：方法定义、变量、字符串、泛型、Option、集合、程序控制结构、匿名函数、类、Class Case 样例类。模式匹配、traits、extends、函数式编程、高阶函数、AKKA 编程等内容。学员学习完成后可以掌握 Scala 这门语言，并理解函数式编程这种编程范式。
SPARK	知名的内存计算框架，可用来构建大型的、低延迟的数据分析应用程序，在迭代处理计算方面比 Hadoop 快 100 倍以上。 Spark 构建了自己的整个大数据处理生态系统，如流处理、图计算、机器学习、类 SQL 查询等方面都有自己的技术，并且是 Apache 顶级项目。基于其良好的设计、超强的性能、良好的编程接口、丰富的生态体系，在大数据开发领域发展迅速，特别是最近几年在国内的大数据开发领域中得到了广泛的应用。内容包括SparkCore：Spark 核心计算模型。包括 Spark 基础、RDD 弹性分布式数据集、DAG 有向无环图、Spark 原理（懒执行机制、宽依赖、窄依赖、Transformation 类型方法、Action 类型方法、流水线优化、Shuffle 过程等）、Spark 中的函数等内容，通过学习可以掌握 Spark 心计算机制。 SparkSQL:基于 Spark 的 SQL 编程接口，可以实现在 Spark 中通过类 SQL 的方式操作数据，因其基于性能优良的 Spark 工作，性能相对于 Hive 有大幅提升 SparkStreaming：基于Spark 实现的流式计算，相对于 Storm 在吞吐率、可靠性保证、开发便利程度上都有质的飞跃 SparkMllib：基于 Spark 的机器学习相关组件，可以实现海量数据下的机器学习。
推荐系统项目	学习目标：通过学习推荐系统项目掌握推荐系统相关算法、了解海量数据场景下自动化推荐技术、提升综合运用大数据技术的能力、提高对算法、WEB 技术、互联网架构等技术的应用能力，实现企业级大数据开发的架构设计、需求分析、业务实现等环节，掌握大数据技术的综合运用能力。业务背景：在线学习网站在运营时产生了大量用户的访问、浏览、购买课程、支付等相关数据，通过这些数据为用户精准推荐相关产品，提升网站的用户体验。应用的技术：综合应用之前所学技术实现，包括大数据离线分析技术、大数据实时分析技术、WEB 技术、可视化技术、算法、机器学习等技术实现该项目。主要过程包括：收集业务系统数据库中结构化数据、日志系统中的行为数据，构建基于hive 的数据仓库，基于数据仓库中的基础数据，利用推荐算法实现基于商品的推荐系统，为在线学习网站高效推荐提供支持。
Python 爬虫、数据可视化
Python 语言及爬虫	Python 是一种脚本化语言 , 具有简单易用、天然开源、生态丰富、应用范围广泛的特点。在大数据技术中，数据获取是第一步骤，其中利用爬虫获取互联网中公开的数据是一种非常常见的场景。 Python 爬虫技术在爬虫领域具有很广泛的应用, 课程中将介绍Python 的基本语法、基于 Python 的爬虫实现、Scrapy、PySpider 等爬虫框架，使学员具有基于 Python 的爬虫开发能力。
数据可视化	数据可视化技术是大数据处理过程中的结果展示相关技术，通过相关工具将分析结果展示为直观的、美观的图形页面，为最终用户提供展内容包括：利用 Echarts 等 Web 前端技术实现大数据可视化利用相关大数据可视化工具实现大数据可视化等内容

上一篇：达内大数据互联网架构阶段培训课程大纲

下一篇：达内数据挖掘与机器学习算法阶段（线上教学）培训课程大纲

达内大数据框架阶段培训课程大纲

猜你喜欢

最新文章

Java开发高端课程免费试学

相关推荐

达内大数据框架阶段培训课程大纲

Java开发高端课免费试学

相关推荐

课程

关于

服务