【热点话题】

Java技术干货

Java学习教程

Java学习笔记

Java培训问答

Java培训机构哪些好

Java职场就业

Spark RDD在Spark中的应用

发布：Java培训
来源：Java教程
时间：2020-12-09 11:27

Spark RDD的核心原理

1、Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Work节点上，从而让RDD中的数据可以被并行操作。(分布式数据集)

3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过RDD的本地创建转换而来。

4、传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。

RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。RDD的lineage特性。

5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。(弹性)

一、为什么会有Spark？

因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive)而Spark的使命便是解决这两个问题，这也是他存在的价值和理由。

二、Spark如何解决迭代计算？

其主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。

三、Spark如何实现交互式计算？

因为Spark是用scala语言实现的,Spark和scala能够紧密的集成,所以Spark可以完美的运用scala的解释器,使得其中的scala可以向操作本地集合对象一样轻松操作分布式数据集。

四、Spark和RDD的关系？

可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现。

免责声明：内容来源于公开网络，若涉及侵权联系尽快删除！

【免责声明】本文部分系转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，如涉及作品内容、版权和其它问题，请在30日内与我们联系，我们会予以重改或删除相关文章，以保证您的权益！

上一篇： Java接口入门教程解读

下一篇： Java的算法讲解以及案例

猜你喜欢

查看更多>>

C#和Java哪个更值得学？

2024-07-01

Java设计模式和应用场景？

2024-06-24

Java主流框架都有哪些？

2024-06-24

最新文章

Java是什么意思？

2025-06-04

Java培训班学费一般多少？

2025-05-29

达内Java学费多少？

2025-05-08

Java开发高端课程免费试学

大咖讲师+项目实战全面提升你的职场竞争力

海量实战教程
1V1答疑解惑
行业动态分析
大神学习路径图

相关推荐

更多

eclipse怎么建立Java项目？

eclipse怎么建立Java项目？

eclipse怎么建立Java项目？在使用Eclipse建立Java项目时，可以遵循以下步骤：详情>>

2024-05-10

Java关键词汇总-Java关键字有哪些及其作用？

Java关键词汇总-Java关键字有哪些及其作用？

Java关键词汇总-Java关键字有哪些及其作用？Java语言中的关键字(Keywords)是Java编程语言的核心组成部分，它们具有特定的意义，并被用于表示基本数据类型、控制语句、访问权限等。Java关键字总数大约有50个左右，下面列出了一些常用的Java关键字及其作用：详情>>

2024-04-08

Java编程工具用哪个最好

Java编程工具用哪个最好

Java编程工具用哪个最好？Java编程工具的选择取决于个人的偏好、项目需求和开发环境。以下是一些常用的Java编程工具：详情>>

2024-04-03

好用的Java编写软件

好用的Java编写软件

Java是一种广泛使用的编程语言，因其跨平台、安全性和稳定性而受到许多开发者的喜爱。Java被用于开发各种类型的软件，从桌面应用程序到企业级服务器端应用程序。以下是一些常见的、用Java编写的软件示例：详情>>

2024-04-02

Java培训问答库

更多>

达内Java学费多少？

目前学Java有前途吗？

靠谱的Java编程就业培训机构

Java编程开发就业班

PHP和Java学哪个？

Java培训学费

更多>

Java培训班学费一般多少？

学Java还需要学什么？

学Java需要多少费用？

Java编程学习费用

Java编程要多少钱？

Java就业

更多>

学Java语言有前途吗？

学会Java可以做什么？

学好Java后能做什么？

学完Java好找工作吗？

现在Java工程师的前景

Java开班时间

北京丨 7月31日
火速抢座
上海丨 7月31日
火速抢座
广州丨 7月31日
火速抢座
兰州丨 7月31日
火速抢座
杭州丨 7月31日
火速抢座
南京丨 7月31日
火速抢座
沈阳丨 7月31日
火速抢座
大连丨 7月31日
火速抢座
长春丨 7月31日
火速抢座
哈尔滨丨 7月31日
火速抢座
济南丨 7月31日
火速抢座
青岛丨 7月31日
火速抢座
烟台丨 7月31日
火速抢座
西安丨 7月31日
火速抢座
天津丨 7月31日
火速抢座
石家庄丨 7月31日
火速抢座
保定丨 7月31日
火速抢座
郑州丨 7月31日
火速抢座
合肥丨 7月31日
火速抢座
太原丨 7月31日
火速抢座
苏州丨 7月31日
火速抢座
武汉丨 7月31日
火速抢座
成都丨 7月31日
火速抢座
重庆丨 7月31日
火速抢座
厦门丨 7月31日
火速抢座
福州丨 7月31日
火速抢座
珠海丨 7月31日
火速抢座
南宁丨 7月31日
火速抢座
东莞丨 7月31日
火速抢座
贵阳丨 7月31日
火速抢座
昆明丨 7月31日
火速抢座
洛阳丨 7月31日
火速抢座
临沂丨 7月31日
火速抢座
潍坊丨 7月31日
火速抢座
运城丨 7月31日
火速抢座
呼和浩特丨7月31日
火速抢座
长沙丨 7月31日
火速抢座
南昌丨 7月31日
火速抢座
宁波丨 7月31日
火速抢座
深圳丨 7月31日
火速抢座
大庆丨 7月31日
火速抢座

零基础学Java

更多>

Java适合新手学吗？

女生学Java编程好吗？

女生学习Java开发

学大数据为什么要Java？

学大数据和Java哪个好？

Java架构师如何学习？

Java培训机构

更多>

自己适不适合Java程序员开发培训？Java程序员好做吗？

宁波Java如何学？有什么技巧？

宁波大学生如何正确选择Java培训机构？

宁波学习Java开发如何选择培训机构？

宁波怎样挑选适合自己的Java培训机构？

宁波怎样选择Java培训机构？

Java推荐栏目

咨询
试听
教程
售后
400-111-8989
合作
lihm@tedu.cn

Java培训常见问题

Java培训机构哪家好

学Java好就业吗

了解达内

南宁

Spark RDD在Spark中的应用

发布：Java培训
来源：Java教程
时间：2020-12-09 11:27

Spark RDD的核心原理

1、Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Work节点上，从而让RDD中的数据可以被并行操作。(分布式数据集)

3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过RDD的本地创建转换而来。

4、传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。

RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。RDD的lineage特性。

5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。(弹性)

一、为什么会有Spark？

因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive)而Spark的使命便是解决这两个问题，这也是他存在的价值和理由。

二、Spark如何解决迭代计算？

其主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。

三、Spark如何实现交互式计算？

因为Spark是用scala语言实现的,Spark和scala能够紧密的集成,所以Spark可以完美的运用scala的解释器,使得其中的scala可以向操作本地集合对象一样轻松操作分布式数据集。

四、Spark和RDD的关系？

可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现。

免责声明：内容来源于公开网络，若涉及侵权联系尽快删除！

【免责声明】本文部分系转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，如涉及作品内容、版权和其它问题，请在30日内与我们联系，我们会予以重改或删除相关文章，以保证您的权益！

上一篇： Java接口入门教程解读

下一篇： Java的算法讲解以及案例

Java开发高端课免费试学

相关推荐

eclipse怎么建立Java项目？

eclipse怎么建立Java项目？

eclipse怎么建立Java项目？在使用Eclipse建立Java项目时，可以遵循以下步骤：详情>>

2024-05-10

Java关键词汇总-Java关键字有哪些及其作用？

Java关键词汇总-Java关键字有哪些及其作用？

Java关键词汇总-Java关键字有哪些及其作用？Java语言中的关键字(Keywords)是Java编程语言的核心组成部分，它们具有特定的意义，并被用于表示基本数据类型、控制语句、访问权限等。Java关键字总数大约有50个左右，下面列出了一些常用的Java关键字及其作用：详情>>

2024-04-08

Java编程工具用哪个最好

Java编程工具用哪个最好

Java编程工具用哪个最好？Java编程工具的选择取决于个人的偏好、项目需求和开发环境。以下是一些常用的Java编程工具：详情>>

2024-04-03

好用的Java编写软件

好用的Java编写软件

Java是一种广泛使用的编程语言，因其跨平台、安全性和稳定性而受到许多开发者的喜爱。Java被用于开发各种类型的软件，从桌面应用程序到企业级服务器端应用程序。以下是一些常见的、用Java编写的软件示例：详情>>

2024-04-02

达内教育联系电话

电话：400-996-5531

Copyright 2023 Tedu.cn 京ICP备08000853号-56

京公网安备 11010802029508号

达内时代科技集团有限公司版权所有

注：学员信息+企业信息均来自达内教育内部CRM系统真实统计

课程适用人群：成人