学大数据需要什么基本功?大数据学习路线是什么?
大数据学习路线是什么
有很多朋友问过我,大数据到底是什么?一句话来概括:
一、通俗讲大数据是什么?
针对非软件行业的朋友
根据你平时在超市,加油站,饭店等地方的一些消费行为,通过大数据这个技术,我们可以知道你现在的年龄范围,是否婚配,是否有孩子,孩子大致是几岁,是否有固定住宅,车大致是什么价位的等信息。
针对软件行业的朋友
平时我们写的程序都是在一台机器上运行,处理能力有限,当然,数据量也是有限的。大数据这个技术,其实就是可以实现把我们的代码分布在很多台机器上去并行处理海量的数据,然后从这些海量数据中获取有价值,有意义的信息。
二、学习大数据需要的基本功
1. linux基础是必须的,最起码需要掌握linux命令行下的基本操作命令
2. javase基础【包含mysql】,注意是javase,不是javaee。javaweb那一块的知识针对大数据工程师而言不是必须的
三、大数据技术板块划分
数据采集
flume kafka logstash filebeat …
数据存储
mysql redis hbase hdfs …
虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它
数据查询
hive impala elasticsearch kylin …
数据计算
实时计算
storm sparkstreaming flink …
离线计算
hadoop spark …
其他框架
zookeeper …
其实,学习大数据,就是要学习大数据生态圈周边的各种框架。
四、大数据学习步骤
上面虽然列出来了很多框架,但是最开始学习的时候没必要全部都学,就算是在工作中,这些框架也不一定会全部用到。
下面我就大致列一下,各种框架的一个学习步骤吧:
注意:下面列出来的顺序只是个人建议,可以根据个人实际情况来调整顺序
linux基础和javase基础【包含mysql】
这些是基本功,刚开始也不可能学的很精通,最起码要对linux中的一些基本的命令混个脸熟,后面学习各种框架的时候都会用到,用多了就熟悉了。javase的话建议主要看面向对象,集合,io,多线程,以及jdbc操作即可。
zookeeper
zookeeper是很多大数据框架的基础,中文名称是动物园的意思,因为目前的大数据框架的图标很多都是动物的形状,所以zookeeper其实就是可以管理很多大数据框架的。针对这个框架,主要掌握如何搭建单节点和集群,以及掌握如何在zkcli客户端下对zookeeper的节点进行增删改查操作即可。
hadoop
目前企业中一般都是用hadoop2.x的版本了,所以就没有必要再去学hadoop1.x版本了,hadoop2.x主要包含三大块
hdfs 前期,主要学习hdfs的一些命令即可,上传,下载,删除,移动,查看等命令…
mapreduce 这个需要重点学习下,要理解mr的原理以及代码实现,虽然现在工作中真正写mr的代码次数很少了,但是原理还是要理解的。
yarn 前期了解即可,只需要知道yarn是一个资源调度平台,主要负责给任务分配资源即可,yarn不仅可以给mapreduce任务调度资源,还可以为spark任务调度资源…yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用yarn来进行资源调度。
hive
hive是一个数据仓库,所有的数据都是存储在hdfs上的,具体【数据仓库和数据库】的区别大家可以去网上搜索一下,有很多介绍。
其实如果对mysql的使用比较熟悉的话,使用hive也就简单很多了,使用hive主要是写hql,hql是hive的sql语言,非常类似于mysql数据库的sql,后续学习hive的时候主要理解一些hive的语法特性即可。其实hive在执行hql,底层在执行的时候还是执行的mapredce程序。
注意:其实hive本身是很强大的,数据仓库的设计在工作中也是很重要的,但是前期学习的时候,主要先学会如何使用就好了。后期可以好好研究一下hive。
-spark
spark 现在发展的也很不错,也发展成了一个生态圈,spark里面包含很多技术,spark core,spark steaming,spark mlib,spark graphx。
spark生态圈里面包含的有离线处理spark core,和实时处理spark streaming,在这里需要注意一下,storm和spark streaming ,两个都是实时处理框架,但是主要区别是:storm是真正的一条一条的处理,而spark streaming 是一批一批的处理。
spark中包含很多框架,在刚开始学习的时候主要学习spark core和spark streaming即可。这个一般搞大数据的都会用到。spark mlib和spark graphx 可以等后期工作需要或者有时间了在研究即可。
目前暂且列出来这么多吧,大数据生态圈目前还有很多比较好的技术框架,这个就需要等大家以后工作之后再去扩展了。
其实上面列出来的这些框架,在学习的时候,要专门挑一两个着重研究一下,最好针对,底层原理,优化,源码等部分有所涉猎,这么的话可以在面试过程中脱颖而出。不要想着把每一个框架都搞精通,目前是不现实的,其实就算是在工作中也不会每一个框架都会用的很深。
如果能过对上面的框架都大致会使用,并且对某一两个框架研究的比较深的话,其实想去找一份满意的大数据工作也就水到渠成了。
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,如涉及作品内容、版权和其它问题,请在30日内与我们联系,我们会予以重改或删除相关文章,以保证您的权益!
Java开发高端课程免费试学
大咖讲师+项目实战全面提升你的职场竞争力
- 海量实战教程
- 1V1答疑解惑
- 行业动态分析
- 大神学习路径图
相关推荐
更多


2025-05-23



Java开班时间
-
北京 丨 8月29日
火速抢座 -
上海 丨 8月29日
火速抢座 -
广州 丨 8月29日
火速抢座 -
兰州 丨 8月29日
火速抢座 -
杭州 丨 8月29日
火速抢座 -
南京 丨 8月29日
火速抢座 -
沈阳 丨 8月29日
火速抢座 -
大连 丨 8月29日
火速抢座 -
长春 丨 8月29日
火速抢座 -
哈尔滨 丨 8月29日
火速抢座 -
济南 丨 8月29日
火速抢座 -
青岛 丨 8月29日
火速抢座 -
烟台 丨 8月29日
火速抢座 -
西安 丨 8月29日
火速抢座 -
天津 丨 8月29日
火速抢座 -
石家庄 丨 8月29日
火速抢座 -
保定 丨 8月29日
火速抢座 -
郑州 丨 8月29日
火速抢座 -
合肥 丨 8月29日
火速抢座 -
太原 丨 8月29日
火速抢座 -
苏州 丨 8月29日
火速抢座 -
武汉 丨 8月29日
火速抢座 -
成都 丨 8月29日
火速抢座 -
重庆 丨 8月29日
火速抢座 -
厦门 丨 8月29日
火速抢座 -
福州 丨 8月29日
火速抢座 -
珠海 丨 8月29日
火速抢座 -
南宁 丨 8月29日
火速抢座 -
东莞 丨 8月29日
火速抢座 -
贵阳 丨 8月29日
火速抢座 -
昆明 丨 8月29日
火速抢座 -
洛阳 丨 8月29日
火速抢座 -
临沂 丨 8月29日
火速抢座 -
潍坊 丨 8月29日
火速抢座 -
运城 丨 8月29日
火速抢座 -
呼和浩特丨8月29日
火速抢座 -
长沙 丨 8月29日
火速抢座 -
南昌 丨 8月29日
火速抢座 -
宁波 丨 8月29日
火速抢座 -
深圳 丨 8月29日
火速抢座 -
大庆 丨 8月29日
火速抢座