入行做项目后,我对大数据的深入理解
大数据是什么呢?对于我刚进去的我来说只知道数据量大,但还不清楚数据量大有什么影响。在接下来我接手了公司的项目有了更深刻的了解。
一般的项目中,后台一般都会有增删改查,数据都是直接返回给页面的,处理的数据量也不是很大,能很快返回。
但是到了大数据项目,前台的BI要求不仅仅是直接返回数据了,而是具体到实际应用。比如说我想知道成绩表中,60以下,60-70,70-80,80-90,90-100,各个成绩的人数是多少;
我想知道每一个学院不及格人数对比前年的不及格人数增加了还是减少了等等实际的问题。如果在Java的逻辑层中直接返回数据库中的数据在对数据做相应的筛选和合并,结果需要非常久的时间,因为成绩表一学期大概就有80万条。如果每一种具体的实际业务都用后台来处理,页面数据加载将会非常的慢,而且对于Mysql的压力会非常的大。
在企业当中一般会使用Hive来对数据进行存储,用Hadoop来构建分布式计算。这样就能够处理快速的处理大量的数据,并且得到页面所需要的数据。
其实对于大数据项目而已,后台只是做查询和某些数据的合并返回给前台。大部分的业务逻辑都放在离线计算上。一般而言都是用SQL语句对Hive数据库进行数据的抽取和转换和计算,然后插入到Mysql当中。
其中数据转换或者叫数据清洗是最为复杂和烦恼的过程,我遇到比较多的情况是在业务系统中往往出现大量的空字段和数据的格式不符合要求。往往是经过计算后,得出的结果不正确,又要回头去寻找哪些数据为空或者出现数据不正确。
大数据是现在最高薪、最热门的技术,你还不赶快学起来?
如果你想学习Java大数据,欢迎来达内学习。我们的课程从Java入门,一直到大数据实战项目,让你快速掌握企业所需大数据前沿技术,帮你在5个月内高薪入职名企。填写下面的表单既可以获得免费试听机会。
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,如涉及作品内容、版权和其它问题,请在30日内与我们联系,我们会予以重改或删除相关文章,以保证您的权益!
Java开发高端课程免费试学
大咖讲师+项目实战全面提升你的职场竞争力
- 海量实战教程
- 1V1答疑解惑
- 行业动态分析
- 大神学习路径图
相关推荐
更多


2025-05-23



Java开班时间
-
北京 丨 6月30日
火速抢座 -
上海 丨 6月30日
火速抢座 -
广州 丨 6月30日
火速抢座 -
兰州 丨 6月30日
火速抢座 -
杭州 丨 6月30日
火速抢座 -
南京 丨 6月30日
火速抢座 -
沈阳 丨 6月30日
火速抢座 -
大连 丨 6月30日
火速抢座 -
长春 丨 6月30日
火速抢座 -
哈尔滨 丨 6月30日
火速抢座 -
济南 丨 6月30日
火速抢座 -
青岛 丨 6月30日
火速抢座 -
烟台 丨 6月30日
火速抢座 -
西安 丨 6月30日
火速抢座 -
天津 丨 6月30日
火速抢座 -
石家庄 丨 6月30日
火速抢座 -
保定 丨 6月30日
火速抢座 -
郑州 丨 6月30日
火速抢座 -
合肥 丨 6月30日
火速抢座 -
太原 丨 6月30日
火速抢座 -
苏州 丨 6月30日
火速抢座 -
武汉 丨 6月30日
火速抢座 -
成都 丨 6月30日
火速抢座 -
重庆 丨 6月30日
火速抢座 -
厦门 丨 6月30日
火速抢座 -
福州 丨 6月30日
火速抢座 -
珠海 丨 6月30日
火速抢座 -
南宁 丨 6月30日
火速抢座 -
东莞 丨 6月30日
火速抢座 -
贵阳 丨 6月30日
火速抢座 -
昆明 丨 6月30日
火速抢座 -
洛阳 丨 6月30日
火速抢座 -
临沂 丨 6月30日
火速抢座 -
潍坊 丨 6月30日
火速抢座 -
运城 丨 6月30日
火速抢座 -
呼和浩特丨6月30日
火速抢座 -
长沙 丨 6月30日
火速抢座 -
南昌 丨 6月30日
火速抢座 -
宁波 丨 6月30日
火速抢座 -
深圳 丨 6月30日
火速抢座 -
大庆 丨 6月30日
火速抢座