大数据工程师的日常工作内容都是什么?
大数据工程师工作内容取决于你工作在数据流的哪一个环节。
从数据上游到数据下游,大致可以分为:
数据采集 -> 数据清洗 ->数据存储 ->数据分析统计 ->数据可视化等几个方面
工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。
	
 
一、数据采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。
二、数据清洗:
原始的日志,数据是千奇百怪的
一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。
一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。
三、数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。
四、数据分析统计:
数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。
五、数据可视化:
用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据
当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,如涉及作品内容、版权和其它问题,请在30日内与我们联系,我们会予以重改或删除相关文章,以保证您的权益!
Java开发高端课程免费试学
大咖讲师+项目实战全面提升你的职场竞争力
- 海量实战教程
 - 1V1答疑解惑
 - 行业动态分析
 - 大神学习路径图
 
相关推荐
更多
							
							
						
							
									2024-03-05
							
									2024-02-29
							
							
						
            Java开班时间
- 
                    
北京 丨 10月31日
火速抢座 - 
                    
上海 丨 10月31日
火速抢座 - 
                    
广州 丨 10月31日
火速抢座 - 
                    
兰州 丨 10月31日
火速抢座 - 
                    
杭州 丨 10月31日
火速抢座 - 
                    
南京 丨 10月31日
火速抢座 - 
                    
沈阳 丨 10月31日
火速抢座 - 
                    
大连 丨 10月31日
火速抢座 - 
                    
长春 丨 10月31日
火速抢座 - 
                    
哈尔滨 丨 10月31日
火速抢座 - 
                    
济南 丨 10月31日
火速抢座 - 
                    
青岛 丨 10月31日
火速抢座 - 
                    
烟台 丨 10月31日
火速抢座 - 
                    
西安 丨 10月31日
火速抢座 - 
                    
天津 丨 10月31日
火速抢座 - 
                    
石家庄 丨 10月31日
火速抢座 - 
                    
保定 丨 10月31日
火速抢座 - 
                    
郑州 丨 10月31日
火速抢座 - 
                    
合肥 丨 10月31日
火速抢座 - 
                    
太原 丨 10月31日
火速抢座 - 
                    
苏州 丨 10月31日
火速抢座 - 
                    
武汉 丨 10月31日
火速抢座 - 
                    
成都 丨 10月31日
火速抢座 - 
                    
重庆 丨 10月31日
火速抢座 - 
                    
厦门 丨 10月31日
火速抢座 - 
                    
福州 丨 10月31日
火速抢座 - 
                    
珠海 丨 10月31日
火速抢座 - 
                    
南宁 丨 10月31日
火速抢座 - 
                    
东莞 丨 10月31日
火速抢座 - 
                    
贵阳 丨 10月31日
火速抢座 - 
                    
昆明 丨 10月31日
火速抢座 - 
                    
洛阳 丨 10月31日
火速抢座 - 
                    
临沂 丨 10月31日
火速抢座 - 
                    
潍坊 丨 10月31日
火速抢座 - 
                    
运城 丨 10月31日
火速抢座 - 
                    
呼和浩特丨10月31日
火速抢座 - 
                    
长沙 丨 10月31日
火速抢座 - 
                    
南昌 丨 10月31日
火速抢座 - 
                    
宁波 丨 10月31日
火速抢座 - 
                    
深圳 丨 10月31日
火速抢座 - 
                    
大庆 丨 10月31日
火速抢座 
					
								
						【热点话题】
					
					
								
								
                    
                    
            
            
            
            
                    
                    
                    
                    
                    
                    



				
				
				
				
				400-111-8989
			
				
				lihm@tedu.cn
			
	
