• 欢迎来到达内Java培训官网

电话:400-996-5531

什么是大数据开发工程师


最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别?

一、什么不是大数据开发?

仅使用数据库(关系型mysql,sqlserver,oracle等 非关系型 mongo redis等),尽管数据量达到千万级别,亿级别不是大数据开发。

从业务系统的数据库中查询数据然后产出报表不是大数据开。

端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。

二、什么是大数据开发

1、大数据开发需要的技能

到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下:

什么是大数据开发工程师

什么是大数据开发工程师

所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka等。

2、大数据开发做的事情

精简到一个词语就是:统计

精简到两类指标就是:PV和UV

精简到一句话就是:统计各种指标的PV和UV

PC互联网时代,各门户网站(比如:新浪,网易,搜狐)关注的是各自网站今天被打开了几次(pv),今天有多少人(uv)访问了网站。更复杂一点的比如:

页面上某个按钮或者某个连接有多少人点击了几次

某个页面上的热力图(点击地方越多,图上颜色越重)

移动互联网时代,手机应用被用户打开的次数和人数也是大家关注的重点,但是除此之外还多出了许多其他非常重要的数据,由于手机屏幕的限制,信息流成为了移动时代的主流。

各大门户网站非常关注自己的新闻客户端中:在信息流中曝光了多少篇文章,其中有多少篇文章被用户点击了。每篇文章阅读了长时间,因为用户点击的文章越多,使用客户端的时间越长,各公司的广告收入才越高,所以各公司想方设法推荐用户喜欢的内容。

3、如何做这些事情

因为网站的浏览行为,手机客户端中文章的曝光或者点击这些数据非常大,基本以亿为单位起。所以传统的把统计信息放到数据库中的方式已经不能完成这项统计工作。(例如:wordpress博客中,用户每阅读一篇文章,mysql中就会更新这篇文章的阅读次数+1)

什么是大数据开发工程师

所以大数据是通过日志来统计这些指标。

比如:后台服务的日志(apache,tomcat,weblogic,nginx日志)

主要难点在于:

日志量太大(一般大点的互联网公司,一个业务线每天的日志都有几个t,再大些的每天几十t,几百t也不奇怪),需要掌握大数据相关技术例如前面提到的hadoop,hive等。

数据的及时性,从离线计算来说,一般每天零点,前一天的日志都接收完毕,开始计算前一天的数据,几点能计算完毕?要看各个公司各自的要求。

数据的准确性。(这是重中之重,大数据开发的工作就是统计,统计的数据如果不准、、、、)

如果是实时计算,需要掌握实时相关技术。例如:每5分钟网站的在线人数。

监控监控监控:监控任务是否失败,数据是否产出,产出的数据是否异常。

容灾容灾容灾:如果任务失败如何补救。比如实时任务,由于某种原因13;00到14;00的数据没有,如何把数据补回来。

三、大数据开发和一般开发对比

在转做大数据开发之前,一直在用Java作业务系统:例如hr系统(考勤,薪资等),收费系统。

业务系统:

一句话:对数据库的各种增删改查操作。

重点难点在于:

对复杂业务的理解上(比如计算工资:基本工资,五险一金,全勤奖,高温补贴,报销,奖金,加班费、、、、、等等都需要计算)。

线上服务的稳定,比如facebook,淘宝等网站高并发的压力下维持网站正常运行。

大数据开发

一句话:对字符串的各种算数。

重难点在于:

数据的及时性。例如实时数据中,想知道 12;00~12;10这10分钟的用户数,如果这个数据在晚上20点才计算完成,那就没什么意义了。再比如,大家应该都有体验过:再手机上刷新闻的时候,你点了某一篇文章,再继续刷新闻,后面很快会出来不少和前面点击的那篇文章类似的文章,这就是根据你的点击给你及时推荐你有更大可能点的东西。

数据的准确性。这个重要性不言而喻

数据的稳定性和容灾。


【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,如涉及作品内容、版权和其它问题,请在30日内与我们联系,我们会予以重改或删除相关文章,以保证您的权益!

Java开发高端课程免费试学

大咖讲师+项目实战全面提升你的职场竞争力

  • 海量实战教程
  • 1V1答疑解惑
  • 行业动态分析
  • 大神学习路径图

相关推荐

更多
  • 2025年大数据学习培训班哪里好
    2025年大数据学习培训班哪里好
    在数字化浪潮席卷全球的今天,大数据已成为推动各行业发展的核心动力之一。掌握大数据技能,不仅能为个人的职业发展增添强大助力,还能更好地适应这个快速变化的时代。因此,选择一家优质的大数据学习培训班至关重要。那么,2025 年大数据学习培训班哪里好呢?新达内教育无疑是一个值得推荐的选择。 详情>>

    2025-09-29

  • 2025年大数据分析师认证考试时间
    2025年大数据分析师认证考试时间
    在当今数字化飞速发展的时代,大数据分析师已成为炙手可热的职业。随着企业对数据价值的重视程度不断提高,对大数据分析师的需求也日益增长。拥有专业的大数据分析师认证证书,不仅能提升个人的专业技能和竞争力,还能为职业发展开辟更广阔的道路。下面为大家介绍 2025 年大数据分析师认证考试时间以及新达内教育在大数据分析师培训方面的优势。 详情>>

    2025-09-29

  • 学习大数据有什么要求吗
    学习大数据有什么要求吗
    随着数字经济的飞速发展,大数据技术已成为驱动各行业创新的核心力量,市场对大数据人才的需求也持续攀升。不少人渴望投身大数据领域,但又困惑于 “学习大数据有什么要求”,担心自身条件不达标。其实,学习大数据并非只有计算机专业背景才能入门,关键在于找到科学的学习路径与靠谱的培训机构。新达内教育作为深耕职业教育多年的机构,针对大数据学习的核心要求,打造了适配不同基础学员的课程体系,成为学习大数据的优质选择。 详情>>

    2025-09-26

  • 大数据具体学什么?
    大数据具体学什么?
    大数据具体学什么?大数据是一个涉及数据获取、存储、处理、分析及可视化等多个环节的综合性学科,其学习内容涵盖理论知识和实践技能,广泛应用于各行各业。以下是大数据具体学习内容的详细说明: 详情>>

    2025-06-16

  • Java开班时间

    收起