广州电脑培训_电脑培训班_电脑培训课程-北大青鸟电脑学校
当前位置:网站首页 > 电脑培训网-电脑学校 > 佛山电脑学校 > 正文

大数据工程师的工作内容是什么?

作者:广州电脑培训刘发布时间:2020-12-03分类:佛山电脑学校浏览:567


导读:大数据工程师的工作内容取决于数据流中工作的部分。从数据上游到数据下游,可以大致分为:数据收集-数据整理-数据存储-数据分析统计-数据可视化等多个方面。当然,工作内容是使用工具组件(...

大数据工程师的工作内容取决于数据流中工作的部分。从数据上游到数据下游,可以大致分为:数据收集-数据整理-数据存储-数据分析统计-数据可视化等多个方面。当然,工作内容是使用工具组件(Spark、Flume、Kafka等)或代码(Java、Scala等)实现这些功能。


一、数据收集:

业务系统的埋置代码时间点通过Flume监视接收分布式日志,生成分布式原始日志,以便收集分布式日志聚合。


二、整理数据:

某些字段可能具有异常值,即脏数据。需要过滤这些记录或重新填充字段数据,以便数据下游的“数据分析统计”能够获得相对高质量的数据。某些日志中的字段信息可能会重复,下游不需要使用这些字段进行分析,必须删除这些附加字段信息以节省存储开销。


三、数据存储:

冲洗的数据可以降落在数据仓库(Hive)中,以便在下游进行离线分析。如果下游的“数据分析统计”对实时性的要求比较高,则可以在kapaca上记录日志。


四、数据分析统计:

数据分析是数据流的下游,消耗上游的数据。事实上,是从日志统计各种报告数据。简单的报告统计可以从kylin或hive统计到SQL,复杂的报告需要在代码级别用Spark、Storm进行统计分析。有些公司好像有BI这个职位,好像专门做这件事。


五、数据可视化:

以数据表、数据图等直观格式显示上游“数据分析统计”的数据。一般公司的一些决定参照这些图表中的数据。当然,CDH、FusionInsight等大数据平台的构建和维护也可能是大规模数据工程师工作内容的一部分


佛山电脑学校排行
最近发表
标签列表