大数据工程师是信息技术 (IT) 专业人员,负责设计、构建、测试和维护处理大型数据集的复杂数据处理系统。这种类型的数据专家聚合、清理、转换和丰富不同形式的数据,以便下游数据使用者(例如业务分析师和数据科学家)可以系统地提取信息。
什么是大数据?
大数据是一个标签,用于描述大量客户、产品和运营数据,通常在 TB 和 PB 范围内。大数据分析可用于优化关键业务和运营用例,降低合规性和监管风险,并创造新的收入来源。数据源包括:
- 信用卡和销售点交易;
- 电子商务交易;
- 社交媒体参与;
- 智能手机和移动设备参与;和
- 物联网 (IoT) 生成的传感器读数。
- 优化关键业务和运营用例;
- 降低合规和监管风险;
- 创造新的收入来源;和
- 打造引人入胜的差异化客户体验。
大数据工程师的角色是什么?
大数据工程师的职责是构建、维护和确保生产就绪的大数据环境。这个角色所处的环境将包括架构、技术标准、开源选项,以及数据准备和数据管理流程。大数据工程师的职责是:- 设计、构建和维护大型数据处理系统。这从各种数据源收集数据 - 结构化或非结构化。
- 将数据存储在数据仓库或数据湖存储库中。
- 使用数据处理转换和算法处理原始数据,以创建预定义的数据结构。将结果存入数据仓库或数据湖进行下游处理。
- 将各种数据转换并集成到可扩展的数据存储库(例如数据仓库、数据湖、云)中。
- 了解不同的数据转换工具、技术和算法。
- 实施技术流程和业务逻辑,将收集的数据转换为有意义和有价值的信息。此数据应满足必要的质量、治理和合规性注意事项,以便将运营和业务使用视为可信。
- 了解操作和管理选项,以及数据存储库结构、大规模并行处理 (MPP) 数据库和混合云之间的差异
- 评估、比较和改进数据管道。这包括设计模式创新、数据生命周期设计、数据本体对齐、带注释的数据集和弹性搜索方法。
- 准备自动化数据管道,以转换数据并将其馈送到开发、QA 和生产环境中。