Page 1 of 1

规模和比例如何?

Posted: Sun Mar 02, 2025 8:13 am
by tanjimajha12
Hive 似乎正在占据领导地位,什么特质使其成为领导者?
Rajat Venkatesh: Apache Hive 是用于日期工程的首要数据引擎。日期工程师喜欢的属性是:

扩展: Apache Hive 可以扩展到最大规模。最大的集群由数千台机器组成
健壮性:在大规模情况下,故障特别是由于网络和硬件原因导致的故障非常常见,Apache Hive、Hadoop 和 HDFS 可以在无需任何人工干预的情况下处理这些故障。
可定制: Apache Hive 有一个插件系统,可以读取多种类型的数据格式并实现用户定义的函数。此功能至关重要,因为数据工程的基础是将来自多个来源的不同数据整合在一起。
近年来,Apache Spark 成为 萨尔瓦多手机号码列表 数据工程的不错选择,主要原因如下。Apache Spark 基于 Hadoop 生态系统十年大数据工程的经验,改进了这些属性。

典型的数据工程团队由哪些技能组成?
Rajat Venkatesh:

SQL: SQL 是数据引擎的通用语言。数据工程师应该能够用 SQL 表达业务问题。此外,他们还应该能够理解数据引擎如何解释和执行 SQL 查询。他们应该能够理解解释计划以及数据引擎的优势和劣势。
数据建模:数据工程师接受其他团队生成的数据,并向公司其他部门提供所有数据的主副本。他们应该能够理解数据,指导团队对其进行建模,以便公司其他部门可以访问数据。
大数据引擎: ETL 工程师应精通至少一种数据引擎,如 Apache Hive 或 Apache Spark。如果这些技术必须以 TB 或 PB 规模使用,则需要深入了解。
工作流管理工具: ETL 管道由复杂的 dag 组成。这些 dag 由 Apache Airflows 等工作流管理器运行。数据工程师应该能够使用工作流工具在这些工具上设置、运行、监控和发展 ETL 管道。