为什么要成为大数据工程师

  通常,数据科学团队由数据分析师,数据科学家和数据工程师组成。这篇文章我们更深入地了解成为数据工程师的一些优势。

  数据工程师是将公司或机构内所有数据生态系统的各个部分联系起来的人。他们通过执行以下操作来实现此目的:

  a.从应用程序和系统访问,收集,审核和清除数据,使其变为可用状态

  b.创建和维护高效的数据库

  c.建立数据管道

  d.监视和管理所有数据系统(可伸缩性,安全性等)

  e.以可扩展的方式实现数据科学家的输出

  做上面列出的所有事情主要需要一项特殊技能:编程。数据工程师是专门从事数据和数据技术的软件工程师。

  这使得它们与数据科学家大为不同,后者当然具有编程技能,但通常不是工程师。数据科学家将其工作(例如推荐系统)移交给数据工程师进行实际实施的情况并不少见。

  在由数据分析师和数据科学家进行分析时,通常是数据工程师在构建数据管道和其他系统,以确保每个人都可以轻松访问所需的数据(并且没有人可以访问数据库)。数据谁不应该)。

  软件工程和编程的强大基础使数据工程师能够构建数据团队及其公司成功所需的工具。我喜欢从乐高积木的角度来思考它。工程师设计了新的乐高积木,数据科学家以创新的方式组装了积木,以创建新的数据科学。

  这使我们想到了您可能想成为数据工程师的第一个原因:

  1.为什么要学习数据工程?

  

为什么要成为大数据工程师

 

  数据工程师处于数据策略的最前沿,因此无需其他人。他们是第一批解决进入公司系统的结构化和非结构化数据涌入的人。它们是任何数据策略的基础。毕竟,如果没有乐高积木,就无法建造乐高城堡。

  在上述数据需求层次结构中,数据工程师完全负责最后两行,并与数据分析师和数据科学家共同承担第三行的责任。

  为了更好地了解关键数据工程的重要性,可以想象一下上图所示的金字塔用作漏斗并上下颠倒。数据涌入该程序的顶部,最早接触数据的人是数据工程师。它们在过滤,清理和引导数据方面越高效,则随着数据进一步沿着漏斗流向其他团队成员,其他一切都将变得更有效率。

  反之,如果数据工程师不是有效的,它们可以作为以损害所有人的下游工作的漏斗块。例如,如果构建不良的数据管道最终给数据科学团队提供了不完整的数据,则他们对该数据进行的任何分析可能都是无用的。

  这样,数据工程师可以充当数据策略结果的乘数。他们是数据分析师和数据科学家所肩负的巨人。

  具有良好数据策略的公司组建团队的方式证明了这一点:

  一个共同的出发点是每位数据科学家需要2-3名数据工程师。对于某些具有更复杂的数据工程要求的组织,每个数据科学家可能需要4-5名数据工程师。

  2.在技术上具有挑战性

  数据分析人员和科学家最常使用的Python函数之一是 read_csv。此函数将存储在文本文件中的表格数据读取到Python中,以便可以对其进行浏览和操作。

  如果您以前使用Python处理过数据,则可能非常习惯键入以下内容:

  

为什么要成为大数据工程师

 

  简单方便,对吧?该 read_csv 功能是软件工程本质的一个很好的例子:创建抽象,广泛,有效和可扩展的解决方案。

  这是什么意思,它与学习数据工程有什么关系?让我们更深入地看看。

  a.抽象。在计算机中读取文件 时,在后台进行的过程非常复杂。但是,我们对函数的使用非常简单,后台发生的事情与用法无关。您无需了解 read_csv “内幕”的工作即可有效地使用它。

  b.宽。此功能还允许我们显式选择文本文件的表格数据中使用的分隔符(例如,逗号,分号,制表符等)。这使它易于与各种CSV样式一起使用,这对于数据科学家来说是一种音乐。还有许多其他选择,使数据从业人员可以专注于自己的目标,而不必担心编程细节。

  c.高效。 read_csv 快速有效地工作,并且代码读取也很有效。

  d.可扩展 此功能包含的另一个选项允许我们按块读取文件,因此,如果文件太大而无法读入计算机的RAM,则可以逐块读取文件,从而允许用户处理尽可能大的文件。

  正是数据工程师在工作,他们才能神奇地构建诸如read_csv 抽象,广泛,高效和可扩展的功能之类的工具,以便团队的其他成员可以专注于数据本身及其分析,而不必为编程难题而苦恼。

  同时,数据工程所需的数学知识可能比数据科学所需的数学少,因此,如果您更喜欢编程而不是数学,那么数据工程可能是一个理想的选择!

  3.奖励

  使数据科学家的生活更轻松并不是激励数据工程师的唯一事情。不可否认的是,数据工程师正在对整个世界产生重大且不断增长的影响。

  每天,我们都会创建2.5亿个字节的数据,而当今数据的庞大性使数据工程师比以往任何时候都更加重要。到2025年,物联网设备将超过640亿,高于2018年的约100亿和2017年的90亿。” 随着这种增长,来自更多来源的数据也越来越多,因此,对有效处理和引导数据的工程师的需求也越来越大。

  这意味着数据工程师可以通过多种方式追求自己的兴趣并加深他们的技能。为了让您了解这个世界有多么广阔,这里列出了流行的数据工具和技术: Amazon Redshift, Amazon S3, Apache Cassandra, Apache HBase, Apache Kafka, Apache Spark, Apache Zookeeper, Azure, ElephantDB, Hadoop分布式文件系统, IBM DB2, MapReduce, Memcached, Microsoft SQL Server, Mongo数据库, Oracle数据库, PostgreSQL, Redis, SQLite, Storm, SAP IQ, Teradata 和 Vertica。

  当然,数据工程师不必知道所有这些,但是此清单仅说明了数据工程领域要做的事情。一旦拥有了获得工作的技能,就可以*选择自己正在从事的工作以及正在使用的工具。

  由于数据工程师具有数据和软件工程技能,因此他们也能够构建各种产品。想要为早期创业做贡献,还是成为企业家并有一天找到自己的公司?数据工程技能为您提供了构建出色产品并分析这些产品的性能所需的工具。您将能够实现和衡量几乎所有您能想到的事情的成功。

  想远程工作吗?根据2019年的《未来劳动力报告》,“在未来三年中, 五分之二的全职员工将在远程工作”。因此,如果适合在办公室外工作,则数据工程可以帮助您实现该目标。因为对数据工程师的需求很高,并且由于大多数工作可以远程完成,所以绝对有可能找到远程数据工程工作,或者自己作为短期数据工程项目的*承包商来工作。

  最后,数据工程师还有很多回馈社区的机会。根据 约65%的专业开发人员每年或一次以上为开源项目做出贡献。而且由于您将具有数据和工程技能,因此您将能够为数据科学社区开发出非常酷的新工具,从而真正地发挥作用。

  4.很好

  您绝不应该仅根据薪水从事工作 ,但不可否认的是薪水很重要!

  指定机器学习技能的工作人员平均要支付114,000美元。广告数据科学家职位的平均薪酬为105,000美元,数据工程师职位的平均薪酬为117,000美元。

  这并不奇怪。在*的开发人员调查中,诸如Python,SQL和Shell之类的数据工程技能通常是收入最高的技能之一。在撰写本文时,LinkedIn上的搜索词“ 数据科学家”大约有70,000个结果 ,而搜索词“ 数据工程师”大约有112,500个结果 。在GlassDoor上,差异更加明显:数据科学家大约为22,500,而数据工程师大约为77,100(根据上个月发布的职位进行过滤)。

  不仅对数据工程师的需求很大,而且需求还在不断增加!截至2019年6月,对数据工程师的需求同比增长了 88% 。

  5.即使您不想成为数据工程师也很重要

  即使您不想从事数据工程师的职业,但是如果您想从事数据科学工作,那么拥有一些数据工程知识也会非常有用。好处是多方面的:

  a.作为数据从业者,很可能会定期要求您完成与其他工作角色(包括数据工程)有一些重叠的任务。

  b.学习一种不同的看待事物的方式可能会有助于您的理解,并且使您有机会复习一下您一段时间未使用的技能。

  c.具有工程技能将使您更加自给自足。这可以极大地帮助您的事业,因为您无需再受阻,等待某人为您做某事。

  d.学习数据工程技能将使您能够同情数据工程师并更好地与他们沟通。这也将为您的团队提供帮助,因为您可以成为将您的团队与数据工程团队联系起来的桥梁。

 

摘自:https://www.aaa-cg.com.cn/data/2290.html