一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念

《一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念》
一。数据湖
由数据驱动的决策非常流行。从数据科学,机器学习和高级分析到实时仪表板,决策者都需要数据来帮助做出决策。
该数据需要一个家,而数据湖是创建该家的首选解决方案。该术语由Pentaho的CTO James Dixon发明并首次描述,他在博客中写道:“如果您将数据集市视为瓶装水的存储库,经过清洗,包装和结构化以便于使用,那么数据湖就很大了。水体处于更自然的状态。数据湖的内容从源头流入整个湖中,并且该湖的各种用户可以来检查,潜水或取样。”斜体关键点是:数据在原始数据中格式和格式(自然或原始数据)。
数据由各种用户使用,即由大型用户社区访问和访问。

企业大数据湖弥合了现代互联网公司随心所欲的文化之间的鸿沟,在现代文化中,数据是所有实践的核心,每个人都是分析师,大多数人都可以编写和滚动自己的数据集,而企业数据仓库则以数据为代表。 贵重商品,由专业的IT人员精心照管,并以精心准备的报告和分析数据集的形式提供。

为了成功,企业数据湖必须提供三个新功能:
1.经济高效,可扩展的存储和计算功能,因此可以存储和分析大量数据,而不会产生高昂的计算成本
2.经济高效的数据访问和治理,因此每个人都可以查找和使用正确的数据,而不会因编程和手动临时数据获取而造成昂贵的人力成本。
3.分层,受控制的访问权限,因此可以根据不同用户的需求和技能水平以及适用的数据治理策略为不同的用户提供不同级别的数据.

数据湖成熟度:数据湖是一个相对较新的概念,因此定义您可能会观察到的某些成熟阶段并清楚地阐明这些阶段之间的差异非常有用:数据水坑基本上是建立的单一目的或单一项目数据集市使用大数据技术。它通常是采用大数据技术的第一步。数据水坑中的数据是出于单个项目或团队的目的而加载的。它通常是众所周知的,并且被人们所理解,使用大数据技术代替传统数据仓库的原因是为了降低成本并提供更好的性能。
数据池是数据水坑的集合。它可能像设计不良的数据仓库,实际上是同一位置的数据集市的集合,或者可能是现有数据仓库的卸载。虽然较低的技术成本和更好的可伸缩性是显而易见的诱人好处,但是这些结构仍需要很高的IT参与度。此外,数据池仅将数据限制为项目所需的数据,并且仅将数据用于需要它的项目。鉴于高昂的IT成本和有限的数据可用性,数据池并不能真正帮助我们实现使数据使用民主化或推动业务用户自助服务和数据驱动型决策的目标。
数据湖在两个重要方面不同于数据池。首先,它支持自助服务,使业务用户能够查找和使用他们想要使用的数据集,而不必依赖IT部门的帮助。其次,它旨在包含业务用户可能需要的数据,即使当时没有任何项目需要它。
数据海洋将自助数据和数据驱动的决策扩展到所有企业数据,无论它在哪里,无论是否将其加载到数据湖中。
图1­1说明了这些概念之间的区别。随着成熟度从水坑到池塘到从湖泊到海洋的增长,数据量和用户数量都在增长,有时会非常大。使用模式已从高度接触的IT参与之一转变为自助服务,并且数据的扩展范围超出了立即项目所需的范围。

《一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念》

二.数据仓库:
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出
数据仓库的核心工具
数据仓库的核心工具
来,进行加工与集成,统一与综合之后才能进入数据仓库;
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
5、汇总的。操作性数据映射成决策可用的格式。
6、大容量。时间序列数据集合通常都非常大。
7、非规范化的。Dw数据可以是而且经常是冗余的。
8、元数据。将描述数据的数据保存起来。
9、数据源。数据来自内部的和外部的非集成操作系统。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:
1.效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好
的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
2.数据质量。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。
广义的说,基于数据仓库的决策支持系统由三个部件组成
:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心,在这个系列后面的文章里,将围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。
4.面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

三。数据沼泽(The Data Swamp):
没有足够的信息,很难区分湖泊中的数据。它不再是沼泽,而是泥坑。一切看起来都一样,您无法分辨出好消息还是坏消息。
清理湖面并不是要使湖面看起来更加井井有条,而是要使湖面看起来平整无奇,而是让湖面看起来像沼泽一样。当然,我们不能回到模型中,在所有模型都可用之前必须对其进行完整描述,就像许多数据仓库一样(而且我们都知道故事的结局)。取而代之的是,在人们最初使用该数据时收集其元数据并不断收集更多信息的过程是确保灵活性并抓住重用和共享机会的最佳方法。
这种方法还可以确保了解数据的人(因为他们生产和使用数据)描述和记录有关数据的信息。人们之所以愿意这样做,是因为他们看到了价值,因为有了这些信息,也可以更轻松地查找和使用湖泊中的数据。因此,这是一次公平的交流:轻松访问有关数据的知识以及如何使用它们。目前,这是唯一可以自然扩展的可行方法。
许多技术有望解决数据沼泽问题。尽管它们确实解决了问题的各个方面,但主要的挑战是确保可以看到数据集的真实性,而不是将其隐藏在看似平静的表面之下。为了应对这一挑战,组织必须使他们的数据在湖泊中可见,并将发现数据的过程(通过数据目录)与收集有关数据的信息的过程联系起来。没有这种联系,数据湖可能看起来很平静,但是它将是一片毫无特色的广阔区域,而不是丰富多样的景观。

四。数据集市:data marts
数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。

数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

1.数据集市的特征包括规模小。
2.有特定的应用。
3.面向部门。
4.由业务部门定义、设计和开发。
5.业务部门管理和维护。
6.能快速实现。
7.购买较便宜。
8.投资快速回收。
9.工具集的紧密集成。
10.提供更详细的、预先存在的、数据仓库的摘要子集。
11.可升级到完整的数据仓库。

五。数据水坑(Data Puddles):
数据水坑通常是为小型团队或专门用例而构建的。这些“水坑”是单个团队拥有的中等规模的数据集合,通常由业务部门使用影子​​IT在云中构建。在数据仓库时代,每个团队都习惯于为其每个项目构建一个关系数据集市。除了使用大数据技术外,构建数据水坑的过程非常相似。通常,数据水坑是为需要大数据的功能和规模的项目构建的。许多高级分析项目,例如那些关注客户流失或预测性维护的项目,都属于此类。
有时,构建数据水坑是为了帮助IT人员进行自动化的计算密集型和数据密集型流程,例如提取,转换,加载(ETL)卸载,这些将在后面的章节中详细介绍,在这些章节中,所有转换工作都从数据仓库或仓库中转移。昂贵的ETL工具到大数据平台。另一个常见用途是通过提供一个称为“沙箱”的工作区域为单个团队提供服务,数据科学家可以在其中进行实验。
数据水坑通常范围较小,数据种类有限-它们由小型专用数据流填充,并且构建和维护它们需要技术团队或IT部门的大力参与。
数据池(Data Ponds):数据池是数据水坑的集合。正如您可以将数据池视为使用大数据技术构建的数据集市一样,您也可以将数据池视为使用大数据技术构建的数据仓库。随着更多的水坑被添加到大数据平台,它可能有机地存在。创建数据池的另一种流行方法是将数据仓库卸载。
与ETL卸载不同,ETL卸载使用大数据技术来执行填充数据仓库所需的一些处理,此处的想法是将数据仓库中的所有数据加载到大数据平台中。愿景通常是最终摆脱数据仓库以节省成本并提高性能,因为大数据平台比关系数据库便宜得多且可伸缩性更高。但是,仅卸载数据仓库并不能使分析人员访问原始数据。由于仍然保持适用于数据仓库的严格体系结构和治理,因此组织无法解决数据仓库的所有挑战,例如冗长而昂贵的变更周期,复杂的转换以及将人工编码作为所有报告的基础。最后,分析人员通常不喜欢从具有闪电般快速查询的精细数据仓库迁移到可预测性差得多的大数据平台,在该平台上,大批查询的运行速度可能比数据仓库中的运行速度快,但更典型的小型查询可能需要几分钟的时间。图1–3说明了数据池的一些典型局限性:缺乏可预测性,敏捷性以及无法访问未经处理的原始数据。

六. 数据孤岛(data silos):
企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛。简单说就是数据间缺乏关联性,数据库彼此无法兼容。
专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是,数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛。逻辑性的数据孤岛指的是,不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本。

点赞