转载自:https://blog.csdn.net/nieson2012/article/details/79551337 列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查…
标签:大数据
概念辨析 | 系统、体系、体制
英文中有个词:system,这个词翻译成中文有:“体系”、“体制”、“系统”等含义,与之密切相关的词还有“结构”和“机制”。那这些词在含义上有什么联系与区别吗?(为啥要辨析这些东西,大概是闲逸的好奇+博资考的压力……) …
EXCEL中多行多列数据与一行或一列数据的互相转换
在平常所用数据中,会出现多行多列数据,但是实际又需要一行或一列形式的数据,或者相反者,那么这篇文章将教会你如何在excel中对多行多列数据与一行一列数据的相互转换、或…
流式大数据处理的三种框架对比分析
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为…
在Spark上进行两个大数据集的匹配
分布式框架Spark把任务划分到各个子节点进行处理,可以有效利用小机器的CPU来处理大规模数据集。但是Spark也存在局限性,在某些问题的处理上会力不从心,例如两个大数据集的匹配。出现这种问题的原因主要是分布式系统的优势…
大数据、云计算、物联网三者的关系
是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 《互联网进化论》一书中提出…
查询大数据各组件版本
查看hadoop版本,hadoop version: hdfs根据时间排序来查看文件: hdfs dfs -ls /tmp |sort -r -k6,7 查看hive版本,hive: 查看hive进程: ps -aux|…
配置MapReduce的历史服务器查看MR运行日志
配置MapReduce的历史服务器查看MR运行日志 前言 前面介绍的MapReduce实例,我们会发现无法查看Map函数和Reduce函数的具体执行过程。本文介绍如何配置历史服务器来查看MR的运行日志。 一、如果我们仅仅…
大数据开发需要哪些工具?大数据开发必备工具汇总
大数据研究的出现,为企业、研究机构、政府决策提供了新的行之有效思路和手段,想要做好大数据的管理和分析,一些大数据开发工具的使用是必不可少的,以下是大数据开发过程中常用的工具: 1. Apache Hive Hive是一个…
关于数据治理的读书笔记 - 什么是组织机制?
读书笔记的历史文章, 《关于数据治理的读书笔记 – 什么是数据战略?》 《关于数据治理的读书笔记 – 企业数据治理的“道、法、术、器”》 《关于数据治理的读书笔记 – 数据治理、数据管…