大数据时代必须了解的18个概念（数据仓库、商业智能、数据可视化……）

01.什么是大数据？

数据是对客观事实进行记录的一种符号，可以是数字、文字，也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集合。

大数据具有"5V"特点，即数据量大、数据多样性、价值密度低、增长速度快、数据质量低。

大数据时代强调数据的全部，而不是局部的样本数据。由于大数据的价值密度低，我们要接受这种模糊和不精确性。通过对数据的研究，发现以前不曾发现的联系，而不是像小数据时代，先通过假设，然后再用数据来验证。也就是说，在大数据时代，对相关性的重视程度要强于因果性。

02.什么是结构化和非结构化数据?

结构化数据是适合用二维表格展现的数据。每一行是一条记录，每一列是不同的字段。

以电商网站为例，用户信息就可以用结构化数据来存储。每位用户就是一条记录，而每位用户又有姓名、性别、地址、手机、邮箱等字段，这样就形成了一个二维表格。

非结构化数据不适合用二维表格来展现，比如文档、图片、音频、视频等。非结构化数据的格式多样，难以标准化和理解，因此在存储、检索、利用上都需要更加有效的方法和技术。

03.什么是数据库？

数据库从字面意思来看就是存储数据的地方，但数据的存储不是杂乱无章的，而是按照一定的规则来存储的，具有可共享和便于管理的特点。数据库被视为电子化的文件柜。用户可以对数据库中的数据进行增、删、改、查等操作。

数据库可分为关系型数据库、非关系型数据库、数据仓库等类型。

04.什么是关系型数据库？

关系型数据库是指使用关系模型来组织数据的数据库。关系模型可以简单理解为二维表格模型，以行和列的形式存储数据，因此适合存储结构化数据。关系型数据库就是由多个二维表格及其之间的关系组成的数据库。

常见的关系型数据库有MySQL、SQL Server、PostgreSQL、Oracle等。

以电商网站为例，除了用户信息之外，还要记录产品信息和订单信息。为简化起见，每个订单只包含一种产品。产品包括名称、价格、图片、介绍等字段，订单包括所属用户、相关产品、订购数量、订单价格、下单时间等字段。一个用户拥有一个或多个订单，而一个产品也会属于一个或多个订单，这样就建立了用户、订单和产品之间的关系。

05.什么是非关系型数据库？

相对关系型数据库而言，非关系型数据库抛弃了固定的二维表格结构，存储机制灵活，比如键值对、文档、图形等格式都可以进行存储。

常见的非关系型数据库有Redis、MongoDB、Cassandra等。

性能是非关系型数据库最大的优势。由于关系型数据库中的关系模型会占用掉90%的硬件资源及计算时间，对于有大量不需要关系功能的数据处理，非关系型数据库的性能是非常高的。

另一方面，正是由于缺少数据表之间的关系，非关系型数据库很难在多个表之间做非常复杂的数据查询。

06.什么是时序数据库？

时序数据库是一类特殊的非关系型数据库，全称是时间序列数据库。经研究发现，机器设备、传感器、系统日志等产生的数据有如下明显的特征：

数据是时序的，即按照一定时间顺序生成；

数据极少有更新或删除操作；

数据产生频率快、数据信息量大；

数据往往带有位置信息。

传统的关系型数据库或非关系型数据库对于这类数据，在性能提升上极为有限，只能依靠集群技术，投入更多的计算资源和存储资源来处理，造成企业运营成本急剧上升。而时序数据库可以有效地处理庞大的数据，通过创新的列式存储和先进的压缩算法，使用的计算资源不到传统方案的1/5，存储空间不到通用数据库的1/10。

常见的时序数据库有InfluxDB等。

07.什么是分布式存储？

分布式存储是相对于集中式存储而言的。分布式存储是由标准服务器（硬件）和分布式文件系统（软件）组成的，可扩展至千台硬件节点，支持块存储、对象存储、文件存储等多种类型统一管理。

常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等。

举个通俗易懂的例子，如果把存储比喻成车厢，数据比喻成货物。集中式存储方案下，如果要想拉更多的货物，只能更换更大的车厢。而分布式存储方案，直接增加车厢就可以了。有了分布式存储技术，存储EB级别（1EB=1024PB=1024*1024TB=1024*1024*1024GB）的海量数据库都不成问题。

08.什么是数据集成？

由于开发部门或开发时间的不同，企业中往往有多个异构的、运行在不同的软硬件平台上的数据库，这些数据库彼此独立、相互封闭，使得数据难以在系统之间交流和共享，从而形成了"信息孤岛"。随着信息化应用的不断深入，企业内部之间、企业与外部的信息交互的需求日益强烈，急切需要对已有的数据进行整合，打通"信息孤岛"，这就是数据集成的意义。

数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中，为企业提供全面的数据共享。数据集成主要解决的问题是各个数据源的异构性，包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等。

09.什么是数据清洗？

数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后，可以还保存到原来的数据库中，也可以和数据集成联系在一起，最终保存到集成后的数据库里。

举几个数据清洗的实例：

1.在用户信息表中，规定有姓名、性别、地址、手机、邮箱五个字段是必填的。而某些用户缺少某些字段的值，因此需要补充这些数据。

2.英文的姓名之间规定要有空格，而某些姓名没有空格，比如"JohnSmith"，就需要修正这类错误。

3.有些数据表的金额单位是元，有些数据表的金额单位是万元，数据集成时就需要统一单位。

4.两条用户记录完全重复，需要进行去重处理。

10.什么是ETL？

ETL是Extraction、Transformation、Loading三个单词的首字母缩写，指的是数据抽取、转换、加载的过程。

数据抽取是从不同的数据源中获取我们需要的数据的过程，和数据集成的概念类似，这个过程往往会做一些数据清洗和数据转换。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算。数据加载通常是指在数据清洗和数据转换完成后，写入到目标数据库中去。

11.什么是数据分析？

数据分析是基于商业需要，有目的的对数据进行收集、整理、加工、分析，最终提炼有价值的信息的过程。

数据分析的四个步骤：

需求分析、明确目标；

数据收集、加工处理；

数据挖掘、数据展现；

分析报告、提炼价值。

12.什么是数据埋点？

所谓数据埋点就是从应用的特定流程中收集一些信息，跟踪用户使用的状况，用来提供运营的数据支撑，进一步优化产品。

常见的信息包括独立访客数（UV）、页面浏览量（PV）、页面停留时长、页面跳出率、交互元素的点击事件等。

数据埋点通常有两种方式：

第一种是研发团队在产品中注入代码，并搭建响应的查询平台；

第二种是借助第三方数据埋点工具，如神策数据、百度统计等。

13.什么是数据仓库？

数据仓库 (Data Warehouse) 简称DW，存储大量数据的集成中心。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision-Support）。它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

14.什么是数据集市？

数据仓库是面向整个企业的，而数据集市是面向部门的，因此规模更小，由业务部门设计、开发、管理、维护，可以理解为是数据库的子集。

数据集市就像宜家楼上的家居展厅，正如其名字"集市"一样，是一个面向最终顾客的数据市场。在这里，数据（家具）以一种更加容易被顾客接受的方式组合在一起。顾客的需求是分场景的，比如客厅、书房、卧室、厨房等，因此我们需要创建多个数据集市（展厅）。

15.什么是数据湖？

数据湖至今仍然没有一个特别标准的概念，比较统一的是数据湖存储的是未经加工的原始数据，包含结构化和非结构化的各类数据。数据湖就是一个存储了企业所有原始数据的存储，对于这些原始数据的管理则更加复杂。

以宜家家居为例，数据湖的原始数据就相当于拆散的零部件，顾客可以根据实际需要挑选零部件后自行组装。

16.什么是数据挖掘？

数据挖掘就是从大量的实际应用数据中，提取隐藏在其中的有价值的信息的过程。

一般而言，数据挖掘分为两类：一类是监督学习，另一类是无监督学习。监督学习是对目标需求的概念进行学习，通过建立模型来实现从观察变量到目标需求的有效解释。无监督学习没有明确的标识变量来表达目标需求，主要任务是探索数据之间的内在联系和结构。

数据挖掘融合了多学科领域的知识，常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。

17.什么是数据可视化？

数据可视化就是借助图形化的手段，清晰有效地传达与沟通信息。

利用人类对形状、颜色的敏感，有效地传递信息，帮助用户从数据中发现关系、规律和趋势。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图等。

18.什么是商业智能？

商业智能（BI，Business Intelligence）是对商业信息的搜集、管理和分析过程，目的是使企业决策者获得洞察力，做出对企业更有利的决策。

从技术层面上讲，商业智能不是什么新技术，它只是数据仓库、联机分析处理、数据挖掘、数据备份和恢复等技术的综合应用。

19.结语

远齐科技基于成熟的软件架构、互联网、物联网、大数据、人工智能等技术构建面向未来的集成开发平台系统。在自有集成开发平台基础上，基于最佳业务实践开发出丰富的软件功能模块、业务系统，为企业提供高效的定制化开发服务。

关键词：数据仓库商业智能，数据可视化，大数据，关系型数据库，非关系型数据，库时序数据库，分布式存储，数据集成，数据清洗，ETL，数据分析，数据埋点，数据集市，数据湖，数据挖掘

新闻资讯