跳转链接

课程概述

商务智能的起源

商务智能离不开大数据,其起源和大数据也有紧密的联系。

  • 在20世纪末期,数据库系统快速发展,建立了大量的业务系统和信息系统,累积了大量的数据。
  • 计算平台的发展也使得平台算力得到了较大的提升。
  • 信息采集手段也不断发展,使得采集信息的各种手段开始出现。

近现代数据爆炸的现象已经出现,大量的数据产生。

知识值链

Data=>Information=>Knowledge

  • Data

    • 世界中真实,独立的事实项
    • 能够轻易获取并结构化
    • 能够轻易传输

    往往会出现语义不详,在结构化数据中更加有价值。

  • Information

    • 某些被赋予联系和目的性的数据
    • 需要就含义达成共识
    • 需要人工调整

    信息是否有意义取决于接收之后会不会有帮助。

  • Knowledge

    • 在头脑中的内容和见解
    • 需要思考和综合
    • 很难使用机器机型进行获取和结构化,难以传输
    • 往往是默认的

    知识的来源是信息。

企业

从企业角度,需要保证数据的可访问性,及时性,表达格式的正确性以及数据的完整性。

在企业规模不大的情况下比较方便,但是当企业达到一定规模,商务智能开始显现其作用。

为何需要商务智能?

  • 许多数据仓库解决方案共同的一个缺点就是系统的开发者总是专注于软件技术,而不是商业解决方案
  • 因此,尽管他们所提供的产品能够很好地构建和访问数据仓库,但这些产品实施起来相当复杂
  • 数据仓库产品通常很少针对特定的产业、应用领域提供解决特定的业务问题的软件包
  • 企业所需要的是应用程序和商务解决方案,而不仅仅是技术
  • 数据仓库解决方案的另一个问题是:人们仍然过多地关心如何建立数据仓库,而不是如何对它进行访问
  • 许多企业似乎觉得他们只需要建立起数据仓库并为用户提供合适的工具,问题就解决了。事实上,这只是个开始而已

商务智能的目标

商务智能的目标是决策支持以及改善信息访问。从数据到信息,BI是将数据转换为有意义的内容的过程。

这里有比较多的描述,如果想看详细的建议使用上课的ppt,提纲中不做过多的赘述

商务智能的构件

商务智能构件

商务智能构件

数据源

商务智能的体系中所有的数据都是来自于数据源(操作性数据库,历史数据,外部数据,数据仓库中的信息,相关的数据库和数据结构等等)。

数据源存在于不同的平台,既可以是格式化也可以是非格式化数据。

数据仓库

概要

数据仓库是BI的重要组成部分和数据基础。

主要进行数据提取、转化和装载、数据管理、数据访问、元数据。

ETL

数据抽取、转换和装载(ETL)的过程

数据管理

存储,索引和备份

不仅管理关系数据库中的数据

而且管理数据立方体中的多维数据

数据访问

一种或多种访问数据仓库中数据的方式。

元数据

元数据是关于数据的数据,是如何管理数据仓库的重要数据。

分析和展现层
  • 报表和查询

    针对不同用户,提供不同的报表和查询处理方式

  • 联机分析处理(OLAP)

    提供一种快速的交互式的互相融合的信息访问方式

    基本分析操作包括切片、切块、旋转、数据概括、数据细化

  • 数据统计

    数据统计是将数据中含有的信息概括为统计值(关系分析,要素分析,回归分析)

  • 数据挖掘

    对数据仓库中蕴含的、未知的、平凡的、有潜在应用价值的模式的提取。

    发现数据中隐藏的模式

    借鉴各种相关领域的理论和方法

    用户发现隐藏模式的算法既可以是自动进行也可以在人工指导下完成。

    数据挖掘方法有:

    • 特征化与区分
    • 关联规则挖掘
    • 分类挖掘
    • 聚类挖掘
    • 时序会挥发性数据挖掘
    • 异常分析

商务智能的解决方案

Oracle

业务职能企业增强版(EE)

IBM

DB2 Data Warehouse Enterprise Edition

Microsoft

Microsoft SQL Server Business Intelligence Platform

Sybase

商务智能的发展

商务智能非常重要

逐渐实现,分布式,插件化继承,大众化,在线,零滞后,非结构数据基础上的商务智能。

数据仓库(一)Data WareHouse

从数据库到数据仓库

数据库技术的进步以及数据量的变化引起了这个转变

随着市场的发展,企业的需求的扩展,数据处理和处理面向的数据被分为两类,操作型和分析型

操作型处理

也叫事务处理,是指对数据库的日常联机访问操作。通常是对一个或一组记录的查询和修改,主要是为企业特定的应用服务的,所以也叫联机事务处理。(OLTP)

分析型处理

也叫做信息型处理,主要用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。典型例子:DSS(决策支持系统)

操作型、分析型数据

操作型数据是事务处理所需要的细节性的数据,是面向企业员工的日常的。

分析型数据是分析处理所需的综合性数据,是面向企业管理人员的决策的。

数据比较

信息系统的发展历史

90年代之前一般使用数据库方式,数据与应用分离,实现数据高度共享(OLTP)。90年代之后使用数据仓库方式,以支持经营管理过程中的决策指定为目的(DSS、OLAP、DM)

数据比较

决策支持系统

是上世纪70年代兴起的一种计算机应用,对企业领导做辅助性决策。三个部分组成:数据、算法与模型、展示。

进度

为了进行分析型数据的处理产生了DSS,但是虽然在事务处理方面表现得很好,但是分析处理方面支持不好。因为原有的数据库为核心的环境不适合做分析型应用的表现

表现不良原因
  1. 事务处理和分析处理的性能特性不同

    • 事务处理中用户每次操作处理的时间短,存取数据量小,单操作频率高,并发程度大。
    • 分析处理中每次分析需要连续运行,存取数据量大。但是操作频率低,没有并发要求。
  2. 数据集成问题

    • 分析处理中全面正确的数据是有效的分析和决策的首要前提。分析过程中需要的全面的数据,这也就表示数据可能来自多种不同的数据源。需要集成的数据,需要包括整个部门的相关数据
    • 事务处理之中只需要本部门业务有关的当前细节数据,不需要继承的数据。数据较为分散,且不需要外部的非结构化的数据

    如果使用需要集成数据的DSS对事务处理环境中的数据进行处理会造成重复计算和极低的分析处理效率。

  3. 数据的动态集成问题

    • 静态集成是对所需数据进行一次集成,以后就不再发生变化。
    • 动态集成是对集成后的数据进行周期性刷新。
    • 如果使用静态继承会使决策出现过时,但是传统事务数据没有动态集成的能力。
  4. 历史数据问题

    • 事务处理一般是需要当前数据。数据库中也一般只对短期数据进行存储(3-5个月)
    • 分析事物中更看重历史数据(5-10年),可以通过大量的历史数据的分析来把我企业的发展趋势。
  5. 数据的综合问题

    • 事务处理需要的是当前的细节性操作数据,而分析处理需要的是大量的总结性分析数据。
    • 在分析前需要对细节数据进行不同程度的综合,传统的事务处理系统不具备这种综合能力。这种综合也是一种数据冗余,在传统的事务数据中是被限制的。
  6. 数据的访问问题

    • 事务处理需要提供多种不同类型的数据访问操作,对于修改数据必须实时更新数据库。
    • 分析处理的数据访问主要是读为主,且对实时性的要求不是特别高。

    综上所述数据仓库正是为建立这种新的分析处理环境而出现的一种数据存储和组织技术。

数据仓库出现的原因

  • 将数据仓库与操作型数据库分离开来,从而:

    • 提高两个系统的性能

    • 提高操作型数据库的事务吞吐量

    • 两个系统中数据的结构、内容和用法的不同

  • 建立数据仓库的目的并不是要代替传统的事务处理系统/数据库,而是为了适应因市场商业经营行为的改变和市场竞争程度的加剧而进行的分析型处理的需要

  • 数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一

数据仓库及其四大特征

定义

数据仓库就是一个面向主题的、集成的、非易失的(稳定的)、时变的(随时间不断变化的)数据集合,用于支持经营管理过程中的决策制定

面向主题

  • 面向应用的数据组织(数据库)

    特点:表达数据流程,和业务中的单据或文档对应,逻辑、数据不完全分离,和部门、组织相关

    这种数据组织没有实现真正的数据与应用的分离,抽象程度不足。

  • 主题(Subject)

    主题是较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上是对应企业中某一宏观分析领域涉及的分析对象。

  • 面向主题

    指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。

    数据仓库是面向分析的,主观性较大,因客户的主观要求会影响数据仓库中的主题。

    在每个主题中都包含了有关该主题的所有信息,同时抛弃了无关数据。

    面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。

    主体之间也会有重叠,是逻辑上的重叠。

    每个主题需要一个多维数据库(MDDB,Multi-Dimensional Database)

集成

数据仓库中的数据是为了分析服务的,需要从多个数据源进行获取,通过数据集成形成数据仓库中的数据。

集成的方法:

  • 统一

    消除不同数据源之间数据不一致的现象

  • 综合

    对原有数据进行综合和计算

非易失(稳定的)

数据仓库和操作型数据环境是隔离的

一般情况下数据仓库的数据不执行更新,只供查询

数据仓库不是不需要更新

时变的(随时间不断变化)

数据仓库内的信息是揭露了企业从过去的时间点到目前的各个阶段的信息、

数据仓库的基本结构

数据仓库的结构

关键技术

  • 数据的ETL(抽取、转换、装载)

    从异构数据源进行抽取,进行解析,矫正标准化,增补,之后进行匹配,最后合并并存入数据仓库。

  • 存储和管理

  • 数据的访问和表现

  • 元数据

数据源

  • 多数据源

    数据仓库中的数据来源于多个数据源,与不同格式的数据、不同数据操作平台以及不同的物理位置。

  • 数据源是可以递归的(数据仓库的数据源可以是另一个数据仓库)

  • 数据源的抽取

  • 常见的数据源

    • 流行的关系型数据库系统
    • 面向对象数据库系统
    • 传统的桌面数据库系统
    • 文件系统中的数据文件
    • 其他数据源

数据的抽取与刷新

数据抽取

将数据源中数据通过网络进行抽取,并经加工、转换、综合后形成数据仓库中的数据,这就是数据仓库的数据抽取。

数据的抽取是数据进入仓库的入口,是很重要的一环,负责屏蔽底层数据的结构复杂性和物理位置的复杂性,同时还要实现对数据仓库中的数据的自动刷新,要对数据仓库的元数据和数据进行维护。

数据刷新

在经过一段时间后要重新修正,修改那些过时的数据,保存那些不变的数据,此种动作称为数据仓库的数据刷新。

刷新的数据量一般小于抽取量,但是难度和复杂性要大于数据抽取。

转化和集成的复杂性

数据从操作型环境到数据仓库的传递需要注意一下条件:

  • 要克服环境变化带来的系统的变化,硬件的变化,甚至源于硬件的数据结构的变化
  • 要避免从在线窗口进行数据抽取
  • 来自于操作型环境中的输入关键字需要进行重建和转换
  • 非关键字需要重新格式化
  • 保持数据正确
  • 保证数据有效合并
  • 合并中需要提供关键词解析
  • 需要对记录进行排序
  • 在抽取过程之前要注重选择数据的效率
  • 需要对数据进行汇总
  • 数据元素进行转移的过程中需要重命名并且进行跟踪
  • 输入的数据需要进行一定的格式转换
  • 需要理解数据的关系
  • 可能需要数据编码的转换
  • 可能需要加入时间元素
  • 数据仓库需要着眼于企业信息化,操作型数据需要着眼于事务
  • 必须考虑将要进入数据仓库的新创建记录的输出问题。

ETL工具

一般分为产生源代码的软件和参数化的运行时模块的软件

产生源代码的软件比较强大,可以直接访问原有数据,但是另一种需要对数据进行统一。两种软件都能使得数据从操作型数据源中集成的过程自动进行

数据目标

原子层和集成数据(偏重点)

原子层是数据仓库的基础,上层分析型应用的数据来源。

具有一下特点:

  • 保持历史集成性(历史完整性)
  • 拥有数据仓库的最低细节(粒度)数据
  • 构建是迭代的
  • 数据结构是面向企业的
  • 可以是集成的
  • 是静态的

数据粒度:对数据仓库中的数据的综合程度的一个度量

关于多重粒度还是参考PPT吧,不好整理

数据集市

在之后单独进行介绍

操作数据存储

操作数据存储在企业范围内,针对特定主题区域,用于支持战术决策支持( tactics decision-making)的综合数据的更新集合。

  • 面向特定分析应用
  • 完整性
  • 当前有效
  • 可变的
  • 详尽的
缓冲区

数据流的中间站

无特定结构

系统中可能存在多处缓冲

数据刷新

数据仓库系统需要感知数据库中数据的变化情况,并有效的把这些变化反映到数据仓库中去。

一般的数据刷新的方法有:

  1. 时间戳

    若数据库中的记录有时间属性就可以建立时间戳,但是一般的数据库系统中并没有时间属性

  2. DELTA文件

    部分基于OLTP的数据库的操作型应用程序在工作过程中会生成DELTA文件,可以避免扫描整个数据库,效率较高,但是这种应用程序不是很普遍,修改现有应用程序的工作量太大

  3. 映像文件

    对上一次数据刷新之后的数据库做快照,之后再来一次,比较两个快照,队伍数据库和操作型应用基本上没有任何限制,但是需要占用大量的系统资源,可能会较大的影响性能。

  4. 日志文件

    一般来说现代OLTP数据库都有日志文件。是数据库的固有机制,不会影响性能,效率是最高的,但是并不适用于老版本的(无日志文件机制的)数据库

数据仓库中可以同时采用四种方法。

数据周期

指操作型环境中数据发生变化后反映到数据仓库的时间。一般不低于24小时。过于频繁太贵,技术太复杂,且不稳定。

数据仓库中的数据以及管理

数据基本上是为了提供分析决策系统的继承数据,需要借助成熟的数据库技术对其进行存储管理。

数据仓库的数据组成形式

简单堆积文件

简单堆积文件

轮转综合文件

轮转综合文件

简化直接文件

简化直接文件

连续文件

连续文件

数据仓库中的快照

数据仓库可以使用快照形式的数据结构对某个特定时间点的数据进行记录。数据量不大时可以直接存储每一次变动的情况,但是当数据量变动增加时就要使用集成数据。

快照可以在重要活动发生或是定时触发。

快照的关键字可以是不唯一的。时间单元往往是指快照所描述的事情的发生时刻。主要数据是和关键字直接相关的非关键字数据。

元数据

元数据是关于数据的数据,描述了数据的结构、内容、编码、索引等。

元数据是数据仓库开发和维护的一个关键因素,也是保证数据抽取质量的依据。

分类有以下几种:

  1. 关于数据源的元数据

    现有业务系统的数据源的描述信息(数据结构等)

  2. 关于数据模型的元数据

    描述仓库中有什么数据以及他们之间的关系。

  3. 关于数据仓库映射的元数据

    一种映射相关的规则说明。

  4. 关于数据仓库使用的元数据

    是数据仓库中的信息使用情况的描述,能帮助用户到数据仓库查询所需要的信息来解决企业问题。

元数据一般处于数据仓库的上层。

元数据的作用:

元数据作用

元数据一般放在数据仓库中并且受到言数据管理系统的管理。

元数据主要用于数据的抽取和刷新。

数据仓库由于数据流量巨大,并行处理要求高,针对决策支持查询的优化以及支持多为分析