商务智能(business intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为olap、数据挖掘提供分析和决策支持。
是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点:
详细交易及相关业务数据的集合。
包含必要的内部与外部信息。
来自于多个数据源、业务操作系统。
保存一定的时间周期。
按照企业内业务规则决定存储模型。
目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标准和规范、信息孤岛、不具备大容量的数据管理和分析能力。
提高管理决策的科学性和管理效率。
信息的整合,可推动现在有信息管理体系的重构。
打通信息孤岛全局共享,降低数据获取的难度。
逐渐取代各类业务管理报表系统。
运用历史数据发现规律。
梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研。
生命周期图。
技术架构图:
数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。
关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师ralph kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
维度建模将客观世界划分为度量和上下文。度量是由业务过程和支持它们的业务源系统来捕捉的,常常以数据值形式出现,将其称作“事实”,事实由大量上下文包围着,这些文本形式的上下文被直观地分割成多个独立的逻辑块,我们称其为“维”。维度描述了度量上下文的5w(who、what、when、where、why)信息,以及这些上下文是如何作用的。
企业的每一个业务过程都可以用维度模型来描述,维度模型由一系列含有数值量度量的事实表组成,事实表中的数值则被一系列带有文本属性的维度表环绕。
1) 事实表。
事实表是存储业务活动或事件所产生的度量。
2) 维度表。
维度是观察业务的角度,维度表记录这一角度的一系列属性集合。
3) 度量。
度量是关于业务状况的数值。
1) 选择业务过程(比如:用户注册、账户签约、产品交易等)
2) 声明粒度(确定数据单位的综合程度,明确事实表度量所表示的含义)
3) 识别维度(粒度已经确定了一个基本的维度集合,根据需要再添加其他相关的维度)
4) 识别事实(选择适合业务过程的指标)
**关键字、退货维、缓慢变化维、角色扮演维、杂项维、雪花型、桥接多值维、处理层次结构。
可加型事实、半加型事实、状态事实。
三种事实表(三个基本粒度):事实事实表(低粒度)、周期快照事实表(粒度高)、周期累计事实表。
数据抽取考虑使用ketlle6.1源码来做,部署在myeclipse中做一些外围的开发,核心数据处理工作由kettle完成,对于特殊的需求,可以自定义开发。
参见《元数据管理解决方案》
利用数据仓库自带的备份功能。
物理数据库建设、etl工具开发、数据抽取清洗作业开发、查询优化、出报表等。
需求调研后补充。
螺旋式上升,永无止境……
数据仓库建设方案
经过多年it的建设,信息对于xxx的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好xxx内部纷繁的数据也越来越成为信息管理的一项重要工作。在过去相当一段时间内,xxx业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构...
数据仓库建设方案
专家系统接收增购项目车辆tcms或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率...
数据仓库ETL方案
要求 1 需要业务系统生产库的一个用户账号,权限是能够查询业务系统生产库的数据,提供这个用户的连接串,这个需要在方案实施前一天提供。2 需要在业务系统生产库上新建一个表空间,用户存储物化视图日志表,大小至少是业务系统生产库10天的数据量占用的空间大小。3 数据仓库的服务器应该至少是业务系统生产库大小...