本学期的数据挖掘与商业智能课程由纪颖老师授课,历时四周,共八个课时,纪老师带领着同学们完成了数据挖掘的知识初探。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。在第一节课上,纪老师通过与同学们的交流,了解到同学们以往对数据挖掘的了解大多数止步于大数据、数据清洗等浅表概念。纪老师随即补充,数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术。要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。
在后续的课程中,纪老师向我们逐步引入了一些数据挖掘相关的概念,例如,数据仓库、数据预处理等。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统所需的数据,供决策支持或数据分析使用。数据仓库是一个从多个数据源收集的信息存储库,存放在一致的的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理。纪老师向我们介绍了数据仓库的以下四种关键特征:
1. 面向主题的:数据仓库围绕一些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
2. 集成的:通常,构造数据仓库是将多个异构数据源,使用数据清理和数据集成技术确保命名约定,编码结构,属性度量等的一致性。
3. 时变的:数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。
4. 非易失的:数据仓库总是物理地分离存放数据这些数据源于操作环境下的应用数据由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作: 数据的初始化装入和数据访问。
随后,纪老师讲解了数据分类的相关知识。数据分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。分类算法主要有决策树归纳、贝叶斯分类、神经网络、支持向量机等。
在随后的关联规则的学习中,纪老师引用了一个大家耳熟能详的、关于啤酒与纸尿布的故事:在一家超市里,纸尿布与啤酒被摆在一起出售,但是这个奇怪的举措却使得啤酒和纸尿布的销量双双增加了。其实,这是由于这家超市对其顾客的购物行为进行购物篮分析,在这些原始交易数据的基础上,利用数据挖掘方法对这些数据进行分析和挖掘。从而意外发现跟纸尿布一起购买最多的商品竟是啤酒。按我们的常规思维,啤酒与纸尿布是两个毫无关联的商品,但是借助数据挖掘技术对大量交易数据进行挖掘分析后,却可以寻求到这一有价值的规律。
如纪老师所言,虽然我们很难通过这短短四周的课时完全地掌握数据挖掘的各类算法,但至少能对数据挖掘的基本概念有更深的认知,理解数据挖掘的底层逻辑。在这个数据膨胀的大数据时代,我们需要筛选,查询数据,处理数据。我们看到的听到的都是数据,在这互联网时代数据更多,信息很多。有些网站,比如百度、谷歌、雅虎等,为我们的学习生活带来了很多便利。我们为了更正确更有效地利用和处理数据,必须要利用数据挖掘技术。学好这项技术,我们以后的数字化生活会变得更方便。不会因为数据多,信息多而感到反感。纪老师的博闻强记,生动讲解给同学们留下了深刻的印象,为同学们日后将知识应用于实践打下了坚实的基础。
(摄影/撰稿:华悦)