深度报道
您所在位置:首页 > 走进SNAI > 新闻中心 > 深度报道
【SNAI课堂】文理工商,四位一体——全日制《机器学习》课程侧记
日期:2021-12-07
  (撰稿:陶儒驰)大数据时代的背景下,“数据”是一种重要的社会资源,甚至有可能是一项资产。对于财会金融的学子而言,如何处理广泛的财务数据与金融数据是一门实用的专业课,也是我们通向会计未来的必修课。

  《机器学习》这门课程主要就是教授我们如何运用机器学习的理论与算法对大量的数据集进行处理和分析。它主要面向大数据与会计专业以及其他有兴趣了解机器学习相关知识的同学,以R语言作为数据处理媒介,结合数学、统计学、计算机科学等多学科的相关知识,介绍基础的机器学习算法与技术并将其运用到实践中解决实际问题。

  本课程的授课教师为复旦大学大数据学院的副研究员林晓蕾老师。林老师本科毕业于中山大学,硕士研究生毕业于美国爱荷华大学,2018年博士研究生毕业于美国芝加哥大学生物统计学系,主要研究方向包括生物统计学、密集纵向数据的统计方法以及聚类和纵向数据的统计学习等。

  在林老师生动的授课下,我们对机器学习的基本概念与逻辑算法有了初步的认知,并且最终也将其运用到自己的学科领域,处理并分析了财会金融数据,做成了最后的一个小项目,成就满满又受益匪浅。对我个人而言,本课程可谓是融合了文、理、工、商四大领域重点思想的集大成者,做到了四位一体,让我收获颇丰、感触颇深。

  “文”体现在数据的解读与分析。本课程主要使用的数据集为美国加州的房价预测数据与信用卡违约数据。前者主要用于进行线性回归分析,后者主要用于进行逻辑回归分析。在R语言中,使用lm()glm()函数可以实现上述两种回归分析。例如,我们使用lm(price~sqft_living, data = data)代码,便可做出房价与占地面积的线性回归模型:price=-43627.4+280.6*sqft_living。通过这一模型我们发现房价与占地面积存在正相关的关系,每增加1单位的面积,房价就会增加280.6个单位。同样地,对于行用卡违约数据集,使用glm(default~balance,data = data, family=binomial)代码可以发现信用卡违约与额度之间存在相关性,且额度越高违约概率越大。

  “理”体现在算法的精妙设计。本课程在介绍模型比较与选择时,使用了k近邻与交叉验证的方法。k近邻法即找出与目标数据最相似的k个数据然后进行归类,这种算法简单有效,适合类域交叉样本,但是它的类别分类不标准化,输出的可解释性不强,且计算量较大。交叉验证的算法分为简单的交叉验证(validation-set)和K折交叉验证两种,其原理都是将数据集分为训练集与验证集两个部分,在训练集中对数据进行模型的拟合,然后在验证集中做出预测,计算两者的均方根误差(RMSE),最后比较得出最小的RMSE的模型即为最佳模型。

  “工”体现在编程的严谨逻辑。本课程中使用的编程软件主要为R语言。R语言作为一款免费且开源的编程软件,它是专门为统计和数据分析开发的语言,包含了各式各样的功能与函数。通过本课程,我们知道了如何用lm()与glm()函数拟合回归模型、如何用hist()plot()函数对数据进行可视化、如何用sample()与for()函数进行随机选取与循环等等。面对每一次运行错误时的“暴红”,在老师的悉心指导下,我们更加注重了写代码时的语言与逻辑,逐渐变得游刃有余。不得不说写代码与会计工作竟有几分相似之处,都要求我们严谨细致,按流程行事,步步为营。

  “商”体现在数据的运用与实践。本课程中通过对房价数据的预测,可以推断出房价与占地面积、房间数量、楼层、硬件设施等等变量之间存在着相关性,且这些变量之间存在着交互效应。因此,我们在预测房价时应该综合考虑多方面的影响,防止辛普森悖论的出现。同时,通过对信用违约数据的分析,我们发现学生往往有更高的违约额度,更高的额度意味着违约的概率越高。但是在同样的额度下,学生的违约概率比非学生的概率要低。因此,如果作为信贷公司的管理者,我们可以适当给学生们放贷,但是要限制额度。

  通过《机器学习》课程的学习,我们收获到的不仅是专业的数据处理技能,还有一系列新颖的逻辑思维方法。人工智能是会计未来发展的趋势之一,学习能力作为人工智能的重要特征,它不仅要求机器去智能地学习各种知识,也要求我们去主动学习并理解机器的思维逻辑,从而更好地掌握它们,更好地应用它们,更好地进行管理创新。
 
微信
  • 上海国家会计学院
    微信二维码
  • 财政部
    微信二维码
微博