精品案例 | 在线网络课程收入影响因素分析
大规模开放在线课程,即MOOC(开放),是近年来迅速升温的领域。许多以在线课程为核心的互联网公司已经涌现或取得了蓬勃发展。其中,、和edX成为该领域的三大巨头。
尽管MOOC平台潜力巨大,但其商业模式仍处于探索阶段。主流平台(例如,edX)上的所有课程都是免费的,但也有其他平台提供完全付费的课程。
2010年11月,国内某网站率先推出“全球名校视频公开课”项目,成为国内第一个大规模收集、整合相关信息的门户网站。随后于2011年11月启动了“中国大学视频公开课”项目。课”,至此,国内网络在线课堂教育已经开始如火如荼的发展。
那么主要影响在线网课收入的因素有哪些呢?是课程内容、学生人数还是课程安排?为了探讨这个问题,我们选取了2016年8月16日国内某在线课程平台上全部10222门课程的数据进行分析。原始数据包括以下字段:
要研究的因变量是对数课程收入。从收入统计来看,只有60%的课程产生收入。其中,秋野的ppt课程成为销售冠军,可以卖到接近500万。
接下来我们想看看哪些因素(自变量)对收入有显着影响。除了原始数据集中可用的一些变量,例如单价、人数、评分等,我们还希望挖掘一些文本信息有价值的解释变量。
例如,我们对课程名称变量进行分段,选择高频词根,生成一个派生变量,名为“课程名称中出现了多少个高频词”。其背后的逻辑是,我们猜测高频词是否使用得越多,课程就越好。收入越高?
此外,我们还可以对课表、教师等变量进行文本分析,提取相应的派生变量(具体参见完整案例报告)。
对课程标题进行分割后,我们对出现频率最高的100个词根进行词云可视化分析,如下图所示(可视化工具为 )。
从结果来看,人们在命名课程时普遍使用教程、基础知识、简介等通俗词汇。此外,视频、英语、管理等课程在市场上也比较受欢迎。另外,还可以对受众、课程内容等进行相应的词频分析(详情参见案例完整版)。
回归分析最终使用的原始变量和导出变量总结如下:
由于人数*价格=收入,为了避免完全共线性,只能将人数和价格其中之一输入模型。这里我们选择价格变量。对连续变量进行对数处理后,得到如下回归结果:
可见,在控制其他因素不变的情况下:
最后,我们更好奇,如果有一天苟雄辉能够在这个在线网络平台上开设一门课程,预计会有多少收入?如果苟雄在这个网络平台上推出一门名为《R语言入门》的课程,价格为300元,假设平台给该课程评分为5分,那么该课程总共有16节课,每节课30分钟,总共480分钟。
根据模型变量,该课程的超类别为计算机语言,课程名称中包含高频词“导论”,授课机构为非高频授课机构。因此,根据模型预测的收入为:5861.2元。看来,想要实现高收入,小熊俱乐部还有很长的路要走!
本案例深入分析了影响在线课程收入的因素,包括文本挖掘、衍生变量生成等一些常见的数据分析技术。