相关热词搜索:
电视剧收视率预测分析
电视剧收视率预测分析 【摘要】本文对影响电视剧热度的因素进行了系统的研究。首先通过建立并优 化AR(2)、ARMA(2,3)单一模型,预测电视剧后三集的收视率;之后建立ARMA-BP 神经网络组合模型,以ARMA(2,3)模型捕捉线性特征,用线性残差训练BP神经网 络以捕捉非线性特征。通过在测试集上的计算,证明组合模型的性能优于单一模 型。
【关键词】电视剧收视率;
一元线性自回归模型;
时间序列;
BP神经网络 1.前言 电视剧的热度是对其影响力和关注度的综合衡量指标。为了在目前“多屏 模式”下找到电视剧热度的影响因素,并且提出更综合、客观的衡量指标,国内 外专家学者进行了很多针对性的研究。主要可以分为两类:(1)单一预测模型, 如:梁招娣等基于RBF神经网络对电视收视率进行预测[1],汪洋等基于BP神经 网络建立收视率预测模型[2],张春燕等利用ARMA模型对在线电视剧流行度进 行预测[3],毋世晓等人利用移动平均法预测网站电视剧视频点击量[4]等等。(2) 组合预测模型,如:张茜等基于TEI@I方法,提出了对综艺节目收视率预测的研 究框架,引入了新的解释变量百度指数和新浪微指数,并采用模型集成技术显著 提高了预测精度[5]。黄玲莉等基于ARIMA与BP神经网络,建立了收视率组合预 测模型[6]。对比前人的研究成果,我们发现组合模型的效果比单一模型更加出 色。因此,本文在前人已有研究的基础上,综合运用了多种机器学习模型,对影 响电视剧热度的因素进行了系统的研究。
2.收视率单一时序预测模型的构建和优化 2.1数据收集和预处理。本研究选取了2015年到2017年期间首播的共23部 完结的电视剧作为研究对象,这些电视剧包含了不同种类的收视率变化模式,均 属于该种类中较为典型的电视剧,可以比较全面的反应不同的收视率变化情况, 确保了模型的广泛性与合理性。研究中所有的收视率数据均为索福瑞CSM52城收 视率统计值,电视剧的基本信息(如首播日期、播出卫视、每天播放集数)等信 息来源于百度百科,所有的原始数据都存储在补充材料的excel表格中。2.2建立 AR(2)模型进行预测。首先,本文使用二阶自回归的时序预测模型,利用电视剧 前集的收视率数据来预测最后三集的收视率。其中该模型的基本假设为:(1) 电视剧收视率变化平稳,不会因为外界因素的临时干扰而发生突变;
(2)不同时间的电视剧收视率统计方法一致,能够反映电视剧的受关注程度。本文基于以 上的模型假设,建立了二阶自回归模型,即AR(2)模型。若假设代表第集电视剧 的收视率,那么该模型的表达式为:利用excel自带的数据分析工具进行拟合,此 处以2017年收视率榜首电视剧《人民的名义》为例进行模型的训练和求解。其中 训练集和测试集分别为:(1)训练集:《人民的名义》前29天、共47集的收视 率作为训练集。(2)测试集:《人民的名义》最后3天、共5集的收视率作为测 试集。经过excel的拟合分析,得到《人民的名义》二阶自回归拟合的表达式为:
拟合得到的拟合优度,说明该模型在训练集上具有比较好的拟合效果。之后在测 试集上对该模型的预测性能进行测试,将后3天的收视率真实值和通过模型计算 出的预测值进行对比,并且计算均方根误差参数来衡量预测性能。最终通过计算 得到的预测结果,预测值序列和真实值序列之间的均方误差为。可以体现该模型 具有不错的预测性能。用同样的方法,对其余的22部电视剧建立AR(2)模型,分 别作出收视率的预测分析。结果发现,对于部分电视剧来说,该模型的预测性能 比较好,如《平凡的世界》RMSE=0.056,《北上广不相信眼泪》RMSE=0.051, 《外科风云》RMSE=0.077。而对于另外一些电视剧,该模型的预测性能比较差, 例如《孤芳不自赏》RMSE=0.534,《于成龙》RMSE=0.583,《亲爱的翻译官》 RMSE=0.683。由此可见,最简单的AR(2)时序预测模型仅能实现一定程度的预测 功能,其局限性主要体现在以下两个方面:(1)只能描述数据分布规律中的线 性特征,而难以刻画数据分布的非线性关系。这就使该模型对于基本符合线性增 长趋势的电视剧收视率与测量好,而对于波动性较大的电视剧收视率难以精准预 测;
(2)部分模型存在过拟合的问题,将数据中的噪声当做了信号进行处理, 有些参数的p-value不能通过0.05显著性水平检测。2.3对数据和模型进行优化处理。
2.3.1对收视率数据异常点的处理。通过对部分电视剧测试结果的深入研究,发现 部分预测收视率与真实收视率差距较大的电视剧,都存在两种不一样的播放模式。
例如《武媚娘传奇》有单集播放的、也有三集连播的;
《人民的名义》有单机播 放的、也有两集连播的。为确定“收视率异常下降”与“当日单集播放”之间的关系, 我们对23部电视剧中有不同播放模式的17部电视剧进行了统计分析,得到了如表 格1所示的结论。此处,“收视率异常下降”定义为“该天的收视率明显小于本电视 剧收视率的线性增长趋势”。由表格1可以非常明显地看出,在所有的考察对象的 单集播放日中,“收视率异常下降”事件出现的概率远远高于所有播放日的平均概 率。所以我们认为,“单集播放”是与“收视率异常下降”存在紧密的联系。所以, 我们首先对于研究对象电视剧的所有单集播放日中“收视率异常下降”的数据进 行了修正,采用均值插值的方法,替换掉原有的收视率异常点。修正后的收视率 等于单集播放日前后的收视率平均值。2.3.2将AR(2)模型优化为ARMA(2,3)模型。在完成对单集播放日异常点的修正后,部分电视剧依然存在比较大的波动性。因 此,进一步优化模型,引入移动平均的优化计算,对波动剧烈的曲线进行平滑滤 波,从而降低波动性带来的影响,更容易地把握住数据分布的线性趋势。因此进 一步将AR模型优化为ARMA模型。在ARMA(p,q)的模型识别和定阶过程中,我 们以《人民的名义》电视剧为样例,对p、q两个参数采取逐步试探法以获得最佳 值。经过多次尝试,确定收视率预测的最佳模型为ARMA(2,3)。在对单集播放日 的异常点修正后,利用matlab实现ARMA的预测功能,再次对表2-4中曾经对AR(2) 模型表现不佳的电视剧进行预测,得到新的预测结果为《孤芳不自赏》 RMSE=0.235,《于成龙》RMSE=0.462,《亲爱的翻译官》RMSE=0.383.可以看 出,经过对数据集的修正和对模型的优化之后,原先AR(2)预测表现不佳的电视 剧预测性能都有了一定的提升。改变最大的电视剧《亲爱的翻译官》,其均方误 差降低了44%,其他电视剧的均方误差也有10%-30%不等的下降。2.4总结与讨论。
本章节采用单一的时序预测模型,对23部研究对象电视剧进行了逐一的预测。在 AR(2)模型的基础上,一方面深入分析了异常点的规律和特征,对异常点进行了 修正;
另一方面在模型中加入了移动平均的过程,将模型优化为ARMA(2,3)。最 终可以看到,ARMA(2,3)模型在修正后的数据集上,表现出的预测性能比AR(2) 在原数据集上的性能要优秀很多。虽然目前的预测模型得到了一定的优化,例如 《人民的名义》预测RMSE从0.3285降低到了0.2376,但该模型依旧存在一定的 问题。其最核心的问题在于该模型依旧只能描述数据的线性变化趋势,对于变量 之间非线性的变化关系十分无力。为了进一步提高预测的精确程度,我们从前人 的工作中得到启发,尝试采用组合模型来进行预测,一方面利用ARMA模型的线 性描述能力,另一方面利用BP神经网络的非线性预测能力,二者相结合地展开 后续的预测工作。
3.ARMA-BP神经网络组合预测模型 3.1模型构造思路。经过前文的分析和预测,我们发现节目的收视率会受 到很多因素的影响。哪怕对一些异常点进行修正和调整,节目的收视率也会有一 定的波动性和无序性。所以,仅凭线性的模型是无论如何也无法进行精准拟合的。
由于基于回归的分析方法能够提取出数据的线性特征,而神经网络对非线性关系 有很强的逼近能力。所以我们在前人研究的启发之下,选择使用ARMA模型与 BP神经网络相结合,进行收视率的预测分析。对目前要预测的收视率序列rate来 说,每个数值都可以表示为:其中Lt表示该序列中规律的线性部分,对该部分 ARMA模型有很好的拟合能力;
而NLt表示该序列中的非线性部分,这部分能够 使用BP神经网络来逼近求解,因此该组合模型的整体构造思路分以下几步:(1)用一个样本电视剧确定ARMA(p,q)模型的阶次,通过逐步试探的方法进行识别、 定阶。在2.3.2节中,我们利用了《人民的名义》作为样本电视剧,确定了该模型 最佳的阶次为ARMA(2,3)。(2)用ARMA(2,3)模型进行ratet预测,假设预测的 结果为。这代表了第个点的预测值,而代表了该点的预测残差。(3)以为BP神 经网络的期望输出,对收视率数据进行N阶的空间重构、即以N维的收视率向量 作为BP神经网络的输入。利用BP神经网络进行预测,训练后的预测结果为。(4) 利用ARMA(2,3)与BP神经网络两种模型的预测结果组合后作为最终的预测结果, 即在点的预测结果为整体构造过程如图1所示。3.2模型求解过程。以《人民的名 义》电视剧为例,利用1―26天的收视率作为训练集,27―29天的收视率作为测 试集,检验该模型的预测性能。首先利用2.3.2节中提到的ARMA(2,3)模型,用前 26天的收视率进行训练。利用matlab完成模型训练过程,计算出第5天至第26天 的真实收视率与预测收视率。之后,将22个预测残差作为BP神经网络的期望输 出。然后将原始收视率数据以最大收视率为基准进行归一化处理,归一化后的数 据设为。之后对归一化后的数据进行相空间重构,根据实际情况,确定重构阶数 为5阶,即通过生成一组5维的收视率空间向量。将重构后的数据作为BP神经网 络的数据输入。利用matlab实现3层BP神经网络,利用newff函数构建网络,其中 隐含层数目经过多次试探验证设置为8。隐含层传递函数为tansig,输出层的传递 函数设为purein,训练函数采用trainm。经过282次学习后,精度达到了预设的0.001 的要求。将训练后的ARMA(2,3)模型和BP神经网络模型共同用于对《人民的名 义》最后三天收视率的预测,结果显示组合模型能够的均方误差为,预测性能超 过之前所有的单独预测模型。由此可见,ARMA-BP神经网络模型通过分别拟合 线性部分和非线性部分,实现了更加精准的预测性能,更适合用于电视剧的收视 率预测中。