神刀安全网

爬取豆瓣电影短评做中文分词与数据分析

中国电影最近几年突飞猛进,越来越多的人走进电影院了,各个大盘影片轻轻松松就能突破几十亿票房,但是随着电影消费的增加,大家对电影质量和制作水平的要求也提高了很多,想要继续斩获高票房,就得把握好消费者的喜好,制作出符合市场期待的电影。

爬取豆瓣电影短评做中文分词与数据分析

注:图片来自于艺恩电影智库,侵删

1,研究目的

至于怎么才能了解到消费者的偏好,这个就很简单了,你可以在网络上找到很多关于电影的评论、排行、评分等等,比如,优酷、爱奇艺等视频网站上的评论留言,特别是有了弹幕后,大家在网上留言得更加热烈了,但是,在国内要评价一部电影的质量,大家都会去看豆瓣评分,说明豆瓣是最有参考价值的平台之一,所以下面会用豆瓣电影《美人鱼》的短评,来分析一下评价倾向、话题焦点。

爬取豆瓣电影短评做中文分词与数据分析

2,数据收集

通过gooseeker的快捷采集应用——数据DIY,一共爬到了43148条数据,爬取方法可以去看另一篇文章《用GooSeeker爬取豆瓣电影短评,不用写代码,一键式操作》

爬取豆瓣电影短评做中文分词与数据分析

访问gooseeker的在线分词打标应用https://www.gooseeker.com/tagtool2/secure/index.html,把要分词处理的评论内容这一列单独放到一个Excel表里,然后导入进去,就会自动分词,可以得到分词效果表和切词表。

爬取豆瓣电影短评做中文分词与数据分析

爬取豆瓣电影短评做中文分词与数据分析

后面要绘制词云图,切词表里会有一些单字、英文、数字等无效词,直接用效果不好,所以下面要用到筛选词语功能,这里是按词频大小排序的,可以一边看着样本数据,一边勾选出有用的词语;

爬取豆瓣电影短评做中文分词与数据分析

另外,对于没有切分出来的词,可以人工添加补充进去,最后就能得到选词表和打标结果表,做词云图就要用到下面的选词表;

爬取豆瓣电影短评做中文分词与数据分析

根据星级打分可以把豆瓣影评自动分成好中差3类,所以就没做情感分析,如果你要做情感分析,也可以利用上面的筛选词语功能,把具有情感倾向的词语筛选出来,然后在打标结果表里可以看到每条原数据所包含的打标词,再整理一下哪些词语组合在一起所表达的情感倾向,就可以判断出原数据的情感倾向;

爬取豆瓣电影短评做中文分词与数据分析

3,数据分析

3.1评论数量走势

爬取豆瓣电影短评做中文分词与数据分析

按照评论日期统计了每天的评论量,如上图,发现在电影上映时间2016-02-08之前也有零星的评论,才想起来美人鱼好像调过上映档期,这个不多说了,在上映一周内,评论量呈现快速上升趋势,在2月14日情人节达到顶峰,那天刚好是周日,估计很多情侣去看这部电影了,之后就是回落趋势,在2月21日有一个小高峰,也是周日,说明节假日会促进消费。

3.2各级评分数量

爬取豆瓣电影短评做中文分词与数据分析

统计电影《美人鱼》各个星级的数量,从上图看出,以3星、4星评分最多,其次是5星,说明大家对电影的总体评价是中等偏好的。

3.3各级评分走势

爬取豆瓣电影短评做中文分词与数据分析

按时间统计各个星级的打分数量,如上图,可以看出从《美人鱼》上映以来,3星、4星一直是大众的主流评分, 但是上映之前有几条评论是5星的,说明大家对电影一开始期望比较高,但看完电影后应该是有点失望,所以才会导致评分低于预期。

3.4话题焦点分析

爬取豆瓣电影短评做中文分词与数据分析

从上面的词云图可以看到,大家讨论最热烈的话题就是星爷,可以说大家去看这部电影大多数是冲着周星驰去的,都说欠星爷一张电影票,还有很大一部分,把《美人鱼》和周星驰近两年来的电影做了对比,比如西游、长江七号,评价好坏参半,无论怎样,大家最后都给了星爷一张电影票的支持,说明个人影响力和号召力对票房的贡献真的可以很大;

其次,大家对主演讨论得也很多,从影评里可以看到,邓超的演技、张雨绮的声音都饱受争议,另外,大家对电影题材、剧情这些都有讨论,最后是电影感受,尴尬、搞笑、喜欢、哭、不错等等是大多数人对电影的评价。

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 爬取豆瓣电影短评做中文分词与数据分析

分享到:更多 ()