欢迎您的访问!
您现在的位置:主页 > 通天报 >

Python爬取20万条评论终于查清周杰伦新歌为啥弄崩QQ音乐

发布时间:2019-10-06 点击数:

  原标题:Python爬取20万条评论,终于查清周杰伦新歌为啥弄崩QQ音乐

  【新智元导读】9月16日晚间,周董在朋友圈发布了最新单曲《说好不哭》。发布后,真的让一波人哭了,一群想抢鲜听的小伙伴直接泪奔。因为QQ音乐直接被搞崩了!那么听过周董新歌后的小伙伴都是怎么评价的呢?这里,我们获取了 QQ 音乐的近 20W 条评论数据进行分析,看看其中有哪些有趣的东西?

  这里,我们获取了 QQ 音乐的近 20W 条评论数据进行分析,看看其中有哪些有趣的东西?

  发现可以直接获取到数据,连 Header 都不需要添加。这里尝试对请求参数进行了精简,最终只需要如下几个参数即可:

  返回数据中有很多暂时不需要的字段,这里我们只取其中的用户名、评论时间、评论内容、点赞数。

  由于数据量较大 这里我们暂时将数据存放在 Excel 中,一来无须依赖外部数据库,二来可以使用 Excel 对数据进行二次处理。

  首先我们对评论按小时区间进行汇总,由于时间粒度比较小,这里对时间粒度进行了一些处理:

  周董的新曲是在 9.16 号 23 点准时发布的。可以看出在发布后的一个小时内(23:00-24:00)评论数量达到了高峰,占了总评论数的一半以上。

  词云生成的方法有很多,可以用代码生成,也可以用一些在线工具。这里我就使用了在线词云工具:WordArt,生成效果如下:

  周杰伦、杰伦字眼很明显,还有大量跑来『打卡』的:『好听』、『来了』、『哭了』、『爱了』,其中少不了的还有『青春』,另外『阿信』的出现估计给了很多人惊喜。

  对比下可以看出和我们获取到的数据是比较一致的,只不过官方并不是按点赞个数进行排名的,看得出来这些排名靠前的大都是在回忆青春。

另通天报| 潮京图库手机看图区| 香港财神爷图库看图区| 博必发心水论坛| 香港挂牌论坛| 小六图库总站综合图库| 香港马会免费资料大全| 香港马会最准一肖中特| 管家婆六盒开奖结果| 八仙过海心水论坛|