之前用Itchat写了抓取微信群聊撤销内容的脚本,作为副产物,所有的群聊记录都在我的Redis里面静静地躺着。
今天终于我怀着百无聊赖地心情把所有聊天的正文都抽取了出来看看能做出些什么可视化的东西。
第一个想到的肯定是类似词云的东西啦。
抽取很简单,我就不说了,分词使用三年前自制的Ruby gem Kurumi。
停用词比较头疼,拉来了这里的内容,不过漏网之鱼还是很多。
也许考虑一下如何转换一下tfidf来适配这些群聊记录的比重提取比较重要。
这次就先不考虑这么多啦。分词之后直接用空格隔开,把生成的文本随便网上找个在线词云工具扔上去就是了。比如这个。
结果在这里。
分析
由于没有方法过滤用户名出现在聊天内容里的情况,所以,被提及很多次的人的Id就出现了。
“中国,日本, 学校,公司”等词频繁出现也较合情合理。
“特么” 果然不是只有我经常说。
“一起,喜欢,需要”,可见大家应该都比较寂寞吧。
哈哈哈, 其他自己慢慢欣赏吧。