2015C-CIKM-Detect Rumors Using Time Series of Social Context Information on Microblogging Websites
Detect Rumors Using Time Series of Social Context Information on Microblogging Websites(2015CIKM),JingMa
主要内容
提出一个动态时间序列结构模型(Dynamic Series-Time Structure model——DSTS),能够抓取多种社会上下文特征随时间流逝的变化。实验结果表明,在得知谣言完整生命周期的情况下,以及谣言扩散早期,DSTS都有较大的改进。
研究动机
现有的谣言检测方法大多基于与用户、信息内容和传播模式相关的特征的监督式的机器学习模型。这些模型的缺陷是他们将信息的社会内容的整体统计特征视为特征,如转发总数、传播的时间长,忽视了这些特征随时间的变化。
具体模型
- 基于DSTS的功能和带注释的数据集构建分类器——>考虑某个特定主题事件的整个生命周期,判断其是否是谣言;
- 考虑事件传播初期的数据,看模型是否有利于谣言早期检测。
- 时间戳生成:将事件流离散生成时间戳
- DSTS功能的构建(用到时间戳求特征斜率等)
- 特征工程:考虑了基于内容、用户、传播等多种特征随时间变化的变化
实验
- 数据集
- 推特—使用了castillo等人发布的公共数据集
- 新浪微博—从新浪微博平台自己搜集
- 使用SVM线性分类器,对比实验结果表明,尽管使用线性分类器,但分类效果优于某些非线性分类器。
实验结果
- 对比实验结果
- 早期检测效果:识别谣言速度优于其他模型(达到最高精确度的用时最少)
缺点总结
进行时间序列划分时候需要知道整个事件的时间周期,对于早期检测和实时检测来说具有局限性。
图文不符:表中—谣言事件500,非谣言事件422,文中相反