【深度学习】图像标注评价标准

最近图像理解受到了广泛的关注，我们也来稍微了解一下神马是图像理解，图像标注的评价标准是神马，哇咔咔

图像理解就是理解图像的内容，通俗一些呢就是用一句话描述你所看到的图片中的内容。

深度学习这么火，我们一定尝试一下，看看它是否可以解决这个问题。噢，不！是一定可以解决，只是时间问题或者框架如何设计的问题【大家一定要相信一个真理：深度学习可以搞定一切----说得自己都有点尴尬了【深度学习】图像标注评价标准不我没有

OK，回归主题。既然我们要使用万能的DL，那么一定要有数据库是的吧？数据库就一定要有标签label是的吧？对，图像标注就是那个描述图片内容的句子，也就是标签label��️

不同的人、机器对同一张图片的描述是不一样的。其中自然就会有好坏之分。如何区分好坏呢？我们伟大的前辈们就提出了以下几种评价方法：

B-1, B-2, B-3, B-4, M, R, CIDEr

得分越高越好，现在已经有论文可以做到在两个数据集（5-refs和40-refs，5-Refs和40-Refs表示的是测试集中有两个数据集，一个数据集每张图像有5个参考标注（也就是人类输入的正确语句），一个数据集每张图像有40个参考标注。）参与评分的14个（2数据集 * 7指标）得分中有13个高于人类。然而这并不能说明现在的算法已经很好了。因为会有一些惨不忍睹的例子。而人类一般是不会犯这种低级错误哒。

在这里上传代码，可以得到在ms coco caption的评测得分。但是次数有限。

https://www.codalab.org/competitions/3221

GitHub上也可以下载代码本地测试。

https://github.com/tylin/coco-caption

其他还有flickr8k和30k，数据量远小于ms coco caption，应该也不会用到，就不细说啦。

目前也有基于游戏标注的数据集。

有一篇论文对各个评价方法做了对比，来看这些方法是否可以有效评判算法的好坏，直接上结论。

论文的结论是首先推荐METEOR，或者使用ROUGE SU-4和Smoothed BLEU。PS：由于CIDEr标准是2015发布，所以这篇论文中没有体现。

Perplexity

得到句子的困惑度，就是有多少可能性这个句子是不好的？数值越低越好。

【深度学习】图像标注评价标准

bleu：思想是--机器翻译的语句与人类的专业翻译语句越接近越好。分数越高越好

rouge：

meteor：

cider：

找个时间继续补全咯。。。今天还有事，先去忙啦，啊哈哈

本文内容参考自：

https://zhuanlan.zhihu.com/p/22408033?utm_medium=social&utm_source=wechat_session

【深度学习】图像标注评价标准

Perplexity

相关推荐