【深度学习】图像标注评价标准

最近图像理解受到了广泛的关注,我们也来稍微了解一下神马是图像理解,图像标注的评价标准是神马,哇咔咔


图像理解就是理解图像的内容,通俗一些呢就是用一句话描述你所看到的图片中的内容。

深度学习这么火,我们一定尝试一下,看看它是否可以解决这个问题。噢,不!是一定可以解决,只是时间问题或者框架如何设计的问题【大家一定要相信一个真理:深度学习可以搞定一切----说得自己都有点尴尬了【深度学习】图像标注评价标准不 我没有


OK,回归主题。既然我们要使用万能的DL,那么一定要有数据库是的吧?数据库就一定要有标签label是的吧?对,图像标注就是那个描述图片内容的句子,也就是标签label��️


不同的人、机器对同一张图片的描述是不一样的。其中自然就会有好坏之分。如何区分好坏呢?我们伟大的前辈们就提出了以下几种评价方法:

B-1, B-2, B-3, B-4, M, R, CIDEr

得分越高越好,现在已经有论文可以做到在两个数据集(5-refs和40-refs5-Refs和40-Refs表示的是测试集中有两个数据集,一个数据集每张图像有5个参考标注(也就是人类输入的正确语句),一个数据集每张图像有40个参考标注。)参与评分的14个(2数据集 * 7指标)得分中有13个高于人类。然而这并不能说明现在的算法已经很好了。因为会有一些惨不忍睹的例子。而人类一般是不会犯这种低级错误哒。


在这里上传代码,可以得到在ms coco caption的评测得分。但是次数有限。

https://www.codalab.org/competitions/3221

GitHub上也可以下载代码本地测试。

https://github.com/tylin/coco-caption


其他还有flickr8k和30k,数据量远小于ms coco caption,应该也不会用到,就不细说啦。

目前也有基于游戏标注的数据集。


有一篇论文对各个评价方法做了对比,来看这些方法是否可以有效评判算法的好坏,直接上结论。

论文的结论是首先推荐METEOR,或者使用ROUGE SU-4和Smoothed BLEU。PS:由于CIDEr标准是2015发布,所以这篇论文中没有体现。


Perplexity

得到句子的困惑度,就是有多少可能性这个句子是不好的?数值越低越好。

【深度学习】图像标注评价标准


bleu:思想是--机器翻译的语句与人类的专业翻译语句越接近越好。分数越高越好

rouge:

meteor:

cider:


找个时间继续补全咯。。。今天还有事,先去忙啦,啊哈哈


本文内容参考自:

https://zhuanlan.zhihu.com/p/22408033?utm_medium=social&utm_source=wechat_session