记录一下自己做项目期间遇到的一些坑（凭记忆写的，很多已经忘了，以后及时记录，及时更新）

YOLOv5

复现代码过程，主要的坑存在于数据集上。拿yolo v5来说，它需要yolo格式的标签，但实验室制作的数据集都打了VOC格式的标签。在将xml转化为txt格式的过程中，存在很多问题。首先，发现xml文件中有部分的size（长宽高）为0，这就导致在转换为txt格式的过程中，计算的分母为0，导致无法转化。
记录一下自己做项目期间遇到的一些坑（凭记忆写的，很多已经忘了，以后及时记录，及时更新）
目前这个问题的根本原因还是没有找到，检查了打标签的过程，没有问题（小建议：在为自己即将训练的图像打标签前，最好把图像resize成一个尺寸，这样可以最大程度地避免标签的问题）。解决方法就是把size为0的标签和对应图片删掉，转换成功。

成功转换标签后，在训练的过程中，出现了txt文件中存在负值的情况。在yolo v5项目中datasets.py中，有这样一段代码：
记录一下自己做项目期间遇到的一些坑（凭记忆写的，很多已经忘了，以后及时记录，及时更新）
这段代码的第六行原始为assert(l>=0).all()，也就是对于标签中的所有数值，都必须为>=0的数，这也是为什么标签中有负值报错。在将其修改为上图所示的代码后，代码跑通。但还存在一个疑惑点，因为yolo标签中（以下图为例）第一个数值代表类别，比如下图代表第五类目标，而后面四个数值则代表中心点x（比例）、中心点y（比例）、box宽（比例）、box高（比例），四个比例值为什么会出现负数呢？这一点我没有搞懂，有经验的朋友可以为我解答一下。
记录一下自己做项目期间遇到的一些坑（凭记忆写的，很多已经忘了，以后及时记录，及时更新）
总之，在解决种种数据集相关的问题后，训练开始，不到两万张图片，调用4GPU训练了两天，最终的结果还是很可喜的。

在可见光目标训练、测试完毕后，还要测试一下对红外目标的检测效果，因此用原来的网络，只是把数据换成了一类红外目标（注意这一类），刚开始我没拿这个测试当回事，网络没问题，换个数据集而已。但训练过程中却报错：mlc（最大类别值） = nc （类别数），询问大师兄才明白，在计算机网络中，一般都用0来表示“第一”，所以，mlc的值一定是比nc小1，检查标签发现，果然标签的类别数是1，替换为0后，问题解决。

这个经历也让我意识到，自己对于很多最基础的概念理解还不够深刻，在遇到问题后如何去发现关键的点，继而解决问题才是能力的体现。

数据集

还是想接着谈谈数据集的问题，个人觉得，数据集在一个算法的实现过程中起着至关重要的作用，一个好的数据集不仅可能提升算法的表现力，更关键的是，有些算法功能的实现，是离不开一个合适的、质量高、符合要求的数据集的。举两个例子。

配准

在研究红外可见光配准过程中，需要把一对可见光图及其对应的红外图像放入网络中训练，就我选择的这个算法而言，选择的图像对视场越接近，红外目标的轮廓越清晰，最终配准的效果就越好。（恕我能力有限，目前只能实现这种对数据要求比较高的算法。红外可见光的相关网络理解程度远远不够）所以选图的过程就耗费了不少时间，不过最后选择了一对实验室之前拍的图，效果喜人。

三维图像生成

说到三维图像生成，就不得不说数据增强这个概念。在之前数据集的构建过程中，我们使用了10种相对传统的图像处理方法，包括加噪，旋转，cutout等，之前尝试过利用马赛克进行数据扩充，但每次智能生成一张组合图，效率太慢，针对这个问题也咨询过中科大的一个大佬，他表示实现起来应该不难，不过（我）能力所限，无法修改为批量组合的代码，因为本身对马赛克的理解也不够深入，还是没有采用这个办法。

出于对数据的完善的想法，想到用GAN网络进行图像处理，不过想到我们研究的目标多数都是遥感图像，所以例如风格迁移，styleGAN等应用于人脸、动物变换的对抗网络，我是认为意义不大。这就想到了三维图像生成，最开始想的是，在给某一目标的两个角度后，可以通过对抗网络生成它的三维模型，不过在经过一定时间的研究后，我还是把问题想的太简单了。这个过程中，也看了很多三维生成的代码，但遗憾的是，之前最靠谱的DIB-R缺少最关键的train.txt，压根无法训练。况且即使可以训练，也是生成项目原有的目标，对我们的目标来说，需要符合条件的模型、标签……

在思考若干天，浏览很多GitHub上的项目后，我发现meshroom是一个很靠谱的选择。现在，我们的小标题，“数据集”的重要性就体现出来了。我最开始选取了我们数据集中的40余张某某目标的图片，训练出错，总是卡在倒数第三步，提示bounding box过小。分析一波发现，我放进去的这些图片，尽管目标相似，但背景却各不相同，bounding box过小，也就是这些图像之间的可匹配性太小。

话不多说，赶紧找三维生成的数据集，看看人家的是啥样的，上图：
记录一下自己做项目期间遇到的一些坑（凭记忆写的，很多已经忘了，以后及时记录，及时更新）

用了人家的数据集，果然生成了能看的三维效果：

可见，三维生成对数据的精细程度要求是很严格的，对于水塔这种细节较少的目标，需要各个角度、远近不同的图像；而对像舰船这样细节很多的目标来说，尽可能地捕捉细节，就成为决定生成三维图像效果好坏的关键。

配环境

说起跑算法，配环境肯定是最基础，也比较关键的一步了。yolo v5的环境比较好配，没有遇到太多的问题。后面跑图像配准算法时，由于它使用python2.7的环境，所以当时遇到了包与python版本不相容的问题（包括numpy，enum（要用enum34替换）等）。到了后来，涉及到一些基础环境的修改，我干脆直接把之前配的乱七八糟的环境删除，从0开始配，最终问题解决。在此也告诫像我一样的初学者们，配环境过程中，一定要慎重对待涉及到root权限的指令（sudo等）。

另外，说一嘴conda install 和pip install，之前一直习惯用 pip install （插一个豆瓣源安装指令，超快：pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com ，下载所需包时，把名字替换即可），但到了后面意识到，如果没有conda install ，到了后面会导致环境和安装的包发生冲突，由于我是在anaconda环境中跑算法，所以干脆就养成了conda install 的习惯。

但有一个玄学的问题就是，我在配配准环境时，遇到一个lap包，在conda install后，还是提示不存在，卸载再重装还是报错。最后直接卸载conda下的lap，用pip安装，通了。这个原理也不是很理解，暂时按照玄学处理吧。（有小伙伴懂的可以说一下）

问题查找

yolo v5训练红外数据出错找问题，看大师兄找问题的过程受益匪浅，小结一下：

print

有时候想知道网络的某一部分是否有问题，一个好办法就是把某个值print一下，比如之前提到的mlc 和 nc，在分别print了红外单类（mlc = 1.0 nc = 1）和无问题的9类可见光（mlc = 8.0 nc = 9）后，问题也就浮现出来了。

linux系统的使用

看了大师兄的操作之后，我意识到熟练使用linux系统是解决问题的关键，如vim、pdb断点调试等，这些技巧我现在还不能为我所用，解决问题。我也反省到，自己只把尽快把代码跑通当成最要紧的任务，却忽略了一些基本技能的学习和熟悉，这样的话，后面的创新提都不要提了。