pytorch学习疑惑记录01

pytorch学习疑惑记录01

DataSet与DataLoader

1 、epoch与batch_size之间的关系

一个epoch相当于一个完整的数据周期,也就是说遍历完一个epoch也就读取完了总数据。
总数据的数目 / batch_size = batch的数目。
在程序中,batch_size是可以自己的设定的。
设总数据为160个,此时设batch_size = 16,那 batch的数目为10个(相当于遍历一个epoch,要读取10批数据,每批数据有16个)
pytorch学习疑惑记录01
2、已经有dataset,为什么要用dataloader?
dataset本身已经实现的数据的读取功能,也有图像的预处理方法transform,
但是如果只用dataset来读取的话,则无法多批次。单次读取完总数据,模型很有可能都无法收敛。
而dataloader则可以实现读取多个epoch,根据batch_size按批次读取,同时还带有shuffle功能(把数据打乱)。

3、transform.ToTensor是如何将图片转化为张量(tensor)数据的?
python中读取图片往往是通过 PIL 中的Image.open方法实现的,但是pytorch如果要对图片数据进行处理的话,则需要先将图片转化为张量,这就用到transform中的ToTensor方法。
pytorch学习疑惑记录01
如图所示,在pytorch源码中的functional.py文件里,定义了一个名叫to_tensor(pic)的方法,这个方法上就写有如何将图片转换为张量的方法——先用np.array把图片转化为数组 ,再用torch.from_numpy转化为tensor。
那我们自己也可以手动实现这个过程。
pytorch学习疑惑记录01