摄影测量中的计算机视觉之位姿估计(Pose estimation)

位姿估计是已知一组世界坐标系3D点和其对应的图像坐标系下的2D点,去寻找他们之间转换关系.
x=PX
已知x和X, 求P是位姿估计.
已知x,x’和P,P’,求X是Triangulation.
用数学表达式表达就是:
摄影测量中的计算机视觉之位姿估计(Pose estimation)
x和X都是已知的,那么如何来估计P呢.
摄影测量一共涉及到三个坐标系,世界坐标系(单位m),相机坐标系(单位m)(咱助教也叫它sensor coordinates),图像坐标系(单位pixel).
现在已知的是目标点在世界坐标系和图像坐标系下的坐标.想要求得它们之间的转换关系.
考虑实际场景,你得到一张照片,是先用相机对现实世界拍照,那么这一步相当于把世界坐标系下的点转换到相机坐标系下.
然后你再把相机上的图片上传到电脑中,这一步相当于把相机坐标系下的点转化到图像坐标系下.
从世界坐标系到相机坐标系的转化,只有6个自由度.
平移：
沿X轴前后移动
沿Y轴左右移动
沿Z轴上下移动
旋转：
绕X轴旋转（翻滚、roll)
绕Y轴前后旋转（俯仰、pitch）
绕Z轴左右旋转(偏摆、yaw)

从相机坐标系到图像坐标系的转化,只有5个自由度.
所以P一共是11个参数.
摄影测量中的计算机视觉之位姿估计(Pose estimation)
推导如下:
因为都是行列相乘,所以这样写更简洁.

这里要特别主要用的是非齐次坐标,为什么!!!谁能告诉我为什么以前都用的齐次.

Ax=0, 还是用SVD去解就可以了.

摄影测量中的计算机视觉之位姿估计(Pose estimation)

相关推荐