最长公共子序列(Longest Common Subsequence,LCS)
两个序列X和Y的公共子序列中,长度最长的那个,就是X和Y的最长公共子序列。最长公共子序列不要求连续,二最长公共子串要求连续。
思路:
字符串X,长度为m;字符串Y,长度为n。Xi=<x1,x2,......xi>即X序列的前i个字符,Yj=<y1,y2,...,yj>即Y序列的前j个字符,LCS(X,Y)为字符串X和Y的最长公共子序列,即Z=<z1,z2,...,zk>。
假设xm,yn分别为X和Y的最后一个字符,而且xm=yn,那么Xm与Yn的最长公共子序列Zk的最后一个字符比定位xm(yn)。
即:
zk=xm=yn;LCS(Xm,Yn)=LCS(X(m-1),Y(n-1))+xm
如果xm!=yn,则:
要么:LCS(Xm,Yn)=LCS(X(m-1),Yn)
要么:LCS(Xm,Yn)=LCS(Xm,Y(n-1))
即LCS(Xm,Yn)=max{LCS(X(m-1),Yn),LCS(Xm,Y(n-1))}
显然,这是动态规划问题
如何实现该算法:用到了长度数组,二维数组C[m,n],c[i,j]记录序列Xi和Yj的最长公共子序列的长度。
当i=0或j=0时,空序列是Xi和Yj 的最长公共子序列,所以c[i,j]=0。代码中该数组为ch
举例:X=<A,B,C,B,D,A,B> Y=<B,D,C,A,B,A>,LCS为BCBA
距离数组为:
注:箭头为求解LCS时回溯的方向,可以看出LCS的解并不唯一