联盟查找的效率提高
我正在尝试优化联合查找算法以查找映像中的连接组件。我的图像可以是2d或3d文件,由0和1组成。我在这个线程中找到了一个实现:Connected Component Labelling,用户Dukering给出了答案。联盟查找的效率提高
我改编了我的目的代码。代码有效,但执行时间很快变得太大。我不明白这个问题。
我的代码如下所示。我正在测试的文件链接如下:https://utexas.box.com/s/k12m17rg24fw1yh1p21hytxwq5q8959u 这是一个2223x2223大小的文件(在下面的程序中定义)。
正如原始用户提到的,这是union-find的基本实现,并且可以使其更有效。我不明白如何。另外,我在Matlab中测试了这个图像,并且Matlab速度更快。例如,上面链接的图像在我的计算机上需要大约1.5分钟,但Matlab使用bwlabel在一秒钟内完成。我检查了bwlabel使用的算法,它似乎是union-find的一些变体,这就是我首先开始这项工作的原因。如何让我的代码尽快运行?我还应该提到,我希望在更大的图像上运行我的代码(高达1000^3)。我目前的版本无法做到这一点。
#include <time.h>
#include <stdlib.h>
#include <stdio.h>
#define w 2223
#define h 2223
void writeArrayInt(int *data, int dims[], char *filename)
{
FILE *fp;
fp = fopen(filename,"w");
/* write grid dimensions */
fwrite(dims, sizeof(int), 3, fp);
/* write data array */
fwrite(data, sizeof(int), w*h, fp);
fclose(fp);
}
void readArrayInt(int *data, int dims[], char *filename)
{
FILE *fp;
fp = fopen(filename,"r");
/* read grid dimensions */
fread(dims, sizeof(int), 3, fp);
/* read data array */
fread(data, sizeof(int), w*h, fp);
fclose(fp);
}
void doUnion(int a, int b, int *component)
{
// get the root component of a and b, and set the one's parent to the other
while (component[a] != a)
a = component[a];
while (component[b] != b)
b = component[b];
component[b] = a;
}
void unionCoords(int x, int y, int x2, int y2, int *component, int *input)
{
int ind1 = x*h + y;
int ind2 = x2*h + y2;
if (y2 < h && x2 < w && input[ind1] && input[ind2] && y2 >= 0 && x2 >= 0)
doUnion(ind1, ind2, component);
}
int main()
{
int i, j;
int *input = (int *)malloc((w*h)*sizeof(int));
int *output = (int *)malloc((w*h)*sizeof(int));
int dims[3];
char fname[256];
sprintf(fname, "phi_w_bin");
readArrayInt(input, dims, fname);
int *component = (int *)malloc((w*h)*sizeof(int));
for (i = 0; i < w*h; i++)
component[i] = i;
for (int x = 0; x < w; x++)
for (int y = 0; y < h; y++)
{
unionCoords(x, y, x+1, y, component, input);
unionCoords(x, y, x, y+1, component, input);
unionCoords(x, y, x-1, y, component, input);
unionCoords(x, y, x, y-1, component, input);
unionCoords(x, y, x+1, y+1, component, input);
unionCoords(x, y, x-1, y+1, component, input);
unionCoords(x, y, x+1, y-1, component, input);
unionCoords(x, y, x-1, y-1, component, input);
}
for (int x = 0; x < w; x++)
{
for (int y = 0; y < h; y++)
{
int c = x*h + y;
if (input[c] == 0)
{
output[c] = input[c];
continue;
}
while (component[c] != c) c = component[c];
int c1 = x*h + y;
output[c1] = component[c];
}
}
sprintf(fname, "outputImage2d");
writeArrayInt(output, dims, fname);
free(input);
free(output);
free(component);
}
我会电子书籍两处改进,您的合并 - 查找结构:
- 真正实现两者结合,找到!如果你有一个工作的查找方法,实现联合会变得更简单,因为你不需要
while (component[c] != c)
类型的行。作为参考,检查出信息Wikipedia entry上合并 - 查找数据结构 - 实现一些常见的加速启发式像路径压缩(存储值
find(x)
回报component[x]
,从而减少在find(x)
的第二呼叫所需要的时间)的按大小或按工会大小(使较大集合为较小集合的父级)
编辑:由于似乎有一些关于另一个答案需要澄清,我将添加一个最小自己实施:
typedef struct {
int* parent;
int size;
} union_find;
union_find make_sets(int size) {
union_find result;
result.parent = malloc(sizeof(int) * size);
result.size = size;
for (int i = 0; i < size; ++i) {
result.parent[i] = size;
}
return result;
}
int find(union_find uf, int i) {
if (uf.parent[i] < uf.size)
return uf.parent[i] = find(uf, uf.parent[i]);
return i;
}
void do_union(union_find uf, int i, int j) {
int pi = find(uf, i);
int pj = find(uf, j);
if (pi == pj) {
return;
}
if (pi < pj) {
// link the smaller group to the larger one
uf.parent[pi] = pj;
} else if (pi > pj) {
// link the smaller group to the larger one
uf.parent[pj] = pi;
} else {
// equal rank: link arbitrarily and increase rank
uf.parent[pj] = pi;
++uf.parent[pi];
}
}
我有点困惑。是否只有一个父母阵列为每个人储存父母?所以当我初始化时,我只有一个union_find结构变量,uf?然后我所有的操作都在uf上执行?如果是这样的话,那么我最开始只做'make_sets(N)',其中N是数组的总大小? – rahulv88
是的,父数组与您的情况下的组件数组具有几乎相同的功能。唯一的区别是数组初始化的方式(parent [i] = size而不是parent [i] = i),以及如果parent [i]> = size,这些条目意味着什么。 'make_sets(w * h)'在语义上与你的初始化做了同样的事情('for(i = 0; i
看起来这样工作得很好,非常感谢Tobias!我还有一个问题:如果我对3d做同样的事情,我会有26连通性(而不是我的示例代码中的8连通性),是否会减慢速度?从我对时间复杂性的理解来看,它应该和第二种情况差不多吧? – rahulv88
如果正确实施,联盟查找应该在一段时间内运行。
这里有一些想法:
- 修改find
使得每个当你,直到你到达根(根是与物业NODE.up = NODE
节点)上树的时候,你更新所有UP
您遵循的所有节点的节点上升。换句话说,当您查找2个节点的连接组件时,您将更新该组件(表示为其根节点的索引),以查找该路径上所遵循的所有节点。
- 第二次发现某个节点的组件时,它不仅是本身,而且是中间节点的恒定时间。
- 工会应时刻都要花时间array[node] = parent_node
。
只需要挑选一点点:union-find几乎是固定的时间,但是对于所有这是实际的事情:) –
一个使用工会的等级 和路径压缩相交集合的良好工作的算法如下:
实现,采用struct Node component[]
。其中包含所有元素的数组。
#include <stdio.h>
#include <stdlib.h>
struct Node
{
// Needed for union and find.
int parent;
int rank;
};
// Find implementation using path compression, NOTE: a is index of the element to be found.
int find (struct Node *component, int a)
{
if (component[a].parent != a)
return component[a].parent = find(component[a], component[a].parent)
return a;
}
// Union implementation using rank. NOTE: a and b are index of the element
void union(struct Node *component, int a, int b)
{
if (find(component, a) != find(component, b))
{
if (component[a].rank == component[b].rank)
component[a].rank += 1;
if (component[a].rank >= component[b].rank)
component[b].parent = a;
else
component[a].parent = b;
}
}
您可以使用上述功能,在常量时间(摊销)中进行联合查找。应该清楚的是,您可能必须修改结构,因为它适合您的数据。
您还可以使用模板在C++中实现它。但是因为问题是用C标记的,所以我提供了这个解决方案。
如果你想了解上述算法,这个链接可能会有所帮助。 Union-Find Algorithm
请发表评论以获得进一步的说明。
联合发现可以相当有效地实现而不使用指针间接,只使用一个大的malloc而不是每个节点一个。使用指针恕我直言,它比使用存储每个元素的父索引的平面数组更困难。 –
@Tobias为了完整起见,我添加了两个实现。请查看最近的更改。 –
我想我需要澄清我的意思:实现本身更具可读性,但仍然会在指针和索引之间跳转,如果将它们混合起来,IMO不会有帮助。 find(...)的返回语句似乎返回了一个不正确的值(应该是父指针或类似的东西,但仅仅是输入参数a,它根本不会在方法中发生变化) 执行OP似乎已经基于索引,那么为什么要跳转到需要明确存储索引(val)的指针呢? –
如果您的代码正在工作,并且您希望提供有关如何改进其性能的建议,那么[codereview.se]是此问题的更合适的位置。 – kaylum
请缩进您的代码。如果您使用Tab键缩进,现在是时候去找到如何告诉您的IDE插入空格... – Lundin
您的缩进真的需要帮助:修复它可以帮助您获得帮助。 – Richard