字移动器在两个文档的字对之间的距离计算
根据WMD paper,字对之间的移动成本或欧几里德距离按下图所示方式计算。字移动器在两个文档的字对之间的距离计算
这是距离成对特定的顺序计算的?从图中所示的每个文件或奥巴马的距离中,第一个,第二个等等是根据D0中的所有四个单词计算出来的,然后这四个中的最小值仅显示在图中。
有人可以解释这是如何工作的?
另外,为什么D3中的所有三个词与D0中的总统相比?
大规模杀伤性武器的计算需要找到第一个文本中单词重量配置的最便宜的转移,第二个文本的单词重量配置。
词序是无关紧要的。一个文本中的任何单词的质量都可以转移到其他文本中任何单词的位置。寻找最佳变化的优化过程因此将考虑许多可能的配对。在找到最佳解决方案后,最终的单个WMD编号就是该最佳解决方案中的总行程距离。
由于字数的差异,单词可能不是一对一移动,而是作为全文质量的比例。因此,请考虑下图中的底部示例:顶部文字D0有4个重要词汇,底部文字D3只有3个重要词汇。因此,每个顶级文本的4个单词可以被认为具有0.25个质量,并且每个底部文本的单词可以被认为具有0.33个质量。
'奥巴马'可能因此非常接近'总统'的地图 - 但即使将'奥巴马'质量的0.25移到'总统'上也剩下0.08个质量,必须前往另一个D0字。与'伊利诺斯'和'芝加哥'相似 - 即使0.25的'伊利诺斯'质量被移到'芝加哥',0.08是剩余的,必须前往另一个词字。选择的路径和比例的确切组合将是最好的,但通常会涉及一些单词在多个其他单词之间进行分步移动。
啊好吧。如果两个文本中的重要单词相同,那么它应该是一个简单的算法,用于找出各个单词配对之间的最小距离,并选择距离最短和总和最小的单词。 – utengr
不是最好的路径是两个文本中两个单词之间的最短欧氏距离,如果它们的大小相同的话?假设text1:word1 word2。 text2:word3,word4。因此,计算从word3到(word1,word2)和从word4到(word1,word2)的距离。然后以这两个中的最小值作为距离。 – utengr
如果两个文本中的重要单词完全相同,则WMD为0.0。如果文本具有相同数量的单词,则计算更简单(并且每个单词的质量可以与另一个单词的质量正好配对)。微小的人为的例子(比如两个2字的文本)可能并不能说明更典型的比较中发生了什么。但实际上对于你的例子,你可以计算出两种可能的旅行计划:候选人1 = d(w1,w3)+ d(w2,w4); candidate2 = d(w1,w4)+ d(w2,w3)。无论哪个较低的是WMD。 – gojomo
我可能会指出我已经在CrossValidated上提供了一个(让我们只是说“替代”)这个问题的答案,OP也询问了这个问题,并且这个问题看起来像这个问题的“更正确的”堆栈交换:https://stats.stackexchange.com/a/303227/44585 – fnl