量子概率驱动的神经网络
1.模型结构
本文模型用滑动的窗口构建两个文本对象的 N-gram 的密度矩阵表示,然后采用一组测量投影操作,同时测量两个文本对象所有的 n-gram 窗口里的混合系统(由密度矩阵描述)。最后通过一组 max pooling 操作得到每个测量向量在所有 n-gram 最大的投影概率,最后通过向量的 cosine 距离得到匹配的分数。
其中自底向上构建密度矩阵的操作,也就是从 embedding 层到 mixture 层的做法如下(叉操作是外积/张量积,点操作是一个标量乘以矩阵的每一个元素,加操作是矩阵点对点加法):
首先对选取的一个 N-gram 窗口,对其中每一个词向量用 l2-norm 归一化(也就是直接除以它的长度),然后计算该归一化向量与其共轭转置的外积(外积操作,如 x=[a,b], 外积是一个 22 的矩阵为 x=[[aa†,ab†],[a†b,bb†]] 大家常见的内积操作的结果是一个标量 ab†,† 是共轭转置)。
参考:
1.CNM: An Interpretable Complex-valued Network for Matching;
2.公众号中文解读