机器翻译及相关技术等打卡

一、机器翻译及相关技术
1.机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。

all()函数:用于判断给定的可迭代参数中所有元素是否都为True,
返回:iterable中所有元素不为0、“”、False、None外都为True。

2.Encoder-Decoder(解决输入输出长度不等价)
机器翻译及相关技术等打卡
encoder:输入到隐藏状态
decoder:隐藏状态到输出

3.Sequence to Sequence模型
机器翻译及相关技术等打卡
机器翻译及相关技术等打卡
机器翻译及相关技术等打卡
1)class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)
num_embeddings (int) - 嵌入字典的大小

embedding_dim (int) - 每个嵌入向量的大小

padding_idx (int, optional) - 如果提供的话,输出遇到此下标时用零填充

max_norm (float, optional) - 如果提供的话,会重新归一化词嵌入,使它们的范数小于提供的值

norm_type (float, optional) - 对于max_norm选项计算p范数时的p

scale_grad_by_freq (boolean, optional) - 如果提供的话,会根据字典中单词频率缩放梯度

weight weight (Tensor) -形状为(num_embeddings, embedding_dim)的模块中可学习的权值

输入: LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
输出: (N, W, embedding_dim)

2)tensor.transpose()
将一个TensorFlow的两个维度互换

3)torch.ones_like(input, dtype=None, layout=None, device=None, requires_grad=False)
返回一个填充了标量值1的张量,其大小与input相同。

4.训练
1)若选用GPU作为device,那么训练的所有Tensor也应放于GPU中,
2)optim.Adam()

5.测试
1)torch.queeze()

6.集束搜索

二、注意力机制与Seq2seq模型
1.attention是一种

2.屏蔽操作

3超出二维矩阵的乘法

4dot product attention\

5.多层感知机attention

6 引入注意力机制的Seq2Seq

二、Transformer
1.Transformer模型概念
2.多头注意力层
3.基于位置的前馈网络
4.Add and Norm
5.位置编码