机器翻译及相关技术等打卡

一、机器翻译及相关技术
1.机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

all（）函数：用于判断给定的可迭代参数中所有元素是否都为True，
返回：iterable中所有元素不为0、“”、False、None外都为True。

2.Encoder-Decoder（解决输入输出长度不等价）
机器翻译及相关技术等打卡
encoder：输入到隐藏状态
decoder：隐藏状态到输出

3.Sequence to Sequence模型
机器翻译及相关技术等打卡

1)class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)
num_embeddings (int) - 嵌入字典的大小

embedding_dim (int) - 每个嵌入向量的大小

padding_idx (int, optional) - 如果提供的话，输出遇到此下标时用零填充

max_norm (float, optional) - 如果提供的话，会重新归一化词嵌入，使它们的范数小于提供的值

norm_type (float, optional) - 对于max_norm选项计算p范数时的p

scale_grad_by_freq (boolean, optional) - 如果提供的话，会根据字典中单词频率缩放梯度

weight weight (Tensor) -形状为(num_embeddings, embedding_dim)的模块中可学习的权值

输入： LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
输出： (N, W, embedding_dim)

2)tensor.transpose()
将一个TensorFlow的两个维度互换

3）torch.ones_like(input, dtype=None, layout=None, device=None, requires_grad=False)
返回一个填充了标量值1的张量，其大小与input相同。

4.训练
1）若选用GPU作为device，那么训练的所有Tensor也应放于GPU中，
2）optim.Adam()

5.测试
1）torch.queeze()

6.集束搜索

二、注意力机制与Seq2seq模型
1.attention是一种

2.屏蔽操作

3超出二维矩阵的乘法

4dot product attention\

5.多层感知机attention

6 引入注意力机制的Seq2Seq

二、Transformer
1.Transformer模型概念
2.多头注意力层
3.基于位置的前馈网络
4.Add and Norm
5.位置编码

机器翻译及相关技术等打卡

相关推荐