食用指南

1.所有笔记和感想都在K-lab的jupyter里,由二级及以上标题且以注释两字开头,部分代码有注释,会先放出链接,需要的自取。
2.课后练习会放上题目和自己的答案解析(纯属瞎编,看看就好)

机器翻译及相关技术

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/1f6c8103749d3b80

2.课后练习

数据预处理中分词(Tokenization)的工作是?
A. 把词语、标点用空格分开
B. 把字符形式的句子转化为单词组成的列表
C. 把句子转化为单词ID组成的列表
D. 去除句子中的不间断空白符等特殊字符
参考答案:B

解析:分词就是将句子转换成单词,C选项单词ID是后面一个阶段编码的时候的工作。

不属于数据预处理工作的是?
A. 得到数据生成器
B. 建立词典
C. 分词
D. 把单词转化为词向量
参考答案:D

解析:把单词转化为词向量是后面一个阶段编码的时候的工作。

下列不属于单词表里的特殊符号的是?
A. 未知单词
B. 空格符
C. 句子开始符
D. 句子结束符
参考答案:B

解析:这题感觉有歧义,分词靠的就是特殊字符来spilt,空格算是一种较为常用的分词符了,怎么能不算特殊符号呢?

关于集束搜索(Beam Search)说法错误的是
A. 集束搜索结合了greedy search和维特比算法。
B. 集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。
C. 集束搜索是一种贪心算法。
D. 集束搜索得到的是全局最优解。
参考答案:B

解析:集束搜索在我看来就是BFS+剪枝,属于搜索的一种,有贪心的感觉,所以属于局部最优解。

不属于Encoder-Decoder应用的是
A. 机器翻译
B. 对话机器人
C. 文本分类任务
D. 语音识别任务
参考答案:C

解析:文本分类任务属于正常的分类任务,输出是类别,而其他的三个则是输入输出都不固定长度。

关于Sequence to Sequence模型说法错误的是:
A. 训练时decoder每个单元输出得到的单词作为下一个单元的输入单词。
B. 预测时decoder每个单元输出得到的单词作为下一个单元的输入单词。
C. 预测时decoder单元输出为句子结束符时跳出循环。
D. 每个batch训练时encoder和decoder都有固定长度的输入。
参考答案:A

解析:看图作答

注意力机制与Seq2seq模型

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/f7d2b1d942dee728

2.课后练习
因为对于nlp这部分掌握不是很好,所以课后练习这部分暂时鸽了,我自己都不知道怎么选。

Transformer

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/f7d2b1d942dee728

2.课后练习
因为对于nlp这部分掌握不是很好,所以课后练习这部分暂时鸽了,我自己都不知道怎么选。

标签: none

添加新评论