食用指南

1.所有笔记和感想都在K-lab的jupyter里,由二级及以上标题且以注释两字开头,部分代码有注释,会先放出链接,需要的自取。
2.课后练习会放上题目和自己的答案解析(纯属瞎编,看看就好)

过拟合、欠拟合及其解决方案

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/35ff272ca3a5bbbd

2.课后练习

关于验证数据集的描述错误的是:
A. 测试数据集可以用来调整模型参数
B. 验证数据集可以用来调整模型参数
C. 在数据不够多的时候,k折交叉验证是一种常用的验证方法
D. k折交叉验证将数据分为k份,每次选择一份用于验证模型,其余的用于训练模型
参考答案:A

解析:测试数据集是独立于模型训练的,如果将测试数据集用来调整模型参数,可能会造成过拟合,即模型在测试集中的效果也很好,关于这一点需要在划分数据集的时候注意一下Data Leak。

关于过拟合、欠拟合概念的描述错误的是:
A. 过拟合是指训练误差很低,泛化误差相对于训练误差要高很多
B. 过拟合和欠拟合可以同时发生
C. 欠拟合是指训练误差和泛化误差都无法到达一个较低的水平
D. 过拟合和欠拟合都是在训练中容易遇到的经典问题
参考答案:B

解析:过拟合是模型在训练集上效果好,在测试集上不行,欠拟合是模型不仅测试集上不行,在训练集上也不行,所以不能同时发生。

关于权重衰减和丢弃法的描述错误的是:
A. L2范数正则化在损失函数的基础上添加了L2范数惩罚项
B. L2范数惩罚项通过惩罚绝对值较大的参数的方法来应对欠拟合的
C. 丢弃法通过随机丢弃层间元素,使模型不依赖于某一个元素来应对过拟合的
D. L2范数正则化是权重衰减的一种方式
参考答案:B

解析:L2范数惩罚项通过惩罚绝对值较大的参数的方法来应对拟合的,因为对训练集中的某一个参数比较依赖,所以通过降低这种依赖来减少过拟合的风险。

关于模型复杂度和数据集大小造成欠拟合和过拟合的描述错误的是:
A. 模型复杂度低容易导致欠拟合
B. 训练数据集小容易导致过拟合
C. 解决欠拟合可以考虑增加模型的复杂度
D. 缓解过拟合只能增加训练数据集的大小
参考答案:D

解析:参考上一题。

梯度消失、梯度爆炸

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/2bfc2be99cc58456

2.课后练习

关于导致梯度消失和梯度爆炸的描述错误的是:
A. 梯度消失会导致模型训练困难,对参数的优化步长过小,收效甚微,模型收敛十分缓慢
B. 梯度爆炸会导致模型训练困难,对参数的优化步长过大,难以收敛
C. 激活函数使用sigmoid或者tanh可以缓解梯度消失
D. 在训练模型时,我们应该采取适当的措施防止梯度消失和梯度爆炸的现象
参考答案:C

解析:relu可以缓解梯度消失,sigmoid和tanh由于取值范围,依旧会导致梯度消失。

一个在冬季部署的物品推荐系统在夏季的物品推荐列表中出现了圣诞礼物,我们可以推断该系统没有考虑到:
A. 协变量偏移
B. 标签偏移
C. 概念偏移
D. 没有问题
参考答案:A

解析:冬季部署说明训练集用的是冬季的物品,而夏季应该训练集用夏季的物品,这里输入的X产生了变化,即协变量偏移。

下列关于模型训练实战步骤排序正确的是:
1.模型验证和模型调整(调参)
2.获取数据集
3.模型设计
4.模型预测以及提交
5.数据预处理
A. 12345
B. 23145
C. 25143
D. 25314
参考答案:D

解析:常识

关于协变量偏移、标签偏移、概念偏移的描述中错误的是:
A. 协变量偏移和标签偏移可能同时发生
B. 标签偏移可以简单理解为测试时出现了训练时没有的标签
C. 确保训练集和测试集中的数据取自同一个数据集,即使训练数据和测试数据数据量很少也可以防止协变量偏移和标签偏移
D. 概念偏移可以根据其缓慢变化的特点缓解
参考答案:C

解析:如果训练数据和测试数据过少,无法覆盖整个数据集中的所有类别,则无法防止协变量偏移和标签偏移,例如数据集是一个10分类,训练数据只覆盖了5个分类,而测试数据覆盖了另外五个分类,则会发生标签偏移,因为测试时出现了训练时没有的标签(B选项)。

循环神经网络进阶

1.K-lab链接:https://www.kesci.com/org/boyuai/project/share/f8103279e5bcd6ea

2.课后练习

LSTM单元中控制当前时间步输入的结构是?
A. 遗忘门
B. 输入门
C. 输出门
D. 记忆细胞
参考答案:B

解析:LSTM4个单元的作用如下:

 遗忘门:控制上一时间步的记忆细胞(忘记之前的事情,所以遗忘门控制上一时间步的记忆细胞)
 输入门:控制当前时间步的输入
 输出门:控制从记忆细胞到隐藏状态
 记忆细胞:⼀种特殊的隐藏状态的信息的流动

实现深层循环神经网络需要修改的参数是?
A. input_size(输入大小)
B. hidden_size(隐层大小)
C. bidirectional(是否双向LSTM)
D. num_layers(循环层数量)
参考答案:D

解析:既然是深层循环神经网络,当然和神经网络的深度有关系,即num_layers(循环层数量)。

下列关于GRU说法正确的是?
A. GRU有遗忘门、更新门两种门控结构
B. GRU中重置门有助于捕捉时间序列里长期的依赖关系
C. GRU中更新门有助于捕捉时间序列里长期的依赖关系
D. GRU中遗忘门有助于捕捉时间序列里长期的依赖关系
参考答案:C

解析:

在LSTM模型的初始化中,下列不需要初始化的参数是?
A. 每个循环单元中的记忆细胞和循环单元的值
B. 第0个循环单元的记忆细胞和循环单元的值
C. 门控单元中用于计算遗忘门的权重与偏差
D. 用于计算输出的权重与偏差
参考答案:A

解析:每个循环单元中的记忆细胞和循环单元的值均由前一个循环单元中的记忆细胞和循环单元的值提供。

下列关于RNN的说法错误的是?
A. GRU、LSTM都能捕捉时间序列中时间步距离较⼤的依赖关系。
B. 双向循环神经网络在文本任务里能做到同时考虑上文和下文与当前词之间的依赖
C. LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。
D. 深层循环网络能有效抽取更高层更抽象的信息,层数越深效果越好。
参考答案:D

解析:深层循环网络层数越多越难拟合,而且也不能保证效果越好,可能会产生梯度消失或者梯度爆炸。

双向循环神经网络前向和后向RNN连结的方式是
A. 前向的output和后向的output用concat进行连结
B. 前向的H_t和后向的H_t 用concat进行连结
C. 前向的output和后向的output按元素相加
D. 前向的H_t和后向的H_t按元素相加
参考答案:B

解析:

标签: none

添加新评论