问道深山去,听禅紫气来。

22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003

阅读:9 更新时间:2022-11-08 02:02:52

22秋学期(高起本1709-1803、全层次1809-2103)《数据科学导论》在线作业-00003


------------------------
1.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A.普通值
B.异常值
C.不一致的值
D.重复值
答案请点我要此答案,或联系QQ

2.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
答案请点我要此答案,或联系QQ

3.以下哪个不是处理缺失值的方法()
A.删除记录
B.按照一定原则补充
C.不处理
D.随意填写
答案请点我要此答案,或联系QQ

4.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案请点我要此答案,或联系QQ

5.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案请点我要此答案,或联系QQ

6.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
答案请点我要此答案,或联系QQ

7.单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
答案请点我要此答案,或联系QQ

8.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答案请点我要此答案,或联系QQ

9.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
答案请点我要此答案,或联系QQ

10.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
答案请点我要此答案,或联系QQ

11.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
答案请点我要此答案,或联系QQ

12.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
答案请点我要此答案,或联系QQ

13.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
答案请点我要此答案,或联系QQ

14.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
答案请点我要此答案,或联系QQ

15.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
答案请点我要此答案,或联系QQ

16.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
答案请点我要此答案,或联系QQ

17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
答案请点我要此答案,或联系QQ

18.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
答案请点我要此答案,或联系QQ

19.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案请点我要此答案,或联系QQ

20.通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
答案请点我要此答案,或联系QQ

------------------------
1.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
答案请点我要此答案,或联系QQ,C

2.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
答案请点我要此答案,或联系QQ,B,C

3.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
答案请点我要此答案,或联系QQ,B

4.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答案请点我要此答案,或联系QQ,B,C

5.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答案请点我要此答案,或联系QQ,D

6.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答案请点我要此答案,或联系QQ,B,C

7.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案请点我要此答案,或联系QQ,B,C,D

8.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
答案请点我要此答案,或联系QQ,B,D

9.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
答案请点我要此答案,或联系QQ,B

10.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
答案请点我要此答案,或联系QQ,B,C,D

------------------------
1.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
T.对
F.错
答案请点我要此答案,或联系QQ

2.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
T.对
F.错
答案请点我要此答案,或联系QQ

3.具有双隐层的感知机足以用于解决任何复杂的分类问题。
T.对
F.错
答案请点我要此答案,或联系QQ

4.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
T.对
F.错
答案请点我要此答案,或联系QQ

5.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
T.对
F.错
答案请点我要此答案,或联系QQ

6.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
T.对
F.错
答案请点我要此答案,或联系QQ

7.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
T.对
F.错
答案请点我要此答案,或联系QQ

8.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
T.对
F.错
答案请点我要此答案,或联系QQ

9.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
T.对
F.错
答案请点我要此答案,或联系QQ

10.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
T.对
F.错
答案请点我要此答案,或联系QQ

11.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
T.对
F.错
答案请点我要此答案,或联系QQ

12.交叉表可以帮助人们发现变量之间的相互作用。
T.对
F.错
答案请点我要此答案,或联系QQ

13.支持度是衡量关联规则重要性的一个指标。
T.对
F.错
答案请点我要此答案,或联系QQ

14.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
T.对
F.错
答案请点我要此答案,或联系QQ

15.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
T.对
F.错
答案请点我要此答案,或联系QQ

16.uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同
T.对
F.错
答案请点我要此答案,或联系QQ

17.不满足给定评价度量的关联规则是无趣的。
T.对
F.错
答案请点我要此答案,或联系QQ

18.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
T.对
F.错
答案请点我要此答案,或联系QQ

19.由不同的距离度量所确定的最近邻点是不同的
T.对
F.错
答案请点我要此答案,或联系QQ

20.决策树分类时将该结点的实例强行分到条件概率大的那一类去
T.对
F.错
答案请点我要此答案,或联系QQ

推荐信息