（）有跟环境进行交互,从反馈当中进行不断的学习的过程。

发布于 2022-09-26 23:34:28

A.监督学习

B.非监督学习

C.强化学习

D.线性回归

关注者

0

被浏览

169

野百合也有春天 2022-09-26

这家伙很懒，什么也没写！

此回答被采纳为最佳答案，开通VIP会员可查看

1 个回答

撰写答案

请登录后再发布答案，点击登录

关于作者

京东小含

这家伙很懒，什么也没写！

提问

回答

1354

被采纳

1289

关注TA

发私信

相关问题

1

人工神经网络训练的目的就是使得损失函数最小化。（）

2

隐藏层中的全连接层主要作用是将所有特征融合到一起。（）

3

误差的反向传播,即从第一个隐藏层到输出层,逐层修改神经元的连接权值参数,使得损失函数值最小。（）。

4

梯度下降算法是最常用也是最有效的神经网络的优化办法,完全可以满足不同类型的需求。（）

5

典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于（）。

6

在Q-Learning中,所谓的Q函数是指（）。

7

Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的（）。

8

在强化学习过程中,（）表示随机地采取某个动作,以便于尝试各种结果;（）表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

9

强化学习中,（）主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。

10

马尔可夫性质强调在每一个动作状态序列中,下一个状态与（）有关。

发布
问题

手机
浏览

扫码手机浏览

在线
客服