|
| 1 | +.. _cn_api_paddle_optimizer_Rprop: |
| 2 | + |
| 3 | +Rprop |
| 4 | +------------------------------- |
| 5 | + |
| 6 | +.. py:class:: paddle.optimizer.Rprop(learning_rate=0.001, learning_rate_range=(1e-5, 50), parameters=None, etas=(0.5, 1.2), grad_clip=None, name=None) |
| 7 | +
|
| 8 | + |
| 9 | +.. note:: |
| 10 | + 此优化器仅适用于 full-batch 训练。 |
| 11 | + |
| 12 | +Rprop算法的优化器。有关详细信息,请参阅: |
| 13 | + |
| 14 | +`A direct adaptive method for faster backpropagation learning : The RPROP algorithm <https://ieeexplore.ieee.org/document/298623>`_ 。 |
| 15 | + |
| 16 | + |
| 17 | +.. math:: |
| 18 | +
|
| 19 | + \begin{aligned} |
| 20 | + &\hspace{0mm} For\ all\ weights\ and\ biases\{ \\ |
| 21 | + &\hspace{5mm} \textbf{if} \: (\frac{\partial E}{\partial w_{ij}}(t-1)*\frac{\partial E}{\partial w_{ij}}(t)> 0)\ \textbf{then} \: \{ \\ |
| 22 | + &\hspace{10mm} learning\_rate_{ij}(t)=\mathrm{minimum}(learning\_rate_{ij}(t-1)*\eta^{+},learning\_rate_{max}) \\ |
| 23 | + &\hspace{10mm} \Delta w_{ij}(t)=-sign(\frac{\partial E}{\partial w_{ij}}(t))*learning\_rate_{ij}(t) \\ |
| 24 | + &\hspace{10mm} w_{ij}(t+1)=w_{ij}(t)+\Delta w_{ij}(t) \\ |
| 25 | + &\hspace{5mm} \} \\ |
| 26 | + &\hspace{5mm} \textbf{else if} \: (\frac{\partial E}{\partial w_{ij}}(t-1)*\frac{\partial E}{\partial w_{ij}}(t)< 0)\ \textbf{then} \: \{ \\ |
| 27 | + &\hspace{10mm} learning\_rate_{ij}(t)=\mathrm{maximum}(learning\_rate_{ij}(t-1)*\eta^{-},learning\_rate_{min}) \\ |
| 28 | + &\hspace{10mm} w_{ij}(t+1)=w_{ij}(t) \\ |
| 29 | + &\hspace{10mm} \frac{\partial E}{\partial w_{ij}}(t)=0 \\ |
| 30 | + &\hspace{5mm} \} \\ |
| 31 | + &\hspace{5mm} \textbf{else if} \: (\frac{\partial E}{\partial w_{ij}}(t-1)*\frac{\partial E}{\partial w_{ij}}(t)= 0)\ \textbf{then} \: \{ \\ |
| 32 | + &\hspace{10mm} \Delta w_{ij}(t)=-sign(\frac{\partial E}{\partial w_{ij}}(t))*learning\_rate_{ij}(t) \\ |
| 33 | + &\hspace{10mm} w_{ij}(t+1)=w_{ij}(t)+\Delta w_{ij}(t) \\ |
| 34 | + &\hspace{5mm} \} \\ |
| 35 | + &\hspace{0mm} \} \\ |
| 36 | + \end{aligned} |
| 37 | +
|
| 38 | +
|
| 39 | +参数 |
| 40 | +:::::::::::: |
| 41 | + |
| 42 | + - **learning_rate** (float|_LRScheduleri,可选) - 初始学习率,用于参数更新的计算。可以是一个浮点型值或者一个_LRScheduler 类。默认值为 0.001。 |
| 43 | + - **learning_rate_range** (tuple,可选) - 学习率的范围。学习率不能小于元组的第一个元素;学习率不能大于元组的第二个元素。默认值为 (1e-5, 50)。 |
| 44 | + - **parameters** (list,可选) - 指定优化器需要优化的参数。在动态图模式下必须提供该参数;在静态图模式下默认值为 None,这时所有的参数都将被优化。 |
| 45 | + - **etas** (tuple,可选) - 用于更新学习率的元组。元组的第一个元素是乘法递减因子;元组的第二个元素是乘法增加因子。默认值为 (0.5, 1.2)。 |
| 46 | + - **grad_clip** (GradientClipBase,可选) – 梯度裁剪的策略,支持三种裁剪策略::ref:`paddle.nn.ClipGradByGlobalNorm <cn_api_paddle_nn_ClipGradByGlobalNorm>` 、 :ref:`paddle.nn.ClipGradByNorm <cn_api_paddle_nn_ClipGradByNorm>` 、 :ref:`paddle.nn.ClipGradByValue <cn_api_paddle_nn_ClipGradByValue>` 。 |
| 47 | + 默认值为 None,此时将不进行梯度裁剪。 |
| 48 | + - **name** (str,可选) - 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 |
| 49 | + |
| 50 | + |
| 51 | +代码示例 |
| 52 | +:::::::::::: |
| 53 | + |
| 54 | +COPY-FROM: paddle.optimizer.Rprop |
| 55 | + |
| 56 | + |
| 57 | +方法 |
| 58 | +:::::::::::: |
| 59 | +step() |
| 60 | +''''''''' |
| 61 | + |
| 62 | +.. note:: |
| 63 | + |
| 64 | + 该 API 只在 `Dygraph <../../user_guides/howto/dygraph/DyGraph.html>`_ 模式下生效。 |
| 65 | + |
| 66 | +执行一次优化器并进行参数更新。 |
| 67 | + |
| 68 | +**返回** |
| 69 | + |
| 70 | +无。 |
| 71 | + |
| 72 | +**代码示例** |
| 73 | + |
| 74 | +COPY-FROM: paddle.optimizer.Rprop.step |
| 75 | + |
| 76 | +minimize(loss, startup_program=None, parameters=None, no_grad_set=None) |
| 77 | +''''''''' |
| 78 | + |
| 79 | +为网络添加反向计算过程,并根据反向计算所得的梯度,更新 parameters 中的 Parameters,最小化网络损失值 loss。 |
| 80 | + |
| 81 | +**参数** |
| 82 | + |
| 83 | + - **loss** (Tensor) - 需要最小化的损失值变量 |
| 84 | + - **startup_program** (Program,可选) - 用于初始化 parameters 中参数的 :ref:`cn_api_paddle_static_Program`,默认值为 None,此时将使用 :ref:`cn_api_paddle_static_default_startup_program` 。 |
| 85 | + - **parameters** (list,可选) - 待更新的 Parameter 或者 Parameter.name 组成的列表,默认值为 None,此时将更新所有的 Parameter。 |
| 86 | + - **no_grad_set** (set,可选) - 不需要更新的 Parameter 或者 Parameter.name 组成的集合,默认值为 None。 |
| 87 | + |
| 88 | +**返回** |
| 89 | + |
| 90 | + tuple(optimize_ops, params_grads),其中 optimize_ops 为参数优化 OP 列表;param_grads 为由(param, param_grad)组成的列表,其中 param 和 param_grad 分别为参数和参数的梯度。在静态图模式下,该返回值可以加入到 ``Executor.run()`` 接口的 ``fetch_list`` 参数中,若加入,则会重写 ``use_prune`` 参数为 True,并根据 ``feed`` 和 ``fetch_list`` 进行剪枝,详见 ``Executor`` 的文档。 |
| 91 | + |
| 92 | + |
| 93 | +**代码示例** |
| 94 | + |
| 95 | +COPY-FROM: paddle.optimizer.Rprop.minimize |
| 96 | + |
| 97 | +clear_grad() |
| 98 | +''''''''' |
| 99 | + |
| 100 | +.. note:: |
| 101 | + |
| 102 | + 该 API 只在 `Dygraph <../../user_guides/howto/dygraph/DyGraph.html>`_ 模式下生效。 |
| 103 | + |
| 104 | + |
| 105 | +清除需要优化的参数的梯度。 |
| 106 | + |
| 107 | +**代码示例** |
| 108 | + |
| 109 | +COPY-FROM: paddle.optimizer.Rprop.clear_grad |
| 110 | + |
| 111 | +get_lr() |
| 112 | +''''''''' |
| 113 | + |
| 114 | +.. note:: |
| 115 | + |
| 116 | + 该 API 只在 `Dygraph <../../user_guides/howto/dygraph/DyGraph.html>`_ 模式下生效。 |
| 117 | + |
| 118 | +获取当前步骤的学习率。当不使用_LRScheduler 时,每次调用的返回值都相同,否则返回当前步骤的学习率。 |
| 119 | + |
| 120 | +**返回** |
| 121 | + |
| 122 | +float,当前步骤的学习率。 |
| 123 | + |
| 124 | + |
| 125 | +**代码示例** |
| 126 | + |
| 127 | +COPY-FROM: paddle.optimizer.Rprop.get_lr |
0 commit comments