小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

強化學(xué)習(xí)之前言

 雪柳花明 2017-08-03
# -*- coding: utf-8 -*-
#載入庫
import numpy as np
import gym
import time

#Gym的主要作用是為研究者和開發(fā)者提供一個方便的強化學(xué)習(xí)任務(wù)環(huán)境
env = gym.make('CartPole-v0')
#創(chuàng)建CartPole問題的環(huán)境env

env.reset()
#初始化環(huán)境

random_episodes = 0

reward_sum = 0#獎勵
while random_episodes < 10:
env.render()#CartPole問題的圖像渲染出來

observation, reward, done, _ = env.step(np.random.randint(0, 2))
#使用np.random.randint(0, 2)產(chǎn)生隨機的Action
#然后使用env.step()執(zhí)行隨機的Action,并獲取返回值
#如果done標(biāo)記為True,則表示這次試驗結(jié)束,即傾角超過15度或者偏離中心過遠導(dǎo)致任務(wù)失敗

reward_sum += reward
if done:#如果試驗結(jié)束
random_episodes += 1
print("game over,Reward for this episode was:", reward_sum)
#輸出這次試驗累計的獎勵
reward_sum = 0 #獎勵重新置為0

time.sleep(2)
env.reset()#重啟環(huán)境

該僅僅是平衡木的移動,開始到結(jié)束。
 
 


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多