強化學(xué)習(xí)之前言

雪柳花明 2017-08-03

展開全文

# -*- coding: utf-8 -*-
#載入庫
import numpy as np
import gym
import time

#Gym的主要作用是為研究者和開發(fā)者提供一個方便的強化學(xué)習(xí)任務(wù)環(huán)境
env = gym.make('CartPole-v0')
#創(chuàng)建CartPole問題的環(huán)境env

env.reset()
#初始化環(huán)境

random_episodes = 0

reward_sum = 0#獎勵
while random_episodes < 10:
    env.render()#將CartPole問題的圖像渲染出來

    observation, reward, done, _ = env.step(np.random.randint(0, 2))
    #使用np.random.randint(0, 2)產(chǎn)生隨機的Action
    #然后使用env.step()執(zhí)行隨機的Action,并獲取返回值
    #如果done標(biāo)記為True,則表示這次試驗結(jié)束，即傾角超過15度或者偏離中心過遠導(dǎo)致任務(wù)失敗

    reward_sum += reward
    if done:#如果試驗結(jié)束
        random_episodes += 1
        print("game over,Reward for this episode was:", reward_sum)
        #輸出這次試驗累計的獎勵
        reward_sum = 0 #獎勵重新置為0

        time.sleep(2)
        env.reset()#重啟環(huán)境

該僅僅是平衡木的移動，開始到結(jié)束。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：雪柳花明 > 《Reinforcement Learning》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

雪柳花明

關(guān)注對話

TA的最新館藏

計算機二級新增第8套
計算機二級新增第7套
計算機二級新增第6套
計算機二級新增第5套
計算機二級新增第4套
計算機二級 MS 第18套

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

強化學(xué)習(xí)之前言