# -*- coding: utf-8 -*- #載入庫 import numpy as np import gym import time
#Gym的主要作用是為研究者和開發(fā)者提供一個方便的強化學(xué)習(xí)任務(wù)環(huán)境 env = gym.make('CartPole-v0') #創(chuàng)建CartPole問題的環(huán)境env
env.reset() #初始化環(huán)境
random_episodes = 0
reward_sum = 0#獎勵 while random_episodes < 10: env.render()#將CartPole問題的圖像渲染出來
observation, reward, done, _ = env.step(np.random.randint(0, 2)) #使用np.random.randint(0, 2)產(chǎn)生隨機的Action #然后使用env.step()執(zhí)行隨機的Action,并獲取返回值 #如果done標(biāo)記為True,則表示這次試驗結(jié)束,即傾角超過15度或者偏離中心過遠導(dǎo)致任務(wù)失敗
reward_sum += reward if done:#如果試驗結(jié)束 random_episodes += 1 print("game over,Reward for this episode was:", reward_sum) #輸出這次試驗累計的獎勵 reward_sum = 0 #獎勵重新置為0
time.sleep(2) env.reset()#重啟環(huán)境
該僅僅是平衡木的移動,開始到結(jié)束。
|