Computer Science, asked by kulsoomnasir23, 8 months ago

The Cliff Walking environment is a gridworld with a discrete state space and discrete action space. The 

agent starts at grid cell S. The agent can move to the four neighboring cells by taking actions Up, Down, 

Left  or  Right.  The  Up  and  Down  actions  are  deterministic,  whereas,  the  Left  and  Right  actions  are 

stochastic, with a probability of 0.7 to be completed and a probability of 0.3 of the agent ending up in the 

perpendicular direction. Trying to move out of the boundary results in staying in the same location. So, 

for example, trying to move left when at a cell on the leftmost column results in no movement at all and 

the agent remains in the same location. The agent receives ‐1 reward per step in most states, and    ‐100 

reward when falling off of the cliff. This is an episodic task; termination occurs when the agent reaches 

the goal grid cell G. Falling off of the cliff results in resetting to the start state, without termination.​

Answers

Answered by benboss056
0

Answer:

ok all the best let's get it peace out

Similar questions