RL Policy Iteration Comparison

A comprehensive implementation and visualization of various reinforcement learning algorithms, focusing on policy iteration methods across different test environments. This project compares the performance of Q-Learning, SARSA, Monte Carlo ES, and Value Iteration algorithms in challenging grid world environments.

Ideas based on Sutton and Barto's Second Edition on Reinforcement Learning. Utilizes a 4x4x4 grid world with stochastic moving obstacles per episode, as well as a 10x10x10 grid world testing n-step boostrapping methods.

Features

Multiple RL Algorithms Implementation
- Q-Learning
- SARSA
- Monte Carlo ES
- Value Iteration (baseline)
Test Environments
- Sparse Rewards Environment
- Long Horizon Environment
- Stochastic Rewards Environment
Rich Visualizations
- Learning curve plots with confidence intervals
- Grid world comparisons in 2D and 3D
- Performance analysis visualizations
- Optimal path comparisons and visuals

Key Findings

Performance Analysis

Our analysis reveals several interesting patterns:

Algorithm Convergence:
- Q-Learning shows fastest initial learning in sparse reward environments
- SARSA demonstrates more stable learning curves with lower variance
- Monte Carlo ES exhibits strong final performance but slower learning
- Value Iteration provides consistent baseline performance
Environment-Specific Insights:
- Stochastic environments: SARSA shows more robust performance
- Long horizon tasks: Q-Learning achieves better asymptotic performance
- Sparse rewards: Monte Carlo ES demonstrates competitive final results

Optimal Path Analysis

The optimal paths visualization shows:

Path Optimization:
- Progressive improvement in path efficiency over training
- Clear visualization of how algorithms adapt to environment changes
- Comparison of exploration vs exploitation strategies
Algorithm Characteristics:
- Q-Learning: More direct paths after convergence
- SARSA: Safer paths avoiding risky states
- Monte Carlo ES: Diverse path exploration early in training

Requirements

numpy>=1.21.0
matplotlib>=3.4.0
plotly>=5.3.0
pandas>=1.3.0
seaborn>=0.11.0
pytest>=6.2.0

Getting Started

Clone the repository:

git clone https://github.com/ehas1/Reinforcement-Learning.git
cd Reinforcement-Learning

Install dependencies:

pip install -r requirements.txt

Run the main comparison:

python grid_world_comparison.py

Visualizations

This repository includes key visualizations:

grid_world_comparison_2d.png and grid_world_comparison_3d.png
- 2D and 3D representations of the grid world
- Algorithm performance comparisons
- State-value function visualization
enhanced_comparison_3d.png
- Detailed 3D visualization of algorithm performance
- Comparative analysis across environments
optimal_paths_comparison.png
- Visual comparison of optimal paths
- Algorithm behavior analysis
- Policy convergence demonstration

Contributing

Contributions are welcome! Please feel free to submit a Pull Request.

License

This project is licensed under the MIT License - see the LICENSE file for details.

Contact

For questions or feedback, please open an issue in the repository.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
LICENSE		LICENSE
Neural_Network.ipynb		Neural_Network.ipynb
README.md		README.md
enhanced_comparison_3d.png		enhanced_comparison_3d.png
environment_10x10x10.py		environment_10x10x10.py
environment_tests.py		environment_tests.py
generate_visualizations.py		generate_visualizations.py
grid_world_comparison.py		grid_world_comparison.py
grid_world_comparison_2d.png		grid_world_comparison_2d.png
grid_world_comparison_3d.png		grid_world_comparison_3d.png
monte_carlo.py		monte_carlo.py
optimal_paths_comparison.png		optimal_paths_comparison.png
requirements.txt		requirements.txt
rl_algorithms.py		rl_algorithms.py
run_10x10x10_experiments.py		run_10x10x10_experiments.py
stochastic_comparison.py		stochastic_comparison.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

RL Policy Iteration Comparison

Features

Key Findings

Performance Analysis

Optimal Path Analysis

Requirements

Getting Started

Visualizations

Contributing

License

Contact

About

Uh oh!

Releases

Packages

Languages

License

ehas1/Reinforcement-Learning

Folders and files

Latest commit

History

Repository files navigation

RL Policy Iteration Comparison

Features

Key Findings

Performance Analysis

Optimal Path Analysis

Requirements

Getting Started

Visualizations

Contributing

License

Contact

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages