Fix PPO per #1007 (#1013)

jeremiahpslewis · web-flow · commit 2e1af7f2d268 · 2024-03-01T18:14:27.000+01:00
diff --git a/src/ReinforcementLearningZoo/src/algorithms/policy_gradient/ppo.jl b/src/ReinforcementLearningZoo/src/algorithms/policy_gradient/ppo.jl
@@ -158,6 +158,8 @@ end
 
 function RLBase.prob(p::PPOPolicy{<:ActorCritic,Categorical}, state::AbstractArray, mask)
     logits = p.approximator.actor(send_to_device(device(p.approximator), state))
+    mask = send_to_device(device(p.approximator), mask)
+
     if !isnothing(mask)
         logits .+= ifelse.(mask, 0.0f0, typemin(Float32))
     end