fixed some bugs

huangshiyu13 · huangshiyu13 · commit aa3a01743562 · 2023-09-01T01:19:13.000+08:00
diff --git a/examples/selfplay/human_vs_agent.py b/examples/selfplay/human_vs_agent.py
@@ -27,7 +27,7 @@ def get_human_env(env_num):
     env = make(
         "tictactoe_v3",
         env_num=env_num,
-        asynchronous=True,
+        asynchronous=False,
         opponent_wrappers=[TictactoeRender, HumanOpponentWrapper],
         env_wrappers=[FlattenObservation],
         auto_reset=False,
diff --git a/examples/selfplay/opponent_templates/tictactoe_opponent/opponent.py b/examples/selfplay/opponent_templates/tictactoe_opponent/opponent.py
@@ -47,7 +47,7 @@ def process_obs(self, observation, termination, truncation, info):
         return new_obs, termination, truncation, new_info
 
     def process_action(self, action):
-        return action[0][0][0]
+        return action[0][0]
 
 
 class Opponent(NetworkOpponent):
diff --git a/examples/selfplay/tictactoe_utils/tictactoe_render.py b/examples/selfplay/tictactoe_utils/tictactoe_render.py
@@ -45,7 +45,7 @@ def reset(self, seed: Optional[int] = None, options: Optional[dict] = None):
 
     def step(self, action: ActionType) -> None:
         result = super().step(action)
-        self.last_action = action
+        self.last_action = action[0]
         return result
 
     def observe(self, agent: str) -> Optional[ObsType]:
diff --git a/examples/snake/jidi_eval.py b/examples/snake/jidi_eval.py
@@ -36,7 +36,10 @@ def run_arena(
     )
 
     agent1 = JiDiAgent("./submissions/rule_v1", player_num=player_num)
-    agent2 = JiDiAgent("./submissions/rl", player_num=player_num)
+    if player_num == 3:
+        agent2 = JiDiAgent("./submissions/rl", player_num=player_num)
+    else:
+        agent2 = JiDiAgent("./submissions/rule_v1", player_num=player_num)
 
     arena.reset(
         agents={"agent1": agent1, "agent2": agent2},
@@ -51,4 +54,4 @@ def run_arena(
 
 
 if __name__ == "__main__":
-    run_arena(render=False, parallel=True, seed=0, total_games=100, max_game_onetime=5)
+    run_arena(render=False, parallel=True, seed=0, total_games=10, max_game_onetime=5)
diff --git a/examples/snake/train_selfplay.py b/examples/snake/train_selfplay.py
@@ -15,7 +15,10 @@ def train():
 
     # Create environment
     env_num = 10
+
     render_model = None
+
+    # ConvertObs can only be used for snakes_1v1, if you want to train snakes_3v3, you need to write your own wrapper
     env = make(
         "snakes_1v1",
         render_mode=render_model,
@@ -32,6 +35,7 @@ def train():
     agent = Agent(net)
     # Begin training
     agent.train(total_time_steps=100000)
+
     env.close()
     agent.save("./selfplay_agent/")
     return agent
@@ -71,6 +75,7 @@ def evaluation():
         while not np.any(done):
             # predict next action based on the observation
             action, _ = agent.act(obs, info, deterministic=True)
+
             obs, r, done, info = env.step(action)
             step += 1
 
diff --git a/examples/snake/wrappers.py b/examples/snake/wrappers.py
@@ -23,14 +23,14 @@
 
 
 def raw2vec(raw_obs, n_player=2):
-    control_index = raw_obs["controlled_snake_index"][0]
+    control_index = raw_obs["controlled_snake_index"]
 
-    width = raw_obs["board_width"][0]
-    height = raw_obs["board_height"][0]
-    beans = raw_obs[1][0]
+    width = raw_obs["board_width"]
+    height = raw_obs["board_height"]
+    beans = raw_obs[1]
 
-    ally_pos = raw_obs[control_index][0]
-    enemy_pos = raw_obs[5 - control_index][0]
+    ally_pos = raw_obs[control_index]
+    enemy_pos = raw_obs[5 - control_index]
 
     obs = np.zeros(width * height * n_player, dtype=int)
 
@@ -59,7 +59,7 @@ def raw2vec(raw_obs, n_player=2):
     obs_ = np.array([])
     for i in obs:
         obs_ = np.concatenate([obs_, np.eye(6)[i]])
-    obs_ = obs_.reshape(-1, width * height * n_player * 6)
+    obs_ = obs_.reshape(width * height * n_player * 6)
 
     return obs_
 
@@ -87,4 +87,8 @@ def observation(self, observation):
             The flattened observation
         """
 
-        return raw2vec(observation)
+        new_obs = []
+        for obs in observation:
+            new_obs.append(raw2vec(obs))
+
+        return new_obs
diff --git a/openrl/algorithms/dqn.py b/openrl/algorithms/dqn.py
@@ -167,9 +167,7 @@ def prepare_loss(
         )
 
         q_targets = rewards_batch + self.gamma * max_next_q_values * next_masks_batch
-        q_loss = torch.mean(
-            F.mse_loss(q_values, q_targets.detach())
-        )  # 均方误差损失函数
+        q_loss = torch.mean(F.mse_loss(q_values, q_targets.detach()))  # 均方误差损失函数
 
         loss_list.append(q_loss)
 
diff --git a/openrl/algorithms/vdn.py b/openrl/algorithms/vdn.py
@@ -211,9 +211,7 @@ def prepare_loss(
         rewards_batch = rewards_batch.reshape(-1, self.n_agent, 1)
         rewards_batch = torch.sum(rewards_batch, dim=1, keepdim=True).view(-1, 1)
         q_targets = rewards_batch + self.gamma * max_next_q_values * next_masks_batch
-        q_loss = torch.mean(
-            F.mse_loss(q_values, q_targets.detach())
-        )  # 均方误差损失函数
+        q_loss = torch.mean(F.mse_loss(q_values, q_targets.detach()))  # 均方误差损失函数
 
         loss_list.append(q_loss)
         return loss_list
diff --git a/openrl/arena/__init__.py b/openrl/arena/__init__.py
@@ -28,7 +28,6 @@ def make_arena(
     render: Optional[bool] = False,
     **kwargs,
 ):
-    print(openrl.envs.PettingZoo.registration.pettingzoo_env_dict.keys())
     if custom_build_env is None:
         if (
             env_id in pettingzoo_all_envs
diff --git a/openrl/envs/PettingZoo/__init__.py b/openrl/envs/PettingZoo/__init__.py
@@ -20,7 +20,7 @@
 
 from openrl.envs.common import build_envs
 from openrl.envs.PettingZoo.registration import pettingzoo_env_dict, register
-from openrl.envs.wrappers.pettingzoo_wrappers import SeedEnv
+from openrl.envs.wrappers.pettingzoo_wrappers import CheckAgentNumber, SeedEnv
 
 
 def PettingZoo_make(id, render_mode, disable_env_checker, **kwargs):
@@ -46,8 +46,9 @@ def make_PettingZoo_env(
     **kwargs,
 ):
     env_num = 1
-    env_wrappers = [SeedEnv]
+    env_wrappers = [CheckAgentNumber, SeedEnv]
     env_wrappers += copy.copy(kwargs.pop("env_wrappers", []))
+
     env_fns = build_envs(
         make=PettingZoo_make,
         id=id,
@@ -65,16 +66,15 @@ def make_PettingZoo_envs(
     render_mode: Optional[Union[str, List[str]]] = None,
     **kwargs,
 ):
-    from openrl.envs.wrappers import (  # AutoReset,; DictWrapper,
+    from openrl.envs.wrappers import (  # AutoReset,; DictWrapper,; Single2MultiAgentWrapper,
         MoveActionMask2InfoWrapper,
         RemoveTruncated,
-        Single2MultiAgentWrapper,
     )
 
-    env_wrappers = [SeedEnv]
+    env_wrappers = [CheckAgentNumber, SeedEnv]
     env_wrappers += copy.copy(kwargs.pop("opponent_wrappers", []))
     env_wrappers += [
-        Single2MultiAgentWrapper,
+        # Single2MultiAgentWrapper,
         RemoveTruncated,
         MoveActionMask2InfoWrapper,
     ]
diff --git a/openrl/envs/snake/__init__.py b/openrl/envs/snake/__init__.py
@@ -18,16 +18,18 @@
 import copy
 from typing import List, Optional, Union
 
-from pettingzoo.utils.wrappers import AssertOutOfBoundsWrapper, OrderEnforcingWrapper
-
 from openrl.envs.common import build_envs
 from openrl.envs.snake.snake_pettingzoo import SnakeEatBeansAECEnv
-from openrl.envs.wrappers.pettingzoo_wrappers import SeedEnv
+from openrl.envs.wrappers.pettingzoo_wrappers import (
+    OpenRLAssertOutOfBoundsWrapper,
+    OpenRLOrderEnforcingWrapper,
+    SeedEnv,
+)
 
 
-def snake_env_make(id, render_mode, disable_env_checker, **kwargs):
-    if id == "snakes_1v1":
-        env = SnakeEatBeansAECEnv(render_mode=render_mode)
+def snake_env_make(id: str, render_mode, disable_env_checker, **kwargs):
+    if id.startswith("snakes"):
+        env = SnakeEatBeansAECEnv(render_mode=render_mode, id=id)
     else:
         raise ValueError("Unknown env {}".format(id))
     return env
@@ -41,10 +43,13 @@ def make_snake_envs(
 ):
     from openrl.envs.wrappers import RemoveTruncated, Single2MultiAgentWrapper
 
-    env_wrappers = [AssertOutOfBoundsWrapper, OrderEnforcingWrapper, SeedEnv]
+    env_wrappers = [
+        OpenRLAssertOutOfBoundsWrapper,
+        OpenRLOrderEnforcingWrapper,
+        SeedEnv,
+    ]
     env_wrappers += copy.copy(kwargs.pop("opponent_wrappers", []))
     env_wrappers += [
-        Single2MultiAgentWrapper,
         RemoveTruncated,
     ]
     env_wrappers += copy.copy(kwargs.pop("env_wrappers", []))
diff --git a/openrl/envs/snake/snake.py b/openrl/envs/snake/snake.py
@@ -60,7 +60,7 @@ def convert_to_onehot(joint_action):
 
 class SnakeEatBeans(GridGame, GridObservation, DictObservation):
     def __init__(self, render_mode: Optional[str] = None, id: Optional[str] = None):
-        assert id in conf_dict.keys(), "id must be in %s" % conf_dict.keys()
+        assert id in conf_dict.keys(), f"id must be in {conf_dict.keys()}, but get {id}"
         conf = conf_dict[id]
         self.terminate_flg = False
         colors = conf.get("colors", [(255, 255, 255), (255, 140, 0)])
@@ -162,6 +162,7 @@ def reset(self):
                 if self.init_colors is not None
                 else generate_color(self.cell_size)
             )
+
         self.step_cnt = 1
         self.snakes_position = (
             {}
@@ -183,6 +184,7 @@ def reset(self):
 
         info = {"action_mask": avail_actions}
         self.inner_render()
+
         return self.all_observes, info
 
     def step(self, joint_action):
@@ -193,22 +195,18 @@ def step(self, joint_action):
         all_observes, info_after = self.get_next_state(joint_action)
         done = self.is_terminal()
         reward = self.get_reward(joint_action)
-
         left_avail_actions = np.ones([self.num_agents, self.action_dim])
         right_avail_actions = np.ones([self.num_enemys, self.action_dim])
         avail_actions = np.concatenate([left_avail_actions, right_avail_actions], 0)
-
-        raw_obs = all_observes[0]
-        obs = self.raw2vec(raw_obs)
-
         rewards = np.expand_dims(np.array(reward), axis=1)
 
         dones = [done] * self.n_player
         infos = info_after
 
         infos.update({"action_mask": avail_actions})
         self.inner_render()
-        return self.all_observes, rewards, dones, infos
+
+        return all_observes, rewards, dones, infos
 
     # obs: 0-空白 1-豆子 2-我方蛇头 3-我方蛇身 4-敌方蛇头 5-敌方蛇身
 
@@ -677,9 +675,7 @@ class Snake:
     def __init__(self, player_id, board_width, board_height, init_len):
         self.actions = [-2, 2, -1, 1]
         self.actions_name = {-2: "up", 2: "down", -1: "left", 1: "right"}
-        self.direction = random.choice(
-            self.actions
-        )  # 方向[-2,2,-1,1]分别表示[上，下，左，右]
+        self.direction = random.choice(self.actions)  # 方向[-2,2,-1,1]分别表示[上，下，左，右]
         self.board_width = board_width
         self.board_height = board_height
         x = random.randrange(0, board_height)
diff --git a/openrl/envs/snake/snake_3v3.py b/openrl/envs/snake/snake_3v3.py
@@ -794,9 +794,7 @@ class Snake:
     def __init__(self, player_id, board_width, board_height, init_len):
         self.actions = [-2, 2, -1, 1]
         self.actions_name = {-2: "up", 2: "down", -1: "left", 1: "right"}
-        self.direction = random.choice(
-            self.actions
-        )  # 方向[-2,2,-1,1]分别表示[上，下，左，右]
+        self.direction = random.choice(self.actions)  # 方向[-2,2,-1,1]分别表示[上，下，左，右]
         self.board_width = board_width
         self.board_height = board_height
         x = random.randrange(0, board_height)
diff --git a/openrl/envs/snake/snake_pettingzoo.py b/openrl/envs/snake/snake_pettingzoo.py
@@ -32,11 +32,16 @@
 class SnakeEatBeansAECEnv(AECEnv):
     metadata = {"render.modes": ["human"], "name": "SnakeEatBeans"}
 
+    @property
+    def agent_num(self):
+        return self.player_each_side
+
     def __init__(self, render_mode: Optional[str] = None, id: str = None):
         self.env = SnakeEatBeans(render_mode, id=id)
 
         agent_num = len(self.possible_agents)
         player_each_side = self.env.num_agents
+        self.player_each_side = player_each_side
         self.agent_name_to_slice = dict(
             zip(
                 self.possible_agents,
@@ -105,11 +110,12 @@ def step(self, action):
         agent = self.agent_selection
         self._cumulative_rewards[agent] = 0
         self.state[self.agent_selection] = action
+
         if self._agent_selector.is_last():
             joint_action = []
             for agent in self.agents:
-                joint_action += self.state[agent]
-
+                joint_action.append(self.state[agent])
+            joint_action = np.concatenate(joint_action)
             self.raw_obs, self.raw_reward, self.raw_done, self.raw_info = self.env.step(
                 joint_action
             )
diff --git a/openrl/envs/vec_env/async_venv.py b/openrl/envs/vec_env/async_venv.py
@@ -193,7 +193,7 @@ def _reset(
         """Reset all parallel environments and return a batch of initial observations and info.
 
         Args:
-            seed: The environment reset seeds
+            seed: The environment eeds
             options: If to return the options
 
         Returns:
@@ -790,7 +790,7 @@ def prepare_obs(observation):
                         terminated,
                         info,
                     ) = result
-                    need_reset = _need_reset and all(terminated)
+                    need_reset = _need_reset and np.all(terminated)
                 elif result_len == 5:
                     (
                         observation,
@@ -799,7 +799,9 @@ def prepare_obs(observation):
                         truncated,
                         info,
                     ) = result
-                    need_reset = _need_reset and (all(terminated) or all(truncated))
+                    need_reset = _need_reset and (
+                        np.all(terminated) or np.all(truncated)
+                    )
                 else:
                     raise NotImplementedError(
                         "Step result length can not be {}.".format(result_len)
diff --git a/openrl/envs/vec_env/utils/util.py b/openrl/envs/vec_env/utils/util.py
@@ -69,7 +69,14 @@ def prepare_action_masks(
                 action_mask = None
             else:
                 if "action_masks" in env_info:
-                    action_mask = env_info["action_masks"][agent_index]
+                    mask_dim = len(np.array(env_info["action_masks"]).shape)
+                    if mask_dim == 2:
+                        action_mask = env_info["action_masks"][agent_index]
+                    elif mask_dim == 1:
+                        action_mask = env_info["action_masks"]
+                    else:
+                        raise ValueError(mask_dim)
+
                 else:
                     # if there is no action_masks in env_info, then we assume all actions are available
                     return None
diff --git a/openrl/envs/wrappers/pettingzoo_wrappers.py b/openrl/envs/wrappers/pettingzoo_wrappers.py
diff --git a/openrl/selfplay/opponents/opponent_env.py b/openrl/selfplay/opponents/opponent_env.py
diff --git a/openrl/selfplay/opponents/random_opponent.py b/openrl/selfplay/opponents/random_opponent.py
diff --git a/openrl/selfplay/wrappers/base_multiplayer_wrapper.py b/openrl/selfplay/wrappers/base_multiplayer_wrapper.py
diff --git a/openrl/selfplay/wrappers/human_opponent_wrapper.py b/openrl/selfplay/wrappers/human_opponent_wrapper.py
diff --git a/openrl/selfplay/wrappers/opponent_pool_wrapper.py b/openrl/selfplay/wrappers/opponent_pool_wrapper.py
diff --git a/openrl/selfplay/wrappers/random_opponent_wrapper.py b/openrl/selfplay/wrappers/random_opponent_wrapper.py

Original file line number	Diff line number	Diff line change
`@@ -167,9 +167,7 @@ def prepare_loss(`
`167`	`167`	`)`
`168`	`168`
`169`	`169`	`q_targets = rewards_batch + self.gamma * max_next_q_values * next_masks_batch`
`170`		`- q_loss = torch.mean(`
`171`		`- F.mse_loss(q_values, q_targets.detach())`
`172`		`- ) # 均方误差损失函数`
	`170`	`+ q_loss = torch.mean(F.mse_loss(q_values, q_targets.detach())) # 均方误差损失函数`
`173`	`171`
`174`	`172`	`loss_list.append(q_loss)`
`175`	`173`