Sac

mighty.mighty_agents.sac #

MightySACAgent #

MightySACAgent(
    output_dir: Path,
    env: MIGHTYENV,
    eval_env: Optional[MIGHTYENV] = None,
    seed: Optional[int] = None,
    n_policy_units: int = 64,
    soft_update_weight: float = 0.005,
    batch_size: int = 256,
    learning_starts: int = 10000,
    update_every: int = 50,
    n_gradient_steps: int = 1,
    log_infos: bool = False,
    policy_lr: float = 0.0003,
    q_lr: float = 0.0003,
    gamma: float = 0.99,
    alpha: float = 0.2,
    auto_alpha: bool = True,
    target_entropy: Optional[float] = None,
    alpha_lr: float = 0.0003,
    hidden_sizes: Optional[List[int]] = None,
    activation: str = "relu",
    log_std_min: float = -5,
    log_std_max: float = 2,
    render_progress: bool = True,
    log_wandb: bool = False,
    wandb_kwargs: Optional[Dict] = None,
    replay_buffer_class: Type[MightyReplay] = MightyReplay,
    replay_buffer_kwargs: Optional[TypeKwargs] = None,
    meta_methods: Optional[List[Union[str, type]]] = None,
    meta_kwargs: Optional[List[TypeKwargs]] = None,
    policy_class: Optional[
        Union[
            str, DictConfig, Type[MightyExplorationPolicy]
        ]
    ] = None,
    policy_kwargs: Optional[Dict] = None,
    normalize_obs: bool = True,
    normalize_reward: bool = True,
    rescale_action: bool = False,
    policy_frequency: int = 2,
    target_network_frequency: int = 1,
)

Bases: MightyAgent

Source code in mighty/mighty_agents/sac.py

def __init__(
    self,
    output_dir: Path,
    env: MIGHTYENV,
    eval_env: Optional[MIGHTYENV] = None,
    seed: Optional[int] = None,
    n_policy_units: int = 64,
    soft_update_weight: float = 0.005,
    # --- Replay & update scheduling ---
    batch_size: int = 256,
    learning_starts: int = 10000,
    update_every: int = 50,
    n_gradient_steps: int = 1,
    log_infos: bool = False,
    # --- Learning rates ---
    policy_lr: float = 3e-4,
    q_lr: float = 3e-4,
    # --- SAC hyperparameters ---
    gamma: float = 0.99,
    alpha: float = 0.2,
    auto_alpha: bool = True,
    target_entropy: Optional[float] = None,
    alpha_lr: float = 3e-4,
    # --- Network architecture (optional override) ---
    hidden_sizes: Optional[List[int]] = None,
    activation: str = "relu",
    log_std_min: float = -5,
    log_std_max: float = 2,
    # --- Logging & buffer ---
    render_progress: bool = True,
    log_wandb: bool = False,
    wandb_kwargs: Optional[Dict] = None,
    replay_buffer_class: Type[MightyReplay] = MightyReplay,
    replay_buffer_kwargs: Optional[TypeKwargs] = None,
    meta_methods: Optional[List[Union[str, type]]] = None,
    meta_kwargs: Optional[List[TypeKwargs]] = None,
    policy_class: Optional[
        Union[str, DictConfig, Type[MightyExplorationPolicy]]
    ] = None,
    policy_kwargs: Optional[Dict] = None,
    normalize_obs: bool = True,  # ← NEW
    normalize_reward: bool = True,  # ← NEW (optional),
    rescale_action: bool = False,  # ← NEW Whether to rescale actions to the environment's action space
    policy_frequency: int = 2,  # Frequency of policy updates
    target_network_frequency: int = 1,  # Frequency of target network updates
):
    """Initialize SAC agent with tunable hyperparameters and backward-compatible names."""
    if hidden_sizes is None:
        hidden_sizes = [n_policy_units, n_policy_units]
    tau = soft_update_weight

    # Save hyperparameters
    self.batch_size = batch_size
    self.learning_starts = learning_starts
    self.update_every = update_every
    self.n_gradient_steps = n_gradient_steps
    self.policy_lr = policy_lr
    self.q_lr = q_lr
    self.gamma = gamma
    self.tau = tau
    self.alpha = alpha
    self.hidden_sizes = hidden_sizes
    self.activation = activation
    self.log_std_min = log_std_min
    self.log_std_max = log_std_max

    self.auto_alpha = auto_alpha
    self.target_entropy = target_entropy
    self.alpha_lr = alpha_lr

    # Placeholders for model and updater
    self.model: SACModel | None = None
    self.update_fn: SACUpdate | None = None

    # Exploration policy class
    self.policy_class = retrieve_class(
        cls=policy_class, default_cls=StochasticPolicy
    )
    self.policy_kwargs = policy_kwargs or {
        "discrete": False  # Default to continuous SAC
    }

    self.policy_frequency = policy_frequency
    self.target_network_frequency = target_network_frequency

    super().__init__(
        env=env,
        output_dir=output_dir,
        seed=seed,
        eval_env=eval_env,
        learning_starts=learning_starts,
        n_gradient_steps=n_gradient_steps,
        render_progress=render_progress,
        log_wandb=log_wandb,
        wandb_kwargs=wandb_kwargs,
        replay_buffer_class=replay_buffer_class,
        replay_buffer_kwargs=replay_buffer_kwargs,
        meta_methods=meta_methods,
        meta_kwargs=meta_kwargs,
        normalize_obs=normalize_obs,
        normalize_reward=normalize_reward,
        rescale_action=rescale_action,
        batch_size=batch_size,
        learning_rate=policy_lr,  # For compatibility with base class
        log_infos=log_infos,
    )

    # Initialize loss buffer for logging
    self.loss_buffer = {
        "Update/q_loss1": [],
        "Update/q_loss2": [],
        "Update/policy_loss": [],
        "Update/td_error1": [],
        "Update/td_error2": [],
        "update_at_step": [],
    }

parameters `property` #

parameters: List[Parameter]

Collect policy + Q‐network parameters for SAC.

value_function `property` #

value_function: Module

Value function for compatibility: V(s) = min(Q1,Q2)(s, a_policy) - alpha * log_pi(a|s).