fix(cli): fix tool metric model in cli eval (#276)

yaozheng-fang · web-flow · commit b4b0a37c7070 · 2025-11-03T10:48:27.000+08:00
* fix(cli): fix tool metric model in cli eval

* fix tracers bugs
diff --git a/veadk/agent.py b/veadk/agent.py
@@ -33,10 +33,10 @@
     DEFAULT_MODEL_EXTRA_CONFIG,
 )
 from veadk.evaluation import EvalSetRecorder
-from veadk.processors import BaseRunProcessor, NoOpRunProcessor
 from veadk.knowledgebase import KnowledgeBase
 from veadk.memory.long_term_memory import LongTermMemory
 from veadk.memory.short_term_memory import ShortTermMemory
+from veadk.processors import BaseRunProcessor, NoOpRunProcessor
 from veadk.prompts.agent_default_prompt import DEFAULT_DESCRIPTION, DEFAULT_INSTRUCTION
 from veadk.tracing.base_tracer import BaseTracer
 from veadk.utils.logger import get_logger
@@ -298,6 +298,10 @@ def _prepare_tracers(self):
         enable_cozeloop_tracer = os.getenv("ENABLE_COZELOOP", "false").lower() == "true"
         enable_tls_tracer = os.getenv("ENABLE_TLS", "false").lower() == "true"
 
+        if not (enable_apmplus_tracer or enable_cozeloop_tracer or enable_tls_tracer):
+            logger.info("No exporter enabled by env, skip prepare tracers.")
+            return
+
         if not self.tracers:
             from veadk.tracing.telemetry.opentelemetry_tracer import OpentelemetryTracer
 
diff --git a/veadk/cli/cli_eval.py b/veadk/cli/cli_eval.py
@@ -205,7 +205,7 @@ def eval(
                 ],
                 model=judge_model,
             ),
-            ToolCorrectnessMetric(threshold=0.5),
+            ToolCorrectnessMetric(threshold=0.5, model=judge_model),
         ]
 
         asyncio.run(
diff --git a/veadk/evaluation/deepeval_evaluator/deepeval_evaluator.py b/veadk/evaluation/deepeval_evaluator/deepeval_evaluator.py
@@ -13,6 +13,7 @@
 # limitations under the License.
 
 import time
+from typing import Optional
 
 from deepeval import evaluate
 from deepeval.evaluate import CacheConfig
@@ -21,9 +22,9 @@
 from deepeval.models import LocalModel
 from deepeval.test_case import LLMTestCase
 from deepeval.test_case.llm_test_case import ToolCall
-from typing_extensions import override
-from typing import Optional
 from google.adk.evaluation.eval_set import EvalSet
+from typing_extensions import override
+
 from veadk.config import getenv
 from veadk.evaluation.base_evaluator import BaseEvaluator, EvalResultData, MetricResult
 from veadk.evaluation.types import EvalResultCaseData, EvalResultMetadata
@@ -113,7 +114,9 @@ def __init__(
         super().__init__(agent=agent, name=name)
 
         if not judge_model_api_key:
-            judge_model_api_key = getenv("MODEL_JUDGE_API_KEY")
+            judge_model_api_key = getenv("MODEL_JUDGE_API_KEY") or getenv(
+                "MODEL_AGENT_API_KEY"
+            )
         if not judge_model_name:
             judge_model_name = getenv(
                 "MODEL_JUDGE_NAME",

Original file line number	Diff line number	Diff line change
`@@ -205,7 +205,7 @@ def eval(`
`205`	`205`	`],`
`206`	`206`	`model=judge_model,`
`207`	`207`	`),`
`208`		`- ToolCorrectnessMetric(threshold=0.5),`
	`208`	`+ ToolCorrectnessMetric(threshold=0.5, model=judge_model),`
`209`	`209`	`]`
`210`	`210`
`211`	`211`	`asyncio.run(`