refactor: update logging level for ImportError and modify configuration settings in deep finance scripts

binary-husky · binary-husky · commit 44b69a28c0e8 · 2026-01-26T11:58:16.000+08:00
diff --git a/ajet/backbone/__init__.py b/ajet/backbone/__init__.py
@@ -13,4 +13,4 @@
         "AjetTaskReader",
     ]
 except ImportError:
-    logger.warning("trinity is not available.")
+    logger.info("trinity is not available.")
diff --git a/ajet/context_tracker/timeline_merging/README.md b/ajet/context_tracker/timeline_merging/README.md
@@ -0,0 +1,25 @@
+
+# AgentJet Timeline
+
+在多智能体的复杂 LLM Agents 交互过程中，我们称一个 Agent 在任务过程中，反复调用 LLM 产生的 Token 轨迹为一条 Timeline
+
+Timeline 包含以下要素：
+
+- Text 文本 message 列表
+    - 提示：在多数qwen模型中，message以 <|im_start|> 开始，以 <|im_end|> 结束，具体取决于模型的 tokenizer 和 chat_template
+- Token 序列 message 列表
+    - 提示：在多数qwen模型中，message以 <|im_start|> 对应的Token ID开始，以 <|im_end|> 所对应的 Token 结束，具体取决于模型的 tokenizer
+- Loss Mask Message 列表
+    - 提示：loss_mask 的每一位都和 Token 一一对应
+    - loss_mask=1 代表该Token参与 loss计算，也通常同时代表了该Token是LLM生成的Token
+    - loss_mask=0 代表不参与loss计算，在大多数情况下，代表该Token源于用户输入，tokenizer 和 chat_template 的补充，环境反馈等。
+
+
+Timeline
+
+
+<!--
+
+uv pip install -e /mnt/data_cpfs/taoshuchang.tsc/deepresearch/RM-Gallery -i https://mirrors.aliyun.com/pypi/simple/
+uv pip install -e /mnt/data_cpfs/taoshuchang.tsc/deepresearch/OpenJudge -i https://mirrors.aliyun.com/pypi/simple/
+uv pip install openai==1.109.1 -i https://mirrors.aliyun.com/pypi/simple/ -->
diff --git a/ajet/default_config/ajet_default.yaml b/ajet/default_config/ajet_default.yaml
@@ -281,7 +281,7 @@ ajet:
 
 
   # the experimental ZeroMQ interchange server feature that allows `tuner.as_oai_baseurl_apikey` feature
-  enable_experimental_interchange_server: True
+  enable_experimental_interchange_server: False
   interchange_server:
     interchange_method: 'ipc' # options: 'tcp' (multi-nodes) or  'ipc' (1 node)
     interchange_server_port: 'auto'
diff --git a/pyproject.toml b/pyproject.toml
@@ -23,6 +23,7 @@ dependencies = [
     "tenacity",
     "loguru",
     "debugpy",
+    "gymnasium[toy_text]",
     "swanlab",
     "modelscope>=1.18.1",
     "pydantic",
diff --git a/tests/bench/README.md b/tests/bench/README.md
@@ -11,17 +11,23 @@ Note: `tests/bench` source code is for test robot only, therefore `yaml` configu
 # prepare dataset path
 # prepare swanlab api
 
-source .venv/bin/activate
+source .verl/bin/activate
 
 python -m pytest -s tests/bench/benchmark_math/execute_benchmark_math.py
 python -m pytest -s tests/bench/benchmark_appworld/execute_benchmark_appworld.py
 python -m pytest -s tests/bench/benchmark_countdown/execute_benchmark_countdown.py
 python -m pytest -s tests/bench/benchmark_learn2ask/execute_benchmark_learn2ask.py
 python -m pytest -s tests/bench/benchmark_frozenlake/execute_benchmark_frozenlake.py
 
-VERL_PYTHON="./.venv/bin/python" python -m pytest -s tests/bench/benchmark_math/execute_benchmark_math.py::TestBenchmarkMath::test_01_begin_verl
-VERL_PYTHON="./.venv/bin/python" python -m pytest -s tests/bench/benchmark_appworld/execute_benchmark_appworld.py::TestBenchmarkAppworld::test_01_begin_verl
-VERL_PYTHON="./.venv/bin/python" python -m pytest -s tests/bench/benchmark_countdown/execute_benchmark_countdown.py::TestBenchmarkCountdown::test_01_begin_verl
-VERL_PYTHON="./.venv/bin/python" python -m pytest -s tests/bench/benchmark_learn2ask/execute_benchmark_learn2ask.py::TestBenchmarkLearnToAsk::test_01_begin_verl
-VERL_PYTHON="./.venv/bin/python" python -m pytest -s tests/bench/benchmark_frozenlake/execute_benchmark_frozenlake.py::TestBenchmarkFrozenLake::test_01_begin_verl
+VERL_PYTHON="./.verl/bin/python" python -m pytest -s tests/bench/benchmark_math/execute_benchmark_math.py::TestBenchmarkMath::test_01_begin_verl
+VERL_PYTHON="./.verl/bin/python" python -m pytest -s tests/bench/benchmark_appworld/execute_benchmark_appworld.py::TestBenchmarkAppworld::test_01_begin_verl
+VERL_PYTHON="./.verl/bin/python" python -m pytest -s tests/bench/benchmark_countdown/execute_benchmark_countdown.py::TestBenchmarkCountdown::test_01_begin_verl
+VERL_PYTHON="./.verl/bin/python" python -m pytest -s tests/bench/benchmark_learn2ask/execute_benchmark_learn2ask.py::TestBenchmarkLearnToAsk::test_01_begin_verl
+VERL_PYTHON="./.verl/bin/python" python -m pytest -s tests/bench/benchmark_frozenlake/execute_benchmark_frozenlake.py::TestBenchmarkFrozenLake::test_01_begin_verl
+
+
+export APPWORLD_PATH="/dev/shm/pack_all_in_one"
+export APPWORLD_SCRIPT="bash EnvService/env_sandbox/appworld.sh"
+python -m ajet.launcher --conf tests/bench/benchmark_appworld/benchmark_appworld.yaml --with-appworld --backbone=debug --autokill
+python -m ajet.launcher --conf tests/bench/benchmark_appworld/benchmark_appworld.yaml --with-appworld --autokill --db="EXT"
 ```
diff --git a/tests/bench/benchmark_learn2ask/benchmark_learn2ask.py b/tests/bench/benchmark_learn2ask/benchmark_learn2ask.py
@@ -25,8 +25,8 @@ def __init__(self):
         self.reward_expectation = {
             # step    : expected local average reward range
             # step    :       [low,    high ]
-                50     :       [2.5,  99999.0],
-               100     :       [2.7,  99999.0],
+                50     :       [2.3,  99999.0],
+               100     :       [2.5,  99999.0],
                200     :       [2.9,  99999.0],
         }
         # fmt: on
diff --git a/tutorial/example_deep_finance/deep_finance.sh b/tutorial/example_deep_finance/deep_finance.sh
@@ -1,5 +1,5 @@
 #!/bin/bash
-set -e  
+set -e
 #===============================================================================
 # 1. 配置区域 - 用户只需修改这里
 #===============================================================================
@@ -24,7 +24,6 @@ NUM_STEPS=6         # 每个样本step轮数
 DEEPFINANCE_TOOL_RESULT_MAX_CHARS=10000
 
 # 主目录
-export AJET_ROOT="/mnt/data_cpfs/taoshuchang.tsc/deepresearch/AgentJet"
 
 NNODES=${WORLD_SIZE}
 
@@ -107,7 +106,7 @@ export DEEPFINANCE_MCP_CONFIG  DEEPFINANCE_TOOL_RESULT_MAX_CHARS
 # 其他服务配置
 HF_ENDPOINT="https://hf-mirror.com"
 ES_HOSTS="http://11.160.132.46:8200"
-export HF_ENDPOINT ES_HOSTS 
+export HF_ENDPOINT ES_HOSTS
 
 # log 文件位置
 CURRENT_TIME=$(date "+%Y%m%d_%H%M%S")
@@ -157,8 +156,6 @@ export NCCL_ASYNC_ERROR_HANDLING=1
 
 export PYTHONPATH="${AJET_ROOT}:${PYTHONPATH}"
 export RAY_CLUSTER_MODE="multi_node"
-export DEEPFINANCE_PATH="${ENV_SERVICE_ROOT}" # AgentJet 内部可能使用此路径
-export DEEPFINANCE_SCRIPT="source /mnt/data/taoshuchang.tsc/anaconda3/etc/profile.d/conda.sh && conda activate finworld_1209  && cd ${ENV_SERVICE_ROOT} && DEEPFINANCE_TOOL_RESULT_MAX_CHARS=${DEEPFINANCE_TOOL_RESULT_MAX_CHARS} DEEPFINANCE_MCP_CONFIG=${DEEPFINANCE_MCP_CONFIG} CACHE_TYPE=${CACHE_TYPE} MONGO_URI=${MONGO_URI} MONGO_DB_NAME=${MONGO_DB_NAME} MONGO_COLLECTION_NAME=${MONGO_COLLECTION_NAME} python -m env_service.env_service --env finworld --portal 0.0.0.0 --port 8080"
 
 
 #===============================================================================
@@ -205,12 +202,11 @@ if [[ $HOSTNAME == *"-master-"* ]]; then
 
     # 启动训练任务（最核心）
     python ajet/launcher.py \
-        --with-deepfinance \
         --conf ${CONFIG_FILE} \
         --backbone="verl" \
         --prefix=${SUFFIX} \
         2>&1 | tee ${TRAIN_LOG}
-    
+
 
 #===============================================================================
 # 6.2 Worker 节点启动流程
@@ -222,4 +218,4 @@ else
     ray stop || true
     ray start --address $MASTER_ADDR:6379 --num-gpus 8
     while true; do sleep 60; done
-fi
+fi
diff --git a/tutorial/example_deep_finance/deep_finance.yaml b/tutorial/example_deep_finance/deep_finance.yaml
@@ -47,13 +47,13 @@ ajet:
   interchange_server:
     interchange_method: 'tcp' # options: 'tcp' (multi-nodes) or  'ipc' (1 node)
   debug:
-    debug_max_parallel: 64  # 增加并行任务数，充分利用GPU
+    debug_max_parallel: 1  # 增加并行任务数，充分利用GPU
     debug_first_n_tasks: 100  # 增加处理的任务数
   data:
     train_batch_size: 32
     max_prompt_length: 8000
     max_response_length: 41000
-  
+
   task_reader:
     type: deep_finance  # 数据从 JSON 加载并组装 init_messages，工具调用走 env_service
     deep_finance:
@@ -64,11 +64,13 @@ ajet:
     # env_service 仍需配置（用于工具调用）
     env_service:
       env_type: "finworld"
-      env_url: "http://127.0.0.1:8080"
+      env_url: {{ENV_SERVICE_URL}}
       env_action_preference: code
+
+
 trainer:
   default_local_dir: {{CKPT_SAVE_PATH}}
-  # resume_mode: disable  # 禁用自动恢复，从头开始训练 
+  # resume_mode: disable  # 禁用自动恢复，从头开始训练
 actor_rollout_ref:
   rollout:
     tensor_model_parallel_size: 8
diff --git a/tutorial/example_deep_finance/deep_finance_single.sh b/tutorial/example_deep_finance/deep_finance_single.sh
@@ -0,0 +1,177 @@
+#!/bin/bash
+set -e
+#===============================================================================
+# 1. 配置区域 - 用户只需修改这里
+#===============================================================================
+SUFFIX="ajet_deep_finance"     # 实验后缀，影响所有日志和实验名称
+PREFIX="open"                        # 实验前缀，影响日志和实验所在文件夹
+
+# OpenJudge 模型配置
+OPENJUDGE_LLM='qwen-flash'        # OpenJudge 评分模型
+RM_LLM='qwen-max'                 # RM Gallery 评分模型
+JUDGE_CONCURRENCY=10
+
+# 奖励权重配置
+RM_WEIGHT=0.4
+CITATION_AUDIT_WEIGHT=0.2
+REPORT_RESOLUTION_WEIGHT=0.2
+TRAJECTORY_FAITHFULNESS_WEIGHT=0.2
+
+# 训练参数配置
+NUM_REPEAT=4        # group size，每个query rollout NUM_REPEAT次
+TRAIN_BATCH_SIZE=32  # 训练batchsize
+NUM_STEPS=6         # 每个样本step轮数
+DEEPFINANCE_TOOL_RESULT_MAX_CHARS=10000
+
+# 主目录
+
+NNODES=${WORLD_SIZE}
+
+# 涉密的配置（API_KEY以及模型、数据位置）从.env读取
+cd ${AJET_ROOT}
+source .venv/bin/activate
+
+# API密钥配置 - 从 .env 文件加载
+ENV_FILE="${AJET_ROOT}/.env"
+if [ -f "$ENV_FILE" ]; then
+    set -a
+    source "$ENV_FILE"
+    set +a
+    echo -e "\033[32m已从 $ENV_FILE 加载环境变量\033[0m"
+else
+    echo -e "\033[31m警告: 找不到 .env 文件: $ENV_FILE\033[0m"
+fi
+
+#===============================================================================
+# 2. 动态生成配置文件 (从yaml template生成yaml)
+#===============================================================================
+# 修改：配置文件生成路径，现在动态生成到 yaml 目录下
+CONFIG_TEMPLATE="tutorial/example_deep_finance/yaml_template/deep_finance_template.yaml"
+CONFIG_FILE="${AJET_ROOT}/tutorial/example_deep_finance/yaml/${SUFFIX}.yaml"
+mkdir -p $(dirname ${CONFIG_FILE})
+
+sed -e "s|{{SUFFIX}}|${SUFFIX}|g" \
+    -e "s|{{PREFIX}}|${PREFIX}|g" \
+    -e "s|{{MODEL_PATH}}|${MODEL_PATH}|g" \
+    -e "s|{{NNODES}}|${NNODES}|g" \
+    -e "s|{{RM_WEIGHT}}|${RM_WEIGHT}|g" \
+    -e "s|{{CITATION_AUDIT_WEIGHT}}|${CITATION_AUDIT_WEIGHT}|g" \
+    -e "s|{{OPENJUDGE_LLM}}|${OPENJUDGE_LLM}|g" \
+    -e "s|{{RM_LLM}}|${RM_LLM}|g" \
+    -e "s|{{JUDGE_CONCURRENCY}}|${JUDGE_CONCURRENCY}|g" \
+    -e "s|{{REPORT_RESOLUTION_WEIGHT}}|${REPORT_RESOLUTION_WEIGHT}|g" \
+    -e "s|{{TRAJECTORY_FAITHFULNESS_WEIGHT}}|${TRAJECTORY_FAITHFULNESS_WEIGHT}|g" \
+    -e "s|{{NUM_REPEAT}}|${NUM_REPEAT}|g" \
+    -e "s|{{NUM_STEPS}}|${NUM_STEPS}|g" \
+    -e "s|{{TRAIN_BATCH_SIZE}}|${TRAIN_BATCH_SIZE}|g" \
+    -e "s|{{TRAIN_DATA_PATH}}|${TRAIN_DATA_PATH}|g" \
+    -e "s|{{VAL_DATA_PATH}}|${VAL_DATA_PATH}|g" \
+    -e "s|{{ENV_SERVICE_URL}}|${ENV_SERVICE_URL}|g" \
+    -e "s|{{TRAIN_REF_ANS_PATH}}|${TRAIN_REF_ANS_PATH}|g" \
+    -e "s|{{VAL_REF_ANS_PATH}}|${VAL_REF_ANS_PATH}|g" \
+    -e "s|{{CKPT_SAVE_PATH}}|${CKPT_SAVE_PATH}|g" \
+    ${AJET_ROOT}/${CONFIG_TEMPLATE} > ${CONFIG_FILE}
+
+echo "配置文件已生成: ${CONFIG_FILE}"
+echo "参数确认: RM=${RM_WEIGHT}, Citation=${CITATION_AUDIT_WEIGHT}, OpenJudge=${OPENJUDGE_LLM}, RM_LLM=${RM_LLM}"
+
+#===============================================================================
+# 3. 环境配置
+#===============================================================================
+# MongoDB 缓存配置
+CACHE_TYPE="mongodb"
+MONGO_URI="mongodb://${ADDR}:27117/"
+MONGO_DB_NAME="finworld_cache"
+MONGO_COLLECTION_NAME="tool_cache"
+export CACHE_TYPE MONGO_URI MONGO_DB_NAME MONGO_COLLECTION_NAME
+
+# DeepFinance MCP 配置
+DEEPFINANCE_MCP_CONFIG="${AJET_ROOT}/tutorial/example_deep_finance/config/mcp_finance_tool_generated.json"
+
+# 动态生成 MCP 配置文件
+mkdir -p $(dirname ${DEEPFINANCE_MCP_CONFIG})
+cat > ${DEEPFINANCE_MCP_CONFIG} << EOF
+{
+    "mcpServers": {
+      "flowllm": {
+        "transport": "sse",
+        "url": "http://${ADDR}:${MCP_PORT}/sse",
+        "timeout": 600,
+        "sse_read_timeout": 1200
+      }
+    }
+}
+EOF
+export DEEPFINANCE_MCP_CONFIG  DEEPFINANCE_TOOL_RESULT_MAX_CHARS
+
+# 其他服务配置
+HF_ENDPOINT="https://hf-mirror.com"
+ES_HOSTS="http://11.160.132.46:8200"
+export HF_ENDPOINT ES_HOSTS
+
+# log 文件位置
+CURRENT_TIME=$(date "+%Y%m%d_%H%M%S")
+LOG_DIR="${AJET_ROOT}/logs/${PREFIX}"
+MASTER_IP_FILE="${LOG_DIR}/master-ip_${SUFFIX}.log"
+ENV_SERVICE_LOG="${LOG_DIR}/env_service_${SUFFIX}_${CURRENT_TIME}.log"
+TRAIN_LOG="${LOG_DIR}/train_${SUFFIX}_${CURRENT_TIME}.log"
+
+# 多机训练参数配置
+GPUS_PER_NODE=8
+EXPECTED_WORKERS=$WORLD_SIZE
+
+
+#===============================================================================
+# 4. 工具函数 以及 NCCL 配置（固定）
+#===============================================================================
+print_green() {
+    echo -e "\033[32m$1\033[0m"
+}
+
+log() {
+    echo -e "\033[0;32m[$(date '+%Y-%m-%d %H:%M:%S')]\033[0m \033[0;34m[INFO]\033[0m $1"
+}
+
+check_workers() {
+    local status_output=$(ray status 2>/dev/null)
+    if [ -z "$status_output" ]; then echo 0; return; fi
+    local node_count=$(echo "$status_output" | grep -E "^[[:space:]]*1[[:space:]]+node_" | wc -l)
+    if [ "$node_count" -gt 0 ]; then echo $node_count; return; fi
+    echo $(echo "$status_output" | grep -o "node_[0-9a-f]\+" | sort -u | wc -l)
+}
+
+check_gpu_resources() {
+    gpu_count=$(ray status 2>/dev/null | grep -A 10 "Resources" | grep "GPU" | awk '{print $1}' | cut -d'/' -f2)
+    if [ -z "$gpu_count" ]; then echo 0; else printf "%.0f" "$gpu_count"; fi
+}
+
+
+export NCCL_TIMEOUT=1800
+export NCCL_DEBUG=WARN
+export NCCL_IB_TIMEOUT=23
+export NCCL_ASYNC_ERROR_HANDLING=1
+
+#===============================================================================
+# 5. 工具envservice 环境变量
+#===============================================================================
+
+export PYTHONPATH="${AJET_ROOT}:${PYTHONPATH}"
+export RAY_CLUSTER_MODE="multi_node"
+
+
+#===============================================================================
+# 6. 主流程
+#===============================================================================
+log "开始多机多卡训练: ${SUFFIX}"
+log "节点数: ${NNODES}, 每节点GPU数: ${GPUS_PER_NODE}"
+mkdir -p ${LOG_DIR}
+mkdir -p $(dirname ${CONFIG_FILE})
+
+#===============================================================================
+#  6.1 Master 节点启动流程
+#===============================================================================
+# 启动训练任务（最核心）
+python ajet/launcher.py \
+    --conf ${CONFIG_FILE} \
+    --backbone="debug" \
+    2>&1 | tee ${TRAIN_LOG}
diff --git a/tutorial/example_deep_finance/yaml_template/deep_finance_template.yaml b/tutorial/example_deep_finance/yaml_template/deep_finance_template.yaml
@@ -47,13 +47,13 @@ ajet:
   interchange_server:
     interchange_method: 'tcp' # options: 'tcp' (multi-nodes) or  'ipc' (1 node)
   debug:
-    debug_max_parallel: 64  # 增加并行任务数，充分利用GPU
+    debug_max_parallel: 1  # 增加并行任务数，充分利用GPU
     debug_first_n_tasks: 100  # 增加处理的任务数
   data:
     train_batch_size: {{TRAIN_BATCH_SIZE}}
     max_prompt_length: 8000
     max_response_length: 41000
-  
+
   task_reader:
     type: deep_finance  # 数据从 JSON 加载并组装 init_messages，工具调用走 env_service
     deep_finance:
@@ -64,11 +64,11 @@ ajet:
     # env_service 仍需配置（用于工具调用）
     env_service:
       env_type: "finworld"
-      env_url: "http://127.0.0.1:8080"
+      env_url: {{ENV_SERVICE_URL}}
       env_action_preference: code
 trainer:
   default_local_dir: "{{CKPT_SAVE_PATH}}/{{PREFIX}}/{{SUFFIX}}"
-  # resume_mode: disable  # 禁用自动恢复，从头开始训练 
+  # resume_mode: disable  # 禁用自动恢复，从头开始训练
 actor_rollout_ref:
   rollout:
     tensor_model_parallel_size: 8

Original file line number	Diff line number	Diff line change
`@@ -13,4 +13,4 @@`
`13`	`13`	`"AjetTaskReader",`
`14`	`14`	`]`
`15`	`15`	`except ImportError:`
`16`		`- logger.warning("trinity is not available.")`
	`16`	`+ logger.info("trinity is not available.")`