refactor: 改进分布式任务锁的清理策略

实现两种锁清理模式： - 单实例模式（默认）：启动时使用 Lua 脚本原子性清理旧锁，解决 worker 重启时��锁残留问题 - 多实例模式：使用 NX 选项竞争锁，依赖 TTL 处理异常退出可通过 SINGLE_INSTANCE_MODE 环境变量控制模式选择。
refactor: 统一剪贴板复制功能到 useClipboard 组合式函数
2026-01-03 00:02:28 +08:00 · 2025-12-28 21:34:43 +08:00 · 2025-12-28 20:41:52 +08:00 · 2025-12-28 20:00:25 +08:00 · 2025-12-28 19:40:07 +08:00 · 2025-12-28 19:14:49 +08:00
96 changed files with 6525 additions and 2082 deletions
--- a/.env.example
+++ b/.env.example
@@ -1,8 +1,16 @@
 # ==================== 必须配置（启动前） ====================
 # 以下配置项必须在项目启动前设置

-# 数据库密码
+# 数据库配置
+DB_HOST=localhost
+DB_PORT=5432
+DB_USER=postgres
+DB_NAME=aether
 DB_PASSWORD=your_secure_password_here
+
+# Redis 配置
+REDIS_HOST=localhost
+REDIS_PORT=6379
 REDIS_PASSWORD=your_redis_password_here

 # JWT密钥（使用 python generate_keys.py 生成）
--- a/.github/workflows/docker-publish.yml
+++ b/.github/workflows/docker-publish.yml
@@ -15,6 +15,8 @@ env:
  REGISTRY: ghcr.io
  BASE_IMAGE_NAME: fawney19/aether-base
  APP_IMAGE_NAME: fawney19/aether
+  # Files that affect base image - used for hash calculation
+  BASE_FILES: "Dockerfile.base pyproject.toml frontend/package.json frontend/package-lock.json"

 jobs:
  check-base-changes:
@@ -23,8 +25,13 @@ jobs:
      base_changed: ${{ steps.check.outputs.base_changed }}
    steps:
      - uses: actions/checkout@v4
+
+      - name: Log in to Container Registry
+        uses: docker/login-action@v3
        with:
-          fetch-depth: 2
+          registry: ${{ env.REGISTRY }}
+          username: ${{ github.actor }}
+          password: ${{ secrets.GITHUB_TOKEN }}

      - name: Check if base image needs rebuild
        id: check
@@ -34,10 +41,26 @@ jobs:
            exit 0
          fi

-          # Check if base-related files changed
-          if git diff --name-only HEAD~1 HEAD | grep -qE '^(Dockerfile\.base|pyproject\.toml|frontend/package.*\.json)$'; then
+          # Calculate current hash of base-related files
+          CURRENT_HASH=$(cat ${{ env.BASE_FILES }} 2>/dev/null | sha256sum | cut -d' ' -f1)
+          echo "Current base files hash: $CURRENT_HASH"
+
+          # Try to get hash label from remote image config
+          # Pull the image config and extract labels
+          REMOTE_HASH=""
+          if docker pull ${{ env.REGISTRY }}/${{ env.BASE_IMAGE_NAME }}:latest 2>/dev/null; then
+            REMOTE_HASH=$(docker inspect ${{ env.REGISTRY }}/${{ env.BASE_IMAGE_NAME }}:latest --format '{{ index .Config.Labels "org.opencontainers.image.base.hash" }}' 2>/dev/null) || true
+          fi
+
+          if [ -z "$REMOTE_HASH" ] || [ "$REMOTE_HASH" == "<no value>" ]; then
+            # No remote image or no hash label, need to rebuild
+            echo "No remote base image or hash label found, need rebuild"
+            echo "base_changed=true" >> $GITHUB_OUTPUT
+          elif [ "$CURRENT_HASH" != "$REMOTE_HASH" ]; then
+            echo "Hash mismatch: remote=$REMOTE_HASH, current=$CURRENT_HASH"
            echo "base_changed=true" >> $GITHUB_OUTPUT
          else
+            echo "Hash matches, no rebuild needed"
            echo "base_changed=false" >> $GITHUB_OUTPUT
          fi

@@ -61,6 +84,12 @@ jobs:
          username: ${{ github.actor }}
          password: ${{ secrets.GITHUB_TOKEN }}

+      - name: Calculate base files hash
+        id: hash
+        run: |
+          HASH=$(cat ${{ env.BASE_FILES }} 2>/dev/null | sha256sum | cut -d' ' -f1)
+          echo "hash=$HASH" >> $GITHUB_OUTPUT
+
      - name: Extract metadata for base image
        id: meta
        uses: docker/metadata-action@v5
@@ -69,6 +98,8 @@ jobs:
          tags: |
            type=raw,value=latest
            type=sha,prefix=
+          labels: |
+            org.opencontainers.image.base.hash=${{ steps.hash.outputs.hash }}

      - name: Build and push base image
        uses: docker/build-push-action@v5
@@ -117,7 +148,7 @@ jobs:

      - name: Update Dockerfile.app to use registry base image
        run: |
-          sed -i "s|FROM aether-base:latest|FROM ${{ env.REGISTRY }}/${{ env.BASE_IMAGE_NAME }}:latest|g" Dockerfile.app
+          sed -i "s|FROM aether-base:latest AS builder|FROM ${{ env.REGISTRY }}/${{ env.BASE_IMAGE_NAME }}:latest AS builder|g" Dockerfile.app

      - name: Build and push app image
        uses: docker/build-push-action@v5
--- a/Dockerfile.app
+++ b/Dockerfile.app
@@ -1,16 +1,134 @@
-# 应用镜像：基于基础镜像，只复制代码（秒级构建）
+# 运行镜像：从 base 提取产物到精简运行时
 # 构建命令: docker build -f Dockerfile.app -t aether-app:latest .
-FROM aether-base:latest
+# 用于 GitHub Actions CI（官方源）
+FROM aether-base:latest AS builder

 WORKDIR /app

+# 复制前端源码并构建
+COPY frontend/ ./frontend/
+RUN cd frontend && npm run build
+
+# ==================== 运行时镜像 ====================
+FROM python:3.12-slim
+
+WORKDIR /app
+
+# 运行时依赖（无 gcc/nodejs/npm）
+RUN apt-get update && apt-get install -y \
+    nginx \
+    supervisor \
+    libpq5 \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+
+# 从 base 镜像复制 Python 包
+COPY --from=builder /usr/local/lib/python3.12/site-packages /usr/local/lib/python3.12/site-packages
+
+# 只复制需要的 Python 可执行文件
+COPY --from=builder /usr/local/bin/gunicorn /usr/local/bin/
+COPY --from=builder /usr/local/bin/uvicorn /usr/local/bin/
+COPY --from=builder /usr/local/bin/alembic /usr/local/bin/
+
+# 从 builder 阶段复制前端构建产物
+COPY --from=builder /app/frontend/dist /usr/share/nginx/html
+
 # 复制后端代码
 COPY src/ ./src/
 COPY alembic.ini ./
 COPY alembic/ ./alembic/

-# 构建前端（使用基础镜像中已安装的 node_modules）
-COPY frontend/ /tmp/frontend/
-RUN cd /tmp/frontend && npm run build && \
-    cp -r dist/* /usr/share/nginx/html/ && \
-    rm -rf /tmp/frontend
+# Nginx 配置模板
+RUN printf '%s\n' \
+'server {' \
+'    listen 80;' \
+'    server_name _;' \
+'    root /usr/share/nginx/html;' \
+'    index index.html;' \
+'    client_max_body_size 100M;' \
+'' \
+'    location ~* \.(js|css|png|jpg|jpeg|gif|ico|svg|woff|woff2|ttf|eot)$ {' \
+'        expires 1y;' \
+'        add_header Cache-Control "public, no-transform";' \
+'        try_files $uri =404;' \
+'    }' \
+'' \
+'    location ~ ^/(src|node_modules)/ {' \
+'        deny all;' \
+'        return 404;' \
+'    }' \
+'' \
+'    location ~ ^/(dashboard|admin|login)(/|$) {' \
+'        try_files $uri $uri/ /index.html;' \
+'    }' \
+'' \
+'    location / {' \
+'        try_files $uri $uri/ @backend;' \
+'    }' \
+'' \
+'    location @backend {' \
+'        proxy_pass http://127.0.0.1:PORT_PLACEHOLDER;' \
+'        proxy_http_version 1.1;' \
+'        proxy_set_header Host $host;' \
+'        proxy_set_header X-Real-IP $remote_addr;' \
+'        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;' \
+'        proxy_set_header X-Forwarded-Proto $scheme;' \
+'        proxy_set_header Connection "";' \
+'        proxy_set_header Accept $http_accept;' \
+'        proxy_set_header Content-Type $content_type;' \
+'        proxy_set_header Authorization $http_authorization;' \
+'        proxy_set_header X-Api-Key $http_x_api_key;' \
+'        proxy_buffering off;' \
+'        proxy_cache off;' \
+'        proxy_request_buffering off;' \
+'        chunked_transfer_encoding on;' \
+'        gzip off;' \
+'        add_header X-Accel-Buffering no;' \
+'        proxy_connect_timeout 600s;' \
+'        proxy_send_timeout 600s;' \
+'        proxy_read_timeout 600s;' \
+'    }' \
+'}' > /etc/nginx/sites-available/default.template
+
+# Supervisor 配置
+RUN printf '%s\n' \
+'[supervisord]' \
+'nodaemon=true' \
+'logfile=/var/log/supervisor/supervisord.log' \
+'pidfile=/var/run/supervisord.pid' \
+'' \
+'[program:nginx]' \
+'command=/bin/bash -c "sed \"s/PORT_PLACEHOLDER/${PORT:-8084}/g\" /etc/nginx/sites-available/default.template > /etc/nginx/sites-available/default && /usr/sbin/nginx -g \"daemon off;\""' \
+'autostart=true' \
+'autorestart=true' \
+'stdout_logfile=/var/log/nginx/access.log' \
+'stderr_logfile=/var/log/nginx/error.log' \
+'' \
+'[program:app]' \
+'command=gunicorn src.main:app --preload -w %(ENV_GUNICORN_WORKERS)s -k uvicorn.workers.UvicornWorker --bind 0.0.0.0:%(ENV_PORT)s --timeout 120 --access-logfile - --error-logfile - --log-level info' \
+'directory=/app' \
+'autostart=true' \
+'autorestart=true' \
+'stdout_logfile=/dev/stdout' \
+'stdout_logfile_maxbytes=0' \
+'stderr_logfile=/dev/stderr' \
+'stderr_logfile_maxbytes=0' \
+'environment=PYTHONUNBUFFERED=1,PYTHONIOENCODING=utf-8,LANG=C.UTF-8,LC_ALL=C.UTF-8,DOCKER_CONTAINER=true' > /etc/supervisor/conf.d/supervisord.conf
+
+# 创建目录
+RUN mkdir -p /var/log/supervisor /app/logs /app/data
+
+# 环境变量
+ENV PYTHONUNBUFFERED=1 \
+    PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONIOENCODING=utf-8 \
+    LANG=C.UTF-8 \
+    LC_ALL=C.UTF-8 \
+    PORT=8084
+
+EXPOSE 80
+
+HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
+    CMD curl -f http://localhost/health || exit 1
+
+CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]
--- a/Dockerfile.app.local
+++ b/Dockerfile.app.local
@@ -0,0 +1,135 @@
+# 运行镜像：从 base 提取产物到精简运行时（国内镜像源版本）
+# 构建命令: docker build -f Dockerfile.app.local -t aether-app:latest .
+# 用于本地/国内服务器部署
+FROM aether-base:latest AS builder
+
+WORKDIR /app
+
+# 复制前端源码并构建
+COPY frontend/ ./frontend/
+RUN cd frontend && npm run build
+
+# ==================== 运行时镜像 ====================
+FROM python:3.12-slim
+
+WORKDIR /app
+
+# 运行时依赖（使用清华镜像源）
+RUN sed -i 's/deb.debian.org/mirrors.tuna.tsinghua.edu.cn/g' /etc/apt/sources.list.d/debian.sources && \
+    apt-get update && apt-get install -y \
+    nginx \
+    supervisor \
+    libpq5 \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+
+# 从 base 镜像复制 Python 包
+COPY --from=builder /usr/local/lib/python3.12/site-packages /usr/local/lib/python3.12/site-packages
+
+# 只复制需要的 Python 可执行文件
+COPY --from=builder /usr/local/bin/gunicorn /usr/local/bin/
+COPY --from=builder /usr/local/bin/uvicorn /usr/local/bin/
+COPY --from=builder /usr/local/bin/alembic /usr/local/bin/
+
+# 从 builder 阶段复制前端构建产物
+COPY --from=builder /app/frontend/dist /usr/share/nginx/html
+
+# 复制后端代码
+COPY src/ ./src/
+COPY alembic.ini ./
+COPY alembic/ ./alembic/
+
+# Nginx 配置模板
+RUN printf '%s\n' \
+'server {' \
+'    listen 80;' \
+'    server_name _;' \
+'    root /usr/share/nginx/html;' \
+'    index index.html;' \
+'    client_max_body_size 100M;' \
+'' \
+'    location ~* \.(js|css|png|jpg|jpeg|gif|ico|svg|woff|woff2|ttf|eot)$ {' \
+'        expires 1y;' \
+'        add_header Cache-Control "public, no-transform";' \
+'        try_files $uri =404;' \
+'    }' \
+'' \
+'    location ~ ^/(src|node_modules)/ {' \
+'        deny all;' \
+'        return 404;' \
+'    }' \
+'' \
+'    location ~ ^/(dashboard|admin|login)(/|$) {' \
+'        try_files $uri $uri/ /index.html;' \
+'    }' \
+'' \
+'    location / {' \
+'        try_files $uri $uri/ @backend;' \
+'    }' \
+'' \
+'    location @backend {' \
+'        proxy_pass http://127.0.0.1:PORT_PLACEHOLDER;' \
+'        proxy_http_version 1.1;' \
+'        proxy_set_header Host $host;' \
+'        proxy_set_header X-Real-IP $remote_addr;' \
+'        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;' \
+'        proxy_set_header X-Forwarded-Proto $scheme;' \
+'        proxy_set_header Connection "";' \
+'        proxy_set_header Accept $http_accept;' \
+'        proxy_set_header Content-Type $content_type;' \
+'        proxy_set_header Authorization $http_authorization;' \
+'        proxy_set_header X-Api-Key $http_x_api_key;' \
+'        proxy_buffering off;' \
+'        proxy_cache off;' \
+'        proxy_request_buffering off;' \
+'        chunked_transfer_encoding on;' \
+'        gzip off;' \
+'        add_header X-Accel-Buffering no;' \
+'        proxy_connect_timeout 600s;' \
+'        proxy_send_timeout 600s;' \
+'        proxy_read_timeout 600s;' \
+'    }' \
+'}' > /etc/nginx/sites-available/default.template
+
+# Supervisor 配置
+RUN printf '%s\n' \
+'[supervisord]' \
+'nodaemon=true' \
+'logfile=/var/log/supervisor/supervisord.log' \
+'pidfile=/var/run/supervisord.pid' \
+'' \
+'[program:nginx]' \
+'command=/bin/bash -c "sed \"s/PORT_PLACEHOLDER/${PORT:-8084}/g\" /etc/nginx/sites-available/default.template > /etc/nginx/sites-available/default && /usr/sbin/nginx -g \"daemon off;\""' \
+'autostart=true' \
+'autorestart=true' \
+'stdout_logfile=/var/log/nginx/access.log' \
+'stderr_logfile=/var/log/nginx/error.log' \
+'' \
+'[program:app]' \
+'command=gunicorn src.main:app --preload -w %(ENV_GUNICORN_WORKERS)s -k uvicorn.workers.UvicornWorker --bind 0.0.0.0:%(ENV_PORT)s --timeout 120 --access-logfile - --error-logfile - --log-level info' \
+'directory=/app' \
+'autostart=true' \
+'autorestart=true' \
+'stdout_logfile=/dev/stdout' \
+'stdout_logfile_maxbytes=0' \
+'stderr_logfile=/dev/stderr' \
+'stderr_logfile_maxbytes=0' \
+'environment=PYTHONUNBUFFERED=1,PYTHONIOENCODING=utf-8,LANG=C.UTF-8,LC_ALL=C.UTF-8,DOCKER_CONTAINER=true' > /etc/supervisor/conf.d/supervisord.conf
+
+# 创建目录
+RUN mkdir -p /var/log/supervisor /app/logs /app/data
+
+# 环境变量
+ENV PYTHONUNBUFFERED=1 \
+    PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONIOENCODING=utf-8 \
+    LANG=C.UTF-8 \
+    LC_ALL=C.UTF-8 \
+    PORT=8084
+
+EXPOSE 80
+
+HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
+    CMD curl -f http://localhost/health || exit 1
+
+CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]
--- a/Dockerfile.base
+++ b/Dockerfile.base
@@ -1,124 +1,25 @@
-# 基础镜像：包含所有依赖，只在依赖变化时需要重建
+# 构建镜像：编译环境 + 预编译的依赖
 # 用于 GitHub Actions CI 构建（不使用国内镜像源）
+# 构建命令: docker build -f Dockerfile.base -t aether-base:latest .
+# 只在 pyproject.toml 或 frontend/package*.json 变化时需要重建
 FROM python:3.12-slim

 WORKDIR /app

-# 系统依赖
+# 构建工具
 RUN apt-get update && apt-get install -y \
-    nginx \
-    supervisor \
    libpq-dev \
    gcc \
-    curl \
-    gettext-base \
    nodejs \
    npm \
    && rm -rf /var/lib/apt/lists/*

-# Python 依赖（安装到系统，不用 -e 模式）
+# Python 依赖
 COPY pyproject.toml README.md ./
 RUN mkdir -p src && touch src/__init__.py && \
-    pip install --no-cache-dir .
+    SETUPTOOLS_SCM_PRETEND_VERSION=0.1.0 pip install --no-cache-dir . && \
+    pip cache purge

-# 前端依赖
-COPY frontend/package*.json /tmp/frontend/
-WORKDIR /tmp/frontend
-RUN npm ci
-
-# Nginx 配置模板
-RUN printf '%s\n' \
-'server {' \
-'    listen 80;' \
-'    server_name _;' \
-'    root /usr/share/nginx/html;' \
-'    index index.html;' \
-'    client_max_body_size 100M;' \
-'' \
-'    location ~* \.(js|css|png|jpg|jpeg|gif|ico|svg|woff|woff2|ttf|eot)$ {' \
-'        expires 1y;' \
-'        add_header Cache-Control "public, no-transform";' \
-'        try_files $uri =404;' \
-'    }' \
-'' \
-'    location ~ ^/(src|node_modules)/ {' \
-'        deny all;' \
-'        return 404;' \
-'    }' \
-'' \
-'    location ~ ^/(dashboard|admin|login)(/|$) {' \
-'        try_files $uri $uri/ /index.html;' \
-'    }' \
-'' \
-'    location / {' \
-'        try_files $uri $uri/ @backend;' \
-'    }' \
-'' \
-'    location @backend {' \
-'        proxy_pass http://127.0.0.1:PORT_PLACEHOLDER;' \
-'        proxy_http_version 1.1;' \
-'        proxy_set_header Host $host;' \
-'        proxy_set_header X-Real-IP $remote_addr;' \
-'        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;' \
-'        proxy_set_header X-Forwarded-Proto $scheme;' \
-'        proxy_set_header Connection "";' \
-'        proxy_set_header Accept $http_accept;' \
-'        proxy_set_header Content-Type $content_type;' \
-'        proxy_set_header Authorization $http_authorization;' \
-'        proxy_set_header X-Api-Key $http_x_api_key;' \
-'        proxy_buffering off;' \
-'        proxy_cache off;' \
-'        proxy_request_buffering off;' \
-'        chunked_transfer_encoding on;' \
-'        gzip off;' \
-'        add_header X-Accel-Buffering no;' \
-'        proxy_connect_timeout 600s;' \
-'        proxy_send_timeout 600s;' \
-'        proxy_read_timeout 600s;' \
-'    }' \
-'}' > /etc/nginx/sites-available/default.template
-
-# Supervisor 配置
-RUN printf '%s\n' \
-'[supervisord]' \
-'nodaemon=true' \
-'logfile=/var/log/supervisor/supervisord.log' \
-'pidfile=/var/run/supervisord.pid' \
-'' \
-'[program:nginx]' \
-'command=/bin/bash -c "sed \"s/PORT_PLACEHOLDER/${PORT:-8084}/g\" /etc/nginx/sites-available/default.template > /etc/nginx/sites-available/default && /usr/sbin/nginx -g \"daemon off;\""' \
-'autostart=true' \
-'autorestart=true' \
-'stdout_logfile=/var/log/nginx/access.log' \
-'stderr_logfile=/var/log/nginx/error.log' \
-'' \
-'[program:app]' \
-'command=gunicorn src.main:app -w %(ENV_GUNICORN_WORKERS)s -k uvicorn.workers.UvicornWorker --bind 0.0.0.0:%(ENV_PORT)s --timeout 120 --access-logfile - --error-logfile - --log-level info' \
-'directory=/app' \
-'autostart=true' \
-'autorestart=true' \
-'stdout_logfile=/dev/stdout' \
-'stdout_logfile_maxbytes=0' \
-'stderr_logfile=/dev/stderr' \
-'stderr_logfile_maxbytes=0' \
-'environment=PYTHONUNBUFFERED=1,PYTHONIOENCODING=utf-8,LANG=C.UTF-8,LC_ALL=C.UTF-8,DOCKER_CONTAINER=true' > /etc/supervisor/conf.d/supervisord.conf
-
-# 创建目录
-RUN mkdir -p /var/log/supervisor /app/logs /app/data /usr/share/nginx/html
-
-WORKDIR /app
-
-# 环境变量
-ENV PYTHONUNBUFFERED=1 \
-    PYTHONDONTWRITEBYTECODE=1 \
-    PYTHONIOENCODING=utf-8 \
-    LANG=C.UTF-8 \
-    LC_ALL=C.UTF-8 \
-    PORT=8084
-
-EXPOSE 80
-
-HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
-    CMD curl -f http://localhost/health || exit 1
-
-CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]
+# 前端依赖（只安装，不构建）
+COPY frontend/package*.json ./frontend/
+RUN cd frontend && npm ci
--- a/Dockerfile.base.local
+++ b/Dockerfile.base.local
@@ -1,18 +1,15 @@
-# 基础镜像：包含所有依赖，只在依赖变化时需要重建
-# 构建命令: docker build -f Dockerfile.base -t aether-base:latest .
+# 构建镜像：编译环境 + 预编译的依赖（国内镜像源版本）
+# 构建命令: docker build -f Dockerfile.base.local -t aether-base:latest .
+# 只在 pyproject.toml 或 frontend/package*.json 变化时需要重建
 FROM python:3.12-slim

 WORKDIR /app

-# 系统依赖
+# 构建工具（使用清华镜像源）
 RUN sed -i 's/deb.debian.org/mirrors.tuna.tsinghua.edu.cn/g' /etc/apt/sources.list.d/debian.sources && \
    apt-get update && apt-get install -y \
-    nginx \
-    supervisor \
    libpq-dev \
    gcc \
-    curl \
-    gettext-base \
    nodejs \
    npm \
    && rm -rf /var/lib/apt/lists/*
@@ -20,109 +17,12 @@ RUN sed -i 's/deb.debian.org/mirrors.tuna.tsinghua.edu.cn/g' /etc/apt/sources.li
 # pip 镜像源
 RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

-# Python 依赖（安装到系统，不用 -e 模式）
+# Python 依赖
 COPY pyproject.toml README.md ./
 RUN mkdir -p src && touch src/__init__.py && \
-    SETUPTOOLS_SCM_PRETEND_VERSION=0.1.0 pip install --no-cache-dir .
+    SETUPTOOLS_SCM_PRETEND_VERSION=0.1.0 pip install --no-cache-dir . && \
+    pip cache purge

-# 前端依赖
-COPY frontend/package*.json /tmp/frontend/
-WORKDIR /tmp/frontend
-RUN npm config set registry https://registry.npmmirror.com && npm ci
-
-# Nginx 配置模板
-RUN printf '%s\n' \
-'server {' \
-'    listen 80;' \
-'    server_name _;' \
-'    root /usr/share/nginx/html;' \
-'    index index.html;' \
-'    client_max_body_size 100M;' \
-'' \
-'    location ~* \.(js|css|png|jpg|jpeg|gif|ico|svg|woff|woff2|ttf|eot)$ {' \
-'        expires 1y;' \
-'        add_header Cache-Control "public, no-transform";' \
-'        try_files $uri =404;' \
-'    }' \
-'' \
-'    location ~ ^/(src|node_modules)/ {' \
-'        deny all;' \
-'        return 404;' \
-'    }' \
-'' \
-'    location ~ ^/(dashboard|admin|login)(/|$) {' \
-'        try_files $uri $uri/ /index.html;' \
-'    }' \
-'' \
-'    location / {' \
-'        try_files $uri $uri/ @backend;' \
-'    }' \
-'' \
-'    location @backend {' \
-'        proxy_pass http://127.0.0.1:PORT_PLACEHOLDER;' \
-'        proxy_http_version 1.1;' \
-'        proxy_set_header Host $host;' \
-'        proxy_set_header X-Real-IP $remote_addr;' \
-'        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;' \
-'        proxy_set_header X-Forwarded-Proto $scheme;' \
-'        proxy_set_header Connection "";' \
-'        proxy_set_header Accept $http_accept;' \
-'        proxy_set_header Content-Type $content_type;' \
-'        proxy_set_header Authorization $http_authorization;' \
-'        proxy_set_header X-Api-Key $http_x_api_key;' \
-'        proxy_buffering off;' \
-'        proxy_cache off;' \
-'        proxy_request_buffering off;' \
-'        chunked_transfer_encoding on;' \
-'        gzip off;' \
-'        add_header X-Accel-Buffering no;' \
-'        proxy_connect_timeout 600s;' \
-'        proxy_send_timeout 600s;' \
-'        proxy_read_timeout 600s;' \
-'    }' \
-'}' > /etc/nginx/sites-available/default.template
-
-# Supervisor 配置
-RUN printf '%s\n' \
-'[supervisord]' \
-'nodaemon=true' \
-'logfile=/var/log/supervisor/supervisord.log' \
-'pidfile=/var/run/supervisord.pid' \
-'' \
-'[program:nginx]' \
-'command=/bin/bash -c "sed \"s/PORT_PLACEHOLDER/${PORT:-8084}/g\" /etc/nginx/sites-available/default.template > /etc/nginx/sites-available/default && /usr/sbin/nginx -g \"daemon off;\""' \
-'autostart=true' \
-'autorestart=true' \
-'stdout_logfile=/var/log/nginx/access.log' \
-'stderr_logfile=/var/log/nginx/error.log' \
-'' \
-'[program:app]' \
-'command=gunicorn src.main:app -w %(ENV_GUNICORN_WORKERS)s -k uvicorn.workers.UvicornWorker --bind 0.0.0.0:%(ENV_PORT)s --timeout 120 --access-logfile - --error-logfile - --log-level info' \
-'directory=/app' \
-'autostart=true' \
-'autorestart=true' \
-'stdout_logfile=/dev/stdout' \
-'stdout_logfile_maxbytes=0' \
-'stderr_logfile=/dev/stderr' \
-'stderr_logfile_maxbytes=0' \
-'environment=PYTHONUNBUFFERED=1,PYTHONIOENCODING=utf-8,LANG=C.UTF-8,LC_ALL=C.UTF-8,DOCKER_CONTAINER=true' > /etc/supervisor/conf.d/supervisord.conf
-
-# 创建目录
-RUN mkdir -p /var/log/supervisor /app/logs /app/data /usr/share/nginx/html
-
-WORKDIR /app
-
-# 环境变量
-ENV PYTHONUNBUFFERED=1 \
-    PYTHONDONTWRITEBYTECODE=1 \
-    PYTHONIOENCODING=utf-8 \
-    LANG=C.UTF-8 \
-    LC_ALL=C.UTF-8 \
-    PORT=8084
-
-EXPOSE 80
-
-HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
-    CMD curl -f http://localhost/health || exit 1
-
-CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]
+# 前端依赖（只安装，不构建，使用淘宝镜像源）
+COPY frontend/package*.json ./frontend/
+RUN cd frontend && npm config set registry https://registry.npmmirror.com && npm ci
--- a/alembic/versions/20251210_baseline.py
+++ b/alembic/versions/20251210_baseline.py
@@ -394,6 +394,10 @@ def upgrade() -> None:
            index=True,
        ),
    )
+    # usage 表复合索引（优化常见查询）
+    op.create_index("idx_usage_user_created", "usage", ["user_id", "created_at"])
+    op.create_index("idx_usage_apikey_created", "usage", ["api_key_id", "created_at"])
+    op.create_index("idx_usage_provider_model_created", "usage", ["provider", "model", "created_at"])

    # ==================== user_quotas ====================
    op.create_table(
--- a/alembic/versions/20251220_1200_add_stats_daily_model_table.py
+++ b/alembic/versions/20251220_1200_add_stats_daily_model_table.py
@@ -0,0 +1,86 @@
+"""add stats_daily_model table and rename provider_model_aliases
+
+Revision ID: a1b2c3d4e5f6
+Revises: f30f9936f6a2
+Create Date: 2025-12-20 12:00:00.000000+00:00
+
+"""
+from alembic import op
+import sqlalchemy as sa
+from sqlalchemy import inspect
+
+# revision identifiers, used by Alembic.
+revision = 'a1b2c3d4e5f6'
+down_revision = 'f30f9936f6a2'
+branch_labels = None
+depends_on = None
+
+
+def table_exists(table_name: str) -> bool:
+    """检查表是否存在"""
+    bind = op.get_bind()
+    inspector = inspect(bind)
+    return table_name in inspector.get_table_names()
+
+
+def column_exists(table_name: str, column_name: str) -> bool:
+    """检查列是否存在"""
+    bind = op.get_bind()
+    inspector = inspect(bind)
+    columns = [col['name'] for col in inspector.get_columns(table_name)]
+    return column_name in columns
+
+
+def upgrade() -> None:
+    """创建 stats_daily_model 表，重命名 provider_model_aliases 为 provider_model_mappings"""
+    # 1. 创建 stats_daily_model 表
+    if not table_exists('stats_daily_model'):
+        op.create_table(
+            'stats_daily_model',
+            sa.Column('id', sa.String(36), primary_key=True),
+            sa.Column('date', sa.DateTime(timezone=True), nullable=False),
+            sa.Column('model', sa.String(100), nullable=False),
+            sa.Column('total_requests', sa.Integer(), nullable=False, default=0),
+            sa.Column('input_tokens', sa.BigInteger(), nullable=False, default=0),
+            sa.Column('output_tokens', sa.BigInteger(), nullable=False, default=0),
+            sa.Column('cache_creation_tokens', sa.BigInteger(), nullable=False, default=0),
+            sa.Column('cache_read_tokens', sa.BigInteger(), nullable=False, default=0),
+            sa.Column('total_cost', sa.Float(), nullable=False, default=0.0),
+            sa.Column('avg_response_time_ms', sa.Float(), nullable=False, default=0.0),
+            sa.Column('created_at', sa.DateTime(timezone=True), nullable=False,
+                      server_default=sa.func.now()),
+            sa.Column('updated_at', sa.DateTime(timezone=True), nullable=False,
+                      server_default=sa.func.now(), onupdate=sa.func.now()),
+            sa.UniqueConstraint('date', 'model', name='uq_stats_daily_model'),
+        )
+
+        # 创建索引
+        op.create_index('idx_stats_daily_model_date', 'stats_daily_model', ['date'])
+        op.create_index('idx_stats_daily_model_date_model', 'stats_daily_model', ['date', 'model'])
+
+    # 2. 重命名 models 表的 provider_model_aliases 为 provider_model_mappings
+    if column_exists('models', 'provider_model_aliases') and not column_exists('models', 'provider_model_mappings'):
+        op.alter_column('models', 'provider_model_aliases', new_column_name='provider_model_mappings')
+
+
+def index_exists(table_name: str, index_name: str) -> bool:
+    """检查索引是否存在"""
+    bind = op.get_bind()
+    inspector = inspect(bind)
+    indexes = [idx['name'] for idx in inspector.get_indexes(table_name)]
+    return index_name in indexes
+
+
+def downgrade() -> None:
+    """删除 stats_daily_model 表，恢复 provider_model_aliases 列名"""
+    # 恢复列名
+    if column_exists('models', 'provider_model_mappings') and not column_exists('models', 'provider_model_aliases'):
+        op.alter_column('models', 'provider_model_mappings', new_column_name='provider_model_aliases')
+
+    # 删除表
+    if table_exists('stats_daily_model'):
+        if index_exists('stats_daily_model', 'idx_stats_daily_model_date_model'):
+            op.drop_index('idx_stats_daily_model_date_model', table_name='stats_daily_model')
+        if index_exists('stats_daily_model', 'idx_stats_daily_model_date'):
+            op.drop_index('idx_stats_daily_model_date', table_name='stats_daily_model')
+        op.drop_table('stats_daily_model')
--- a/alembic/versions/20251220_1500_add_usage_composite_indexes.py
+++ b/alembic/versions/20251220_1500_add_usage_composite_indexes.py
@@ -0,0 +1,65 @@
+"""add usage table composite indexes for query optimization
+
+Revision ID: b2c3d4e5f6g7
+Revises: a1b2c3d4e5f6
+Create Date: 2025-12-20 15:00:00.000000+00:00
+
+"""
+from alembic import op
+from sqlalchemy import text
+
+# revision identifiers, used by Alembic.
+revision = 'b2c3d4e5f6g7'
+down_revision = 'a1b2c3d4e5f6'
+branch_labels = None
+depends_on = None
+
+
+def upgrade() -> None:
+    """为 usage 表添加复合索引以优化常见查询
+
+    注意：这些索引已经在 baseline 迁移中创建。
+    此迁移仅用于从旧版本升级的场景，新安装会跳过。
+    """
+    conn = op.get_bind()
+
+    # 检查 usage 表是否存在
+    result = conn.execute(text(
+        "SELECT EXISTS (SELECT FROM information_schema.tables WHERE table_name = 'usage')"
+    ))
+    if not result.scalar():
+        # 表不存在，跳过
+        return
+
+    # 定义需要创建的索引
+    indexes = [
+        ("idx_usage_user_created", "ON usage (user_id, created_at)"),
+        ("idx_usage_apikey_created", "ON usage (api_key_id, created_at)"),
+        ("idx_usage_provider_model_created", "ON usage (provider, model, created_at)"),
+    ]
+
+    # 分别检查并创建每个索引
+    for index_name, index_def in indexes:
+        result = conn.execute(text(
+            f"SELECT EXISTS (SELECT 1 FROM pg_indexes WHERE indexname = '{index_name}')"
+        ))
+        if result.scalar():
+            continue  # 索引已存在，跳过
+
+        conn.execute(text(f"CREATE INDEX {index_name} {index_def}"))
+
+
+def downgrade() -> None:
+    """删除复合索引"""
+    conn = op.get_bind()
+
+    # 使用 IF EXISTS 避免索引不存在时报错
+    conn.execute(text(
+        "DROP INDEX IF EXISTS idx_usage_provider_model_created"
+    ))
+    conn.execute(text(
+        "DROP INDEX IF EXISTS idx_usage_apikey_created"
+    ))
+    conn.execute(text(
+        "DROP INDEX IF EXISTS idx_usage_user_created"
+    ))
--- a/deploy.sh
+++ b/deploy.sh
@@ -26,10 +26,13 @@ calc_deps_hash() {
    cat pyproject.toml frontend/package.json frontend/package-lock.json Dockerfile.base.local 2>/dev/null | md5sum | cut -d' ' -f1
 }

-# 计算代码文件的哈希值
+# 计算代码文件的哈希值（包含 Dockerfile.app.local）
 calc_code_hash() {
-    find src -type f -name "*.py" 2>/dev/null | sort | xargs cat 2>/dev/null | md5sum | cut -d' ' -f1
-    find frontend/src -type f \( -name "*.vue" -o -name "*.ts" -o -name "*.tsx" -o -name "*.js" \) 2>/dev/null | sort | xargs cat 2>/dev/null | md5sum | cut -d' ' -f1
+    {
+        cat Dockerfile.app.local 2>/dev/null
+        find src -type f -name "*.py" 2>/dev/null | sort | xargs cat 2>/dev/null
+        find frontend/src -type f \( -name "*.vue" -o -name "*.ts" -o -name "*.tsx" -o -name "*.js" \) 2>/dev/null | sort | xargs cat 2>/dev/null
+    } | md5sum | cut -d' ' -f1
 }

 # 计算迁移文件的哈希值
@@ -88,7 +91,7 @@ build_base() {
 # 构建应用镜像
 build_app() {
    echo ">>> Building app image (code only)..."
-    docker build -f Dockerfile.app -t aether-app:latest .
+    docker build -f Dockerfile.app.local -t aether-app:latest .
    save_code_hash
 }

@@ -179,7 +182,13 @@ else
    echo ">>> Dependencies unchanged."
 fi

-# 检查代码是否变化，或者 base 重建了（app 依赖 base）
+# 检查代码或迁移是否变化，或者 base 重建了（app 依赖 base）
+# 注意：迁移文件打包在镜像中，所以迁移变化也需要重建 app 镜像
+MIGRATION_CHANGED=false
+if check_migration_changed; then
+    MIGRATION_CHANGED=true
+fi
+
 if ! docker image inspect aether-app:latest >/dev/null 2>&1; then
    echo ">>> App image not found, building..."
    build_app
@@ -192,6 +201,10 @@ elif check_code_changed; then
    echo ">>> Code changed, rebuilding app image..."
    build_app
    NEED_RESTART=true
+elif [ "$MIGRATION_CHANGED" = true ]; then
+    echo ">>> Migration files changed, rebuilding app image..."
+    build_app
+    NEED_RESTART=true
 else
    echo ">>> Code unchanged."
 fi
@@ -204,9 +217,9 @@ else
    echo ">>> No changes detected, skipping restart."
 fi

-# 检查迁移变化
-if check_migration_changed; then
-    echo ">>> Migration files changed, running database migration..."
+# 检查迁移变化（如果前面已经检测到变化并重建了镜像，这里直接运行迁移）
+if [ "$MIGRATION_CHANGED" = true ]; then
+    echo ">>> Running database migration..."
    sleep 3
    run_migration
 else
--- a/dev.sh
+++ b/dev.sh
@@ -8,7 +8,8 @@ source .env
 set +a

 # 构建 DATABASE_URL
-export DATABASE_URL="postgresql://postgres:${DB_PASSWORD}@localhost:5432/aether"
+export DATABASE_URL="postgresql://${DB_USER:-postgres}:${DB_PASSWORD}@${DB_HOST:-localhost}:${DB_PORT:-5432}/${DB_NAME:-aether}"
+export REDIS_URL=redis://:${REDIS_PASSWORD}@${REDIS_HOST:-localhost}:${REDIS_PORT:-6379}/0

 # 启动 uvicorn（热重载模式）
 echo "🚀 启动本地开发服务器..."
--- a/docker-compose.build.yml
+++ b/docker-compose.build.yml
@@ -41,7 +41,7 @@ services:
  app:
    build:
      context: .
-      dockerfile: Dockerfile.app
+      dockerfile: Dockerfile.app.local
    image: aether-app:latest
    container_name: aether-app
    environment:
--- a/frontend/src/api/admin.ts
+++ b/frontend/src/api/admin.ts
@@ -112,7 +112,7 @@ export interface KeyExport {
 export interface ModelExport {
  global_model_name: string | null
  provider_model_name: string
-  provider_model_aliases?: any
+  provider_model_mappings?: any
  price_per_request?: number | null
  tiered_pricing?: any
  supports_vision?: boolean | null
--- a/frontend/src/api/cache.ts
+++ b/frontend/src/api/cache.ts
@@ -66,6 +66,7 @@ export interface UserAffinity {
  key_name: string | null
  key_prefix: string | null  // Provider Key 脱敏显示（前4...后4）
  rate_multiplier: number
+  global_model_id: string | null  // 原始的 global_model_id（用于删除）
  model_name: string | null  // 模型名称（如 claude-haiku-4-5-20250514）
  model_display_name: string | null  // 模型显示名称（如 Claude Haiku 4.5）
  api_format: string | null  // API 格式 (claude/openai)
@@ -119,6 +120,18 @@ export const cacheApi = {
    await api.delete(`/api/admin/monitoring/cache/users/${userIdentifier}`)
  },

+  /**
+   * 清除单条缓存亲和性
+   *
+   * @param affinityKey API Key ID
+   * @param endpointId Endpoint ID
+   * @param modelId GlobalModel ID
+   * @param apiFormat API 格式 (claude/openai)
+   */
+  async clearSingleAffinity(affinityKey: string, endpointId: string, modelId: string, apiFormat: string): Promise<void> {
+    await api.delete(`/api/admin/monitoring/cache/affinity/${affinityKey}/${endpointId}/${modelId}/${apiFormat}`)
+  },
+
  /**
   * 清除所有缓存
   */
--- a/frontend/src/api/endpoints/models.ts
+++ b/frontend/src/api/endpoints/models.ts
@@ -5,6 +5,8 @@ import type {
  ModelUpdate,
  ModelCatalogResponse,
  ProviderAvailableSourceModelsResponse,
+  UpstreamModel,
+  ImportFromUpstreamResponse,
 } from './types'

 /**
@@ -119,3 +121,40 @@ export async function batchAssignModelsToProvider(
  )
  return response.data
 }
+
+/**
+ * 查询提供商的上游模型列表
+ */
+export async function queryProviderUpstreamModels(
+  providerId: string
+): Promise<{
+  success: boolean
+  data: {
+    models: UpstreamModel[]
+    error: string | null
+  }
+  provider: {
+    id: string
+    name: string
+    display_name: string
+  }
+}> {
+  const response = await client.post('/api/admin/provider-query/models', {
+    provider_id: providerId,
+  })
+  return response.data
+}
+
+/**
+ * 从上游提供商导入模型
+ */
+export async function importModelsFromUpstream(
+  providerId: string,
+  modelIds: string[]
+): Promise<ImportFromUpstreamResponse> {
+  const response = await client.post(
+    `/api/admin/providers/${providerId}/import-from-upstream`,
+    { model_ids: modelIds }
+  )
+  return response.data
+}
--- a/frontend/src/api/endpoints/providers.ts
+++ b/frontend/src/api/endpoints/providers.ts
@@ -58,3 +58,38 @@ export async function deleteProvider(providerId: string): Promise<{ message: str
  return response.data
 }

+/**
+ * 测试模型连接性
+ */
+export interface TestModelRequest {
+  provider_id: string
+  model_name: string
+  api_key_id?: string
+  message?: string
+  api_format?: string
+}
+
+export interface TestModelResponse {
+  success: boolean
+  error?: string
+  data?: {
+    response?: {
+      status_code?: number
+      error?: string | { message?: string }
+      choices?: Array<{ message?: { content?: string } }>
+    }
+    content_preview?: string
+  }
+  provider?: {
+    id: string
+    name: string
+    display_name: string
+  }
+  model?: string
+}
+
+export async function testModel(data: TestModelRequest): Promise<TestModelResponse> {
+  const response = await client.post('/api/admin/provider-query/test-model', data)
+  return response.data
+}
+
--- a/frontend/src/api/endpoints/types.ts
+++ b/frontend/src/api/endpoints/types.ts
@@ -110,6 +110,24 @@ export interface EndpointAPIKey {
  request_results_window?: Array<{ ts: number; ok: boolean }>  // 请求结果滑动窗口
 }

+export interface EndpointAPIKeyUpdate {
+  name?: string
+  api_key?: string  // 仅在需要更新时提供
+  rate_multiplier?: number
+  internal_priority?: number
+  global_priority?: number | null
+  max_concurrent?: number | null  // null 表示切换为自适应模式
+  rate_limit?: number
+  daily_limit?: number
+  monthly_limit?: number
+  allowed_models?: string[] | null
+  capabilities?: Record<string, boolean> | null
+  cache_ttl_minutes?: number
+  max_probe_interval_minutes?: number
+  note?: string
+  is_active?: boolean
+}
+
 export interface EndpointHealthDetail {
  api_format: string
  health_score: number
@@ -244,18 +262,21 @@ export interface ConcurrencyStatus {
  key_max_concurrent?: number
 }

-export interface ProviderModelAlias {
+export interface ProviderModelMapping {
  name: string
  priority: number  // 优先级（数字越小优先级越高）
  api_formats?: string[]  // 作用域（适用的 API 格式），为空表示对所有格式生效
 }

+// 保留别名以保持向后兼容
+export type ProviderModelAlias = ProviderModelMapping
+
 export interface Model {
  id: string
  provider_id: string
  global_model_id?: string  // 关联的 GlobalModel ID
  provider_model_name: string  // Provider 侧的主模型名称
-  provider_model_aliases?: ProviderModelAlias[] | null  // 模型名称别名列表（带优先级）
+  provider_model_mappings?: ProviderModelMapping[] | null  // 模型名称映射列表（带优先级）
  // 原始配置值（可能为空，为空时使用 GlobalModel 默认值）
  price_per_request?: number | null  // 按次计费价格
  tiered_pricing?: TieredPricingConfig | null  // 阶梯计费配置
@@ -285,7 +306,7 @@ export interface Model {

 export interface ModelCreate {
  provider_model_name: string  // Provider 侧的主模型名称
-  provider_model_aliases?: ProviderModelAlias[]  // 模型名称别名列表（带优先级）
+  provider_model_mappings?: ProviderModelMapping[]  // 模型名称映射列表（带优先级）
  global_model_id: string  // 关联的 GlobalModel ID（必填）
  // 计费配置（可选，为空时使用 GlobalModel 默认值）
  price_per_request?: number  // 按次计费价格
@@ -302,7 +323,7 @@ export interface ModelCreate {

 export interface ModelUpdate {
  provider_model_name?: string
-  provider_model_aliases?: ProviderModelAlias[] | null  // 模型名称别名列表（带优先级）
+  provider_model_mappings?: ProviderModelMapping[] | null  // 模型名称映射列表（带优先级）
  global_model_id?: string
  price_per_request?: number | null  // 按次计费价格（null 表示清空/使用默认值）
  tiered_pricing?: TieredPricingConfig | null  // 阶梯计费配置
@@ -495,3 +516,42 @@ export interface GlobalModelListResponse {
  models: GlobalModelResponse[]
  total: number
 }
+
+// ==================== 上游模型导入相关 ====================
+
+/**
+ * 上游模型（从提供商 API 获取的原始模型）
+ */
+export interface UpstreamModel {
+  id: string
+  owned_by?: string
+  display_name?: string
+  api_format?: string
+}
+
+/**
+ * 导入成功的模型信息
+ */
+export interface ImportFromUpstreamSuccessItem {
+  model_id: string
+  global_model_id: string
+  global_model_name: string
+  provider_model_id: string
+  created_global_model: boolean
+}
+
+/**
+ * 导入失败的模型信息
+ */
+export interface ImportFromUpstreamErrorItem {
+  model_id: string
+  error: string
+}
+
+/**
+ * 从上游提供商导入模型响应
+ */
+export interface ImportFromUpstreamResponse {
+  success: ImportFromUpstreamSuccessItem[]
+  errors: ImportFromUpstreamErrorItem[]
+}
--- a/frontend/src/components/ui/dialog/Dialog.vue
+++ b/frontend/src/components/ui/dialog/Dialog.vue
@@ -92,6 +92,7 @@

 <script setup lang="ts">
 import { computed, useSlots, type Component } from 'vue'
+import { useEscapeKey } from '@/composables/useEscapeKey'

 // Props 定义
 const props = defineProps<{
@@ -157,4 +158,16 @@ const maxWidthClass = computed(() => {
 const containerZIndex = computed(() => props.zIndex || 60)
 const backdropZIndex = computed(() => props.zIndex || 60)
 const contentZIndex = computed(() => (props.zIndex || 60) + 10)
+
+// 添加 ESC 键监听
+useEscapeKey(() => {
+  if (isOpen.value) {
+    handleClose()
+    return true  // 阻止其他监听器（如父级抽屉的 ESC 监听器）
+  }
+  return false
+}, {
+  disableOnInput: true,
+  once: false
+})
 </script>
--- a/frontend/src/composables/useClipboard.ts
+++ b/frontend/src/composables/useClipboard.ts
@@ -4,11 +4,11 @@ import { log } from '@/utils/logger'
 export function useClipboard() {
  const { success, error: showError } = useToast()

-  async function copyToClipboard(text: string): Promise<boolean> {
+  async function copyToClipboard(text: string, showToast = true): Promise<boolean> {
    try {
      if (navigator.clipboard && window.isSecureContext) {
        await navigator.clipboard.writeText(text)
-        success('已复制到剪贴板')
+        if (showToast) success('已复制到剪贴板')
        return true
      }

@@ -25,17 +25,17 @@ export function useClipboard() {
      try {
        const successful = document.execCommand('copy')
        if (successful) {
-          success('已复制到剪贴板')
+          if (showToast) success('已复制到剪贴板')
          return true
        }
-        showError('复制失败，请手动复制')
+        if (showToast) showError('复制失败，请手动复制')
        return false
      } finally {
        document.body.removeChild(textArea)
      }
    } catch (err) {
      log.error('复制失败:', err)
-      showError('复制失败，请手动选择文本进行复制')
+      if (showToast) showError('复制失败，请手动选择文本进行复制')
      return false
    }
  }
--- a/frontend/src/composables/useConfirm.ts
+++ b/frontend/src/composables/useConfirm.ts
@@ -47,11 +47,11 @@ export function useConfirm() {
  /**
   * 便捷方法：危险操作确认（红色主题）
   */
-  const confirmDanger = (message: string, title?: string): Promise<boolean> => {
+  const confirmDanger = (message: string, title?: string, confirmText?: string): Promise<boolean> => {
    return confirm({
      message,
      title: title || '危险操作',
-      confirmText: '删除',
+      confirmText: confirmText || '删除',
      variant: 'danger'
    })
  }
--- a/frontend/src/composables/useEscapeKey.ts
+++ b/frontend/src/composables/useEscapeKey.ts
@@ -0,0 +1,83 @@
+import { onMounted, onUnmounted, ref } from 'vue'
+
+/**
+ * ESC 键监听 Composable（简化版本，直接使用独立监听器）
+ * 用于按 ESC 键关闭弹窗或其他可关闭的组件
+ *
+ * @param callback - 按 ESC 键时执行的回调函数，返回 true 表示已处理事件，阻止其他监听器执行
+ * @param options - 配置选项
+ */
+export function useEscapeKey(
+  callback: () => void | boolean,
+  options: {
+    /** 是否在输入框获得焦点时禁用 ESC 键，默认 true */
+    disableOnInput?: boolean
+    /** 是否只监听一次，默认 false */
+    once?: boolean
+  } = {}
+) {
+  const { disableOnInput = true, once = false } = options
+  const isActive = ref(true)
+
+  function handleKeyDown(event: KeyboardEvent) {
+    // 只处理 ESC 键
+    if (event.key !== 'Escape') return
+
+    // 检查组件是否还活跃
+    if (!isActive.value) return
+
+    // 如果配置了在输入框获得焦点时禁用，则检查当前焦点元素
+    if (disableOnInput) {
+      const activeElement = document.activeElement
+      const isInputElement = activeElement && (
+        activeElement.tagName === 'INPUT' ||
+        activeElement.tagName === 'TEXTAREA' ||
+        activeElement.tagName === 'SELECT' ||
+        activeElement.contentEditable === 'true' ||
+        activeElement.getAttribute('role') === 'textbox' ||
+        activeElement.getAttribute('role') === 'combobox'
+      )
+
+      // 如果焦点在输入框中，不处理 ESC 键
+      if (isInputElement) return
+    }
+
+    // 执行回调，如果返回 true 则阻止其他监听器
+    const handled = callback()
+    if (handled === true) {
+      event.stopImmediatePropagation()
+    }
+
+    // 移除当前元素的焦点，避免残留样式
+    if (document.activeElement instanceof HTMLElement) {
+      document.activeElement.blur()
+    }
+
+    // 如果只监听一次，则移除监听器
+    if (once) {
+      removeEventListener()
+    }
+  }
+
+  function addEventListener() {
+    document.addEventListener('keydown', handleKeyDown)
+  }
+
+  function removeEventListener() {
+    document.removeEventListener('keydown', handleKeyDown)
+  }
+
+  onMounted(() => {
+    addEventListener()
+  })
+
+  onUnmounted(() => {
+    isActive.value = false
+    removeEventListener()
+  })
+
+  return {
+    addEventListener,
+    removeEventListener
+  }
+}
--- a/frontend/src/features/models/components/ModelDetailDrawer.vue
+++ b/frontend/src/features/models/components/ModelDetailDrawer.vue
@@ -698,7 +698,9 @@ import {
  Layers,
  BarChart3
 } from 'lucide-vue-next'
+import { useEscapeKey } from '@/composables/useEscapeKey'
 import { useToast } from '@/composables/useToast'
+import { useClipboard } from '@/composables/useClipboard'
 import Card from '@/components/ui/card.vue'
 import Badge from '@/components/ui/badge.vue'
 import Button from '@/components/ui/button.vue'
@@ -730,6 +732,7 @@ const emit = defineEmits<{
  'refreshProviders': []
 }>()
 const { success: showSuccess, error: showError } = useToast()
+const { copyToClipboard } = useClipboard()

 interface Props {
  model: GlobalModelResponse | null
@@ -762,16 +765,6 @@ function handleClose() {
  }
 }

-// 复制到剪贴板
-async function copyToClipboard(text: string) {
-  try {
-    await navigator.clipboard.writeText(text)
-    showSuccess('已复制')
-  } catch {
-    showError('复制失败')
-  }
-}
-
 // 格式化日期
 function formatDate(dateStr: string): string {
  if (!dateStr) return '-'
@@ -833,6 +826,16 @@ watch(() => props.open, (newOpen) => {
    detailTab.value = 'basic'
  }
 })
+
+// 添加 ESC 键监听
+useEscapeKey(() => {
+  if (props.open) {
+    handleClose()
+  }
+}, {
+  disableOnInput: true,
+  once: false
+})
 </script>

 <style scoped>
--- a/frontend/src/features/providers/components/BatchAssignModelsDialog.vue
+++ b/frontend/src/features/providers/components/BatchAssignModelsDialog.vue
@@ -31,29 +31,46 @@

        <!-- 左右对比布局 -->
        <div class="flex gap-2 items-stretch">
-          <!-- 左侧：可添加的模型 -->
+          <!-- 左侧：可添加的模型（分组折叠） -->
          <div class="flex-1 space-y-2">
-            <div class="flex items-center justify-between">
-              <div class="flex items-center gap-2">
-                <p class="text-sm font-medium">
-                  可添加
-                </p>
-                <Button
-                  v-if="availableModels.length > 0"
-                  variant="ghost"
-                  size="sm"
-                  class="h-6 px-2 text-xs"
-                  @click="toggleSelectAllLeft"
-                >
-                  {{ isAllLeftSelected ? '取消全选' : '全选' }}
-                </Button>
+            <div class="flex items-center justify-between gap-2">
+              <p class="text-sm font-medium shrink-0">
+                可添加
+              </p>
+              <div class="flex-1 relative">
+                <Search class="absolute left-2 top-1/2 -translate-y-1/2 w-3.5 h-3.5 text-muted-foreground" />
+                <Input
+                  v-model="searchQuery"
+                  placeholder="搜索模型..."
+                  class="pl-7 h-7 text-xs"
+                />
              </div>
-              <Badge
-                variant="secondary"
-                class="text-xs"
+              <button
+                v-if="upstreamModelsLoaded"
+                type="button"
+                class="p-1.5 hover:bg-muted rounded-md transition-colors shrink-0"
+                title="刷新上游模型"
+                :disabled="fetchingUpstreamModels"
+                @click="fetchUpstreamModels(true)"
              >
-                {{ availableModels.length }} 个
-              </Badge>
+                <RefreshCw
+                  class="w-3.5 h-3.5"
+                  :class="{ 'animate-spin': fetchingUpstreamModels }"
+                />
+              </button>
+              <button
+                v-else-if="!fetchingUpstreamModels"
+                type="button"
+                class="p-1.5 hover:bg-muted rounded-md transition-colors shrink-0"
+                title="从提供商获取模型"
+                @click="fetchUpstreamModels"
+              >
+                <Zap class="w-3.5 h-3.5" />
+              </button>
+              <Loader2
+                v-else
+                class="w-3.5 h-3.5 animate-spin text-muted-foreground shrink-0"
+              />
            </div>
            <div class="border rounded-lg h-80 overflow-y-auto">
              <div
@@ -63,7 +80,7 @@
                <Loader2 class="w-6 h-6 animate-spin text-primary" />
              </div>
              <div
-                v-else-if="availableModels.length === 0"
+                v-else-if="totalAvailableCount === 0 && !upstreamModelsLoaded"
                class="flex flex-col items-center justify-center h-full text-muted-foreground"
              >
                <Layers class="w-10 h-10 mb-2 opacity-30" />
@@ -73,37 +90,142 @@
              </div>
              <div
                v-else
-                class="p-2 space-y-1"
+                class="p-2 space-y-2"
              >
+                <!-- 全局模型折叠组 -->
                <div
-                  v-for="model in availableModels"
-                  :key="model.id"
-                  class="flex items-center gap-2 p-2 rounded-lg border transition-colors"
-                  :class="selectedLeftIds.includes(model.id)
-                    ? 'border-primary bg-primary/10'
-                    : 'hover:bg-muted/50 cursor-pointer'"
-                  @click="toggleLeftSelection(model.id)"
+                  v-if="availableGlobalModels.length > 0 || !upstreamModelsLoaded"
+                  class="border rounded-lg overflow-hidden"
                >
-                  <Checkbox
-                    :checked="selectedLeftIds.includes(model.id)"
-                    @update:checked="toggleLeftSelection(model.id)"
-                    @click.stop
-                  />
-                  <div class="flex-1 min-w-0">
-                    <p class="font-medium text-sm truncate">
-                      {{ model.display_name }}
-                    </p>
-                    <p class="text-xs text-muted-foreground truncate font-mono">
-                      {{ model.name }}
-                    </p>
+                  <div class="flex items-center gap-2 px-3 py-2 bg-muted/30">
+                    <button
+                      type="button"
+                      class="flex items-center gap-2 flex-1 hover:bg-muted/50 -mx-1 px-1 rounded transition-colors"
+                      @click="toggleGroupCollapse('global')"
+                    >
+                      <ChevronDown
+                        class="w-4 h-4 transition-transform shrink-0"
+                        :class="collapsedGroups.has('global') ? '-rotate-90' : ''"
+                      />
+                      <span class="text-xs font-medium">
+                        全局模型
+                      </span>
+                      <span class="text-xs text-muted-foreground">
+                        ({{ availableGlobalModels.length }})
+                      </span>
+                    </button>
+                    <button
+                      v-if="availableGlobalModels.length > 0"
+                      type="button"
+                      class="text-xs text-primary hover:underline shrink-0"
+                      @click.stop="selectAllGlobalModels"
+                    >
+                      {{ isAllGlobalModelsSelected ? '取消' : '全选' }}
+                    </button>
                  </div>
-                  <Badge
-                    :variant="model.is_active ? 'outline' : 'secondary'"
-                    :class="model.is_active ? 'text-green-600 border-green-500/60' : ''"
-                    class="text-xs shrink-0"
+                  <div
+                    v-show="!collapsedGroups.has('global')"
+                    class="p-2 space-y-1 border-t"
                  >
-                    {{ model.is_active ? '活跃' : '停用' }}
-                  </Badge>
+                    <div
+                      v-if="availableGlobalModels.length === 0"
+                      class="py-4 text-center text-xs text-muted-foreground"
+                    >
+                      所有全局模型均已关联
+                    </div>
+                    <div
+                      v-for="model in availableGlobalModels"
+                      v-else
+                      :key="model.id"
+                      class="flex items-center gap-2 p-2 rounded-lg border transition-colors cursor-pointer"
+                      :class="selectedGlobalModelIds.includes(model.id)
+                        ? 'border-primary bg-primary/10'
+                        : 'hover:bg-muted/50'"
+                      @click="toggleGlobalModelSelection(model.id)"
+                    >
+                      <Checkbox
+                        :checked="selectedGlobalModelIds.includes(model.id)"
+                        @update:checked="toggleGlobalModelSelection(model.id)"
+                        @click.stop
+                      />
+                      <div class="flex-1 min-w-0">
+                        <p class="font-medium text-sm truncate">
+                          {{ model.display_name }}
+                        </p>
+                        <p class="text-xs text-muted-foreground truncate font-mono">
+                          {{ model.name }}
+                        </p>
+                      </div>
+                      <Badge
+                        :variant="model.is_active ? 'outline' : 'secondary'"
+                        :class="model.is_active ? 'text-green-600 border-green-500/60' : ''"
+                        class="text-xs shrink-0"
+                      >
+                        {{ model.is_active ? '活跃' : '停用' }}
+                      </Badge>
+                    </div>
+                  </div>
+                </div>
+
+                <!-- 从提供商获取的模型折叠组 -->
+                <div
+                  v-for="group in upstreamModelGroups"
+                  :key="group.api_format"
+                  class="border rounded-lg overflow-hidden"
+                >
+                  <div class="flex items-center gap-2 px-3 py-2 bg-muted/30">
+                    <button
+                      type="button"
+                      class="flex items-center gap-2 flex-1 hover:bg-muted/50 -mx-1 px-1 rounded transition-colors"
+                      @click="toggleGroupCollapse(group.api_format)"
+                    >
+                      <ChevronDown
+                        class="w-4 h-4 transition-transform shrink-0"
+                        :class="collapsedGroups.has(group.api_format) ? '-rotate-90' : ''"
+                      />
+                      <span class="text-xs font-medium">
+                        {{ API_FORMAT_LABELS[group.api_format] || group.api_format }}
+                      </span>
+                      <span class="text-xs text-muted-foreground">
+                        ({{ group.models.length }})
+                      </span>
+                    </button>
+                    <button
+                      type="button"
+                      class="text-xs text-primary hover:underline shrink-0"
+                      @click.stop="selectAllUpstreamModels(group.api_format)"
+                    >
+                      {{ isUpstreamGroupAllSelected(group.api_format) ? '取消' : '全选' }}
+                    </button>
+                  </div>
+                  <div
+                    v-show="!collapsedGroups.has(group.api_format)"
+                    class="p-2 space-y-1 border-t"
+                  >
+                    <div
+                      v-for="model in group.models"
+                      :key="model.id"
+                      class="flex items-center gap-2 p-2 rounded-lg border transition-colors cursor-pointer"
+                      :class="selectedUpstreamModelIds.includes(model.id)
+                        ? 'border-primary bg-primary/10'
+                        : 'hover:bg-muted/50'"
+                      @click="toggleUpstreamModelSelection(model.id)"
+                    >
+                      <Checkbox
+                        :checked="selectedUpstreamModelIds.includes(model.id)"
+                        @update:checked="toggleUpstreamModelSelection(model.id)"
+                        @click.stop
+                      />
+                      <div class="flex-1 min-w-0">
+                        <p class="font-medium text-sm truncate">
+                          {{ model.id }}
+                        </p>
+                        <p class="text-xs text-muted-foreground truncate font-mono">
+                          {{ model.owned_by || model.id }}
+                        </p>
+                      </div>
+                    </div>
+                  </div>
                </div>
              </div>
            </div>
@@ -115,8 +237,8 @@
              variant="outline"
              size="sm"
              class="w-9 h-8"
-              :class="selectedLeftIds.length > 0 && !submittingAdd ? 'border-primary' : ''"
-              :disabled="selectedLeftIds.length === 0 || submittingAdd"
+              :class="totalSelectedCount > 0 && !submittingAdd ? 'border-primary' : ''"
+              :disabled="totalSelectedCount === 0 || submittingAdd"
              title="添加选中"
              @click="batchAddSelected"
            >
@@ -127,7 +249,7 @@
              <ChevronRight
                v-else
                class="w-6 h-6 stroke-[3]"
-                :class="selectedLeftIds.length > 0 && !submittingAdd ? 'text-primary' : ''"
+                :class="totalSelectedCount > 0 && !submittingAdd ? 'text-primary' : ''"
              />
            </Button>
            <Button
@@ -154,26 +276,18 @@
          <!-- 右侧：已添加的模型 -->
          <div class="flex-1 space-y-2">
            <div class="flex items-center justify-between">
-              <div class="flex items-center gap-2">
-                <p class="text-sm font-medium">
-                  已添加
-                </p>
-                <Button
-                  v-if="existingModels.length > 0"
-                  variant="ghost"
-                  size="sm"
-                  class="h-6 px-2 text-xs"
-                  @click="toggleSelectAllRight"
-                >
-                  {{ isAllRightSelected ? '取消全选' : '全选' }}
-                </Button>
-              </div>
-              <Badge
-                variant="secondary"
-                class="text-xs"
+              <p class="text-sm font-medium">
+                已添加
+              </p>
+              <Button
+                v-if="existingModels.length > 0"
+                variant="ghost"
+                size="sm"
+                class="h-6 px-2 text-xs"
+                @click="toggleSelectAllRight"
              >
-                {{ existingModels.length }} 个
-              </Badge>
+                {{ isAllRightSelected ? '取消' : '全选' }}
+              </Button>
            </div>
            <div class="border rounded-lg h-80 overflow-y-auto">
              <div
@@ -238,11 +352,12 @@

 <script setup lang="ts">
 import { ref, computed, watch } from 'vue'
-import { Layers, Loader2, ChevronRight, ChevronLeft } from 'lucide-vue-next'
+import { Layers, Loader2, ChevronRight, ChevronLeft, ChevronDown, Zap, RefreshCw, Search } from 'lucide-vue-next'
 import Dialog from '@/components/ui/dialog/Dialog.vue'
 import Button from '@/components/ui/button.vue'
 import Badge from '@/components/ui/badge.vue'
 import Checkbox from '@/components/ui/checkbox.vue'
+import Input from '@/components/ui/input.vue'
 import { useToast } from '@/composables/useToast'
 import { parseApiError } from '@/utils/errorParser'
 import {
@@ -253,8 +368,13 @@ import {
  getProviderModels,
  batchAssignModelsToProvider,
  deleteModel,
+  importModelsFromUpstream,
+  API_FORMAT_LABELS,
  type Model
 } from '@/api/endpoints'
+import { useUpstreamModelsCache, type UpstreamModel } from '../composables/useUpstreamModelsCache'
+
+const { fetchModels: fetchCachedModels, clearCache, getCachedModels } = useUpstreamModelsCache()

 const props = defineProps<{
  open: boolean
@@ -274,17 +394,27 @@ const { error: showError, success } = useToast()
 const loadingGlobalModels = ref(false)
 const submittingAdd = ref(false)
 const submittingRemove = ref(false)
+const fetchingUpstreamModels = ref(false)
+const upstreamModelsLoaded = ref(false)

 // 数据
 const allGlobalModels = ref<GlobalModelResponse[]>([])
 const existingModels = ref<Model[]>([])
+const upstreamModels = ref<UpstreamModel[]>([])

 // 选择状态
-const selectedLeftIds = ref<string[]>([])
+const selectedGlobalModelIds = ref<string[]>([])
+const selectedUpstreamModelIds = ref<string[]>([])
 const selectedRightIds = ref<string[]>([])

-// 计算可添加的模型（排除已关联的）
-const availableModels = computed(() => {
+// 折叠状态
+const collapsedGroups = ref<Set<string>>(new Set())
+
+// 搜索状态
+const searchQuery = ref('')
+
+// 计算可添加的全局模型（排除已关联的）
+const availableGlobalModelsBase = computed(() => {
  const existingGlobalModelIds = new Set(
    existingModels.value
      .filter(m => m.global_model_id)
@@ -293,31 +423,129 @@ const availableModels = computed(() => {
  return allGlobalModels.value.filter(m => !existingGlobalModelIds.has(m.id))
 })

-// 全选状态
-const isAllLeftSelected = computed(() =>
-  availableModels.value.length > 0 &&
-  selectedLeftIds.value.length === availableModels.value.length
-)
+// 搜索过滤后的全局模型
+const availableGlobalModels = computed(() => {
+  if (!searchQuery.value.trim()) return availableGlobalModelsBase.value
+  const query = searchQuery.value.toLowerCase()
+  return availableGlobalModelsBase.value.filter(m =>
+    m.name.toLowerCase().includes(query) ||
+    m.display_name.toLowerCase().includes(query)
+  )
+})

+// 计算可添加的上游模型（排除已关联的，包括主模型名和映射名称）
+const availableUpstreamModelsBase = computed(() => {
+  const existingModelNames = new Set<string>()
+  for (const m of existingModels.value) {
+    // 主模型名
+    existingModelNames.add(m.provider_model_name)
+    // 映射名称
+    for (const mapping of m.provider_model_mappings ?? []) {
+      if (mapping.name) existingModelNames.add(mapping.name)
+    }
+  }
+  return upstreamModels.value.filter(m => !existingModelNames.has(m.id))
+})
+
+// 搜索过滤后的上游模型
+const availableUpstreamModels = computed(() => {
+  if (!searchQuery.value.trim()) return availableUpstreamModelsBase.value
+  const query = searchQuery.value.toLowerCase()
+  return availableUpstreamModelsBase.value.filter(m =>
+    m.id.toLowerCase().includes(query) ||
+    (m.owned_by && m.owned_by.toLowerCase().includes(query))
+  )
+})
+
+// 按 API 格式分组的上游模型
+const upstreamModelGroups = computed(() => {
+  const groups: Record<string, UpstreamModel[]> = {}
+
+  for (const model of availableUpstreamModels.value) {
+    const format = model.api_format || 'unknown'
+    if (!groups[format]) {
+      groups[format] = []
+    }
+    groups[format].push(model)
+  }
+
+  // 按 API_FORMAT_LABELS 的顺序排序
+  const order = Object.keys(API_FORMAT_LABELS)
+  return Object.entries(groups)
+    .map(([api_format, models]) => ({ api_format, models }))
+    .sort((a, b) => {
+      const aIndex = order.indexOf(a.api_format)
+      const bIndex = order.indexOf(b.api_format)
+      if (aIndex === -1 && bIndex === -1) return a.api_format.localeCompare(b.api_format)
+      if (aIndex === -1) return 1
+      if (bIndex === -1) return -1
+      return aIndex - bIndex
+    })
+})
+
+// 总可添加数量
+const totalAvailableCount = computed(() => {
+  return availableGlobalModels.value.length + availableUpstreamModels.value.length
+})
+
+// 总选中数量
+const totalSelectedCount = computed(() => {
+  return selectedGlobalModelIds.value.length + selectedUpstreamModelIds.value.length
+})
+
+// 全选状态
 const isAllRightSelected = computed(() =>
  existingModels.value.length > 0 &&
  selectedRightIds.value.length === existingModels.value.length
 )

+// 全局模型是否全选
+const isAllGlobalModelsSelected = computed(() => {
+  if (availableGlobalModels.value.length === 0) return false
+  return availableGlobalModels.value.every(m => selectedGlobalModelIds.value.includes(m.id))
+})
+
+// 检查某个上游组是否全选
+function isUpstreamGroupAllSelected(apiFormat: string): boolean {
+  const group = upstreamModelGroups.value.find(g => g.api_format === apiFormat)
+  if (!group || group.models.length === 0) return false
+  return group.models.every(m => selectedUpstreamModelIds.value.includes(m.id))
+}
+
 // 监听打开状态
 watch(() => props.open, async (isOpen) => {
  if (isOpen && props.providerId) {
    await loadData()
  } else {
    // 重置状态
-    selectedLeftIds.value = []
+    selectedGlobalModelIds.value = []
+    selectedUpstreamModelIds.value = []
    selectedRightIds.value = []
+    upstreamModels.value = []
+    upstreamModelsLoaded.value = false
+    collapsedGroups.value = new Set()
+    searchQuery.value = ''
  }
 })

 // 加载数据
 async function loadData() {
  await Promise.all([loadGlobalModels(), loadExistingModels()])
+  // 默认折叠全局模型组
+  collapsedGroups.value = new Set(['global'])
+
+  // 检查缓存，如果有缓存数据则直接使用
+  const cachedModels = getCachedModels(props.providerId)
+  if (cachedModels) {
+    upstreamModels.value = cachedModels
+    upstreamModelsLoaded.value = true
+    // 折叠所有上游模型组
+    for (const model of cachedModels) {
+      if (model.api_format) {
+        collapsedGroups.value.add(model.api_format)
+      }
+    }
+  }
 }

 // 加载全局模型列表
@@ -342,13 +570,91 @@ async function loadExistingModels() {
  }
 }

-// 切换左侧选择
-function toggleLeftSelection(id: string) {
-  const index = selectedLeftIds.value.indexOf(id)
-  if (index === -1) {
-    selectedLeftIds.value.push(id)
+// 从提供商获取模型
+async function fetchUpstreamModels(forceRefresh = false) {
+  if (forceRefresh) {
+    clearCache(props.providerId)
+  }
+
+  try {
+    fetchingUpstreamModels.value = true
+    const result = await fetchCachedModels(props.providerId, forceRefresh)
+    if (result) {
+      if (result.error) {
+        showError(result.error, '错误')
+      } else {
+        upstreamModels.value = result.models
+        upstreamModelsLoaded.value = true
+        // 折叠所有上游模型组
+        const allGroups = new Set(collapsedGroups.value)
+        for (const model of result.models) {
+          if (model.api_format) {
+            allGroups.add(model.api_format)
+          }
+        }
+        collapsedGroups.value = allGroups
+      }
+    }
+  } finally {
+    fetchingUpstreamModels.value = false
+  }
+}
+
+// 切换折叠状态
+function toggleGroupCollapse(group: string) {
+  if (collapsedGroups.value.has(group)) {
+    collapsedGroups.value.delete(group)
  } else {
-    selectedLeftIds.value.splice(index, 1)
+    collapsedGroups.value.add(group)
+  }
+  // 触发响应式更新
+  collapsedGroups.value = new Set(collapsedGroups.value)
+}
+
+// 切换全局模型选择
+function toggleGlobalModelSelection(id: string) {
+  const index = selectedGlobalModelIds.value.indexOf(id)
+  if (index === -1) {
+    selectedGlobalModelIds.value.push(id)
+  } else {
+    selectedGlobalModelIds.value.splice(index, 1)
+  }
+}
+
+// 切换上游模型选择
+function toggleUpstreamModelSelection(id: string) {
+  const index = selectedUpstreamModelIds.value.indexOf(id)
+  if (index === -1) {
+    selectedUpstreamModelIds.value.push(id)
+  } else {
+    selectedUpstreamModelIds.value.splice(index, 1)
+  }
+}
+
+// 全选全局模型
+function selectAllGlobalModels() {
+  const allIds = availableGlobalModels.value.map(m => m.id)
+  const allSelected = allIds.every(id => selectedGlobalModelIds.value.includes(id))
+  if (allSelected) {
+    selectedGlobalModelIds.value = selectedGlobalModelIds.value.filter(id => !allIds.includes(id))
+  } else {
+    const newIds = allIds.filter(id => !selectedGlobalModelIds.value.includes(id))
+    selectedGlobalModelIds.value.push(...newIds)
+  }
+}
+
+// 全选某个 API 格式的上游模型
+function selectAllUpstreamModels(apiFormat: string) {
+  const group = upstreamModelGroups.value.find(g => g.api_format === apiFormat)
+  if (!group) return
+
+  const allIds = group.models.map(m => m.id)
+  const allSelected = allIds.every(id => selectedUpstreamModelIds.value.includes(id))
+  if (allSelected) {
+    selectedUpstreamModelIds.value = selectedUpstreamModelIds.value.filter(id => !allIds.includes(id))
+  } else {
+    const newIds = allIds.filter(id => !selectedUpstreamModelIds.value.includes(id))
+    selectedUpstreamModelIds.value.push(...newIds)
  }
 }

@@ -362,15 +668,6 @@ function toggleRightSelection(id: string) {
  }
 }

-// 全选/取消全选左侧
-function toggleSelectAllLeft() {
-  if (isAllLeftSelected.value) {
-    selectedLeftIds.value = []
-  } else {
-    selectedLeftIds.value = availableModels.value.map(m => m.id)
-  }
-}
-
 // 全选/取消全选右侧
 function toggleSelectAllRight() {
  if (isAllRightSelected.value) {
@@ -382,22 +679,41 @@ function toggleSelectAllRight() {

 // 批量添加选中的模型
 async function batchAddSelected() {
-  if (selectedLeftIds.value.length === 0) return
+  if (totalSelectedCount.value === 0) return

  try {
    submittingAdd.value = true
-    const result = await batchAssignModelsToProvider(props.providerId, selectedLeftIds.value)
+    let totalSuccess = 0
+    const allErrors: string[] = []

-    if (result.success.length > 0) {
-      success(`成功添加 ${result.success.length} 个模型`)
+    // 处理全局模型
+    if (selectedGlobalModelIds.value.length > 0) {
+      const result = await batchAssignModelsToProvider(props.providerId, selectedGlobalModelIds.value)
+      totalSuccess += result.success.length
+      if (result.errors.length > 0) {
+        allErrors.push(...result.errors.map(e => e.error))
+      }
    }

-    if (result.errors.length > 0) {
-      const errorMessages = result.errors.map(e => e.error).join(', ')
-      showError(`部分模型添加失败: ${errorMessages}`, '警告')
+    // 处理上游模型（调用 import-from-upstream API）
+    if (selectedUpstreamModelIds.value.length > 0) {
+      const result = await importModelsFromUpstream(props.providerId, selectedUpstreamModelIds.value)
+      totalSuccess += result.success.length
+      if (result.errors.length > 0) {
+        allErrors.push(...result.errors.map(e => e.error))
+      }
    }

-    selectedLeftIds.value = []
+    if (totalSuccess > 0) {
+      success(`成功添加 ${totalSuccess} 个模型`)
+    }
+
+    if (allErrors.length > 0) {
+      showError(`部分模型添加失败: ${allErrors.slice(0, 3).join(', ')}${allErrors.length > 3 ? '...' : ''}`, '警告')
+    }
+
+    selectedGlobalModelIds.value = []
+    selectedUpstreamModelIds.value = []
    await loadExistingModels()
    emit('changed')
  } catch (err: any) {
--- a/frontend/src/features/providers/components/KeyFormDialog.vue
+++ b/frontend/src/features/providers/components/KeyFormDialog.vue
@@ -260,6 +260,7 @@ import {
  updateEndpointKey,
  getAllCapabilities,
  type EndpointAPIKey,
+  type EndpointAPIKeyUpdate,
  type ProviderEndpoint,
  type CapabilityDefinition
 } from '@/api/endpoints'
@@ -386,10 +387,11 @@ function loadKeyData() {
    api_key: '',
    rate_multiplier: props.editingKey.rate_multiplier || 1.0,
    internal_priority: props.editingKey.internal_priority ?? 50,
-    max_concurrent: props.editingKey.max_concurrent || undefined,
-    rate_limit: props.editingKey.rate_limit || undefined,
-    daily_limit: props.editingKey.daily_limit || undefined,
-    monthly_limit: props.editingKey.monthly_limit || undefined,
+    // 保留原始的 null/undefined 状态，null 表示自适应模式
+    max_concurrent: props.editingKey.max_concurrent ?? undefined,
+    rate_limit: props.editingKey.rate_limit ?? undefined,
+    daily_limit: props.editingKey.daily_limit ?? undefined,
+    monthly_limit: props.editingKey.monthly_limit ?? undefined,
    cache_ttl_minutes: props.editingKey.cache_ttl_minutes ?? 5,
    max_probe_interval_minutes: props.editingKey.max_probe_interval_minutes ?? 32,
    note: props.editingKey.note || '',
@@ -439,12 +441,17 @@ async function handleSave() {
  saving.value = true
  try {
    if (props.editingKey) {
-      // 更新
-      const updateData: any = {
+      // 更新模式
+      // 注意：max_concurrent 需要显式发送 null 来切换到自适应模式
+      // undefined 会在 JSON 中被忽略，所以用 null 表示"清空/自适应"
+      const updateData: EndpointAPIKeyUpdate = {
        name: form.value.name,
        rate_multiplier: form.value.rate_multiplier,
        internal_priority: form.value.internal_priority,
-        max_concurrent: form.value.max_concurrent,
+        // 显式使用 null 表示自适应模式，这样后端能区分"未提供"和"设置为 null"
+        // 注意：只有 max_concurrent 需要这种处理，因为它有"自适应模式"的概念
+        // 其他限制字段（rate_limit 等）不支持"清空"操作，undefined 会被 JSON 忽略即不更新
+        max_concurrent: form.value.max_concurrent === undefined ? null : form.value.max_concurrent,
        rate_limit: form.value.rate_limit,
        daily_limit: form.value.daily_limit,
        monthly_limit: form.value.monthly_limit,
--- a/frontend/src/features/providers/components/ModelAliasDialog.vue
+++ b/frontend/src/features/providers/components/ModelAliasDialog.vue
@@ -18,7 +18,7 @@
        </p>
      </div>

-      <!-- 别名列表 -->
+      <!-- 映射列表 -->
      <div class="space-y-3">
        <div class="flex items-center justify-between">
          <Label class="text-sm font-medium">名称映射</Label>
@@ -92,7 +92,7 @@
              </div>
            </div>

-            <!-- 别名输入框 -->
+            <!-- 映射输入框 -->
            <Input
              v-model="alias.name"
              placeholder="映射名称，如 Claude-Sonnet-4.5"
@@ -184,9 +184,9 @@ const editingPriorityIndex = ref<number | null>(null)
 // 监听 open 变化
 watch(() => props.open, (newOpen) => {
  if (newOpen && props.model) {
-    // 加载现有别名配置
-    if (props.model.provider_model_aliases && Array.isArray(props.model.provider_model_aliases)) {
-      aliases.value = JSON.parse(JSON.stringify(props.model.provider_model_aliases))
+    // 加载现有映射配置
+    if (props.model.provider_model_mappings && Array.isArray(props.model.provider_model_mappings)) {
+      aliases.value = JSON.parse(JSON.stringify(props.model.provider_model_mappings))
    } else {
      aliases.value = []
    }
@@ -197,16 +197,16 @@ watch(() => props.open, (newOpen) => {
  }
 })

-// 添加别名
+// 添加映射
 function addAlias() {
-  // 新别名优先级为当前最大优先级 + 1，或者默认为 1
+  // 新映射优先级为当前最大优先级 + 1，或者默认为 1
  const maxPriority = aliases.value.length > 0
    ? Math.max(...aliases.value.map(a => a.priority))
    : 0
  aliases.value.push({ name: '', priority: maxPriority + 1 })
 }

-// 移除别名
+// 移除映射
 function removeAlias(index: number) {
  aliases.value.splice(index, 1)
 }
@@ -244,7 +244,7 @@ function handleDrop(targetIndex: number) {
  const items = [...aliases.value]
  const draggedItem = items[dragIndex]

-  // 记录每个别名的原始优先级（在修改前）
+  // 记录每个映射的原始优先级（在修改前）
  const originalPriorityMap = new Map<number, number>()
  items.forEach((alias, idx) => {
    originalPriorityMap.set(idx, alias.priority)
@@ -255,7 +255,7 @@ function handleDrop(targetIndex: number) {
  items.splice(targetIndex, 0, draggedItem)

  // 按新顺序为每个组分配新的优先级
-  // 同组的别名保持相同的优先级（被拖动的别名单独成组）
+  // 同组的映射保持相同的优先级（被拖动的映射单独成组）
  const groupNewPriority = new Map<number, number>() // 原优先级 -> 新优先级
  let currentPriority = 1

@@ -263,12 +263,12 @@ function handleDrop(targetIndex: number) {
  const draggedOriginalPriority = originalPriorityMap.get(dragIndex)!

  items.forEach((alias, newIdx) => {
-    // 找到这个别名在原数组中的索引
+    // 找到这个映射在原数组中的索引
    const originalIdx = aliases.value.findIndex(a => a === alias)
    const originalPriority = originalIdx >= 0 ? originalPriorityMap.get(originalIdx)! : alias.priority

    if (alias === draggedItem) {
-      // 被拖动的别名是独立的新组，获得当前优先级
+      // 被拖动的映射是独立的新组，获得当前优先级
      alias.priority = currentPriority
      currentPriority++
    } else {
@@ -318,11 +318,11 @@ async function handleSubmit() {

  submitting.value = true
  try {
-    // 过滤掉空的别名
+    // 过滤掉空的映射
    const validAliases = aliases.value.filter(a => a.name.trim())

    await updateModel(props.providerId, props.model.id, {
-      provider_model_aliases: validAliases.length > 0 ? validAliases : null
+      provider_model_mappings: validAliases.length > 0 ? validAliases : null
    })

    showSuccess('映射配置已保存')
--- a/frontend/src/features/providers/components/ModelMappingDialog.vue
+++ b/frontend/src/features/providers/components/ModelMappingDialog.vue
@@ -0,0 +1,796 @@
+<template>
+  <Dialog
+    :model-value="open"
+    :title="editingGroup ? '编辑模型映射' : '添加模型映射'"
+    :description="editingGroup ? '修改映射配置' : '为模型添加新的名称映射'"
+    :icon="Tag"
+    size="4xl"
+    @update:model-value="$emit('update:open', $event)"
+  >
+    <div class="space-y-4">
+      <!-- 第一行：目标模型 | 作用域 -->
+      <div class="flex gap-4">
+        <!-- 目标模型 -->
+        <div class="flex-1 space-y-1.5">
+          <Label class="text-xs">目标模型</Label>
+          <Select
+            v-model:open="modelSelectOpen"
+            :model-value="formData.modelId"
+            :disabled="!!editingGroup"
+            @update:model-value="handleModelChange"
+          >
+            <SelectTrigger class="h-9">
+              <SelectValue placeholder="请选择模型" />
+            </SelectTrigger>
+            <SelectContent>
+              <SelectItem
+                v-for="model in models"
+                :key="model.id"
+                :value="model.id"
+              >
+                {{ model.global_model_display_name || model.provider_model_name }}
+              </SelectItem>
+            </SelectContent>
+          </Select>
+        </div>
+
+        <!-- 作用域 -->
+        <div class="flex-1 space-y-1.5">
+          <Label class="text-xs">作用域 <span class="text-muted-foreground font-normal">(不选则适用全部)</span></Label>
+          <div
+            v-if="providerApiFormats.length > 0"
+            class="flex flex-wrap gap-1.5 p-2 rounded-md border bg-muted/30 min-h-[36px]"
+          >
+            <button
+              v-for="format in providerApiFormats"
+              :key="format"
+              type="button"
+              class="px-2.5 py-0.5 rounded text-xs font-medium transition-colors"
+              :class="[
+                formData.apiFormats.includes(format)
+                  ? 'bg-primary text-primary-foreground'
+                  : 'bg-background border border-border hover:bg-muted'
+              ]"
+              @click="toggleApiFormat(format)"
+            >
+              {{ API_FORMAT_LABELS[format] || format }}
+            </button>
+          </div>
+          <div
+            v-else
+            class="h-9 flex items-center text-xs text-muted-foreground"
+          >
+            无可用格式
+          </div>
+        </div>
+      </div>
+
+      <!-- 第二行：两栏布局 -->
+      <div class="flex gap-4 items-stretch">
+        <!-- 左侧：上游模型列表 -->
+        <div class="flex-1 space-y-2">
+          <div class="flex items-center justify-between gap-2">
+            <span class="text-sm font-medium shrink-0">
+              上游模型
+            </span>
+            <div class="flex-1 relative">
+              <Search class="absolute left-2 top-1/2 -translate-y-1/2 w-3.5 h-3.5 text-muted-foreground" />
+              <Input
+                v-model="upstreamModelSearch"
+                placeholder="搜索模型..."
+                class="pl-7 h-7 text-xs"
+              />
+            </div>
+            <button
+              v-if="upstreamModelsLoaded"
+              type="button"
+              class="p-1.5 hover:bg-muted rounded-md transition-colors shrink-0"
+              title="刷新列表"
+              :disabled="refreshingUpstreamModels"
+              @click="refreshUpstreamModels"
+            >
+              <RefreshCw
+                class="w-3.5 h-3.5"
+                :class="{ 'animate-spin': refreshingUpstreamModels }"
+              />
+            </button>
+            <button
+              v-else-if="!fetchingUpstreamModels"
+              type="button"
+              class="p-1.5 hover:bg-muted rounded-md transition-colors shrink-0"
+              title="获取上游模型列表"
+              @click="fetchUpstreamModels"
+            >
+              <Zap class="w-3.5 h-3.5" />
+            </button>
+            <Loader2
+              v-else
+              class="w-3.5 h-3.5 animate-spin text-muted-foreground shrink-0"
+            />
+          </div>
+          <div class="border rounded-lg h-80 overflow-y-auto">
+            <template v-if="upstreamModelsLoaded">
+              <div
+                v-if="groupedAvailableUpstreamModels.length === 0"
+                class="flex flex-col items-center justify-center h-full text-muted-foreground"
+              >
+                <Zap class="w-10 h-10 mb-2 opacity-30" />
+                <p class="text-sm">
+                  {{ upstreamModelSearch ? '没有匹配的模型' : '所有模型已添加' }}
+                </p>
+              </div>
+              <div
+                v-else
+                class="p-2 space-y-2"
+              >
+                <!-- 按分组显示（可折叠） -->
+                <div
+                  v-for="group in groupedAvailableUpstreamModels"
+                  :key="group.api_format"
+                  class="border rounded-lg overflow-hidden"
+                >
+                  <div class="flex items-center gap-2 px-3 py-2 bg-muted/30">
+                    <button
+                      type="button"
+                      class="flex items-center gap-2 flex-1 hover:bg-muted/50 -mx-1 px-1 rounded transition-colors"
+                      @click="toggleGroupCollapse(group.api_format)"
+                    >
+                      <ChevronDown
+                        class="w-4 h-4 transition-transform shrink-0"
+                        :class="collapsedGroups.has(group.api_format) ? '-rotate-90' : ''"
+                      />
+                      <span class="text-xs font-medium">
+                        {{ API_FORMAT_LABELS[group.api_format] || group.api_format }}
+                      </span>
+                      <span class="text-xs text-muted-foreground">
+                        ({{ group.models.length }})
+                      </span>
+                    </button>
+                  </div>
+                  <div
+                    v-show="!collapsedGroups.has(group.api_format)"
+                    class="p-2 space-y-1 border-t"
+                  >
+                    <div
+                      v-for="model in group.models"
+                      :key="model.id"
+                      class="flex items-center gap-2 p-2 rounded-lg border transition-colors hover:bg-muted/30"
+                      :title="model.id"
+                    >
+                      <div class="flex-1 min-w-0">
+                        <p class="font-medium text-sm truncate">
+                          {{ model.id }}
+                        </p>
+                        <p class="text-xs text-muted-foreground truncate font-mono">
+                          {{ model.owned_by || model.id }}
+                        </p>
+                      </div>
+                      <button
+                        type="button"
+                        class="p-1 hover:bg-primary/10 rounded transition-colors shrink-0"
+                        title="添加到映射"
+                        @click="addUpstreamModel(model.id)"
+                      >
+                        <ChevronRight class="w-4 h-4 text-muted-foreground hover:text-primary" />
+                      </button>
+                    </div>
+                  </div>
+                </div>
+              </div>
+            </template>
+
+            <!-- 未加载状态 -->
+            <div
+              v-else
+              class="flex flex-col items-center justify-center h-full text-muted-foreground"
+            >
+              <Zap class="w-10 h-10 mb-2 opacity-30" />
+              <p class="text-sm">
+                点击右上角按钮
+              </p>
+              <p class="text-xs mt-1">
+                从上游获取可用模型
+              </p>
+            </div>
+          </div>
+        </div>
+
+        <!-- 右侧：映射名称列表 -->
+        <div class="flex-1 space-y-2">
+          <div class="flex items-center justify-between">
+            <p class="text-sm font-medium">
+              映射名称
+            </p>
+            <button
+              type="button"
+              class="p-1.5 hover:bg-muted rounded-md transition-colors"
+              title="手动添加"
+              @click="addAliasItem"
+            >
+              <Plus class="w-3.5 h-3.5" />
+            </button>
+          </div>
+          <div class="border rounded-lg h-80 overflow-y-auto">
+            <div
+              v-if="formData.aliases.length === 0"
+              class="flex flex-col items-center justify-center h-full text-muted-foreground"
+            >
+              <Tag class="w-10 h-10 mb-2 opacity-30" />
+              <p class="text-sm">
+                从左侧选择模型
+              </p>
+              <p class="text-xs mt-1">
+                或点击上方"手动添加"
+              </p>
+            </div>
+            <div
+              v-else
+              class="p-2 space-y-1"
+            >
+              <div
+                v-for="(alias, index) in formData.aliases"
+                :key="`alias-${index}`"
+                class="group flex items-center gap-2 p-2 rounded-lg border transition-colors hover:bg-muted/30"
+                :class="[
+                  draggedIndex === index ? 'bg-primary/5' : '',
+                  dragOverIndex === index ? 'bg-primary/10 border-primary' : ''
+                ]"
+                draggable="true"
+                @dragstart="handleDragStart(index, $event)"
+                @dragend="handleDragEnd"
+                @dragover.prevent="handleDragOver(index)"
+                @dragleave="handleDragLeave"
+                @drop="handleDrop(index)"
+              >
+                <!-- 删除按钮 -->
+                <button
+                  type="button"
+                  class="p-1 hover:bg-destructive/10 rounded transition-colors shrink-0"
+                  title="移除"
+                  @click="removeAliasItem(index)"
+                >
+                  <ChevronLeft class="w-4 h-4 text-muted-foreground hover:text-destructive" />
+                </button>
+
+                <!-- 优先级 -->
+                <div class="shrink-0">
+                  <input
+                    v-if="editingPriorityIndex === index"
+                    type="number"
+                    min="1"
+                    :value="alias.priority"
+                    class="w-7 h-6 rounded bg-background border border-primary text-xs text-center focus:outline-none [appearance:textfield] [&::-webkit-outer-spin-button]:appearance-none [&::-webkit-inner-spin-button]:appearance-none"
+                    autofocus
+                    @blur="finishEditPriority(index, $event)"
+                    @keydown.enter="($event.target as HTMLInputElement).blur()"
+                    @keydown.escape="cancelEditPriority"
+                  >
+                  <div
+                    v-else
+                    class="w-6 h-6 rounded bg-muted/50 flex items-center justify-center text-xs text-muted-foreground cursor-pointer hover:bg-primary/10 hover:text-primary"
+                    title="点击编辑优先级"
+                    @click.stop="startEditPriority(index)"
+                  >
+                    {{ alias.priority }}
+                  </div>
+                </div>
+
+                <!-- 名称显示/编辑 -->
+                <div class="flex-1 min-w-0">
+                  <Input
+                    v-if="alias.isEditing"
+                    v-model="alias.name"
+                    placeholder="输入映射名称"
+                    class="h-7 text-xs"
+                    autofocus
+                    @blur="alias.isEditing = false"
+                    @keydown.enter="alias.isEditing = false"
+                  />
+                  <p
+                    v-else
+                    class="font-medium text-sm truncate cursor-pointer hover:text-primary"
+                    title="点击编辑"
+                    @click="alias.isEditing = true"
+                  >
+                    {{ alias.name || '点击输入名称' }}
+                  </p>
+                </div>
+
+                <!-- 拖拽手柄 -->
+                <div class="cursor-grab active:cursor-grabbing text-muted-foreground/30 group-hover:text-muted-foreground shrink-0">
+                  <GripVertical class="w-4 h-4" />
+                </div>
+              </div>
+            </div>
+            <!-- 拖拽提示 -->
+            <div
+              v-if="formData.aliases.length > 1"
+              class="px-3 py-1.5 bg-muted/30 border-t text-xs text-muted-foreground text-center"
+            >
+              拖拽调整优先级顺序
+            </div>
+          </div>
+        </div>
+      </div>
+    </div>
+
+    <template #footer>
+      <Button
+        variant="outline"
+        @click="$emit('update:open', false)"
+      >
+        取消
+      </Button>
+      <Button
+        :disabled="submitting || !formData.modelId || formData.aliases.length === 0 || !hasValidAliases"
+        @click="handleSubmit"
+      >
+        <Loader2
+          v-if="submitting"
+          class="w-4 h-4 mr-2 animate-spin"
+        />
+        {{ editingGroup ? '保存' : '添加' }}
+      </Button>
+    </template>
+  </Dialog>
+</template>
+
+<script setup lang="ts">
+import { ref, computed, watch } from 'vue'
+import { Tag, Loader2, GripVertical, Zap, Search, RefreshCw, ChevronDown, ChevronRight, ChevronLeft, Plus } from 'lucide-vue-next'
+import {
+  Button,
+  Input,
+  Label,
+  Dialog,
+  Select,
+  SelectContent,
+  SelectItem,
+  SelectTrigger,
+  SelectValue,
+} from '@/components/ui'
+import { useToast } from '@/composables/useToast'
+import {
+  API_FORMAT_LABELS,
+  type Model,
+  type ProviderModelAlias
+} from '@/api/endpoints'
+import { updateModel } from '@/api/endpoints/models'
+import { useUpstreamModelsCache, type UpstreamModel } from '../composables/useUpstreamModelsCache'
+
+interface FormAlias {
+  name: string
+  priority: number
+  isEditing?: boolean
+}
+
+export interface AliasGroup {
+  model: Model
+  apiFormatsKey: string
+  apiFormats: string[]
+  aliases: ProviderModelAlias[]
+}
+
+const props = defineProps<{
+  open: boolean
+  providerId: string
+  providerApiFormats: string[]
+  models: Model[]
+  editingGroup?: AliasGroup | null
+}>()
+
+const emit = defineEmits<{
+  'update:open': [value: boolean]
+  'saved': []
+}>()
+
+const { error: showError, success: showSuccess } = useToast()
+const { fetchModels: fetchCachedModels, clearCache, getCachedModels } = useUpstreamModelsCache()
+
+// 状态
+const submitting = ref(false)
+const modelSelectOpen = ref(false)
+
+// 拖拽状态
+const draggedIndex = ref<number | null>(null)
+const dragOverIndex = ref<number | null>(null)
+
+// 优先级编辑状态
+const editingPriorityIndex = ref<number | null>(null)
+
+// 快速添加（上游模型）状态
+const fetchingUpstreamModels = ref(false)
+const refreshingUpstreamModels = ref(false)
+const upstreamModelsLoaded = ref(false)
+const upstreamModels = ref<UpstreamModel[]>([])
+const upstreamModelSearch = ref('')
+
+// 分组折叠状态
+const collapsedGroups = ref<Set<string>>(new Set())
+
+// 表单数据
+const formData = ref<{
+  modelId: string
+  apiFormats: string[]
+  aliases: FormAlias[]
+}>({
+  modelId: '',
+  apiFormats: [],
+  aliases: []
+})
+
+// 检查是否有有效的映射
+const hasValidAliases = computed(() => {
+  return formData.value.aliases.some(a => a.name.trim())
+})
+
+// 过滤和排序后的上游模型列表
+const filteredUpstreamModels = computed(() => {
+  const searchText = upstreamModelSearch.value.toLowerCase().trim()
+  let result = [...upstreamModels.value]
+
+  result.sort((a, b) => a.id.localeCompare(b.id))
+
+  if (searchText) {
+    const keywords = searchText.split(/\s+/).filter(k => k.length > 0)
+    result = result.filter(m => {
+      const searchableText = `${m.id} ${m.owned_by || ''} ${m.api_format || ''}`.toLowerCase()
+      return keywords.every(keyword => searchableText.includes(keyword))
+    })
+  }
+
+  return result
+})
+
+// 按 API 格式分组的上游模型列表
+interface UpstreamModelGroup {
+  api_format: string
+  models: Array<{ id: string; owned_by?: string; api_format?: string }>
+}
+
+const groupedAvailableUpstreamModels = computed<UpstreamModelGroup[]>(() => {
+  // 收集当前表单已添加的名称
+  const addedNames = new Set(formData.value.aliases.map(a => a.name.trim()))
+
+  // 收集所有已存在的映射名称（包括主模型名和映射名称）
+  for (const m of props.models) {
+    addedNames.add(m.provider_model_name)
+    for (const mapping of m.provider_model_mappings ?? []) {
+      if (mapping.name) addedNames.add(mapping.name)
+    }
+  }
+
+  const availableModels = filteredUpstreamModels.value.filter(m => !addedNames.has(m.id))
+
+  const groups = new Map<string, UpstreamModelGroup>()
+
+  for (const model of availableModels) {
+    const format = model.api_format || 'UNKNOWN'
+    if (!groups.has(format)) {
+      groups.set(format, { api_format: format, models: [] })
+    }
+    groups.get(format)!.models.push(model)
+  }
+
+  const order = Object.keys(API_FORMAT_LABELS)
+  return Array.from(groups.values()).sort((a, b) => {
+    const aIndex = order.indexOf(a.api_format)
+    const bIndex = order.indexOf(b.api_format)
+    if (aIndex === -1 && bIndex === -1) return a.api_format.localeCompare(b.api_format)
+    if (aIndex === -1) return 1
+    if (bIndex === -1) return -1
+    return aIndex - bIndex
+  })
+})
+
+// 监听打开状态
+watch(() => props.open, (isOpen) => {
+  if (isOpen) {
+    initForm()
+  }
+})
+
+// 初始化表单
+function initForm() {
+  if (props.editingGroup) {
+    formData.value = {
+      modelId: props.editingGroup.model.id,
+      apiFormats: [...props.editingGroup.apiFormats],
+      aliases: props.editingGroup.aliases.map(a => ({ name: a.name, priority: a.priority }))
+    }
+  } else {
+    formData.value = {
+      modelId: '',
+      apiFormats: [],
+      aliases: []
+    }
+  }
+  // 重置状态
+  editingPriorityIndex.value = null
+  draggedIndex.value = null
+  dragOverIndex.value = null
+  upstreamModelSearch.value = ''
+  collapsedGroups.value = new Set()
+
+  // 检查缓存，如果有缓存数据则直接使用
+  const cachedModels = getCachedModels(props.providerId)
+  if (cachedModels) {
+    upstreamModels.value = cachedModels
+    upstreamModelsLoaded.value = true
+    // 默认折叠所有分组
+    for (const model of cachedModels) {
+      if (model.api_format) {
+        collapsedGroups.value.add(model.api_format)
+      }
+    }
+  } else {
+    upstreamModelsLoaded.value = false
+    upstreamModels.value = []
+  }
+}
+
+// 处理模型选择变更
+function handleModelChange(value: string) {
+  formData.value.modelId = value
+  const selectedModel = props.models.find(m => m.id === value)
+  if (selectedModel) {
+    upstreamModelSearch.value = selectedModel.provider_model_name
+  }
+}
+
+// 切换 API 格式
+function toggleApiFormat(format: string) {
+  const index = formData.value.apiFormats.indexOf(format)
+  if (index >= 0) {
+    formData.value.apiFormats.splice(index, 1)
+  } else {
+    formData.value.apiFormats.push(format)
+  }
+}
+
+// 切换分组折叠状态
+function toggleGroupCollapse(apiFormat: string) {
+  if (collapsedGroups.value.has(apiFormat)) {
+    collapsedGroups.value.delete(apiFormat)
+  } else {
+    collapsedGroups.value.add(apiFormat)
+  }
+}
+
+// 添加映射项
+function addAliasItem() {
+  const maxPriority = formData.value.aliases.length > 0
+    ? Math.max(...formData.value.aliases.map(a => a.priority))
+    : 0
+  formData.value.aliases.push({ name: '', priority: maxPriority + 1, isEditing: true })
+}
+
+// 删除映射项
+function removeAliasItem(index: number) {
+  formData.value.aliases.splice(index, 1)
+}
+
+// ===== 拖拽排序 =====
+function handleDragStart(index: number, event: DragEvent) {
+  draggedIndex.value = index
+  if (event.dataTransfer) {
+    event.dataTransfer.effectAllowed = 'move'
+  }
+}
+
+function handleDragEnd() {
+  draggedIndex.value = null
+  dragOverIndex.value = null
+}
+
+function handleDragOver(index: number) {
+  if (draggedIndex.value !== null && draggedIndex.value !== index) {
+    dragOverIndex.value = index
+  }
+}
+
+function handleDragLeave() {
+  dragOverIndex.value = null
+}
+
+function handleDrop(targetIndex: number) {
+  const dragIndex = draggedIndex.value
+  if (dragIndex === null || dragIndex === targetIndex) {
+    dragOverIndex.value = null
+    return
+  }
+
+  const items = [...formData.value.aliases]
+  const draggedItem = items[dragIndex]
+
+  const originalPriorityMap = new Map<number, number>()
+  items.forEach((alias, idx) => {
+    originalPriorityMap.set(idx, alias.priority)
+  })
+
+  items.splice(dragIndex, 1)
+  items.splice(targetIndex, 0, draggedItem)
+
+  const groupNewPriority = new Map<number, number>()
+  let currentPriority = 1
+
+  items.forEach((alias) => {
+    const originalIdx = formData.value.aliases.findIndex(a => a === alias)
+    const originalPriority = originalIdx >= 0 ? originalPriorityMap.get(originalIdx)! : alias.priority
+
+    if (alias === draggedItem) {
+      alias.priority = currentPriority
+      currentPriority++
+    } else {
+      if (groupNewPriority.has(originalPriority)) {
+        alias.priority = groupNewPriority.get(originalPriority)!
+      } else {
+        groupNewPriority.set(originalPriority, currentPriority)
+        alias.priority = currentPriority
+        currentPriority++
+      }
+    }
+  })
+
+  formData.value.aliases = items
+  draggedIndex.value = null
+  dragOverIndex.value = null
+}
+
+// ===== 优先级编辑 =====
+function startEditPriority(index: number) {
+  editingPriorityIndex.value = index
+}
+
+function finishEditPriority(index: number, event: FocusEvent) {
+  const input = event.target as HTMLInputElement
+  const newPriority = parseInt(input.value) || 1
+  formData.value.aliases[index].priority = Math.max(1, newPriority)
+  editingPriorityIndex.value = null
+}
+
+function cancelEditPriority() {
+  editingPriorityIndex.value = null
+}
+
+// ===== 快速添加（上游模型）=====
+async function fetchUpstreamModels() {
+  if (!props.providerId) return
+
+  upstreamModelSearch.value = ''
+  fetchingUpstreamModels.value = true
+
+  try {
+    const result = await fetchCachedModels(props.providerId)
+    if (result) {
+      if (result.error) {
+        showError(result.error, '错误')
+      } else {
+        upstreamModels.value = result.models
+        upstreamModelsLoaded.value = true
+        // 默认折叠所有分组
+        for (const model of result.models) {
+          if (model.api_format) {
+            collapsedGroups.value.add(model.api_format)
+          }
+        }
+      }
+    }
+  } finally {
+    fetchingUpstreamModels.value = false
+  }
+}
+
+function addUpstreamModel(modelId: string) {
+  if (formData.value.aliases.some(a => a.name === modelId)) {
+    return
+  }
+
+  const maxPriority = formData.value.aliases.length > 0
+    ? Math.max(...formData.value.aliases.map(a => a.priority))
+    : 0
+
+  formData.value.aliases.push({ name: modelId, priority: maxPriority + 1 })
+}
+
+async function refreshUpstreamModels() {
+  if (!props.providerId || refreshingUpstreamModels.value) return
+
+  refreshingUpstreamModels.value = true
+  clearCache(props.providerId)
+
+  try {
+    const result = await fetchCachedModels(props.providerId, true)
+    if (result) {
+      if (result.error) {
+        showError(result.error, '错误')
+      } else {
+        upstreamModels.value = result.models
+      }
+    }
+  } finally {
+    refreshingUpstreamModels.value = false
+  }
+}
+
+// 生成作用域唯一键
+function getApiFormatsKey(formats: string[] | undefined): string {
+  if (!formats || formats.length === 0) return ''
+  return [...formats].sort().join(',')
+}
+
+// 提交表单
+async function handleSubmit() {
+  if (submitting.value) return
+  if (!formData.value.modelId || formData.value.aliases.length === 0) return
+
+  const validAliases = formData.value.aliases.filter(a => a.name.trim())
+  if (validAliases.length === 0) {
+    showError('请至少添加一个有效的映射名称', '错误')
+    return
+  }
+
+  submitting.value = true
+  try {
+    const targetModel = props.models.find(m => m.id === formData.value.modelId)
+    if (!targetModel) {
+      showError('模型不存在', '错误')
+      return
+    }
+
+    const currentAliases = targetModel.provider_model_mappings || []
+    let newAliases: ProviderModelAlias[]
+
+    const buildAlias = (a: FormAlias): ProviderModelAlias => ({
+      name: a.name.trim(),
+      priority: a.priority,
+      ...(formData.value.apiFormats.length > 0 ? { api_formats: formData.value.apiFormats } : {})
+    })
+
+    if (props.editingGroup) {
+      const oldApiFormatsKey = props.editingGroup.apiFormatsKey
+      const oldAliasNames = new Set(props.editingGroup.aliases.map(a => a.name))
+
+      const filteredAliases = currentAliases.filter((a: ProviderModelAlias) => {
+        const currentKey = getApiFormatsKey(a.api_formats)
+        return !(currentKey === oldApiFormatsKey && oldAliasNames.has(a.name))
+      })
+
+      const existingNames = new Set(filteredAliases.map((a: ProviderModelAlias) => a.name))
+      const duplicates = validAliases.filter(a => existingNames.has(a.name.trim()))
+      if (duplicates.length > 0) {
+        showError(`以下映射名称已存在：${duplicates.map(d => d.name).join(', ')}`, '错误')
+        return
+      }
+
+      newAliases = [
+        ...filteredAliases,
+        ...validAliases.map(buildAlias)
+      ]
+    } else {
+      const existingNames = new Set(currentAliases.map((a: ProviderModelAlias) => a.name))
+      const duplicates = validAliases.filter(a => existingNames.has(a.name.trim()))
+      if (duplicates.length > 0) {
+        showError(`以下映射名称已存在：${duplicates.map(d => d.name).join(', ')}`, '错误')
+        return
+      }
+      newAliases = [
+        ...currentAliases,
+        ...validAliases.map(buildAlias)
+      ]
+    }
+
+    await updateModel(props.providerId, targetModel.id, {
+      provider_model_mappings: newAliases
+    })
+
+    showSuccess(props.editingGroup ? '映射组已更新' : '映射已添加')
+    emit('update:open', false)
+    emit('saved')
+  } catch (err: any) {
+    showError(err.response?.data?.detail || '操作失败', '错误')
+  } finally {
+    submitting.value = false
+  }
+}
+</script>
--- a/frontend/src/features/providers/components/ProviderDetailDrawer.vue
+++ b/frontend/src/features/providers/components/ProviderDetailDrawer.vue
@@ -483,9 +483,9 @@
                                  <span
                                    v-if="key.max_concurrent || key.is_adaptive"
                                    class="text-muted-foreground"
-                                    :title="key.is_adaptive ? `自适应并发限制（学习值: ${key.learned_max_concurrent ?? '未学习'}）` : '固定并发限制'"
+                                    :title="key.is_adaptive ? `自适应并发限制（学习值: ${key.learned_max_concurrent ?? '未学习'}）` : `固定并发限制: ${key.max_concurrent}`"
                                  >
-                                    {{ key.is_adaptive ? '自适应' : '固定' }}并发: {{ key.learned_max_concurrent || key.max_concurrent || 3 }}
+                                    {{ key.is_adaptive ? '自适应' : '固定' }}并发: {{ key.is_adaptive ? (key.learned_max_concurrent ?? '学习中') : key.max_concurrent }}
                                  </span>
                                </div>
                              </div>
@@ -531,6 +531,7 @@
              <!-- 模型名称映射 -->
              <ModelAliasesTab
                v-if="provider"
+                ref="modelAliasesTabRef"
                :key="`aliases-${provider.id}`"
                :provider="provider"
                @refresh="handleRelatedDataRefresh"
@@ -655,10 +656,12 @@ import {
  GripVertical,
  Copy
 } from 'lucide-vue-next'
+import { useEscapeKey } from '@/composables/useEscapeKey'
 import Button from '@/components/ui/button.vue'
 import Badge from '@/components/ui/badge.vue'
 import Card from '@/components/ui/card.vue'
 import { useToast } from '@/composables/useToast'
+import { useClipboard } from '@/composables/useClipboard'
 import { getProvider, getProviderEndpoints } from '@/api/endpoints'
 import {
  KeyFormDialog,
@@ -704,6 +707,7 @@ const emit = defineEmits<{
 }>()

 const { error: showError, success: showSuccess } = useToast()
+const { copyToClipboard } = useClipboard()

 const loading = ref(false)
 const provider = ref<any>(null)
@@ -734,6 +738,9 @@ const deleteModelConfirmOpen = ref(false)
 const modelToDelete = ref<Model | null>(null)
 const batchAssignDialogOpen = ref(false)

+// ModelAliasesTab 组件引用
+const modelAliasesTabRef = ref<InstanceType<typeof ModelAliasesTab> | null>(null)
+
 // 拖动排序相关状态
 const dragState = ref({
  isDragging: false,
@@ -755,7 +762,9 @@ const hasBlockingDialogOpen = computed(() =>
  deleteKeyConfirmOpen.value ||
  modelFormDialogOpen.value ||
  deleteModelConfirmOpen.value ||
-  batchAssignDialogOpen.value
+  batchAssignDialogOpen.value ||
+  // 检测 ModelAliasesTab 子组件的 Dialog 是否打开
+  modelAliasesTabRef.value?.dialogOpen
 )

 // 监听 providerId 变化
@@ -1243,16 +1252,6 @@ function getHealthScoreBarColor(score: number): string {
  return 'bg-red-500 dark:bg-red-400'
 }

-// 复制到剪贴板
-async function copyToClipboard(text: string) {
-  try {
-    await navigator.clipboard.writeText(text)
-    showSuccess('已复制到剪贴板')
-  } catch {
-    showError('复制失败', '错误')
-  }
-}
-
 // 加载 Provider 信息
 async function loadProvider() {
  if (!props.providerId) return
@@ -1296,6 +1295,16 @@ async function loadEndpoints() {
    showError(err.response?.data?.detail || '加载端点失败', '错误')
  }
 }
+
+// 添加 ESC 键监听
+useEscapeKey(() => {
+  if (props.open) {
+    handleClose()
+  }
+}, {
+  disableOnInput: true,
+  once: false
+})
 </script>

 <style scoped>
--- a/frontend/src/features/providers/components/provider-tabs/ModelAliasesTab.vue
+++ b/frontend/src/features/providers/components/provider-tabs/ModelAliasesTab.vue
--- a/frontend/src/features/providers/components/provider-tabs/ModelsTab.vue
+++ b/frontend/src/features/providers/components/provider-tabs/ModelsTab.vue
@@ -156,6 +156,17 @@
            </td>
            <td class="align-top px-4 py-3">
              <div class="flex justify-center gap-1.5">
+                <Button
+                  variant="ghost"
+                  size="icon"
+                  class="h-8 w-8"
+                  title="测试模型"
+                  :disabled="testingModelId === model.id"
+                  @click="testModelConnection(model)"
+                >
+                  <Loader2 v-if="testingModelId === model.id" class="w-3.5 h-3.5 animate-spin" />
+                  <Play v-else class="w-3.5 h-3.5" />
+                </Button>
                <Button
                  variant="ghost"
                  size="icon"
@@ -209,12 +220,14 @@

 <script setup lang="ts">
 import { ref, computed, onMounted } from 'vue'
-import { Box, Edit, Trash2, Layers, Eye, Wrench, Zap, Brain, Power, Copy, Image } from 'lucide-vue-next'
+import { Box, Edit, Trash2, Layers, Eye, Wrench, Zap, Brain, Power, Copy, Image, Loader2, Play } from 'lucide-vue-next'
 import Card from '@/components/ui/card.vue'
 import Button from '@/components/ui/button.vue'
 import { useToast } from '@/composables/useToast'
-import { getProviderModels, type Model } from '@/api/endpoints'
+import { useClipboard } from '@/composables/useClipboard'
+import { getProviderModels, testModel, type Model } from '@/api/endpoints'
 import { updateModel } from '@/api/endpoints/models'
+import { parseTestModelError } from '@/utils/errorParser'

 const props = defineProps<{
  provider: any
@@ -227,11 +240,13 @@ const emit = defineEmits<{
 }>()

 const { error: showError, success: showSuccess } = useToast()
+const { copyToClipboard } = useClipboard()

 // 状态
 const loading = ref(false)
 const models = ref<Model[]>([])
 const togglingModelId = ref<string | null>(null)
+const testingModelId = ref<string | null>(null)

 // 按名称排序的模型列表
 const sortedModels = computed(() => {
@@ -244,12 +259,7 @@ const sortedModels = computed(() => {

 // 复制模型 ID 到剪贴板
 async function copyModelId(modelId: string) {
-  try {
-    await navigator.clipboard.writeText(modelId)
-    showSuccess('已复制到剪贴板')
-  } catch {
-    showError('复制失败', '错误')
-  }
+  await copyToClipboard(modelId)
 }

 // 加载模型
@@ -380,6 +390,39 @@ async function toggleModelActive(model: Model) {
  }
 }

+// 测试模型连接性
+async function testModelConnection(model: Model) {
+  if (testingModelId.value) return
+
+  testingModelId.value = model.id
+  try {
+    const result = await testModel({
+      provider_id: props.provider.id,
+      model_name: model.provider_model_name,
+      message: "hello"
+    })
+
+    if (result.success) {
+      showSuccess(`模型 "${model.provider_model_name}" 测试成功`)
+
+      // 如果有响应内容，可以显示更多信息
+      if (result.data?.response?.choices?.[0]?.message?.content) {
+        const content = result.data.response.choices[0].message.content
+        showSuccess(`测试成功，响应: ${content.substring(0, 100)}${content.length > 100 ? '...' : ''}`)
+      } else if (result.data?.content_preview) {
+        showSuccess(`流式测试成功，预览: ${result.data.content_preview}`)
+      }
+    } else {
+      showError(`模型测试失败: ${parseTestModelError(result)}`)
+    }
+  } catch (err: any) {
+    const errorMsg = err.response?.data?.detail || err.message || '测试请求失败'
+    showError(`模型测试失败: ${errorMsg}`)
+  } finally {
+    testingModelId.value = null
+  }
+}
+
 onMounted(() => {
  loadModels()
 })
--- a/frontend/src/features/providers/composables/useUpstreamModelsCache.ts
+++ b/frontend/src/features/providers/composables/useUpstreamModelsCache.ts
@@ -0,0 +1,112 @@
+/**
+ * 上游模型缓存 - 共享缓存，避免重复请求
+ */
+import { ref } from 'vue'
+import { adminApi } from '@/api/admin'
+import type { UpstreamModel } from '@/api/endpoints/types'
+
+// 扩展类型，包含可能的额外字段
+export type { UpstreamModel }
+
+interface CacheEntry {
+  models: UpstreamModel[]
+  timestamp: number
+}
+
+type FetchResult = { models: UpstreamModel[]; error?: string }
+
+// 全局缓存（模块级别，所有组件共享）
+const cache = new Map<string, CacheEntry>()
+const CACHE_TTL = 5 * 60 * 1000 // 5分钟
+
+// 进行中的请求（用于去重并发请求）
+const pendingRequests = new Map<string, Promise<FetchResult>>()
+
+// 请求状态
+const loadingMap = ref<Map<string, boolean>>(new Map())
+
+export function useUpstreamModelsCache() {
+  /**
+   * 获取上游模型列表
+   * @param providerId 提供商ID
+   * @param forceRefresh 是否强制刷新
+   * @returns 模型列表或 null（如果请求失败）
+   */
+  async function fetchModels(
+    providerId: string,
+    forceRefresh = false
+  ): Promise<FetchResult> {
+    // 检查缓存
+    if (!forceRefresh) {
+      const cached = cache.get(providerId)
+      if (cached && Date.now() - cached.timestamp < CACHE_TTL) {
+        return { models: cached.models }
+      }
+    }
+
+    // 检查是否有进行中的请求（非强制刷新时复用）
+    if (!forceRefresh && pendingRequests.has(providerId)) {
+      return pendingRequests.get(providerId)!
+    }
+
+    // 创建新请求
+    const requestPromise = (async (): Promise<FetchResult> => {
+      try {
+        loadingMap.value.set(providerId, true)
+        const response = await adminApi.queryProviderModels(providerId)
+
+        if (response.success && response.data?.models) {
+          // 存入缓存
+          cache.set(providerId, {
+            models: response.data.models,
+            timestamp: Date.now()
+          })
+          return { models: response.data.models }
+        } else {
+          return { models: [], error: response.data?.error || '获取上游模型失败' }
+        }
+      } catch (err: any) {
+        return { models: [], error: err.response?.data?.detail || '获取上游模型失败' }
+      } finally {
+        loadingMap.value.set(providerId, false)
+        pendingRequests.delete(providerId)
+      }
+    })()
+
+    pendingRequests.set(providerId, requestPromise)
+    return requestPromise
+  }
+
+  /**
+   * 获取缓存的模型（不发起请求）
+   */
+  function getCachedModels(providerId: string): UpstreamModel[] | null {
+    const cached = cache.get(providerId)
+    if (cached && Date.now() - cached.timestamp < CACHE_TTL) {
+      return cached.models
+    }
+    return null
+  }
+
+  /**
+   * 清除指定提供商的缓存
+   */
+  function clearCache(providerId: string) {
+    cache.delete(providerId)
+  }
+
+  /**
+   * 检查是否正在加载
+   */
+  function isLoading(providerId: string): boolean {
+    return loadingMap.value.get(providerId) || false
+  }
+
+  return {
+    fetchModels,
+    getCachedModels,
+    clearCache,
+    isLoading,
+    loadingMap
+  }
+}
--- a/frontend/src/features/usage/components/RequestDetailDrawer.vue
+++ b/frontend/src/features/usage/components/RequestDetailDrawer.vue
@@ -472,6 +472,8 @@
 <script setup lang="ts">
 import { ref, watch, computed } from 'vue'
 import Button from '@/components/ui/button.vue'
+import { useEscapeKey } from '@/composables/useEscapeKey'
+import { useClipboard } from '@/composables/useClipboard'
 import Card from '@/components/ui/card.vue'
 import Badge from '@/components/ui/badge.vue'
 import Separator from '@/components/ui/separator.vue'
@@ -504,6 +506,7 @@ const copiedStates = ref<Record<string, boolean>>({})
 const viewMode = ref<'compare' | 'formatted' | 'raw'>('compare')
 const currentExpandDepth = ref(1)
 const dataSource = ref<'client' | 'provider'>('client')
+const { copyToClipboard } = useClipboard()
 const historicalPricing = ref<{
  input_price: string
  output_price: string
@@ -783,7 +786,7 @@ function copyJsonToClipboard(tabName: string) {
  }

  if (data) {
-    navigator.clipboard.writeText(JSON.stringify(data, null, 2))
+    copyToClipboard(JSON.stringify(data, null, 2), false)
    copiedStates.value[tabName] = true
    setTimeout(() => {
      copiedStates.value[tabName] = false
@@ -897,6 +900,16 @@ const providerHeadersWithDiff = computed(() => {

  return result
 })
+
+// 添加 ESC 键监听
+useEscapeKey(() => {
+  if (props.isOpen) {
+    handleClose()
+  }
+}, {
+  disableOnInput: true,
+  once: false
+})
 </script>

 <style scoped>
--- a/frontend/src/features/usage/components/UsageRecordsTable.vue
+++ b/frontend/src/features/usage/components/UsageRecordsTable.vue
@@ -136,11 +136,20 @@
      <!-- 分隔线 -->
      <div class="hidden sm:block h-4 w-px bg-border" />

-      <!-- 刷新按钮 -->
-      <RefreshButton
-        :loading="loading"
-        @click="$emit('refresh')"
-      />
+      <!-- 自动刷新按钮 -->
+      <Button
+        variant="ghost"
+        size="icon"
+        class="h-8 w-8"
+        :class="autoRefresh ? 'text-primary' : ''"
+        :title="autoRefresh ? '点击关闭自动刷新' : '点击开启自动刷新（每10秒刷新）'"
+        @click="$emit('update:autoRefresh', !autoRefresh)"
+      >
+        <RefreshCcw
+          class="w-3.5 h-3.5"
+          :class="autoRefresh ? 'animate-spin' : ''"
+        />
+      </Button>
    </template>

    <Table>
@@ -357,14 +366,34 @@
            </div>
          </TableCell>
          <TableCell class="text-right py-4 w-[70px]">
+            <!-- pending 状态：只显示增长的总时间 -->
            <div
-              v-if="record.status === 'pending' || record.status === 'streaming'"
+              v-if="record.status === 'pending'"
              class="flex flex-col items-end text-xs gap-0.5"
            >
+              <span class="text-muted-foreground">-</span>
              <span class="text-primary tabular-nums">
                {{ getElapsedTime(record) }}
              </span>
            </div>
+            <!-- streaming 状态：首字固定 + 总时间增长 -->
+            <div
+              v-else-if="record.status === 'streaming'"
+              class="flex flex-col items-end text-xs gap-0.5"
+            >
+              <span
+                v-if="record.first_byte_time_ms != null"
+                class="tabular-nums"
+              >{{ (record.first_byte_time_ms / 1000).toFixed(2) }}s</span>
+              <span
+                v-else
+                class="text-muted-foreground"
+              >-</span>
+              <span class="text-primary tabular-nums">
+                {{ getElapsedTime(record) }}
+              </span>
+            </div>
+            <!-- 已完成状态：首字 + 总耗时 -->
            <div
              v-else-if="record.response_time_ms != null"
              class="flex flex-col items-end text-xs gap-0.5"
@@ -408,6 +437,7 @@ import { ref, computed, onUnmounted, watch } from 'vue'
 import {
  TableCard,
  Badge,
+  Button,
  Select,
  SelectTrigger,
  SelectValue,
@@ -420,8 +450,8 @@ import {
  TableHead,
  TableCell,
  Pagination,
-  RefreshButton,
 } from '@/components/ui'
+import { RefreshCcw } from 'lucide-vue-next'
 import { formatTokens, formatCurrency } from '@/utils/format'
 import { formatDateTime } from '../composables'
 import { useRowClick } from '@/composables/useRowClick'
@@ -453,6 +483,8 @@ const props = defineProps<{
  pageSize: number
  totalRecords: number
  pageSizeOptions: number[]
+  // 自动刷新
+  autoRefresh: boolean
 }>()

 const emit = defineEmits<{
@@ -463,6 +495,7 @@ const emit = defineEmits<{
  'update:filterStatus': [value: string]
  'update:currentPage': [value: number]
  'update:pageSize': [value: number]
+  'update:autoRefresh': [value: boolean]
  'refresh': []
  'showDetail': [id: string]
 }>()
--- a/frontend/src/features/users/components/UserFormDialog.vue
+++ b/frontend/src/features/users/components/UserFormDialog.vue
@@ -86,6 +86,34 @@
            </p>
          </div>

+          <div
+            v-if="isEditMode && form.password.length > 0"
+            class="space-y-2"
+          >
+            <Label class="text-sm font-medium">
+              确认新密码 <span class="text-muted-foreground">*</span>
+            </Label>
+            <Input
+              :id="`pwd-confirm-${formNonce}`"
+              v-model="form.confirmPassword"
+              type="password"
+              autocomplete="new-password"
+              data-form-type="other"
+              data-lpignore="true"
+              :name="`confirm-${formNonce}`"
+              required
+              minlength="6"
+              placeholder="再次输入新密码"
+              class="h-10"
+            />
+            <p
+              v-if="form.confirmPassword.length > 0 && form.password !== form.confirmPassword"
+              class="text-xs text-destructive"
+            >
+              两次输入的密码不一致
+            </p>
+          </div>
+
          <div class="space-y-2">
            <Label
              for="form-email"
@@ -423,6 +451,7 @@ const apiFormats = ref<Array<{ value: string; label: string }>>([])
 const form = ref({
  username: '',
  password: '',
+  confirmPassword: '',
  email: '',
  quota: 10,
  role: 'user' as 'admin' | 'user',
@@ -443,6 +472,7 @@ function resetForm() {
  form.value = {
    username: '',
    password: '',
+    confirmPassword: '',
    email: '',
    quota: 10,
    role: 'user',
@@ -461,6 +491,7 @@ function loadUserData() {
  form.value = {
    username: props.user.username,
    password: '',
+    confirmPassword: '',
    email: props.user.email || '',
    quota: props.user.quota_usd == null ? 10 : props.user.quota_usd,
    role: props.user.role,
@@ -486,7 +517,9 @@ const isFormValid = computed(() => {
  const hasUsername = form.value.username.trim().length > 0
  const hasEmail = form.value.email.trim().length > 0
  const hasPassword = isEditMode.value || form.value.password.length >= 6
-  return hasUsername && hasEmail && hasPassword
+  // 编辑模式下如果填写了密码，必须确认密码一致
+  const passwordConfirmed = !isEditMode.value || form.value.password.length === 0 || form.value.password === form.value.confirmPassword
+  return hasUsername && hasEmail && hasPassword && passwordConfirmed
 })

 // 加载访问控制选项
--- a/frontend/src/mocks/handler.ts
+++ b/frontend/src/mocks/handler.ts
@@ -403,7 +403,7 @@ function getUsageRecords() {
  return cachedUsageRecords
 }

-// Mock 别名数据
+// Mock 映射数据
 const MOCK_ALIASES = [
  { id: 'alias-001', source_model: 'claude-4-sonnet', target_global_model_id: 'gm-001', target_global_model_name: 'claude-sonnet-4-20250514', target_global_model_display_name: 'Claude Sonnet 4', provider_id: null, provider_name: null, scope: 'global', mapping_type: 'alias', is_active: true, created_at: '2024-01-01T00:00:00Z', updated_at: '2024-01-01T00:00:00Z' },
  { id: 'alias-002', source_model: 'claude-4-opus', target_global_model_id: 'gm-002', target_global_model_name: 'claude-opus-4-20250514', target_global_model_display_name: 'Claude Opus 4', provider_id: null, provider_name: null, scope: 'global', mapping_type: 'alias', is_active: true, created_at: '2024-01-01T00:00:00Z', updated_at: '2024-01-01T00:00:00Z' },
@@ -1682,7 +1682,7 @@ registerDynamicRoute('GET', '/api/admin/models/mappings/:mappingId', async (_con
  requireAdmin()
  const alias = MOCK_ALIASES.find(a => a.id === params.mappingId)
  if (!alias) {
-    throw { response: createMockResponse({ detail: '别名不存在' }, 404) }
+    throw { response: createMockResponse({ detail: '映射不存在' }, 404) }
  }
  return createMockResponse(alias)
 })
@@ -1693,7 +1693,7 @@ registerDynamicRoute('PATCH', '/api/admin/models/mappings/:mappingId', async (co
  requireAdmin()
  const alias = MOCK_ALIASES.find(a => a.id === params.mappingId)
  if (!alias) {
-    throw { response: createMockResponse({ detail: '别名不存在' }, 404) }
+    throw { response: createMockResponse({ detail: '映射不存在' }, 404) }
  }
  const body = JSON.parse(config.data || '{}')
  return createMockResponse({ ...alias, ...body, updated_at: new Date().toISOString() })
@@ -1705,7 +1705,7 @@ registerDynamicRoute('DELETE', '/api/admin/models/mappings/:mappingId', async (_
  requireAdmin()
  const alias = MOCK_ALIASES.find(a => a.id === params.mappingId)
  if (!alias) {
-    throw { response: createMockResponse({ detail: '别名不存在' }, 404) }
+    throw { response: createMockResponse({ detail: '映射不存在' }, 404) }
  }
  return createMockResponse({ message: '删除成功（演示模式）' })
 })
--- a/frontend/src/stores/users.ts
+++ b/frontend/src/stores/users.ts
@@ -14,7 +14,7 @@ export const useUsersStore = defineStore('users', () => {
    try {
      users.value = await usersApi.getAllUsers()
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '获取用户列表失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '获取用户列表失败'
    } finally {
      loading.value = false
    }
@@ -29,7 +29,7 @@ export const useUsersStore = defineStore('users', () => {
      users.value.push(newUser)
      return newUser
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '创建用户失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '创建用户失败'
      throw err
    } finally {
      loading.value = false
@@ -52,7 +52,7 @@ export const useUsersStore = defineStore('users', () => {
      }
      return updatedUser
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '更新用户失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '更新用户失败'
      throw err
    } finally {
      loading.value = false
@@ -67,7 +67,7 @@ export const useUsersStore = defineStore('users', () => {
      await usersApi.deleteUser(userId)
      users.value = users.value.filter(u => u.id !== userId)
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '删除用户失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '删除用户失败'
      throw err
    } finally {
      loading.value = false
@@ -78,7 +78,7 @@ export const useUsersStore = defineStore('users', () => {
    try {
      return await usersApi.getUserApiKeys(userId)
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '获取 API Keys 失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '获取 API Keys 失败'
      throw err
    }
  }
@@ -87,7 +87,7 @@ export const useUsersStore = defineStore('users', () => {
    try {
      return await usersApi.createApiKey(userId, name)
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '创建 API Key 失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '创建 API Key 失败'
      throw err
    }
  }
@@ -96,7 +96,7 @@ export const useUsersStore = defineStore('users', () => {
    try {
      await usersApi.deleteApiKey(userId, keyId)
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '删除 API Key 失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '删除 API Key 失败'
      throw err
    }
  }
@@ -110,7 +110,7 @@ export const useUsersStore = defineStore('users', () => {
      // 刷新用户列表以获取最新数据
      await fetchUsers()
    } catch (err: any) {
-      error.value = err.response?.data?.detail || '重置配额失败'
+      error.value = err.response?.data?.error?.message || err.response?.data?.detail || '重置配额失败'
      throw err
    } finally {
      loading.value = false
--- a/frontend/src/utils/errorParser.ts
+++ b/frontend/src/utils/errorParser.ts
@@ -198,3 +198,49 @@ export function parseApiErrorShort(err: unknown, defaultMessage: string = '操
  const lines = fullError.split('\n')
  return lines[0] || defaultMessage
 }
+
+/**
+ * 解析模型测试响应的错误信息
+ * @param result 测试响应结果
+ * @returns 格式化的错误信息
+ */
+export function parseTestModelError(result: {
+  error?: string
+  data?: {
+    response?: {
+      status_code?: number
+      error?: string | { message?: string }
+    }
+  }
+}): string {
+  let errorMsg = result.error || '测试失败'
+
+  // 检查HTTP状态码错误
+  if (result.data?.response?.status_code) {
+    const status = result.data.response.status_code
+    if (status === 403) {
+      errorMsg = '认证失败: API密钥无效或客户端类型不被允许'
+    } else if (status === 401) {
+      errorMsg = '认证失败: API密钥无效或已过期'
+    } else if (status === 404) {
+      errorMsg = '模型不存在: 请检查模型名称是否正确'
+    } else if (status === 429) {
+      errorMsg = '请求频率过高: 请稍后重试'
+    } else if (status >= 500) {
+      errorMsg = `服务器错误: HTTP ${status}`
+    } else {
+      errorMsg = `请求失败: HTTP ${status}`
+    }
+  }
+
+  // 尝试从错误响应中提取更多信息
+  if (result.data?.response?.error) {
+    if (typeof result.data.response.error === 'string') {
+      errorMsg = result.data.response.error
+    } else if (result.data.response.error?.message) {
+      errorMsg = result.data.response.error.message
+    }
+  }
+
+  return errorMsg
+}
--- a/frontend/src/views/admin/ApiKeys.vue
+++ b/frontend/src/views/admin/ApiKeys.vue
@@ -650,6 +650,7 @@
 import { ref, computed, onMounted } from 'vue'
 import { useToast } from '@/composables/useToast'
 import { useConfirm } from '@/composables/useConfirm'
+import { useClipboard } from '@/composables/useClipboard'
 import { adminApi, type AdminApiKey, type CreateStandaloneApiKeyRequest } from '@/api/admin'

 import {
@@ -693,6 +694,7 @@ import { log } from '@/utils/logger'

 const { success, error } = useToast()
 const { confirmDanger } = useConfirm()
+const { copyToClipboard } = useClipboard()

 const apiKeys = ref<AdminApiKey[]>([])
 const loading = ref(false)
@@ -927,20 +929,14 @@ function selectKey() {
 }

 async function copyKey() {
-  try {
-    await navigator.clipboard.writeText(newKeyValue.value)
-    success('API Key 已复制到剪贴板')
-  } catch {
-    error('复制失败，请手动复制')
-  }
+  await copyToClipboard(newKeyValue.value)
 }

 async function copyKeyPrefix(apiKey: AdminApiKey) {
  try {
    // 调用后端 API 获取完整密钥
    const response = await adminApi.getFullApiKey(apiKey.id)
-    await navigator.clipboard.writeText(response.key)
-    success('完整密钥已复制到剪贴板')
+    await copyToClipboard(response.key)
  } catch (err) {
    log.error('复制密钥失败:', err)
    error('复制失败，请重试')
@@ -1046,9 +1042,10 @@ async function handleKeyFormSubmit(data: StandaloneKeyFormData) {
        rate_limit: data.rate_limit,
        expire_days: data.never_expire ? null : (data.expire_days || null),
        auto_delete_on_expiry: data.auto_delete_on_expiry,
-        allowed_providers: data.allowed_providers.length > 0 ? data.allowed_providers : undefined,
-        allowed_api_formats: data.allowed_api_formats.length > 0 ? data.allowed_api_formats : undefined,
-        allowed_models: data.allowed_models.length > 0 ? data.allowed_models : undefined
+        // 空数组表示清除限制（允许全部），后端会将空数组存为 NULL
+        allowed_providers: data.allowed_providers,
+        allowed_api_formats: data.allowed_api_formats,
+        allowed_models: data.allowed_models
      }
      await adminApi.updateApiKey(data.id, updateData)
      success('API Key 更新成功')
@@ -1064,9 +1061,10 @@ async function handleKeyFormSubmit(data: StandaloneKeyFormData) {
        rate_limit: data.rate_limit,
        expire_days: data.never_expire ? null : (data.expire_days || null),
        auto_delete_on_expiry: data.auto_delete_on_expiry,
-        allowed_providers: data.allowed_providers.length > 0 ? data.allowed_providers : undefined,
-        allowed_api_formats: data.allowed_api_formats.length > 0 ? data.allowed_api_formats : undefined,
-        allowed_models: data.allowed_models.length > 0 ? data.allowed_models : undefined
+        // 空数组表示不设置限制（允许全部），后端会将空数组存为 NULL
+        allowed_providers: data.allowed_providers,
+        allowed_api_formats: data.allowed_api_formats,
+        allowed_models: data.allowed_models
      }
      const response = await adminApi.createStandaloneApiKey(createData)
      newKeyValue.value = response.key
--- a/frontend/src/views/admin/CacheMonitoring.vue
+++ b/frontend/src/views/admin/CacheMonitoring.vue
@@ -46,6 +46,7 @@ const clearingRowAffinityKey = ref<string | null>(null)
 const currentPage = ref(1)
 const pageSize = ref(20)
 const currentTime = ref(Math.floor(Date.now() / 1000))
+const analysisHoursSelectOpen = ref(false)

 // ==================== 模型映射缓存 ====================

@@ -142,32 +143,37 @@ async function resetAffinitySearch() {
  await fetchAffinityList()
 }

-async function clearUserCache(identifier: string, displayName?: string) {
-  const target = identifier?.trim()
-  if (!target) {
-    showError('无法识别标识符')
+async function clearSingleAffinity(item: UserAffinity) {
+  const affinityKey = item.affinity_key?.trim()
+  const endpointId = item.endpoint_id?.trim()
+  const modelId = item.global_model_id?.trim()
+  const apiFormat = item.api_format?.trim()
+
+  if (!affinityKey || !endpointId || !modelId || !apiFormat) {
+    showError('缓存记录信息不完整，无法删除')
    return
  }

-  const label = displayName || target
+  const label = item.user_api_key_name || affinityKey
+  const modelLabel = item.model_display_name || item.model_name || modelId
  const confirmed = await showConfirm({
    title: '确认清除',
-    message: `确定要清除 ${label} 的缓存吗？`,
+    message: `确定要清除 ${label} 在模型 ${modelLabel} 上的缓存亲和性吗？`,
    confirmText: '确认清除',
    variant: 'destructive'
  })

  if (!confirmed) return

-  clearingRowAffinityKey.value = target
+  clearingRowAffinityKey.value = affinityKey
  try {
-    await cacheApi.clearUserCache(target)
+    await cacheApi.clearSingleAffinity(affinityKey, endpointId, modelId, apiFormat)
    showSuccess('清除成功')
    await fetchCacheStats()
    await fetchAffinityList(tableKeyword.value.trim() || undefined)
  } catch (error) {
    showError('清除失败')
-    log.error('清除用户缓存失败', error)
+    log.error('清除单条缓存失败', error)
  } finally {
    clearingRowAffinityKey.value = null
  }
@@ -618,7 +624,7 @@ onBeforeUnmount(() => {
                class="h-7 w-7 text-muted-foreground/70 hover:text-destructive"
                :disabled="clearingRowAffinityKey === item.affinity_key"
                title="清除缓存"
-                @click="clearUserCache(item.affinity_key, item.user_api_key_name || item.affinity_key)"
+                @click="clearSingleAffinity(item)"
              >
                <Trash2 class="h-3.5 w-3.5" />
              </Button>
@@ -668,7 +674,7 @@ onBeforeUnmount(() => {
              variant="ghost"
              class="h-7 w-7 text-muted-foreground/70 hover:text-destructive shrink-0"
              :disabled="clearingRowAffinityKey === item.affinity_key"
-              @click="clearUserCache(item.affinity_key, item.user_api_key_name || item.affinity_key)"
+              @click="clearSingleAffinity(item)"
            >
              <Trash2 class="h-3.5 w-3.5" />
            </Button>
@@ -1051,7 +1057,7 @@ onBeforeUnmount(() => {
            <span class="text-xs text-muted-foreground hidden sm:inline">分析用户请求间隔，推荐合适的缓存 TTL</span>
          </div>
          <div class="flex flex-wrap items-center gap-2">
-            <Select v-model="analysisHours">
+            <Select v-model="analysisHours" v-model:open="analysisHoursSelectOpen">
              <SelectTrigger class="w-24 sm:w-28 h-8">
                <SelectValue placeholder="时间段" />
              </SelectTrigger>
--- a/frontend/src/views/admin/ModelManagement.vue
+++ b/frontend/src/views/admin/ModelManagement.vue
@@ -713,6 +713,7 @@ import ProviderModelFormDialog from '@/features/providers/components/ProviderMod
 import type { Model } from '@/api/endpoints'
 import { useToast } from '@/composables/useToast'
 import { useConfirm } from '@/composables/useConfirm'
+import { useClipboard } from '@/composables/useClipboard'
 import { useRowClick } from '@/composables/useRowClick'
 import { parseApiError } from '@/utils/errorParser'
 import {
@@ -743,6 +744,7 @@ import { getProvidersSummary } from '@/api/endpoints/providers'
 import { getAllCapabilities, type CapabilityDefinition } from '@/api/endpoints'

 const { success, error: showError } = useToast()
+const { copyToClipboard } = useClipboard()

 // 状态
 const loading = ref(false)
@@ -1066,16 +1068,6 @@ function handleRowClick(event: MouseEvent, model: GlobalModelResponse) {
  selectModel(model)
 }

-// 复制到剪贴板
-async function copyToClipboard(text: string) {
-  try {
-    await navigator.clipboard.writeText(text)
-    success('已复制')
-  } catch {
-    showError('复制失败')
-  }
-}
-
 async function selectModel(model: GlobalModelResponse) {
  selectedModel.value = model
  detailTab.value = 'basic'
--- a/frontend/src/views/admin/ProviderManagement.vue
+++ b/frontend/src/views/admin/ProviderManagement.vue
@@ -723,9 +723,19 @@ async function handleDeleteProvider(provider: ProviderWithEndpointsSummary) {
 // 切换提供商状态
 async function toggleProviderStatus(provider: ProviderWithEndpointsSummary) {
  try {
-    await updateProvider(provider.id, { is_active: !provider.is_active })
-    provider.is_active = !provider.is_active
-    showSuccess(provider.is_active ? '提供商已启用' : '提供商已停用')
+    const newStatus = !provider.is_active
+    await updateProvider(provider.id, { is_active: newStatus })
+
+    // 更新抽屉内部的 provider 对象
+    provider.is_active = newStatus
+
+    // 同时更新主页面 providers 数组中的对象，实现无感更新
+    const targetProvider = providers.value.find(p => p.id === provider.id)
+    if (targetProvider) {
+      targetProvider.is_active = newStatus
+    }
+
+    showSuccess(newStatus ? '提供商已启用' : '提供商已停用')
  } catch (err: any) {
    showError(err.response?.data?.detail || '操作失败', '错误')
  }
--- a/frontend/src/views/admin/SystemSettings.vue
+++ b/frontend/src/views/admin/SystemSettings.vue
@@ -465,77 +465,6 @@
        </div>
      </CardSection>

-      <!-- 流式输出配置 -->
-      <CardSection
-        title="流式输出"
-        description="配置流式响应的输出效果"
-      >
-        <div class="grid grid-cols-1 md:grid-cols-2 gap-6">
-          <div class="md:col-span-2">
-            <div class="flex items-center space-x-2">
-              <Checkbox
-                id="stream-smoothing-enabled"
-                v-model:checked="systemConfig.stream_smoothing_enabled"
-              />
-              <div>
-                <Label
-                  for="stream-smoothing-enabled"
-                  class="cursor-pointer"
-                >
-                  启用平滑输出
-                </Label>
-                <p class="text-xs text-muted-foreground">
-                  将上游返回的大块内容拆分成小块，模拟打字效果
-                </p>
-              </div>
-            </div>
-          </div>
-
-          <div>
-            <Label
-              for="stream-smoothing-chunk-size"
-              class="block text-sm font-medium"
-            >
-              每块字符数
-            </Label>
-            <Input
-              id="stream-smoothing-chunk-size"
-              v-model.number="systemConfig.stream_smoothing_chunk_size"
-              type="number"
-              min="1"
-              max="100"
-              placeholder="20"
-              class="mt-1"
-              :disabled="!systemConfig.stream_smoothing_enabled"
-            />
-            <p class="mt-1 text-xs text-muted-foreground">
-              每次输出的字符数量（1-100）
-            </p>
-          </div>
-
-          <div>
-            <Label
-              for="stream-smoothing-delay-ms"
-              class="block text-sm font-medium"
-            >
-              输出间隔 (毫秒)
-            </Label>
-            <Input
-              id="stream-smoothing-delay-ms"
-              v-model.number="systemConfig.stream_smoothing_delay_ms"
-              type="number"
-              min="1"
-              max="100"
-              placeholder="8"
-              class="mt-1"
-              :disabled="!systemConfig.stream_smoothing_enabled"
-            />
-            <p class="mt-1 text-xs text-muted-foreground">
-              每块之间的延迟毫秒数（1-100）
-            </p>
-          </div>
-        </div>
-      </CardSection>
    </div>

    <!-- 导入配置对话框 -->
@@ -884,10 +813,6 @@ interface SystemConfig {
  log_retention_days: number
  cleanup_batch_size: number
  audit_log_retention_days: number
-  // 流式输出
-  stream_smoothing_enabled: boolean
-  stream_smoothing_chunk_size: number
-  stream_smoothing_delay_ms: number
 }

 const loading = ref(false)
@@ -937,10 +862,6 @@ const systemConfig = ref<SystemConfig>({
  log_retention_days: 365,
  cleanup_batch_size: 1000,
  audit_log_retention_days: 30,
-  // 流式输出
-  stream_smoothing_enabled: false,
-  stream_smoothing_chunk_size: 20,
-  stream_smoothing_delay_ms: 8,
 })

 // 计算属性：KB 和 字节 之间的转换
@@ -997,10 +918,6 @@ async function loadSystemConfig() {
      'log_retention_days',
      'cleanup_batch_size',
      'audit_log_retention_days',
-      // 流式输出
-      'stream_smoothing_enabled',
-      'stream_smoothing_chunk_size',
-      'stream_smoothing_delay_ms',
    ]

    for (const key of configs) {
@@ -1108,22 +1025,6 @@ async function saveSystemConfig() {
        value: systemConfig.value.audit_log_retention_days,
        description: '审计日志保留天数'
      },
-      // 流式输出
-      {
-        key: 'stream_smoothing_enabled',
-        value: systemConfig.value.stream_smoothing_enabled,
-        description: '是否启用流式平滑输出'
-      },
-      {
-        key: 'stream_smoothing_chunk_size',
-        value: systemConfig.value.stream_smoothing_chunk_size,
-        description: '流式平滑输出每个小块的字符数'
-      },
-      {
-        key: 'stream_smoothing_delay_ms',
-        value: systemConfig.value.stream_smoothing_delay_ms,
-        description: '流式平滑输出每个小块之间的延迟毫秒数'
-      },
    ]

    const promises = configItems.map(item =>
--- a/frontend/src/views/admin/Users.vue
+++ b/frontend/src/views/admin/Users.vue
@@ -701,6 +701,7 @@ import { ref, computed, onMounted, watch } from 'vue'
 import { useUsersStore } from '@/stores/users'
 import { useToast } from '@/composables/useToast'
 import { useConfirm } from '@/composables/useConfirm'
+import { useClipboard } from '@/composables/useClipboard'
 import { usageApi, type UsageByUser } from '@/api/usage'
 import { adminApi } from '@/api/admin'

@@ -748,6 +749,7 @@ import { log } from '@/utils/logger'

 const { success, error } = useToast()
 const { confirmDanger, confirmWarning } = useConfirm()
+const { copyToClipboard } = useClipboard()
 const usersStore = useUsersStore()

 // 用户表单对话框状态
@@ -875,7 +877,8 @@ async function toggleUserStatus(user: any) {
  const action = user.is_active ? '禁用' : '启用'
  const confirmed = await confirmDanger(
    `确定要${action}用户 ${user.username} 吗？`,
-    `${action}用户`
+    `${action}用户`,
+    action
  )

  if (!confirmed) return
@@ -884,7 +887,7 @@ async function toggleUserStatus(user: any) {
    await usersStore.updateUser(user.id, { is_active: !user.is_active })
    success(`用户已${action}`)
  } catch (err: any) {
-    error(err.response?.data?.detail || '未知错误', `${action}用户失败`)
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', `${action}用户失败`)
  }
 }

@@ -955,7 +958,7 @@ async function handleUserFormSubmit(data: UserFormData & { password?: string })
    closeUserFormDialog()
  } catch (err: any) {
    const title = data.id ? '更新用户失败' : '创建用户失败'
-    error(err.response?.data?.detail || '未知错误', title)
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', title)
  } finally {
    userFormDialogRef.value?.setSaving(false)
  }
@@ -989,7 +992,7 @@ async function createApiKey() {
    showNewApiKeyDialog.value = true
    await loadUserApiKeys(selectedUser.value.id)
  } catch (err: any) {
-    error(err.response?.data?.detail || '未知错误', '创建 API Key 失败')
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', '创建 API Key 失败')
  } finally {
    creatingApiKey.value = false
  }
@@ -1000,12 +1003,7 @@ function selectApiKey() {
 }

 async function copyApiKey() {
-  try {
-    await navigator.clipboard.writeText(newApiKey.value)
-    success('API Key已复制到剪贴板')
-  } catch {
-    error('复制失败，请手动复制')
-  }
+  await copyToClipboard(newApiKey.value)
 }

 async function closeNewApiKeyDialog() {
@@ -1026,7 +1024,7 @@ async function deleteApiKey(apiKey: any) {
    await loadUserApiKeys(selectedUser.value.id)
    success('API Key已删除')
  } catch (err: any) {
-    error(err.response?.data?.detail || '未知错误', '删除 API Key 失败')
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', '删除 API Key 失败')
  }
 }

@@ -1034,11 +1032,10 @@ async function copyFullKey(apiKey: any) {
  try {
    // 调用后端 API 获取完整密钥
    const response = await adminApi.getFullApiKey(apiKey.id)
-    await navigator.clipboard.writeText(response.key)
-    success('完整密钥已复制到剪贴板')
+    await copyToClipboard(response.key)
  } catch (err: any) {
    log.error('复制密钥失败:', err)
-    error(err.response?.data?.detail || '未知错误', '复制密钥失败')
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', '复制密钥失败')
  }
 }

@@ -1054,7 +1051,7 @@ async function resetQuota(user: any) {
    await usersStore.resetUserQuota(user.id)
    success('配额已重置')
  } catch (err: any) {
-    error(err.response?.data?.detail || '未知错误', '重置配额失败')
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', '重置配额失败')
  }
 }

@@ -1070,7 +1067,7 @@ async function deleteUser(user: any) {
    await usersStore.deleteUser(user.id)
    success('用户已删除')
  } catch (err: any) {
-    error(err.response?.data?.detail || '未知错误', '删除用户失败')
+    error(err.response?.data?.error?.message || err.response?.data?.detail || '未知错误', '删除用户失败')
  }
 }
 </script>
--- a/frontend/src/views/public/Home.vue
+++ b/frontend/src/views/public/Home.vue
@@ -102,9 +102,9 @@
    <!-- Main Content -->
    <main class="relative z-10">
      <!-- Fixed Logo Container -->
-      <div class="fixed inset-0 z-20 pointer-events-none flex items-center justify-center overflow-hidden">
+      <div class="mt-4 fixed inset-0 z-20 pointer-events-none flex items-center justify-center overflow-hidden">
        <div
-          class="transform-gpu logo-container"
+          class="mt-16 transform-gpu logo-container"
          :class="[currentSection === SECTIONS.HOME ? 'home-section' : '', `logo-transition-${scrollDirection}`]"
          :style="fixedLogoStyle"
        >
@@ -151,7 +151,7 @@
        class="min-h-screen snap-start flex items-center justify-center px-16 lg:px-20 py-20"
      >
        <div class="max-w-4xl mx-auto text-center">
-          <div class="h-80 w-full mb-16" />
+          <div class="h-80 w-full mb-16 mt-8" />
          <h1
            class="mb-6 text-5xl md:text-7xl font-bold text-[#191919] dark:text-white leading-tight transition-all duration-700"
            :style="getTitleStyle(SECTIONS.HOME)"
@@ -166,7 +166,7 @@
            整合 Claude Code、Codex CLI、Gemini CLI 等多个 AI 编程助手
          </p>
          <button
-            class="mt-16 transition-all duration-700 cursor-pointer hover:scale-110"
+            class="mt-8 transition-all duration-700 cursor-pointer hover:scale-110"
            :style="getScrollIndicatorStyle(SECTIONS.HOME)"
            @click="scrollToSection(SECTIONS.CLAUDE)"
          >
--- a/frontend/src/views/shared/Usage.vue
+++ b/frontend/src/views/shared/Usage.vue
@@ -65,6 +65,7 @@
      :page-size="pageSize"
      :total-records="totalRecords"
      :page-size-options="pageSizeOptions"
+      :auto-refresh="globalAutoRefresh"
      @update:selected-period="handlePeriodChange"
      @update:filter-user="handleFilterUserChange"
      @update:filter-model="handleFilterModelChange"
@@ -72,6 +73,7 @@
      @update:filter-status="handleFilterStatusChange"
      @update:current-page="handlePageChange"
      @update:page-size="handlePageSizeChange"
+      @update:auto-refresh="handleAutoRefreshChange"
      @refresh="refreshData"
      @export="exportData"
      @show-detail="showRequestDetail"
@@ -214,7 +216,10 @@ const hasActiveRequests = computed(() => activeRequestIds.value.length > 0)

 // 自动刷新定时器
 let autoRefreshTimer: ReturnType<typeof setInterval> | null = null
-const AUTO_REFRESH_INTERVAL = 1000 // 1秒刷新一次
+let globalAutoRefreshTimer: ReturnType<typeof setInterval> | null = null
+const AUTO_REFRESH_INTERVAL = 1000 // 1秒刷新一次（用于活跃请求）
+const GLOBAL_AUTO_REFRESH_INTERVAL = 10000 // 10秒刷新一次（全局自动刷新）
+const globalAutoRefresh = ref(false) // 全局自动刷新开关

 // 轮询活跃请求状态（轻量级，只更新状态变化的记录）
 async function pollActiveRequests() {
@@ -278,9 +283,35 @@ watch(hasActiveRequests, (hasActive) => {
  }
 }, { immediate: true })

+// 启动全局自动刷新
+function startGlobalAutoRefresh() {
+  if (globalAutoRefreshTimer) return
+  globalAutoRefreshTimer = setInterval(refreshData, GLOBAL_AUTO_REFRESH_INTERVAL)
+}
+
+// 停止全局自动刷新
+function stopGlobalAutoRefresh() {
+  if (globalAutoRefreshTimer) {
+    clearInterval(globalAutoRefreshTimer)
+    globalAutoRefreshTimer = null
+  }
+}
+
+// 处理自动刷新开关变化
+function handleAutoRefreshChange(value: boolean) {
+  globalAutoRefresh.value = value
+  if (value) {
+    refreshData() // 立即刷新一次
+    startGlobalAutoRefresh()
+  } else {
+    stopGlobalAutoRefresh()
+  }
+}
+
 // 组件卸载时清理定时器
 onUnmounted(() => {
  stopAutoRefresh()
+  stopGlobalAutoRefresh()
 })

 // 用户页面的前端分页
--- a/frontend/src/views/user/ModelCatalog.vue
+++ b/frontend/src/views/user/ModelCatalog.vue
@@ -342,6 +342,7 @@ import {
  Plus,
 } from 'lucide-vue-next'
 import { useToast } from '@/composables/useToast'
+import { useClipboard } from '@/composables/useClipboard'
 import {
  Card,
  Table,
@@ -370,6 +371,7 @@ import { useRowClick } from '@/composables/useRowClick'
 import { log } from '@/utils/logger'

 const { success, error: showError } = useToast()
+const { copyToClipboard } = useClipboard()

 // 状态
 const loading = ref(false)
@@ -565,16 +567,6 @@ function hasTieredPricing(model: PublicGlobalModel): boolean {
  return (tiered?.tiers?.length || 0) > 1
 }

-async function copyToClipboard(text: string) {
-  try {
-    await navigator.clipboard.writeText(text)
-    success('已复制')
-  } catch (err) {
-    log.error('复制失败:', err)
-    showError('复制失败')
-  }
-}
-
 onMounted(() => {
  refreshData()
 })
--- a/frontend/src/views/user/components/UserModelDetailDrawer.vue
+++ b/frontend/src/views/user/components/UserModelDetailDrawer.vue
@@ -350,7 +350,9 @@ import {
  Layers,
  Image as ImageIcon
 } from 'lucide-vue-next'
+import { useEscapeKey } from '@/composables/useEscapeKey'
 import { useToast } from '@/composables/useToast'
+import { useClipboard } from '@/composables/useClipboard'
 import Card from '@/components/ui/card.vue'
 import Badge from '@/components/ui/badge.vue'
 import Button from '@/components/ui/button.vue'
@@ -374,6 +376,7 @@ const emit = defineEmits<{
 }>()

 const { success: showSuccess, error: showError } = useToast()
+const { copyToClipboard } = useClipboard()

 interface Props {
  model: PublicGlobalModel | null
@@ -407,15 +410,6 @@ function handleClose() {
  emit('update:open', false)
 }

-async function copyToClipboard(text: string) {
-  try {
-    await navigator.clipboard.writeText(text)
-    showSuccess('已复制')
-  } catch {
-    showError('复制失败')
-  }
-}
-
 function getFirstTierPrice(
  tieredPricing: TieredPricingConfig | undefined | null,
  priceKey: 'input_price_per_1m' | 'output_price_per_1m' | 'cache_creation_price_per_1m' | 'cache_read_price_per_1m'
@@ -453,6 +447,16 @@ function getFirst1hCachePrice(tieredPricing: TieredPricingConfig | undefined | n
  if (!tieredPricing?.tiers?.length) return '-'
  return get1hCachePrice(tieredPricing.tiers[0])
 }
+
+// 添加 ESC 键监听
+useEscapeKey(() => {
+  if (props.open) {
+    handleClose()
+  }
+}, {
+  disableOnInput: true,
+  once: false
+})
 </script>

 <style scoped>
--- a/src/api/admin/endpoints/keys.py
+++ b/src/api/admin/endpoints/keys.py
@@ -246,6 +246,15 @@ class AdminUpdateEndpointKeyAdapter(AdminApiAdapter):
        if "api_key" in update_data:
            update_data["api_key"] = crypto_service.encrypt(update_data["api_key"])

+        # 特殊处理 max_concurrent：需要区分"未提供"和"显式设置为 null"
+        # 当 max_concurrent 被显式设置时（在 model_fields_set 中），即使值为 None 也应该更新
+        if "max_concurrent" in self.key_data.model_fields_set:
+            update_data["max_concurrent"] = self.key_data.max_concurrent
+            # 切换到自适应模式时，清空学习到的并发限制，让系统重新学习
+            if self.key_data.max_concurrent is None:
+                update_data["learned_max_concurrent"] = None
+                logger.info("Key %s 切换为自适应并发模式", self.key_id)
+
        for field, value in update_data.items():
            setattr(key, field, value)
        key.updated_at = datetime.now(timezone.utc)
@@ -253,7 +262,7 @@ class AdminUpdateEndpointKeyAdapter(AdminApiAdapter):
        db.commit()
        db.refresh(key)

-        logger.info(f"[OK] 更新 Key: ID={self.key_id}, Updates={list(update_data.keys())}")
+        logger.info("[OK] 更新 Key: ID=%s, Updates=%s", self.key_id, list(update_data.keys()))

        try:
            decrypted_key = crypto_service.decrypt(key.api_key)
--- a/src/api/admin/monitoring/cache.py
+++ b/src/api/admin/monitoring/cache.py
@@ -186,6 +186,30 @@ async def clear_user_cache(
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)


+@router.delete("/affinity/{affinity_key}/{endpoint_id}/{model_id}/{api_format}")
+async def clear_single_affinity(
+    affinity_key: str,
+    endpoint_id: str,
+    model_id: str,
+    api_format: str,
+    request: Request,
+    db: Session = Depends(get_db),
+) -> Any:
+    """
+    Clear a single cache affinity entry
+
+    Parameters:
+    - affinity_key: API Key ID
+    - endpoint_id: Endpoint ID
+    - model_id: Model ID (GlobalModel ID)
+    - api_format: API format (claude/openai)
+    """
+    adapter = AdminClearSingleAffinityAdapter(
+        affinity_key=affinity_key, endpoint_id=endpoint_id, model_id=model_id, api_format=api_format
+    )
+    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
+
+
@router.delete("")
 async def clear_all_cache(
    request: Request,
@@ -655,6 +679,7 @@ class AdminListAffinitiesAdapter(AdminApiAdapter):
                "key_name": key.name if key else None,
                "key_prefix": provider_key_masked,
                "rate_multiplier": key.rate_multiplier if key else 1.0,
+                "global_model_id": affinity.get("model_name"),  # 原始的 global_model_id
                "model_name": (
                    global_model_map.get(affinity.get("model_name")).name
                    if affinity.get("model_name") and global_model_map.get(affinity.get("model_name"))
@@ -817,6 +842,65 @@ class AdminClearUserCacheAdapter(AdminApiAdapter):
            raise HTTPException(status_code=500, detail=f"清除失败: {exc}")


+@dataclass
+class AdminClearSingleAffinityAdapter(AdminApiAdapter):
+    affinity_key: str
+    endpoint_id: str
+    model_id: str
+    api_format: str
+
+    async def handle(self, context: ApiRequestContext) -> Dict[str, Any]:  # type: ignore[override]
+        db = context.db
+        try:
+            redis_client = get_redis_client_sync()
+            affinity_mgr = await get_affinity_manager(redis_client)
+
+            # 直接获取指定的亲和性记录（无需遍历全部）
+            existing_affinity = await affinity_mgr.get_affinity(
+                self.affinity_key, self.api_format, self.model_id
+            )
+
+            if not existing_affinity:
+                raise HTTPException(status_code=404, detail="未找到指定的缓存亲和性记录")
+
+            # 验证 endpoint_id 是否匹配
+            if existing_affinity.endpoint_id != self.endpoint_id:
+                raise HTTPException(status_code=404, detail="未找到指定的缓存亲和性记录")
+
+            # 失效单条记录
+            await affinity_mgr.invalidate_affinity(
+                self.affinity_key, self.api_format, self.model_id, endpoint_id=self.endpoint_id
+            )
+
+            # 获取用于日志的信息
+            api_key = db.query(ApiKey).filter(ApiKey.id == self.affinity_key).first()
+            api_key_name = api_key.name if api_key else None
+
+            logger.info(
+                f"已清除单条缓存亲和性: affinity_key={self.affinity_key[:8]}..., "
+                f"endpoint_id={self.endpoint_id[:8]}..., model_id={self.model_id[:8]}..."
+            )
+
+            context.add_audit_metadata(
+                action="cache_clear_single",
+                affinity_key=self.affinity_key,
+                endpoint_id=self.endpoint_id,
+                model_id=self.model_id,
+            )
+            return {
+                "status": "ok",
+                "message": f"已清除缓存亲和性: {api_key_name or self.affinity_key[:8]}",
+                "affinity_key": self.affinity_key,
+                "endpoint_id": self.endpoint_id,
+                "model_id": self.model_id,
+            }
+        except HTTPException:
+            raise
+        except Exception as exc:
+            logger.exception(f"清除单条缓存亲和性失败: {exc}")
+            raise HTTPException(status_code=500, detail=f"清除失败: {exc}")
+
+
 class AdminClearAllCacheAdapter(AdminApiAdapter):
    async def handle(self, context: ApiRequestContext) -> Dict[str, Any]:  # type: ignore[override]
        try:
@@ -863,7 +947,7 @@ class AdminClearProviderCacheAdapter(AdminApiAdapter):
 class AdminCacheConfigAdapter(AdminApiAdapter):
    async def handle(self, context: ApiRequestContext) -> Dict[str, Any]:  # type: ignore[override]
        from src.services.cache.affinity_manager import CacheAffinityManager
-        from src.services.cache.aware_scheduler import CacheAwareScheduler
+        from src.config.constants import ConcurrencyDefaults
        from src.services.rate_limit.adaptive_reservation import get_adaptive_reservation_manager

        # 获取动态预留管理器的配置
@@ -874,7 +958,7 @@ class AdminCacheConfigAdapter(AdminApiAdapter):
            "status": "ok",
            "data": {
                "cache_ttl_seconds": CacheAffinityManager.DEFAULT_CACHE_TTL,
-                "cache_reservation_ratio": CacheAwareScheduler.CACHE_RESERVATION_RATIO,
+                "cache_reservation_ratio": ConcurrencyDefaults.CACHE_RESERVATION_RATIO,
                "dynamic_reservation": {
                    "enabled": True,
                    "config": reservation_stats["config"],
@@ -897,7 +981,7 @@ class AdminCacheConfigAdapter(AdminApiAdapter):
        context.add_audit_metadata(
            action="cache_config",
            cache_ttl_seconds=CacheAffinityManager.DEFAULT_CACHE_TTL,
-            cache_reservation_ratio=CacheAwareScheduler.CACHE_RESERVATION_RATIO,
+            cache_reservation_ratio=ConcurrencyDefaults.CACHE_RESERVATION_RATIO,
            dynamic_reservation_enabled=True,
        )
        return response
@@ -1083,14 +1167,14 @@ class AdminModelMappingCacheStatsAdapter(AdminApiAdapter):
                                                provider.display_name or provider.name
                                            )
                                            continue
-                                        # 检查是否在别名列表中
-                                        if model.provider_model_aliases:
-                                            alias_names = [
+                                        # 检查是否在映射列表中
+                                        if model.provider_model_mappings:
+                                            mapping_list = [
                                                a.get("name")
-                                                for a in model.provider_model_aliases
+                                                for a in model.provider_model_mappings
                                                if isinstance(a, dict)
                                            ]
-                                            if mapping_name in alias_names:
+                                            if mapping_name in mapping_list:
                                                provider_names.append(
                                                    provider.display_name or provider.name
                                                )
@@ -1152,19 +1236,19 @@ class AdminModelMappingCacheStatsAdapter(AdminApiAdapter):
                        try:
                            cached_data = json.loads(cached_str)
                            provider_model_name = cached_data.get("provider_model_name")
-                            provider_model_aliases = cached_data.get("provider_model_aliases", [])
+                            cached_model_mappings = cached_data.get("provider_model_mappings", [])

                            # 获取 Provider 和 GlobalModel 信息
                            provider = provider_map.get(provider_id)
                            global_model = global_model_map.get(global_model_id)

                            if provider and global_model:
-                                # 提取别名名称
-                                alias_names = []
-                                if provider_model_aliases:
-                                    for alias_entry in provider_model_aliases:
-                                        if isinstance(alias_entry, dict) and alias_entry.get("name"):
-                                            alias_names.append(alias_entry["name"])
+                                # 提取映射名称
+                                mapping_names = []
+                                if cached_model_mappings:
+                                    for mapping_entry in cached_model_mappings:
+                                        if isinstance(mapping_entry, dict) and mapping_entry.get("name"):
+                                            mapping_names.append(mapping_entry["name"])

                                # provider_model_name 为空时跳过
                                if not provider_model_name:
@@ -1172,14 +1256,14 @@ class AdminModelMappingCacheStatsAdapter(AdminApiAdapter):

                                # 只显示有实际映射的条目：
                                # 1. 全局模型名 != Provider 模型名（模型名称映射）
-                                # 2. 或者有别名配置
+                                # 2. 或者有映射配置
                                has_name_mapping = global_model.name != provider_model_name
-                                has_aliases = len(alias_names) > 0
+                                has_mappings = len(mapping_names) > 0

-                                if has_name_mapping or has_aliases:
-                                    # 构建用于展示的别名列表
-                                    # 如果只有名称映射没有别名，则用 global_model_name 作为"请求名称"
-                                    display_aliases = alias_names if alias_names else [global_model.name]
+                                if has_name_mapping or has_mappings:
+                                    # 构建用于展示的映射列表
+                                    # 如果只有名称映射没有额外映射，则用 global_model_name 作为"请求名称"
+                                    display_mappings = mapping_names if mapping_names else [global_model.name]

                                    provider_model_mappings.append({
                                        "provider_id": provider_id,
@@ -1188,7 +1272,7 @@ class AdminModelMappingCacheStatsAdapter(AdminApiAdapter):
                                        "global_model_name": global_model.name,
                                        "global_model_display_name": global_model.display_name,
                                        "provider_model_name": provider_model_name,
-                                        "aliases": display_aliases,
+                                        "aliases": display_mappings,
                                        "ttl": ttl if ttl > 0 else None,
                                        "hit_count": hit_count,
                                    })
--- a/src/api/admin/provider_query.py
+++ b/src/api/admin/provider_query.py
@@ -11,6 +11,8 @@ from fastapi import APIRouter, Depends, HTTPException
 from pydantic import BaseModel
 from sqlalchemy.orm import Session, joinedload

+from src.api.handlers.base.chat_adapter_base import get_adapter_class
+from src.api.handlers.base.cli_adapter_base import get_cli_adapter_class
 from src.core.crypto import crypto_service
 from src.core.logger import logger
 from src.database.database import get_db
@@ -30,145 +32,33 @@ class ModelsQueryRequest(BaseModel):
    api_key_id: Optional[str] = None


+class TestModelRequest(BaseModel):
+    """模型测试请求"""
+
+    provider_id: str
+    model_name: str
+    api_key_id: Optional[str] = None
+    stream: bool = False
+    message: Optional[str] = "你好"
+    api_format: Optional[str] = None  # 指定使用的API格式，如果不指定则使用端点的默认格式
+
+
 # ============ API Endpoints ============


-async def _fetch_openai_models(
-    client: httpx.AsyncClient,
-    base_url: str,
-    api_key: str,
-    api_format: str,
-    extra_headers: Optional[dict] = None,
-) -> tuple[list, Optional[str]]:
-    """获取 OpenAI 格式的模型列表
+def _get_adapter_for_format(api_format: str):
+    """根据 API 格式获取对应的 Adapter 类"""
+    # 先检查 Chat Adapter 注册表
+    adapter_class = get_adapter_class(api_format)
+    if adapter_class:
+        return adapter_class

-    Returns:
-        tuple[list, Optional[str]]: (模型列表, 错误信息)
-    """
-    headers = {"Authorization": f"Bearer {api_key}"}
-    if extra_headers:
-        # 防止 extra_headers 覆盖 Authorization
-        safe_headers = {k: v for k, v in extra_headers.items() if k.lower() != "authorization"}
-        headers.update(safe_headers)
+    # 再检查 CLI Adapter 注册表
+    cli_adapter_class = get_cli_adapter_class(api_format)
+    if cli_adapter_class:
+        return cli_adapter_class

-    # 构建 /v1/models URL
-    if base_url.endswith("/v1"):
-        models_url = f"{base_url}/models"
-    else:
-        models_url = f"{base_url}/v1/models"
-
-    try:
-        response = await client.get(models_url, headers=headers)
-        logger.debug(f"OpenAI models request to {models_url}: status={response.status_code}")
-        if response.status_code == 200:
-            data = response.json()
-            models = []
-            if "data" in data:
-                models = data["data"]
-            elif isinstance(data, list):
-                models = data
-            # 为每个模型添加 api_format 字段
-            for m in models:
-                m["api_format"] = api_format
-            return models, None
-        else:
-            # 记录详细的错误信息
-            error_body = response.text[:500] if response.text else "(empty)"
-            error_msg = f"HTTP {response.status_code}: {error_body}"
-            logger.warning(f"OpenAI models request to {models_url} failed: {error_msg}")
-            return [], error_msg
-    except Exception as e:
-        error_msg = f"Request error: {str(e)}"
-        logger.warning(f"Failed to fetch models from {models_url}: {e}")
-        return [], error_msg
-
-
-async def _fetch_claude_models(
-    client: httpx.AsyncClient, base_url: str, api_key: str, api_format: str
-) -> tuple[list, Optional[str]]:
-    """获取 Claude 格式的模型列表
-
-    Returns:
-        tuple[list, Optional[str]]: (模型列表, 错误信息)
-    """
-    headers = {
-        "x-api-key": api_key,
-        "Authorization": f"Bearer {api_key}",
-        "anthropic-version": "2023-06-01",
-    }
-
-    # 构建 /v1/models URL
-    if base_url.endswith("/v1"):
-        models_url = f"{base_url}/models"
-    else:
-        models_url = f"{base_url}/v1/models"
-
-    try:
-        response = await client.get(models_url, headers=headers)
-        logger.debug(f"Claude models request to {models_url}: status={response.status_code}")
-        if response.status_code == 200:
-            data = response.json()
-            models = []
-            if "data" in data:
-                models = data["data"]
-            elif isinstance(data, list):
-                models = data
-            # 为每个模型添加 api_format 字段
-            for m in models:
-                m["api_format"] = api_format
-            return models, None
-        else:
-            error_body = response.text[:500] if response.text else "(empty)"
-            error_msg = f"HTTP {response.status_code}: {error_body}"
-            logger.warning(f"Claude models request to {models_url} failed: {error_msg}")
-            return [], error_msg
-    except Exception as e:
-        error_msg = f"Request error: {str(e)}"
-        logger.warning(f"Failed to fetch Claude models from {models_url}: {e}")
-        return [], error_msg
-
-
-async def _fetch_gemini_models(
-    client: httpx.AsyncClient, base_url: str, api_key: str, api_format: str
-) -> tuple[list, Optional[str]]:
-    """获取 Gemini 格式的模型列表
-
-    Returns:
-        tuple[list, Optional[str]]: (模型列表, 错误信息)
-    """
-    # 兼容 base_url 已包含 /v1beta 的情况
-    base_url_clean = base_url.rstrip("/")
-    if base_url_clean.endswith("/v1beta"):
-        models_url = f"{base_url_clean}/models?key={api_key}"
-    else:
-        models_url = f"{base_url_clean}/v1beta/models?key={api_key}"
-
-    try:
-        response = await client.get(models_url)
-        logger.debug(f"Gemini models request to {models_url}: status={response.status_code}")
-        if response.status_code == 200:
-            data = response.json()
-            if "models" in data:
-                # 转换为统一格式
-                return [
-                    {
-                        "id": m.get("name", "").replace("models/", ""),
-                        "owned_by": "google",
-                        "display_name": m.get("displayName", ""),
-                        "api_format": api_format,
-                    }
-                    for m in data["models"]
-                ], None
-            return [], None
-        else:
-            error_body = response.text[:500] if response.text else "(empty)"
-            error_msg = f"HTTP {response.status_code}: {error_body}"
-            logger.warning(f"Gemini models request to {models_url} failed: {error_msg}")
-            return [], error_msg
-    except Exception as e:
-        error_msg = f"Request error: {str(e)}"
-        logger.warning(f"Failed to fetch Gemini models from {models_url}: {e}")
-        return [], error_msg
+    return None


@router.post("/models")
@@ -180,10 +70,10 @@ async def query_available_models(
    """
    查询提供商可用模型

-    遍历所有活跃端点，根据端点的 API 格式选择正确的请求方式：
-    - OPENAI/OPENAI_CLI: /v1/models (Bearer token)
-    - CLAUDE/CLAUDE_CLI: /v1/models (x-api-key)
-    - GEMINI/GEMINI_CLI: /v1beta/models (URL key parameter)
+    遍历所有活跃端点，根据端点的 API 格式选择正确的 Adapter 进行请求：
+    - OPENAI/OPENAI_CLI: 使用 OpenAIChatAdapter.fetch_models
+    - CLAUDE/CLAUDE_CLI: 使用 ClaudeChatAdapter.fetch_models
+    - GEMINI/GEMINI_CLI: 使用 GeminiChatAdapter.fetch_models

    Args:
        request: 查询请求
@@ -265,37 +155,53 @@ async def query_available_models(
        base_url = base_url.rstrip("/")
        api_format = config["api_format"]
        api_key_value = config["api_key"]
-        extra_headers = config["extra_headers"]
+        extra_headers = config.get("extra_headers")

        try:
-            if api_format in ["CLAUDE", "CLAUDE_CLI"]:
-                return await _fetch_claude_models(client, base_url, api_key_value, api_format)
-            elif api_format in ["GEMINI", "GEMINI_CLI"]:
-                return await _fetch_gemini_models(client, base_url, api_key_value, api_format)
-            else:
-                return await _fetch_openai_models(
-                    client, base_url, api_key_value, api_format, extra_headers
-                )
+            # 获取对应的 Adapter 类并调用 fetch_models
+            adapter_class = _get_adapter_for_format(api_format)
+            if not adapter_class:
+                return [], f"Unknown API format: {api_format}"
+            models, error = await adapter_class.fetch_models(
+                client, base_url, api_key_value, extra_headers
+            )
+            # 确保所有模型都有 api_format 字段
+            for m in models:
+                if "api_format" not in m:
+                    m["api_format"] = api_format
+            return models, error
        except Exception as e:
            logger.error(f"Error fetching models from {api_format} endpoint: {e}")
            return [], f"{api_format}: {str(e)}"

+    # 限制并发请求数量，避免触发上游速率限制
+    MAX_CONCURRENT_REQUESTS = 5
+    semaphore = asyncio.Semaphore(MAX_CONCURRENT_REQUESTS)
+
+    async def fetch_with_semaphore(
+        client: httpx.AsyncClient, config: dict
+    ) -> tuple[list, Optional[str]]:
+        async with semaphore:
+            return await fetch_endpoint_models(client, config)
+
    async with httpx.AsyncClient(timeout=30.0) as client:
        results = await asyncio.gather(
-            *[fetch_endpoint_models(client, c) for c in endpoint_configs]
+            *[fetch_with_semaphore(client, c) for c in endpoint_configs]
        )
        for models, error in results:
            all_models.extend(models)
            if error:
                errors.append(error)

-    # 按 model id 去重（保留第一个）
-    seen_ids: set[str] = set()
+    # 按 model id + api_format 去重（保留第一个）
+    seen_keys: set[str] = set()
    unique_models: list = []
    for model in all_models:
        model_id = model.get("id")
-        if model_id and model_id not in seen_ids:
-            seen_ids.add(model_id)
+        api_format = model.get("api_format", "")
+        unique_key = f"{model_id}:{api_format}"
+        if model_id and unique_key not in seen_keys:
+            seen_keys.add(unique_key)
            unique_models.append(model)

    error = "; ".join(errors) if errors else None
@@ -311,3 +217,228 @@ async def query_available_models(
            "display_name": provider.display_name,
        },
    }
+
+
+@router.post("/test-model")
+async def test_model(
+    request: TestModelRequest,
+    db: Session = Depends(get_db),
+    current_user: User = Depends(get_current_user),
+):
+    """
+    测试模型连接性
+
+    向指定提供商的指定模型发送测试请求，验证模型是否可用
+
+    Args:
+        request: 测试请求
+
+    Returns:
+        测试结果
+    """
+    # 获取提供商及其端点
+    provider = (
+        db.query(Provider)
+        .options(joinedload(Provider.endpoints).joinedload(ProviderEndpoint.api_keys))
+        .filter(Provider.id == request.provider_id)
+        .first()
+    )
+
+    if not provider:
+        raise HTTPException(status_code=404, detail="Provider not found")
+
+    # 找到合适的端点和API Key
+    endpoint_config = None
+    endpoint = None
+    api_key = None
+
+    if request.api_key_id:
+        # 使用指定的API Key
+        for ep in provider.endpoints:
+            for key in ep.api_keys:
+                if key.id == request.api_key_id and key.is_active and ep.is_active:
+                    endpoint = ep
+                    api_key = key
+                    break
+            if endpoint:
+                break
+    else:
+        # 使用第一个可用的端点和密钥
+        for ep in provider.endpoints:
+            if not ep.is_active or not ep.api_keys:
+                continue
+            for key in ep.api_keys:
+                if key.is_active:
+                    endpoint = ep
+                    api_key = key
+                    break
+            if endpoint:
+                break
+
+    if not endpoint or not api_key:
+        raise HTTPException(status_code=404, detail="No active endpoint or API key found")
+
+    try:
+        api_key_value = crypto_service.decrypt(api_key.api_key)
+    except Exception as e:
+        logger.error(f"[test-model] Failed to decrypt API key: {e}")
+        raise HTTPException(status_code=500, detail="Failed to decrypt API key")
+
+    # 构建请求配置
+    endpoint_config = {
+        "api_key": api_key_value,
+        "api_key_id": api_key.id,  # 添加API Key ID用于用量记录
+        "base_url": endpoint.base_url,
+        "api_format": endpoint.api_format,
+        "extra_headers": endpoint.headers,
+        "timeout": endpoint.timeout or 30.0,
+    }
+
+    try:
+        # 获取对应的 Adapter 类
+        adapter_class = _get_adapter_for_format(endpoint.api_format)
+        if not adapter_class:
+            return {
+                "success": False,
+                "error": f"Unknown API format: {endpoint.api_format}",
+                "provider": {
+                    "id": provider.id,
+                    "name": provider.name,
+                    "display_name": provider.display_name,
+                },
+                "model": request.model_name,
+            }
+
+        logger.debug(f"[test-model] 使用 Adapter: {adapter_class.__name__}")
+        logger.debug(f"[test-model] 端点 API Format: {endpoint.api_format}")
+
+        # 如果请求指定了 api_format，优先使用它
+        target_api_format = request.api_format or endpoint.api_format
+        if request.api_format and request.api_format != endpoint.api_format:
+            logger.debug(f"[test-model] 请求指定 API Format: {request.api_format}")
+            # 重新获取适配器
+            adapter_class = _get_adapter_for_format(request.api_format)
+            if not adapter_class:
+                return {
+                    "success": False,
+                    "error": f"Unknown API format: {request.api_format}",
+                    "provider": {
+                        "id": provider.id,
+                        "name": provider.name,
+                        "display_name": provider.display_name,
+                    },
+                    "model": request.model_name,
+                }
+            logger.debug(f"[test-model] 重新选择 Adapter: {adapter_class.__name__}")
+
+        # 准备测试请求数据
+        check_request = {
+            "model": request.model_name,
+            "messages": [
+                {"role": "user", "content": request.message or "Hello! This is a test message."}
+            ],
+            "max_tokens": 30,
+            "temperature": 0.7,
+        }
+
+        # 发送测试请求
+        async with httpx.AsyncClient(timeout=endpoint_config["timeout"]) as client:
+            # 非流式测试
+            logger.debug(f"[test-model] 开始非流式测试...")
+
+            response = await adapter_class.check_endpoint(
+                client,
+                endpoint_config["base_url"],
+                endpoint_config["api_key"],
+                check_request,
+                endpoint_config.get("extra_headers"),
+                # 用量计算参数（现在强制记录）
+                db=db,
+                user=current_user,
+                provider_name=provider.name,
+                provider_id=provider.id,
+                api_key_id=endpoint_config.get("api_key_id"),
+                model_name=request.model_name,
+            )
+
+            # 记录提供商返回信息
+            logger.debug(f"[test-model] 非流式测试结果:")
+            logger.debug(f"[test-model] Status Code: {response.get('status_code')}")
+            logger.debug(f"[test-model] Response Headers: {response.get('headers', {})}")
+            response_data = response.get('response', {})
+            response_body = response_data.get('response_body', {})
+            logger.debug(f"[test-model] Response Data: {response_data}")
+            logger.debug(f"[test-model] Response Body: {response_body}")
+            # 尝试解析 response_body (通常是 JSON 字符串)
+            parsed_body = response_body
+            import json
+            if isinstance(response_body, str):
+                try:
+                    parsed_body = json.loads(response_body)
+                except json.JSONDecodeError:
+                    pass
+
+            if isinstance(parsed_body, dict) and 'error' in parsed_body:
+                error_obj = parsed_body['error']
+                # 兼容 error 可能是字典或字符串的情况
+                if isinstance(error_obj, dict):
+                    logger.debug(f"[test-model] Error Message: {error_obj.get('message')}")
+                    raise HTTPException(status_code=500, detail=error_obj.get('message'))
+                else:
+                    logger.debug(f"[test-model] Error: {error_obj}")
+                    raise HTTPException(status_code=500, detail=error_obj)
+            elif 'error' in response:
+                logger.debug(f"[test-model] Error: {response['error']}")
+                raise HTTPException(status_code=500, detail=response['error'])
+            else:
+                # 如果有选择或消息，记录内容预览
+                if isinstance(response_data, dict):
+                    if 'choices' in response_data and response_data['choices']:
+                        choice = response_data['choices'][0]
+                        if 'message' in choice:
+                            content = choice['message'].get('content', '')
+                            logger.debug(f"[test-model] Content Preview: {content[:200]}...")
+                    elif 'content' in response_data and response_data['content']:
+                        content = str(response_data['content'])
+                        logger.debug(f"[test-model] Content Preview: {content[:200]}...")
+
+            # 检查测试是否成功（基于HTTP状态码）
+            status_code = response.get('status_code', 0)
+            is_success = status_code == 200 and 'error' not in response
+
+            return {
+                "success": is_success,
+                "data": {
+                    "stream": False,
+                    "response": response,
+                },
+                "provider": {
+                    "id": provider.id,
+                    "name": provider.name,
+                    "display_name": provider.display_name,
+                },
+                "model": request.model_name,
+                "endpoint": {
+                    "id": endpoint.id,
+                    "api_format": endpoint.api_format,
+                    "base_url": endpoint.base_url,
+                },
+            }
+
+    except Exception as e:
+        logger.error(f"[test-model] Error testing model {request.model_name}: {e}")
+        return {
+            "success": False,
+            "error": str(e),
+            "provider": {
+                "id": provider.id,
+                "name": provider.name,
+                "display_name": provider.display_name,
+            },
+            "model": request.model_name,
+            "endpoint": {
+                "id": endpoint.id,
+                "api_format": endpoint.api_format,
+                "base_url": endpoint.base_url,
+            } if endpoint else None,
+        }
--- a/src/api/admin/providers/models.py
+++ b/src/api/admin/providers/models.py
@@ -22,16 +22,18 @@ from src.models.api import (
 from src.models.pydantic_models import (
    BatchAssignModelsToProviderRequest,
    BatchAssignModelsToProviderResponse,
+    ImportFromUpstreamRequest,
+    ImportFromUpstreamResponse,
+    ImportFromUpstreamSuccessItem,
+    ImportFromUpstreamErrorItem,
+    ProviderAvailableSourceModel,
+    ProviderAvailableSourceModelsResponse,
 )
 from src.models.database import (
    GlobalModel,
    Model,
    Provider,
 )
-from src.models.pydantic_models import (
-    ProviderAvailableSourceModel,
-    ProviderAvailableSourceModelsResponse,
-)
 from src.services.model.service import ModelService

 router = APIRouter(tags=["Model Management"])
@@ -158,6 +160,28 @@ async def batch_assign_global_models_to_provider(
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)


+@router.post(
+    "/{provider_id}/import-from-upstream",
+    response_model=ImportFromUpstreamResponse,
+)
+async def import_models_from_upstream(
+    provider_id: str,
+    payload: ImportFromUpstreamRequest,
+    request: Request,
+    db: Session = Depends(get_db),
+) -> ImportFromUpstreamResponse:
+    """
+    从上游提供商导入模型
+
+    流程：
+    1. 根据 model_ids 检查全局模型是否存在（按 name 匹配）
+    2. 如不存在，自动创建新的 GlobalModel（使用默认配置）
+    3. 创建 Model 关联到当前 Provider
+    """
+    adapter = AdminImportFromUpstreamAdapter(provider_id=provider_id, payload=payload)
+    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
+
+
 # -------- Adapters --------


@@ -425,3 +449,130 @@ class AdminBatchAssignModelsToProviderAdapter(AdminApiAdapter):
            await invalidate_models_list_cache()

        return BatchAssignModelsToProviderResponse(success=success, errors=errors)
+
+
+@dataclass
+class AdminImportFromUpstreamAdapter(AdminApiAdapter):
+    """从上游提供商导入模型"""
+
+    provider_id: str
+    payload: ImportFromUpstreamRequest
+
+    async def handle(self, context):  # type: ignore[override]
+        db = context.db
+        provider = db.query(Provider).filter(Provider.id == self.provider_id).first()
+        if not provider:
+            raise NotFoundException("Provider not found", "provider")
+
+        success: list[ImportFromUpstreamSuccessItem] = []
+        errors: list[ImportFromUpstreamErrorItem] = []
+
+        # 默认阶梯计费配置（免费）
+        default_tiered_pricing = {
+            "tiers": [
+                {
+                    "up_to": None,
+                    "input_price_per_1m": 0.0,
+                    "output_price_per_1m": 0.0,
+                }
+            ]
+        }
+
+        for model_id in self.payload.model_ids:
+            # 输入验证：检查 model_id 长度
+            if not model_id or len(model_id) > 100:
+                errors.append(
+                    ImportFromUpstreamErrorItem(
+                        model_id=model_id[:50] + "..." if model_id and len(model_id) > 50 else model_id or "<empty>",
+                        error="Invalid model_id: must be 1-100 characters",
+                    )
+                )
+                continue
+
+            try:
+                # 使用 savepoint 确保单个模型导入的原子性
+                savepoint = db.begin_nested()
+                try:
+                    # 1. 检查是否已存在同名的 GlobalModel
+                    global_model = (
+                        db.query(GlobalModel).filter(GlobalModel.name == model_id).first()
+                    )
+                    created_global_model = False
+
+                    if not global_model:
+                        # 2. 创建新的 GlobalModel
+                        global_model = GlobalModel(
+                            name=model_id,
+                            display_name=model_id,
+                            default_tiered_pricing=default_tiered_pricing,
+                            is_active=True,
+                        )
+                        db.add(global_model)
+                        db.flush()
+                        created_global_model = True
+                        logger.info(
+                            f"Created new GlobalModel: {model_id} during upstream import"
+                        )
+
+                    # 3. 检查是否已存在关联
+                    existing = (
+                        db.query(Model)
+                        .filter(
+                            Model.provider_id == self.provider_id,
+                            Model.global_model_id == global_model.id,
+                        )
+                        .first()
+                    )
+                    if existing:
+                        # 已存在关联，提交 savepoint 并记录成功
+                        savepoint.commit()
+                        success.append(
+                            ImportFromUpstreamSuccessItem(
+                                model_id=model_id,
+                                global_model_id=global_model.id,
+                                global_model_name=global_model.name,
+                                provider_model_id=existing.id,
+                                created_global_model=created_global_model,
+                            )
+                        )
+                        continue
+
+                    # 4. 创建新的 Model 记录
+                    new_model = Model(
+                        provider_id=self.provider_id,
+                        global_model_id=global_model.id,
+                        provider_model_name=global_model.name,
+                        is_active=True,
+                    )
+                    db.add(new_model)
+                    db.flush()
+
+                    # 提交 savepoint
+                    savepoint.commit()
+                    success.append(
+                        ImportFromUpstreamSuccessItem(
+                            model_id=model_id,
+                            global_model_id=global_model.id,
+                            global_model_name=global_model.name,
+                            provider_model_id=new_model.id,
+                            created_global_model=created_global_model,
+                        )
+                    )
+                except Exception as e:
+                    # 回滚到 savepoint
+                    savepoint.rollback()
+                    raise e
+            except Exception as e:
+                logger.error(f"Error importing model {model_id}: {e}")
+                errors.append(ImportFromUpstreamErrorItem(model_id=model_id, error=str(e)))
+
+        db.commit()
+        logger.info(
+            f"Imported {len(success)} models from upstream to provider {provider.name} by {context.user.username}"
+        )
+
+        # 清除 /v1/models 列表缓存
+        if success:
+            await invalidate_models_list_cache()
+
+        return ImportFromUpstreamResponse(success=success, errors=errors)
--- a/src/api/admin/system.py
+++ b/src/api/admin/system.py
@@ -436,7 +436,7 @@ class AdminExportConfigAdapter(AdminApiAdapter):
                    {
                        "global_model_name": global_model.name if global_model else None,
                        "provider_model_name": model.provider_model_name,
-                        "provider_model_aliases": model.provider_model_aliases,
+                        "provider_model_mappings": model.provider_model_mappings,
                        "price_per_request": model.price_per_request,
                        "tiered_pricing": model.tiered_pricing,
                        "supports_vision": model.supports_vision,
@@ -790,8 +790,8 @@ class AdminImportConfigAdapter(AdminApiAdapter):
                            )
                        elif merge_mode == "overwrite":
                            existing_model.global_model_id = global_model_id
-                            existing_model.provider_model_aliases = model_data.get(
-                                "provider_model_aliases"
+                            existing_model.provider_model_mappings = model_data.get(
+                                "provider_model_mappings"
                            )
                            existing_model.price_per_request = model_data.get(
                                "price_per_request"
@@ -824,8 +824,8 @@ class AdminImportConfigAdapter(AdminApiAdapter):
                            provider_id=provider_id,
                            global_model_id=global_model_id,
                            provider_model_name=model_data["provider_model_name"],
-                            provider_model_aliases=model_data.get(
-                                "provider_model_aliases"
+                            provider_model_mappings=model_data.get(
+                                "provider_model_mappings"
                            ),
                            price_per_request=model_data.get("price_per_request"),
                            tiered_pricing=model_data.get("tiered_pricing"),
--- a/src/api/dashboard/routes.py
+++ b/src/api/dashboard/routes.py
@@ -13,7 +13,7 @@ from src.api.base.admin_adapter import AdminApiAdapter
 from src.api.base.pipeline import ApiRequestPipeline
 from src.core.enums import UserRole
 from src.database import get_db
-from src.models.database import ApiKey, Provider, RequestCandidate, StatsDaily, Usage
+from src.models.database import ApiKey, Provider, RequestCandidate, StatsDaily, StatsDailyModel, Usage
 from src.models.database import User as DBUser
 from src.services.system.stats_aggregator import StatsAggregatorService
 from src.utils.cache_decorator import cache_result
@@ -893,69 +893,172 @@ class DashboardDailyStatsAdapter(DashboardAdapter):
                })
            current_date += timedelta(days=1)

-        # ==================== 模型统计（仍需实时查询）====================
-        model_query = db.query(Usage)
-        if not is_admin:
-            model_query = model_query.filter(Usage.user_id == user.id)
-        model_query = model_query.filter(
-            and_(Usage.created_at >= start_date, Usage.created_at <= end_date)
-        )
-
-        model_stats = (
-            model_query.with_entities(
-                Usage.model,
-                func.count(Usage.id).label("requests"),
-                func.sum(Usage.total_tokens).label("tokens"),
-                func.sum(Usage.total_cost_usd).label("cost"),
-                func.avg(Usage.response_time_ms).label("avg_response_time"),
+        # ==================== 模型统计 ====================
+        if is_admin:
+            # 管理员：使用预聚合数据 + 今日实时数据
+            # 历史数据从 stats_daily_model 获取
+            historical_model_stats = (
+                db.query(StatsDailyModel)
+                .filter(and_(StatsDailyModel.date >= start_date, StatsDailyModel.date < today))
+                .all()
            )
-            .group_by(Usage.model)
-            .order_by(func.sum(Usage.total_cost_usd).desc())
-            .all()
-        )

-        model_summary = [
-            {
-                "model": stat.model,
-                "requests": stat.requests or 0,
-                "tokens": int(stat.tokens or 0),
-                "cost": float(stat.cost or 0),
-                "avg_response_time": (
-                    float(stat.avg_response_time or 0) / 1000.0 if stat.avg_response_time else 0
-                ),
-                "cost_per_request": float(stat.cost or 0) / max(stat.requests or 1, 1),
-                "tokens_per_request": int(stat.tokens or 0) / max(stat.requests or 1, 1),
-            }
-            for stat in model_stats
-        ]
+            # 按模型汇总历史数据
+            model_agg: dict = {}
+            daily_breakdown: dict = {}

-        daily_model_stats = (
-            model_query.with_entities(
-                func.date(Usage.created_at).label("date"),
-                Usage.model,
-                func.count(Usage.id).label("requests"),
-                func.sum(Usage.total_tokens).label("tokens"),
-                func.sum(Usage.total_cost_usd).label("cost"),
+            for stat in historical_model_stats:
+                model = stat.model
+                if model not in model_agg:
+                    model_agg[model] = {
+                        "requests": 0, "tokens": 0, "cost": 0.0,
+                        "total_response_time": 0.0, "response_count": 0
+                    }
+                model_agg[model]["requests"] += stat.total_requests
+                tokens = (stat.input_tokens + stat.output_tokens +
+                          stat.cache_creation_tokens + stat.cache_read_tokens)
+                model_agg[model]["tokens"] += tokens
+                model_agg[model]["cost"] += stat.total_cost
+                if stat.avg_response_time_ms is not None:
+                    model_agg[model]["total_response_time"] += stat.avg_response_time_ms * stat.total_requests
+                    model_agg[model]["response_count"] += stat.total_requests
+
+                # 按日期分组
+                if stat.date.tzinfo is None:
+                    date_utc = stat.date.replace(tzinfo=timezone.utc)
+                else:
+                    date_utc = stat.date.astimezone(timezone.utc)
+                date_str = date_utc.astimezone(app_tz).date().isoformat()
+
+                daily_breakdown.setdefault(date_str, []).append({
+                    "model": model,
+                    "requests": stat.total_requests,
+                    "tokens": tokens,
+                    "cost": stat.total_cost,
+                })
+
+            # 今日实时模型统计
+            today_model_stats = (
+                db.query(
+                    Usage.model,
+                    func.count(Usage.id).label("requests"),
+                    func.sum(Usage.total_tokens).label("tokens"),
+                    func.sum(Usage.total_cost_usd).label("cost"),
+                    func.avg(Usage.response_time_ms).label("avg_response_time"),
+                )
+                .filter(Usage.created_at >= today)
+                .group_by(Usage.model)
+                .all()
            )
-            .group_by(func.date(Usage.created_at), Usage.model)
-            .order_by(func.date(Usage.created_at).desc(), func.sum(Usage.total_cost_usd).desc())
-            .all()
-        )

-        breakdown = {}
-        for stat in daily_model_stats:
-            date_str = stat.date.isoformat()
-            breakdown.setdefault(date_str, []).append(
+            today_str = today_local.date().isoformat()
+            for stat in today_model_stats:
+                model = stat.model
+                if model not in model_agg:
+                    model_agg[model] = {
+                        "requests": 0, "tokens": 0, "cost": 0.0,
+                        "total_response_time": 0.0, "response_count": 0
+                    }
+                model_agg[model]["requests"] += stat.requests or 0
+                model_agg[model]["tokens"] += int(stat.tokens or 0)
+                model_agg[model]["cost"] += float(stat.cost or 0)
+                if stat.avg_response_time is not None:
+                    model_agg[model]["total_response_time"] += float(stat.avg_response_time) * (stat.requests or 0)
+                    model_agg[model]["response_count"] += stat.requests or 0
+
+                # 今日 breakdown
+                daily_breakdown.setdefault(today_str, []).append({
+                    "model": model,
+                    "requests": stat.requests or 0,
+                    "tokens": int(stat.tokens or 0),
+                    "cost": float(stat.cost or 0),
+                })
+
+            # 构建 model_summary
+            model_summary = []
+            for model, agg in model_agg.items():
+                avg_rt = (agg["total_response_time"] / agg["response_count"] / 1000.0
+                          if agg["response_count"] > 0 else 0)
+                model_summary.append({
+                    "model": model,
+                    "requests": agg["requests"],
+                    "tokens": agg["tokens"],
+                    "cost": agg["cost"],
+                    "avg_response_time": avg_rt,
+                    "cost_per_request": agg["cost"] / max(agg["requests"], 1),
+                    "tokens_per_request": agg["tokens"] / max(agg["requests"], 1),
+                })
+            model_summary.sort(key=lambda x: x["cost"], reverse=True)
+
+            # 填充 model_breakdown
+            for item in formatted:
+                item["model_breakdown"] = daily_breakdown.get(item["date"], [])
+
+        else:
+            # 普通用户：实时查询（数据量较小）
+            model_query = db.query(Usage).filter(
+                and_(
+                    Usage.user_id == user.id,
+                    Usage.created_at >= start_date,
+                    Usage.created_at <= end_date
+                )
+            )
+
+            model_stats = (
+                model_query.with_entities(
+                    Usage.model,
+                    func.count(Usage.id).label("requests"),
+                    func.sum(Usage.total_tokens).label("tokens"),
+                    func.sum(Usage.total_cost_usd).label("cost"),
+                    func.avg(Usage.response_time_ms).label("avg_response_time"),
+                )
+                .group_by(Usage.model)
+                .order_by(func.sum(Usage.total_cost_usd).desc())
+                .all()
+            )
+
+            model_summary = [
                {
                    "model": stat.model,
                    "requests": stat.requests or 0,
                    "tokens": int(stat.tokens or 0),
                    "cost": float(stat.cost or 0),
+                    "avg_response_time": (
+                        float(stat.avg_response_time or 0) / 1000.0 if stat.avg_response_time else 0
+                    ),
+                    "cost_per_request": float(stat.cost or 0) / max(stat.requests or 1, 1),
+                    "tokens_per_request": int(stat.tokens or 0) / max(stat.requests or 1, 1),
                }
+                for stat in model_stats
+            ]
+
+            daily_model_stats = (
+                model_query.with_entities(
+                    func.date(Usage.created_at).label("date"),
+                    Usage.model,
+                    func.count(Usage.id).label("requests"),
+                    func.sum(Usage.total_tokens).label("tokens"),
+                    func.sum(Usage.total_cost_usd).label("cost"),
+                )
+                .group_by(func.date(Usage.created_at), Usage.model)
+                .order_by(func.date(Usage.created_at).desc(), func.sum(Usage.total_cost_usd).desc())
+                .all()
            )

-        for item in formatted:
-            item["model_breakdown"] = breakdown.get(item["date"], [])
+            breakdown = {}
+            for stat in daily_model_stats:
+                date_str = stat.date.isoformat()
+                breakdown.setdefault(date_str, []).append(
+                    {
+                        "model": stat.model,
+                        "requests": stat.requests or 0,
+                        "tokens": int(stat.tokens or 0),
+                        "cost": float(stat.cost or 0),
+                    }
+                )
+
+            for item in formatted:
+                item["model_breakdown"] = breakdown.get(item["date"], [])

        return {
            "daily_stats": formatted,
--- a/src/api/handlers/base/base_handler.py
+++ b/src/api/handlers/base/base_handler.py
@@ -376,6 +376,9 @@ class BaseMessageHandler:

        使用 asyncio 后台任务执行数据库更新，避免阻塞流式传输

+        注意：TTFB（首字节时间）由 StreamContext.record_first_byte_time() 记录，
+        并在最终 record_success 时传递到数据库，避免重复记录导致数据不一致。
+
        Args:
            request_id: 请求 ID，如果不传则使用 self.request_id
        """
@@ -407,6 +410,9 @@ class BaseMessageHandler:

        使用 asyncio 后台任务执行数据库更新，避免阻塞流式传输

+        注意：TTFB（首字节时间）由 StreamContext.record_first_byte_time() 记录，
+        并在最终 record_success 时传递到数据库，避免重复记录导致数据不一致。
+
        Args:
            ctx: 流式上下文，包含 provider_name 和 mapped_model
        """
--- a/src/api/handlers/base/chat_adapter_base.py
+++ b/src/api/handlers/base/chat_adapter_base.py
@@ -19,8 +19,9 @@ Chat Adapter 通用基类
 import time
 import traceback
 from abc import abstractmethod
-from typing import Any, Dict, Optional, Type
+from typing import Any, Dict, Optional, Tuple, Type

+import httpx
 from fastapi import HTTPException
 from fastapi.responses import JSONResponse

@@ -62,6 +63,34 @@ class ChatAdapterBase(ApiAdapter):
    name: str = "chat.base"
    mode = ApiMode.STANDARD

+    # 子类可以配置的特殊方法（用于check_endpoint）
+    @classmethod
+    def build_endpoint_url(cls, base_url: str) -> str:
+        """构建端点URL，子类可以覆盖以自定义URL构建逻辑"""
+        # 默认实现：在base_url后添加特定路径
+        return base_url
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建基础请求头，子类可以覆盖以自定义认证头"""
+        # 默认实现：Bearer token认证
+        return {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回不应被extra_headers覆盖的头部key，子类可以覆盖"""
+        # 默认保护认证相关头部
+        return ("authorization", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建请求体，子类可以覆盖以自定义请求格式转换"""
+        # 默认实现：直接使用请求数据
+        return request_data.copy()
+
    def __init__(self, allowed_api_formats: Optional[list[str]] = None):
        self.allowed_api_formats = allowed_api_formats or [self.FORMAT_ID]

@@ -620,6 +649,98 @@ class ChatAdapterBase(ApiAdapter):
        # 如果所有阶梯都有上限且都超过了，返回最后一个阶梯
        return tiers[-1] if tiers else None

+    # =========================================================================
+    # 模型列表查询 - 子类应覆盖此方法
+    # =========================================================================
+
+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """
+        查询上游 API 支持的模型列表
+
+        这是 Aether 内部发起的请求（非用户透传），用于：
+        - 管理后台查询提供商支持的模型
+        - 自动发现可用模型
+
+        Args:
+            client: httpx 异步客户端
+            base_url: API 基础 URL
+            api_key: API 密钥（已解密）
+            extra_headers: 端点配置的额外请求头
+
+        Returns:
+            (models, error): 模型列表和错误信息
+            - models: 模型信息列表，每个模型至少包含 id 字段
+            - error: 错误信息，成功时为 None
+        """
+        # 默认实现返回空列表，子类应覆盖
+        return [], f"{cls.FORMAT_ID} adapter does not implement fetch_models"
+
+    @classmethod
+    async def check_endpoint(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        request_data: Dict[str, Any],
+        extra_headers: Optional[Dict[str, str]] = None,
+        # 用量计算参数（现在强制记录）
+        db: Optional[Any] = None,
+        user: Optional[Any] = None,
+        provider_name: Optional[str] = None,
+        provider_id: Optional[str] = None,
+        api_key_id: Optional[str] = None,
+        model_name: Optional[str] = None,
+    ) -> Dict[str, Any]:
+        """
+        测试模型连接性（非流式）
+
+        Args:
+            client: httpx 异步客户端
+            base_url: API 基础 URL
+            api_key: API 密钥（已解密）
+            request_data: 请求数据
+            extra_headers: 端点配置的额外请求头
+            db: 数据库会话
+            user: 用户对象
+            provider_name: 提供商名称
+            provider_id: 提供商ID
+            api_key_id: API Key ID
+            model_name: 模型名称
+
+        Returns:
+            测试响应数据
+        """
+        from src.api.handlers.base.endpoint_checker import build_safe_headers, run_endpoint_check
+
+        # 使用子类配置方法构建请求组件
+        url = cls.build_endpoint_url(base_url)
+        base_headers = cls.build_base_headers(api_key)
+        protected_keys = cls.get_protected_header_keys()
+        headers = build_safe_headers(base_headers, extra_headers, protected_keys)
+        body = cls.build_request_body(request_data)
+
+        # 使用通用的endpoint checker执行请求
+        return await run_endpoint_check(
+            client=client,
+            url=url,
+            headers=headers,
+            json_body=body,
+            api_format=cls.name,
+            # 用量计算参数（现在强制记录）
+            db=db,
+            user=user,
+            provider_name=provider_name,
+            provider_id=provider_id,
+            api_key_id=api_key_id,
+            model_name=model_name or request_data.get("model"),
+        )

 # =========================================================================
 # Adapter 注册表 - 用于根据 API format 获取 Adapter 实例
--- a/src/api/handlers/base/chat_handler_base.py
+++ b/src/api/handlers/base/chat_handler_base.py
@@ -260,9 +260,9 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
        mapping = await mapper.get_mapping(source_model, provider_id)

        if mapping and mapping.model:
-            # 使用 select_provider_model_name 支持别名功能
-            # 传入 api_key.id 作为 affinity_key，实现相同用户稳定选择同一别名
-            # 传入 api_format 用于过滤适用的别名作用域
+            # 使用 select_provider_model_name 支持映射功能
+            # 传入 api_key.id 作为 affinity_key，实现相同用户稳定选择同一映射
+            # 传入 api_format 用于过滤适用的映射作用域
            affinity_key = self.api_key.id if self.api_key else None
            mapped_name = mapping.model.select_provider_model_name(
                affinity_key, api_format=self.FORMAT_ID
@@ -484,9 +484,8 @@ class ChatHandlerBase(BaseMessageHandler, ABC):

            stream_response.raise_for_status()

-            # 使用字节流迭代器（避免 aiter_lines 的性能问题）
-            # aiter_raw() 返回原始数据块，无缓冲，实现真正的流式传输
-            byte_iterator = stream_response.aiter_raw()
+            # 使用字节流迭代器（避免 aiter_lines 的性能问题, aiter_bytes 会自动解压 gzip/deflate）
+            byte_iterator = stream_response.aiter_bytes()

            # 预读检测嵌套错误
            prefetched_chunks = await stream_processor.prefetch_and_check_error(
@@ -639,6 +638,8 @@ class ChatHandlerBase(BaseMessageHandler, ABC):

            logger.info(f"  [{self.request_id}] 发送非流式请求: Provider={provider.name}, "
                f"模型={model} -> {mapped_model or '无映射'}")
+            logger.debug(f"  [{self.request_id}] 请求URL: {url}")
+            logger.debug(f"  [{self.request_id}] 请求体stream字段: {provider_payload.get('stream', 'N/A')}")

            # 创建 HTTP 客户端（支持代理配置）
            from src.clients.http_client import HTTPClientPool
@@ -662,10 +663,32 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
                        response_headers=response_headers,
                    )
                elif resp.status_code >= 500:
-                    raise ProviderNotAvailableException(f"提供商服务不可用: {provider.name}")
-                elif resp.status_code != 200:
+                    # 记录响应体以便调试
+                    error_body = ""
+                    try:
+                        error_body = resp.text[:1000]
+                        logger.error(f"  [{self.request_id}] 上游返回5xx错误: status={resp.status_code}, body={error_body[:500]}")
+                    except Exception:
+                        pass
                    raise ProviderNotAvailableException(
-                        f"提供商返回错误: {provider.name}, 状态: {resp.status_code}"
+                        f"提供商服务不可用: {provider.name}",
+                        provider_name=str(provider.name),
+                        upstream_status=resp.status_code,
+                        upstream_response=error_body,
+                    )
+                elif resp.status_code != 200:
+                    # 记录非200响应以便调试
+                    error_body = ""
+                    try:
+                        error_body = resp.text[:1000]
+                        logger.warning(f"  [{self.request_id}] 上游返回非200: status={resp.status_code}, body={error_body[:500]}")
+                    except Exception:
+                        pass
+                    raise ProviderNotAvailableException(
+                        f"提供商返回错误: {provider.name}, 状态: {resp.status_code}",
+                        provider_name=str(provider.name),
+                        upstream_status=resp.status_code,
+                        upstream_response=error_body,
                    )

                response_json = resp.json()
--- a/src/api/handlers/base/cli_adapter_base.py
+++ b/src/api/handlers/base/cli_adapter_base.py
@@ -17,8 +17,9 @@ CLI Adapter 通用基类

 import time
 import traceback
-from typing import Any, Dict, Optional, Type
+from typing import Any, Dict, Optional, Tuple, Type

+import httpx
 from fastapi import HTTPException
 from fastapi.responses import JSONResponse

@@ -580,6 +581,179 @@ class CliAdapterBase(ApiAdapter):

        return tiers[-1] if tiers else None

+    # =========================================================================
+    # 模型列表查询 - 子类应覆盖此方法
+    # =========================================================================
+
+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """
+        查询上游 API 支持的模型列表
+
+        这是 Aether 内部发起的请求（非用户透传），用于：
+        - 管理后台查询提供商支持的模型
+        - 自动发现可用模型
+
+        Args:
+            client: httpx 异步客户端
+            base_url: API 基础 URL
+            api_key: API 密钥（已解密）
+            extra_headers: 端点配置的额外请求头
+
+        Returns:
+            (models, error): 模型列表和错误信息
+            - models: 模型信息列表，每个模型至少包含 id 字段
+            - error: 错误信息，成功时为 None
+        """
+        # 默认实现返回空列表，子类应覆盖
+        return [], f"{cls.FORMAT_ID} adapter does not implement fetch_models"
+
+    @classmethod
+    async def check_endpoint(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        request_data: Dict[str, Any],
+        extra_headers: Optional[Dict[str, str]] = None,
+        # 用量计算参数
+        db: Optional[Any] = None,
+        user: Optional[Any] = None,
+        provider_name: Optional[str] = None,
+        provider_id: Optional[str] = None,
+        api_key_id: Optional[str] = None,
+        model_name: Optional[str] = None,
+    ) -> Dict[str, Any]:
+        """
+        测试模型连接性（非流式）
+
+        通用的CLI endpoint测试方法，使用配置方法模式：
+        - build_endpoint_url(): 构建请求URL
+        - build_base_headers(): 构建基础认证头
+        - get_protected_header_keys(): 获取受保护的头部key
+        - build_request_body(): 构建请求体
+        - get_cli_user_agent(): 获取CLI User-Agent（子类可覆盖）
+
+        Args:
+            client: httpx 异步客户端
+            base_url: API 基础 URL
+            api_key: API 密钥（已解密）
+            request_data: 请求数据
+            extra_headers: 端点配置的额外请求头
+            db: 数据库会话
+            user: 用户对象
+            provider_name: 提供商名称
+            provider_id: 提供商ID
+            api_key_id: API密钥ID
+            model_name: 模型名称
+
+        Returns:
+            测试响应数据
+        """
+        from src.api.handlers.base.endpoint_checker import build_safe_headers, run_endpoint_check
+
+        # 构建请求组件
+        url = cls.build_endpoint_url(base_url, request_data, model_name)
+        base_headers = cls.build_base_headers(api_key)
+        protected_keys = cls.get_protected_header_keys()
+
+        # 添加CLI User-Agent
+        cli_user_agent = cls.get_cli_user_agent()
+        if cli_user_agent:
+            base_headers["User-Agent"] = cli_user_agent
+            protected_keys = tuple(list(protected_keys) + ["user-agent"])
+
+        headers = build_safe_headers(base_headers, extra_headers, protected_keys)
+        body = cls.build_request_body(request_data)
+
+        # 获取有效的模型名称
+        effective_model_name = model_name or request_data.get("model")
+
+        return await run_endpoint_check(
+            client=client,
+            url=url,
+            headers=headers,
+            json_body=body,
+            api_format=cls.name,
+            # 用量计算参数（现在强制记录）
+            db=db,
+            user=user,
+            provider_name=provider_name,
+            provider_id=provider_id,
+            api_key_id=api_key_id,
+            model_name=effective_model_name,
+        )
+
+    # =========================================================================
+    # CLI Adapter 配置方法 - 子类应覆盖这些方法而不是整个 check_endpoint
+    # =========================================================================
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str, request_data: Dict[str, Any], model_name: Optional[str] = None) -> str:
+        """
+        构建CLI API端点URL - 子类应覆盖
+
+        Args:
+            base_url: API基础URL
+            request_data: 请求数据
+            model_name: 模型名称（某些API需要，如Gemini）
+
+        Returns:
+            完整的端点URL
+        """
+        raise NotImplementedError(f"{cls.FORMAT_ID} adapter must implement build_endpoint_url")
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """
+        构建CLI API认证头 - 子类应覆盖
+
+        Args:
+            api_key: API密钥
+
+        Returns:
+            基础认证头部字典
+        """
+        raise NotImplementedError(f"{cls.FORMAT_ID} adapter must implement build_base_headers")
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """
+        返回CLI API的保护头部key - 子类应覆盖
+
+        Returns:
+            保护头部key的元组
+        """
+        raise NotImplementedError(f"{cls.FORMAT_ID} adapter must implement get_protected_header_keys")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """
+        构建CLI API请求体 - 子类应覆盖
+
+        Args:
+            request_data: 请求数据
+
+        Returns:
+            请求体字典
+        """
+        raise NotImplementedError(f"{cls.FORMAT_ID} adapter must implement build_request_body")
+
+    @classmethod
+    def get_cli_user_agent(cls) -> Optional[str]:
+        """
+        获取CLI User-Agent - 子类可覆盖
+
+        Returns:
+            CLI User-Agent字符串，如果不需要则为None
+        """
+        return None

 # =========================================================================
 # CLI Adapter 注册表 - 用于根据 API format 获取 CLI Adapter 实例
--- a/src/api/handlers/base/cli_handler_base.py
+++ b/src/api/handlers/base/cli_handler_base.py
@@ -57,8 +57,10 @@ from src.models.database import (
    ProviderEndpoint,
    User,
 )
+from src.config.settings import config
 from src.services.provider.transport import build_provider_url
 from src.utils.sse_parser import SSEEventParser
+from src.utils.timeout import read_first_chunk_with_ttfb_timeout


 class CliMessageHandlerBase(BaseMessageHandler):
@@ -136,7 +138,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
        查找逻辑：
        1. 直接通过 GlobalModel.name 匹配
        2. 查找该 Provider 的 Model 实现
-        3. 使用 provider_model_name / provider_model_aliases 选择最终名称
+        3. 使用 provider_model_name / provider_model_mappings 选择最终名称

        Args:
            source_model: 用户请求的模型名（必须是 GlobalModel.name）
@@ -153,9 +155,9 @@ class CliMessageHandlerBase(BaseMessageHandler):
        logger.debug(f"[CLI] _get_mapped_model: source={source_model}, provider={provider_id[:8]}..., mapping={mapping}")

        if mapping and mapping.model:
-            # 使用 select_provider_model_name 支持别名功能
-            # 传入 api_key.id 作为 affinity_key，实现相同用户稳定选择同一别名
-            # 传入 api_format 用于过滤适用的别名作用域
+            # 使用 select_provider_model_name 支持模型映射功能
+            # 传入 api_key.id 作为 affinity_key，实现相同用户稳定选择同一映射
+            # 传入 api_format 用于过滤适用的映射作用域
            affinity_key = self.api_key.id if self.api_key else None
            mapped_name = mapping.model.select_provider_model_name(
                affinity_key, api_format=self.FORMAT_ID
@@ -400,7 +402,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
        ctx.provider_api_format = str(endpoint.api_format) if endpoint.api_format else ""
        ctx.client_api_format = ctx.api_format  # 已在 process_stream 中设置

-        # 获取模型映射（别名/映射 → 实际模型名）
+        # 获取模型映射（映射名称 → 实际模型名）
        mapped_model = await self._get_mapped_model(
            source_model=ctx.model,
            provider_id=str(provider.id),
@@ -474,8 +476,8 @@ class CliMessageHandlerBase(BaseMessageHandler):

            stream_response.raise_for_status()

-            # 使用字节流迭代器（避免 aiter_lines 的性能问题）
-            byte_iterator = stream_response.aiter_raw()
+            # 使用字节流迭代器（避免 aiter_lines 的性能问题, aiter_bytes 会自动解压 gzip/deflate）
+            byte_iterator = stream_response.aiter_bytes()

            # 预读第一个数据块，检测嵌套错误（HTTP 200 但响应体包含错误）
            prefetched_chunks = await self._prefetch_and_check_embedded_error(
@@ -529,7 +531,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
            # 检查是否需要格式转换
            needs_conversion = self._needs_format_conversion(ctx)

-            async for chunk in stream_response.aiter_raw():
+            async for chunk in stream_response.aiter_bytes():
                # 在第一次输出数据前更新状态为 streaming
                if not streaming_status_updated:
                    self._update_usage_to_streaming_with_ctx(ctx)
@@ -672,6 +674,8 @@ class CliMessageHandlerBase(BaseMessageHandler):

        同时检测 HTML 响应（通常是 base_url 配置错误导致返回网页）。

+        首次读取时会应用 TTFB（首字节超时）检测，超时则触发故障转移。
+
        Args:
            byte_iterator: 字节流迭代器
            provider: Provider 对象
@@ -684,6 +688,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
        Raises:
            EmbeddedErrorException: 如果检测到嵌套错误
            ProviderNotAvailableException: 如果检测到 HTML 响应（配置错误）
+            ProviderTimeoutException: 如果首字节超时（TTFB timeout）
        """
        prefetched_chunks: list = []
        max_prefetch_lines = 5  # 最多预读5行来检测错误
@@ -704,7 +709,19 @@ class CliMessageHandlerBase(BaseMessageHandler):
            else:
                provider_parser = self.parser

-            async for chunk in byte_iterator:
+            # 使用共享的 TTFB 超时函数读取首字节
+            ttfb_timeout = config.stream_first_byte_timeout
+            first_chunk, aiter = await read_first_chunk_with_ttfb_timeout(
+                byte_iterator,
+                timeout=ttfb_timeout,
+                request_id=self.request_id,
+                provider_name=str(provider.name),
+            )
+            prefetched_chunks.append(first_chunk)
+            buffer += first_chunk
+
+            # 继续读取剩余的预读数据
+            async for chunk in aiter:
                prefetched_chunks.append(chunk)
                buffer += chunk

@@ -785,12 +802,21 @@ class CliMessageHandlerBase(BaseMessageHandler):
                if should_stop or line_count >= max_prefetch_lines:
                    break

-        except EmbeddedErrorException:
-            # 重新抛出嵌套错误
+        except (EmbeddedErrorException, ProviderTimeoutException, ProviderNotAvailableException):
+            # 重新抛出可重试的 Provider 异常，触发故障转移
            raise
+        except (OSError, IOError) as e:
+            # 网络 I/O 异常：记录警告，可能需要重试
+            logger.warning(
+                f"  [{self.request_id}] 预读流时发生网络异常: {type(e).__name__}: {e}"
+            )
        except Exception as e:
-            # 其他异常（如网络错误）在预读阶段发生，记录日志但不中断
-            logger.debug(f"  [{self.request_id}] 预读流时发生异常: {e}")
+            # 未预期的严重异常：记录错误并重新抛出，避免掩盖问题
+            logger.error(
+                f"  [{self.request_id}] 预读流时发生严重异常: {type(e).__name__}: {e}",
+                exc_info=True
+            )
+            raise

        return prefetched_chunks

@@ -1382,7 +1408,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
            provider_name = str(provider.name)
            provider_api_format = str(endpoint.api_format) if endpoint.api_format else ""

-            # 获取模型映射（别名/映射 → 实际模型名）
+            # 获取模型映射（映射名称 → 实际模型名）
            mapped_model = await self._get_mapped_model(
                source_model=model,
                provider_id=str(provider.id),
--- a/src/api/handlers/base/endpoint_checker.py
+++ b/src/api/handlers/base/endpoint_checker.py
--- a/src/api/handlers/base/stream_processor.py
+++ b/src/api/handlers/base/stream_processor.py
@@ -25,10 +25,12 @@ from src.api.handlers.base.content_extractors import (
 from src.api.handlers.base.parsers import get_parser_for_format
 from src.api.handlers.base.response_parser import ResponseParser
 from src.api.handlers.base.stream_context import StreamContext
-from src.core.exceptions import EmbeddedErrorException
+from src.config.settings import config
+from src.core.exceptions import EmbeddedErrorException, ProviderTimeoutException
 from src.core.logger import logger
 from src.models.database import Provider, ProviderEndpoint
 from src.utils.sse_parser import SSEEventParser
+from src.utils.timeout import read_first_chunk_with_ttfb_timeout


@dataclass
@@ -170,6 +172,8 @@ class StreamProcessor:
        某些 Provider（如 Gemini）可能返回 HTTP 200，但在响应体中包含错误信息。
        这种情况需要在流开始输出之前检测，以便触发重试逻辑。

+        首次读取时会应用 TTFB（首字节超时）检测，超时则触发故障转移。
+
        Args:
            byte_iterator: 字节流迭代器
            provider: Provider 对象
@@ -182,6 +186,7 @@ class StreamProcessor:

        Raises:
            EmbeddedErrorException: 如果检测到嵌套错误
+            ProviderTimeoutException: 如果首字节超时（TTFB timeout）
        """
        prefetched_chunks: list = []
        parser = self.get_parser_for_provider(ctx)
@@ -192,7 +197,19 @@ class StreamProcessor:
        decoder = codecs.getincrementaldecoder("utf-8")(errors="replace")

        try:
-            async for chunk in byte_iterator:
+            # 使用共享的 TTFB 超时函数读取首字节
+            ttfb_timeout = config.stream_first_byte_timeout
+            first_chunk, aiter = await read_first_chunk_with_ttfb_timeout(
+                byte_iterator,
+                timeout=ttfb_timeout,
+                request_id=self.request_id,
+                provider_name=str(provider.name),
+            )
+            prefetched_chunks.append(first_chunk)
+            buffer += first_chunk
+
+            # 继续读取剩余的预读数据
+            async for chunk in aiter:
                prefetched_chunks.append(chunk)
                buffer += chunk

@@ -262,10 +279,21 @@ class StreamProcessor:
                if should_stop or line_count >= max_prefetch_lines:
                    break

-        except EmbeddedErrorException:
+        except (EmbeddedErrorException, ProviderTimeoutException):
+            # 重新抛出可重试的 Provider 异常，触发故障转移
            raise
+        except (OSError, IOError) as e:
+            # 网络 I/O <20><><EFBFBD>常：记录警告，可能需要重试
+            logger.warning(
+                f"  [{self.request_id}] 预读流时发生网络异常: {type(e).__name__}: {e}"
+            )
        except Exception as e:
-            logger.debug(f"  [{self.request_id}] 预读流时发生异常: {e}")
+            # 未预期的严重异常：记录错误并重新抛出，避免掩盖问题
+            logger.error(
+                f"  [{self.request_id}] 预读流时发生严重异常: {type(e).__name__}: {e}",
+                exc_info=True
+            )
+            raise

        return prefetched_chunks

--- a/src/api/handlers/base/utils.py
+++ b/src/api/handlers/base/utils.py
@@ -4,17 +4,28 @@ Handler 基础工具函数

 from typing import Any, Dict, Optional

+from src.core.logger import logger
+

 def extract_cache_creation_tokens(usage: Dict[str, Any]) -> int:
    """
-    提取缓存创建 tokens（兼容新旧格式）
+    提取缓存创建 tokens（兼容三种格式）

-    Claude API 在不同版本中使用了不同的字段名来表示缓存创建 tokens：
-    - 新格式（2024年后）：使用 claude_cache_creation_5_m_tokens 和
-      claude_cache_creation_1_h_tokens 分别表示 5 分钟和 1 小时缓存
-    - 旧格式：使用 cache_creation_input_tokens 表示总的缓存创建 tokens
+    根据 Anthropic API 文档，支持三种格式（按优先级）：

-    此函数自动检测并适配两种格式，优先使用新格式。
+    1. **嵌套格式（优先级最高）**：
+       usage.cache_creation.ephemeral_5m_input_tokens
+       usage.cache_creation.ephemeral_1h_input_tokens
+
+    2. **扁平新格式（优先级第二）**：
+       usage.claude_cache_creation_5_m_tokens
+       usage.claude_cache_creation_1_h_tokens
+
+    3. **旧格式（优先级第三）**：
+       usage.cache_creation_input_tokens
+
+    优先使用嵌套格式，如果嵌套格式字段存在但值为 0，则智能 fallback 到旧格式。
+    扁平格式和嵌套格式互斥，按顺序检查。

    Args:
        usage: API 响应中的 usage 字典
@@ -22,20 +33,63 @@ def extract_cache_creation_tokens(usage: Dict[str, Any]) -> int:
    Returns:
        缓存创建 tokens 总数
    """
-    # 检查新格式字段是否存在（而非值是否为 0）
-    # 如果字段存在，即使值为 0 也是合法的，不应 fallback 到旧格式
-    has_new_format = (
+    # 1. 检查嵌套格式（最新格式）
+    cache_creation = usage.get("cache_creation")
+    if isinstance(cache_creation, dict):
+        cache_5m = int(cache_creation.get("ephemeral_5m_input_tokens", 0))
+        cache_1h = int(cache_creation.get("ephemeral_1h_input_tokens", 0))
+        total = cache_5m + cache_1h
+
+        if total > 0:
+            logger.debug(
+                f"Using nested cache_creation: 5m={cache_5m}, 1h={cache_1h}, total={total}"
+            )
+            return total
+
+        # 嵌套格式存在但为 0，fallback 到旧格式
+        old_format = int(usage.get("cache_creation_input_tokens", 0))
+        if old_format > 0:
+            logger.debug(
+                f"Nested cache_creation is 0, using old format: {old_format}"
+            )
+            return old_format
+
+        # 都是 0，返回 0
+        return 0
+
+    # 2. 检查扁平新格式
+    has_flat_format = (
        "claude_cache_creation_5_m_tokens" in usage
        or "claude_cache_creation_1_h_tokens" in usage
    )

-    if has_new_format:
-        cache_5m = usage.get("claude_cache_creation_5_m_tokens", 0)
-        cache_1h = usage.get("claude_cache_creation_1_h_tokens", 0)
-        return int(cache_5m) + int(cache_1h)
+    if has_flat_format:
+        cache_5m = int(usage.get("claude_cache_creation_5_m_tokens", 0))
+        cache_1h = int(usage.get("claude_cache_creation_1_h_tokens", 0))
+        total = cache_5m + cache_1h

-    # 回退到旧格式
-    return int(usage.get("cache_creation_input_tokens", 0))
+        if total > 0:
+            logger.debug(
+                f"Using flat new format: 5m={cache_5m}, 1h={cache_1h}, total={total}"
+            )
+            return total
+
+        # 扁平格式存在但为 0，fallback 到旧格式
+        old_format = int(usage.get("cache_creation_input_tokens", 0))
+        if old_format > 0:
+            logger.debug(
+                f"Flat cache_creation is 0, using old format: {old_format}"
+            )
+            return old_format
+
+        # 都是 0，返回 0
+        return 0
+
+    # 3. 回退到旧格式
+    old_format = int(usage.get("cache_creation_input_tokens", 0))
+    if old_format > 0:
+        logger.debug(f"Using old format: cache_creation_input_tokens={old_format}")
+    return old_format


 def build_sse_headers(extra_headers: Optional[Dict[str, str]] = None) -> Dict[str, str]:
--- a/src/api/handlers/claude/adapter.py
+++ b/src/api/handlers/claude/adapter.py
@@ -4,8 +4,9 @@ Claude Chat Adapter - 基于 ChatAdapterBase 的 Claude Chat API 适配器
 处理 /v1/messages 端点的 Claude Chat 格式请求。
 """

-from typing import Any, Dict, Optional, Type
+from typing import Any, Dict, Optional, Tuple, Type

+import httpx
 from fastapi import HTTPException, Request
 from fastapi.responses import JSONResponse

@@ -155,6 +156,91 @@ class ClaudeChatAdapter(ChatAdapterBase):
            "thinking_enabled": bool(request_obj.thinking),
        }

+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 Claude API 支持的模型列表"""
+        headers = {
+            "x-api-key": api_key,
+            "Authorization": f"Bearer {api_key}",
+            "anthropic-version": "2023-06-01",
+        }
+        if extra_headers:
+            # 防止 extra_headers 覆盖认证头
+            safe_headers = {
+                k: v for k, v in extra_headers.items()
+                if k.lower() not in ("x-api-key", "authorization", "anthropic-version")
+            }
+            headers.update(safe_headers)
+
+        # 构建 /v1/models URL
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            models_url = f"{base_url}/models"
+        else:
+            models_url = f"{base_url}/v1/models"
+
+        try:
+            response = await client.get(models_url, headers=headers)
+            logger.debug(f"Claude models request to {models_url}: status={response.status_code}")
+            if response.status_code == 200:
+                data = response.json()
+                models = []
+                if "data" in data:
+                    models = data["data"]
+                elif isinstance(data, list):
+                    models = data
+                # 为每个模型添加 api_format 字段
+                for m in models:
+                    m["api_format"] = cls.FORMAT_ID
+                return models, None
+            else:
+                error_body = response.text[:500] if response.text else "(empty)"
+                error_msg = f"HTTP {response.status_code}: {error_body}"
+                logger.warning(f"Claude models request to {models_url} failed: {error_msg}")
+                return [], error_msg
+        except Exception as e:
+            error_msg = f"Request error: {str(e)}"
+            logger.warning(f"Failed to fetch Claude models from {models_url}: {e}")
+            return [], error_msg
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str) -> str:
+        """构建Claude API端点URL"""
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            return f"{base_url}/messages"
+        else:
+            return f"{base_url}/v1/messages"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建Claude API认证头"""
+        return {
+            "x-api-key": api_key,
+            "Content-Type": "application/json",
+            "anthropic-version": "2023-06-01",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回Claude API的保护头部key"""
+        return ("x-api-key", "content-type", "anthropic-version")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建Claude API请求体"""
+        return {
+            "model": request_data.get("model"),
+            "max_tokens": request_data.get("max_tokens", 100),
+            "messages": request_data.get("messages", []),
+        }
+

 def build_claude_adapter(x_app_header: Optional[str]):
    """根据 x-app 头部构造 Chat 或 Claude Code 适配器。"""
--- a/src/api/handlers/claude_cli/adapter.py
+++ b/src/api/handlers/claude_cli/adapter.py
@@ -4,13 +4,15 @@ Claude CLI Adapter - 基于通用 CLI Adapter 基类的简化实现
 继承 CliAdapterBase，只需配置 FORMAT_ID 和 HANDLER_CLASS。
 """

-from typing import Any, Dict, Optional, Type
+from typing import Any, AsyncIterator, Dict, Optional, Tuple, Type, Union

+import httpx
 from fastapi import Request

 from src.api.handlers.base.cli_adapter_base import CliAdapterBase, register_cli_adapter
 from src.api.handlers.base.cli_handler_base import CliMessageHandlerBase
-from src.api.handlers.claude.adapter import ClaudeCapabilityDetector
+from src.api.handlers.claude.adapter import ClaudeCapabilityDetector, ClaudeChatAdapter
+from src.config.settings import config


@register_cli_adapter
@@ -99,5 +101,66 @@ class ClaudeCliAdapter(CliAdapterBase):
            "system_present": bool(payload.get("system")),
        }

+    # =========================================================================
+    # 模型列表查询
+    # =========================================================================
+
+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 Claude API 支持的模型列表（带 CLI User-Agent）"""
+        # 复用 ClaudeChatAdapter 的实现，添加 CLI User-Agent
+        cli_headers = {"User-Agent": config.internal_user_agent_claude_cli}
+        if extra_headers:
+            cli_headers.update(extra_headers)
+        models, error = await ClaudeChatAdapter.fetch_models(
+            client, base_url, api_key, cli_headers
+        )
+        # 更新 api_format 为 CLI 格式
+        for m in models:
+            m["api_format"] = cls.FORMAT_ID
+        return models, error
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str, request_data: Dict[str, Any], model_name: Optional[str] = None) -> str:
+        """构建Claude CLI API端点URL"""
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            return f"{base_url}/messages"
+        else:
+            return f"{base_url}/v1/messages"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建Claude CLI API认证头"""
+        return {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回Claude CLI API的保护头部key"""
+        return ("authorization", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建Claude CLI API请求体"""
+        return {
+            "model": request_data.get("model"),
+            "max_tokens": request_data.get("max_tokens", 100),
+            "messages": request_data.get("messages", []),
+        }
+
+    @classmethod
+    def get_cli_user_agent(cls) -> Optional[str]:
+        """获取Claude CLI User-Agent"""
+        return config.internal_user_agent_claude_cli
+

 __all__ = ["ClaudeCliAdapter"]
--- a/src/api/handlers/gemini/adapter.py
+++ b/src/api/handlers/gemini/adapter.py
@@ -4,13 +4,15 @@ Gemini Chat Adapter
 处理 Gemini API 格式的请求适配
 """

-from typing import Any, Dict, Optional, Type
+from typing import Any, AsyncIterator, Dict, Optional, Tuple, Type, Union

+import httpx
 from fastapi import HTTPException, Request
 from fastapi.responses import JSONResponse

 from src.api.handlers.base.chat_adapter_base import ChatAdapterBase, register_adapter
 from src.api.handlers.base.chat_handler_base import ChatHandlerBase
+from src.api.handlers.base.endpoint_checker import build_safe_headers, run_endpoint_check
 from src.core.logger import logger
 from src.models.gemini import GeminiRequest

@@ -151,6 +153,141 @@ class GeminiChatAdapter(ChatAdapterBase):
            },
        )

+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 Gemini API 支持的模型列表"""
+        # 兼容 base_url 已包含 /v1beta 的情况
+        base_url_clean = base_url.rstrip("/")
+        if base_url_clean.endswith("/v1beta"):
+            models_url = f"{base_url_clean}/models?key={api_key}"
+        else:
+            models_url = f"{base_url_clean}/v1beta/models?key={api_key}"
+
+        headers: Dict[str, str] = {}
+        if extra_headers:
+            headers.update(extra_headers)
+
+        try:
+            response = await client.get(models_url, headers=headers)
+            logger.debug(f"Gemini models request to {models_url}: status={response.status_code}")
+            if response.status_code == 200:
+                data = response.json()
+                if "models" in data:
+                    # 转换为统一格式
+                    return [
+                        {
+                            "id": m.get("name", "").replace("models/", ""),
+                            "owned_by": "google",
+                            "display_name": m.get("displayName", ""),
+                            "api_format": cls.FORMAT_ID,
+                        }
+                        for m in data["models"]
+                    ], None
+                return [], None
+            else:
+                error_body = response.text[:500] if response.text else "(empty)"
+                error_msg = f"HTTP {response.status_code}: {error_body}"
+                logger.warning(f"Gemini models request to {models_url} failed: {error_msg}")
+                return [], error_msg
+        except Exception as e:
+            error_msg = f"Request error: {str(e)}"
+            logger.warning(f"Failed to fetch Gemini models from {models_url}: {e}")
+            return [], error_msg
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str) -> str:
+        """构建Gemini API端点URL"""
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1beta"):
+            return base_url  # 子类需要处理model参数
+        else:
+            return f"{base_url}/v1beta"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建Gemini API认证头"""
+        return {
+            "x-goog-api-key": api_key,
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回Gemini API的保护头部key"""
+        return ("x-goog-api-key", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建Gemini API请求体"""
+        return {
+            "contents": request_data.get("messages", []),
+            "generationConfig": {
+                "maxOutputTokens": request_data.get("max_tokens", 100),
+                "temperature": request_data.get("temperature", 0.7),
+            },
+            "safetySettings": [
+                {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE"}
+            ],
+        }
+
+    @classmethod
+    async def check_endpoint(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        request_data: Dict[str, Any],
+        extra_headers: Optional[Dict[str, str]] = None,
+        # 用量计算参数
+        db: Optional[Any] = None,
+        user: Optional[Any] = None,
+        provider_name: Optional[str] = None,
+        provider_id: Optional[str] = None,
+        api_key_id: Optional[str] = None,
+        model_name: Optional[str] = None,
+    ) -> Dict[str, Any]:
+        """测试 Gemini API 模型连接性（非流式）"""
+        # Gemini需要从request_data或model_name参数获取model名称
+        effective_model_name = model_name or request_data.get("model", "")
+        if not effective_model_name:
+            return {
+                "error": "Model name is required for Gemini API",
+                "status_code": 400,
+            }
+
+        # 使用基类配置方法，但重写URL构建逻辑
+        base_url = cls.build_endpoint_url(base_url)
+        url = f"{base_url}/models/{effective_model_name}:generateContent"
+
+        # 构建请求组件
+        base_headers = cls.build_base_headers(api_key)
+        protected_keys = cls.get_protected_header_keys()
+        headers = build_safe_headers(base_headers, extra_headers, protected_keys)
+        body = cls.build_request_body(request_data)
+
+        # 使用基类的通用endpoint checker
+        from src.api.handlers.base.endpoint_checker import run_endpoint_check
+        return await run_endpoint_check(
+            client=client,
+            url=url,
+            headers=headers,
+            json_body=body,
+            api_format=cls.name,
+            # 用量计算参数（现在强制记录）
+            db=db,
+            user=user,
+            provider_name=provider_name,
+            provider_id=provider_id,
+            api_key_id=api_key_id,
+            model_name=effective_model_name,
+        )
+

 def build_gemini_adapter(x_app_header: str = "") -> GeminiChatAdapter:
    """
--- a/src/api/handlers/gemini_cli/adapter.py
+++ b/src/api/handlers/gemini_cli/adapter.py
@@ -4,12 +4,15 @@ Gemini CLI Adapter - 基于通用 CLI Adapter 基类的实现
 继承 CliAdapterBase，处理 Gemini CLI 格式的请求。
 """

-from typing import Any, Dict, Optional, Type
+from typing import Any, AsyncIterator, Dict, Optional, Tuple, Type, Union

+import httpx
 from fastapi import Request

 from src.api.handlers.base.cli_adapter_base import CliAdapterBase, register_cli_adapter
 from src.api.handlers.base.cli_handler_base import CliMessageHandlerBase
+from src.api.handlers.gemini.adapter import GeminiChatAdapter
+from src.config.settings import config


@register_cli_adapter
@@ -95,6 +98,77 @@ class GeminiCliAdapter(CliAdapterBase):
            "safety_settings_count": len(payload.get("safety_settings") or []),
        }

+    # =========================================================================
+    # 模型列表查询
+    # =========================================================================
+
+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 Gemini API 支持的模型列表（带 CLI User-Agent）"""
+        # 复用 GeminiChatAdapter 的实现，添加 CLI User-Agent
+        cli_headers = {"User-Agent": config.internal_user_agent_gemini_cli}
+        if extra_headers:
+            cli_headers.update(extra_headers)
+        models, error = await GeminiChatAdapter.fetch_models(
+            client, base_url, api_key, cli_headers
+        )
+        # 更新 api_format 为 CLI 格式
+        for m in models:
+            m["api_format"] = cls.FORMAT_ID
+        return models, error
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str, request_data: Dict[str, Any], model_name: Optional[str] = None) -> str:
+        """构建Gemini CLI API端点URL"""
+        effective_model_name = model_name or request_data.get("model", "")
+        if not effective_model_name:
+            raise ValueError("Model name is required for Gemini API")
+
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1beta"):
+            prefix = base_url
+        else:
+            prefix = f"{base_url}/v1beta"
+        return f"{prefix}/models/{effective_model_name}:generateContent"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建Gemini CLI API认证头"""
+        return {
+            "x-goog-api-key": api_key,
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回Gemini CLI API的保护头部key"""
+        return ("x-goog-api-key", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建Gemini CLI API请求体"""
+        return {
+            "contents": request_data.get("messages", []),
+            "generationConfig": {
+                "maxOutputTokens": request_data.get("max_tokens", 100),
+                "temperature": request_data.get("temperature", 0.7),
+            },
+            "safetySettings": [
+                {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE"}
+            ],
+        }
+
+    @classmethod
+    def get_cli_user_agent(cls) -> Optional[str]:
+        """获取Gemini CLI User-Agent"""
+        return config.internal_user_agent_gemini_cli
+

 def build_gemini_cli_adapter(x_app_header: str = "") -> GeminiCliAdapter:
    """
--- a/src/api/handlers/openai/adapter.py
+++ b/src/api/handlers/openai/adapter.py
@@ -4,12 +4,14 @@ OpenAI Chat Adapter - 基于 ChatAdapterBase 的 OpenAI Chat API 适配器
 处理 /v1/chat/completions 端点的 OpenAI Chat 格式请求。
 """

-from typing import Any, Dict, Optional, Type
+from typing import Any, AsyncIterator, Dict, Optional, Tuple, Type, Union

+import httpx
 from fastapi import Request
 from fastapi.responses import JSONResponse

 from src.api.handlers.base.chat_adapter_base import ChatAdapterBase, register_adapter
+from src.api.handlers.base.endpoint_checker import build_safe_headers, run_endpoint_check
 from src.api.handlers.base.chat_handler_base import ChatHandlerBase
 from src.core.logger import logger
 from src.models.openai import OpenAIRequest
@@ -105,5 +107,80 @@ class OpenAIChatAdapter(ChatAdapterBase):
            },
        )

+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 OpenAI 兼容 API 支持的模型列表"""
+        headers = {
+            "Authorization": f"Bearer {api_key}",
+        }
+        if extra_headers:
+            # 防止 extra_headers 覆盖 Authorization
+            safe_headers = {k: v for k, v in extra_headers.items() if k.lower() != "authorization"}
+            headers.update(safe_headers)
+
+        # 构建 /v1/models URL
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            models_url = f"{base_url}/models"
+        else:
+            models_url = f"{base_url}/v1/models"
+
+        try:
+            response = await client.get(models_url, headers=headers)
+            logger.debug(f"OpenAI models request to {models_url}: status={response.status_code}")
+            if response.status_code == 200:
+                data = response.json()
+                models = []
+                if "data" in data:
+                    models = data["data"]
+                elif isinstance(data, list):
+                    models = data
+                # 为每个模型添加 api_format 字段
+                for m in models:
+                    m["api_format"] = cls.FORMAT_ID
+                return models, None
+            else:
+                error_body = response.text[:500] if response.text else "(empty)"
+                error_msg = f"HTTP {response.status_code}: {error_body}"
+                logger.warning(f"OpenAI models request to {models_url} failed: {error_msg}")
+                return [], error_msg
+        except Exception as e:
+            error_msg = f"Request error: {str(e)}"
+            logger.warning(f"Failed to fetch models from {models_url}: {e}")
+            return [], error_msg
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str) -> str:
+        """构建OpenAI API端点URL"""
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            return f"{base_url}/chat/completions"
+        else:
+            return f"{base_url}/v1/chat/completions"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建OpenAI API认证头"""
+        return {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回OpenAI API的保护头部key"""
+        return ("authorization", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建OpenAI API请求体"""
+        return request_data.copy()
+

 __all__ = ["OpenAIChatAdapter"]
--- a/src/api/handlers/openai_cli/adapter.py
+++ b/src/api/handlers/openai_cli/adapter.py
@@ -4,12 +4,15 @@ OpenAI CLI Adapter - 基于通用 CLI Adapter 基类的简化实现
 继承 CliAdapterBase，只需配置 FORMAT_ID 和 HANDLER_CLASS。
 """

-from typing import Optional, Type
+from typing import Any, AsyncIterator, Dict, Optional, Tuple, Type, Union

+import httpx
 from fastapi import Request

 from src.api.handlers.base.cli_adapter_base import CliAdapterBase, register_cli_adapter
 from src.api.handlers.base.cli_handler_base import CliMessageHandlerBase
+from src.api.handlers.openai.adapter import OpenAIChatAdapter
+from src.config.settings import config


@register_cli_adapter
@@ -40,5 +43,62 @@ class OpenAICliAdapter(CliAdapterBase):
            return authorization.replace("Bearer ", "")
        return None

+    # =========================================================================
+    # 模型列表查询
+    # =========================================================================
+
+    @classmethod
+    async def fetch_models(
+        cls,
+        client: httpx.AsyncClient,
+        base_url: str,
+        api_key: str,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Tuple[list, Optional[str]]:
+        """查询 OpenAI 兼容 API 支持的模型列表（带 CLI User-Agent）"""
+        # 复用 OpenAIChatAdapter 的实现，添加 CLI User-Agent
+        cli_headers = {"User-Agent": config.internal_user_agent_openai_cli}
+        if extra_headers:
+            cli_headers.update(extra_headers)
+        models, error = await OpenAIChatAdapter.fetch_models(
+            client, base_url, api_key, cli_headers
+        )
+        # 更新 api_format 为 CLI 格式
+        for m in models:
+            m["api_format"] = cls.FORMAT_ID
+        return models, error
+
+    @classmethod
+    def build_endpoint_url(cls, base_url: str, request_data: Dict[str, Any], model_name: Optional[str] = None) -> str:
+        """构建OpenAI CLI API端点URL"""
+        base_url = base_url.rstrip("/")
+        if base_url.endswith("/v1"):
+            return f"{base_url}/chat/completions"
+        else:
+            return f"{base_url}/v1/chat/completions"
+
+    @classmethod
+    def build_base_headers(cls, api_key: str) -> Dict[str, str]:
+        """构建OpenAI CLI API认证头"""
+        return {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    @classmethod
+    def get_protected_header_keys(cls) -> tuple:
+        """返回OpenAI CLI API的保护头部key"""
+        return ("authorization", "content-type")
+
+    @classmethod
+    def build_request_body(cls, request_data: Dict[str, Any]) -> Dict[str, Any]:
+        """构建OpenAI CLI API请求体"""
+        return request_data.copy()
+
+    @classmethod
+    def get_cli_user_agent(cls) -> Optional[str]:
+        """获取OpenAI CLI User-Agent"""
+        return config.internal_user_agent_openai_cli
+

 __all__ = ["OpenAICliAdapter"]
--- a/src/config/constants.py
+++ b/src/config/constants.py
@@ -77,7 +77,10 @@ class ConcurrencyDefaults:
    MAX_CONCURRENT_LIMIT = 200

    # 最小并发限制下限
-    MIN_CONCURRENT_LIMIT = 1
+    # 设置为 3 而不是 1，因为预留机制（10%预留给缓存用户）会导致
+    # 当 learned_max_concurrent=1 时新用户实际可用槽位为 0，永远无法命中
+    # 注意：当 limit < 10 时，预留机制实际不生效（预留槽位 = 0），这是可接受的
+    MIN_CONCURRENT_LIMIT = 3

    # === 探测性扩容参数 ===
    # 探测性扩容间隔（分钟）- 长时间无 429 且有流量时尝试扩容
--- a/src/config/settings.py
+++ b/src/config/settings.py
@@ -56,10 +56,11 @@ class Config:

        # Redis 依赖策略（生产默认必需，开发默认可选，可通过 REDIS_REQUIRED 覆盖）
        redis_required_env = os.getenv("REDIS_REQUIRED")
-        if redis_required_env is None:
-            self.require_redis = self.environment not in {"development", "test", "testing"}
-        else:
+        if redis_required_env is not None:
            self.require_redis = redis_required_env.lower() == "true"
+        else:
+            # 保持向后兼容：开发环境可选，生产环境必需
+            self.require_redis = self.environment not in {"development", "test", "testing"}

        # CORS配置 - 使用环境变量配置允许的源
        # 格式: 逗号分隔的域名列表,如 "http://localhost:3000,https://example.com"
@@ -133,6 +134,18 @@ class Config:
        self.concurrency_slot_ttl = int(os.getenv("CONCURRENCY_SLOT_TTL", "600"))
        self.cache_reservation_ratio = float(os.getenv("CACHE_RESERVATION_RATIO", "0.1"))

+        # 限流降级策略配置
+        # RATE_LIMIT_FAIL_OPEN: 当限流服务（Redis）异常时的行为
+        #
+        # True (默认): fail-open - 放行请求（优先可用性）
+        #   风险：Redis 故障期间无法限流，可能被滥用
+        #   适用：API 网关作为关键基础设施，必须保持高可用
+        #
+        # False: fail-close - 拒绝所有请求（优先安全性）
+        #   风险：Redis 故障会导致 API 网关不可用
+        #   适用：有严格速率限制要求的安全敏感场景
+        self.rate_limit_fail_open = os.getenv("RATE_LIMIT_FAIL_OPEN", "true").lower() == "true"
+
        # HTTP 请求超时配置（秒）
        self.http_connect_timeout = float(os.getenv("HTTP_CONNECT_TIMEOUT", "10.0"))
        self.http_write_timeout = float(os.getenv("HTTP_WRITE_TIMEOUT", "60.0"))
@@ -141,9 +154,23 @@ class Config:
        # 流式处理配置
        # STREAM_PREFETCH_LINES: 预读行数，用于检测嵌套错误
        # STREAM_STATS_DELAY: 统计记录延迟（秒），等待流完全关闭
+        # STREAM_FIRST_BYTE_TIMEOUT: 首字节超时（秒），等待首字节超过此时间触发故障转移
+        #   范围: 10-120 秒，默认 30 秒（必须小于 http_write_timeout 避免竞态）
        self.stream_prefetch_lines = int(os.getenv("STREAM_PREFETCH_LINES", "5"))
        self.stream_stats_delay = float(os.getenv("STREAM_STATS_DELAY", "0.1"))
-        # 注：流式平滑输出配置已移至数据库系统设置（stream_smoothing_*）
+        self.stream_first_byte_timeout = self._parse_ttfb_timeout()
+
+        # 内部请求 User-Agent 配置（用于查询上游模型列表等）
+        # 可通过环境变量覆盖默认值，模拟对应 CLI 客户端
+        self.internal_user_agent_claude_cli = os.getenv(
+            "CLAUDE_CLI_USER_AGENT", "claude-code/1.0.1"
+        )
+        self.internal_user_agent_openai_cli = os.getenv(
+            "OPENAI_CLI_USER_AGENT", "openai-codex/1.0"
+        )
+        self.internal_user_agent_gemini_cli = os.getenv(
+            "GEMINI_CLI_USER_AGENT", "gemini-cli/0.1.0"
+        )

        # 验证连接池配置
        self._validate_pool_config()
@@ -166,6 +193,39 @@ class Config:
        """智能计算最大溢出连接数 - 与 pool_size 相同"""
        return self.db_pool_size

+    def _parse_ttfb_timeout(self) -> float:
+        """
+        解析 TTFB 超时配置，带错误处理和范围限制
+
+        TTFB (Time To First Byte) 用于检测慢响应的 Provider，超时触发故障转移。
+        此值必须小于 http_write_timeout，避免竞态条件。
+
+        Returns:
+            超时时间（秒），范围 10-120，默认 30
+        """
+        default_timeout = 30.0
+        min_timeout = 10.0
+        max_timeout = 120.0  # 必须小于 http_write_timeout (默认 60s) 的 2 倍
+
+        raw_value = os.getenv("STREAM_FIRST_BYTE_TIMEOUT", str(default_timeout))
+        try:
+            timeout = float(raw_value)
+        except ValueError:
+            # 延迟导入，避免循环依赖（Config 初始化时 logger 可能未就绪）
+            self._ttfb_config_warning = (
+                f"无效的 STREAM_FIRST_BYTE_TIMEOUT 配置 '{raw_value}'，使用默认值 {default_timeout}秒"
+            )
+            return default_timeout
+
+        # 范围限制
+        clamped = max(min_timeout, min(max_timeout, timeout))
+        if clamped != timeout:
+            self._ttfb_config_warning = (
+                f"STREAM_FIRST_BYTE_TIMEOUT={timeout}秒超出范围 [{min_timeout}-{max_timeout}]，"
+                f"已调整为 {clamped}秒"
+            )
+        return clamped
+
    def _validate_pool_config(self) -> None:
        """验证连接池配置是否安全"""
        total_per_worker = self.db_pool_size + self.db_max_overflow
@@ -213,6 +273,10 @@ class Config:
        if hasattr(self, "_pool_config_warning") and self._pool_config_warning:
            logger.warning(self._pool_config_warning)

+        # TTFB 超时配置警告
+        if hasattr(self, "_ttfb_config_warning") and self._ttfb_config_warning:
+            logger.warning(self._ttfb_config_warning)
+
        # 管理员密码检查（必须在环境变量中设置）
        if hasattr(self, "_missing_admin_password") and self._missing_admin_password:
            logger.error("必须设置 ADMIN_PASSWORD 环境变量！")
--- a/src/core/enums.py
+++ b/src/core/enums.py
@@ -10,8 +10,8 @@ class APIFormat(Enum):
    """API格式枚举 - 决定请求/响应的处理方式"""

    CLAUDE = "CLAUDE"  # Claude API 格式
-    OPENAI = "OPENAI"  # OpenAI API 格式
    CLAUDE_CLI = "CLAUDE_CLI"  # Claude CLI API 格式（使用 authorization: Bearer）
+    OPENAI = "OPENAI"  # OpenAI API 格式
    OPENAI_CLI = "OPENAI_CLI"  # OpenAI CLI/Responses API 格式（用于 Claude Code 等客户端）
    GEMINI = "GEMINI"  # Google Gemini API 格式
    GEMINI_CLI = "GEMINI_CLI"  # Gemini CLI API 格式
--- a/src/core/exceptions.py
+++ b/src/core/exceptions.py
@@ -188,12 +188,16 @@ class ProviderNotAvailableException(ProviderException):
        message: str,
        provider_name: Optional[str] = None,
        request_metadata: Optional[Any] = None,
+        upstream_status: Optional[int] = None,
+        upstream_response: Optional[str] = None,
    ):
        super().__init__(
            message=message,
            provider_name=provider_name,
            request_metadata=request_metadata,
        )
+        self.upstream_status = upstream_status
+        self.upstream_response = upstream_response


 class ProviderTimeoutException(ProviderException):
@@ -442,6 +446,36 @@ class EmbeddedErrorException(ProviderException):
        self.error_status = error_status


+class ProviderCompatibilityException(ProviderException):
+    """Provider 兼容性错误异常 - 应该触发故障转移
+
+    用于处理因 Provider 不支持某些参数或功能导致的错误。
+    这类错误不是用户请求本身的问题，换一个 Provider 可能就能成功，应该触发故障转移。
+
+    常见场景：
+    - Unsupported parameter（不支持的参数）
+    - Unsupported model（不支持的模型）
+    - Unsupported feature（不支持的功能）
+    """
+
+    def __init__(
+        self,
+        message: str,
+        provider_name: Optional[str] = None,
+        status_code: int = 400,
+        upstream_error: Optional[str] = None,
+        request_metadata: Optional[Any] = None,
+    ):
+        self.upstream_error = upstream_error
+        super().__init__(
+            message=message,
+            provider_name=provider_name,
+            request_metadata=request_metadata,
+        )
+        # 覆盖状态码为 400（保持与上游一致）
+        self.status_code = status_code
+
+
 class UpstreamClientException(ProxyException):
    """上游返回的客户端错误异常 - HTTP 4xx 错误，不应该重试

--- a/src/core/metrics.py
+++ b/src/core/metrics.py
@@ -50,7 +50,7 @@ model_mapping_resolution_total = Counter(
    "model_mapping_resolution_total",
    "Total number of model mapping resolutions",
    ["method", "cache_hit"],
-    # method: direct_match, provider_model_name, alias, not_found
+    # method: direct_match, provider_model_name, mapping, not_found
    # cache_hit: true, false
 )

--- a/src/main.py
+++ b/src/main.py
@@ -4,13 +4,10 @@
 """

 from contextlib import asynccontextmanager
-from pathlib import Path

 import uvicorn
-from fastapi import FastAPI, HTTPException, Request
+from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import FileResponse
-from fastapi.staticfiles import StaticFiles

 from src.api.admin import router as admin_router
 from src.api.announcements import router as announcement_router
@@ -299,33 +296,6 @@ app.include_router(dashboard_router)  # 仪表盘端点
 app.include_router(public_router)  # 公开API端点（用户可查看提供商和模型）
 app.include_router(monitoring_router)  # 监控端点

-# 静态文件服务（前端构建产物）
-# 检查前端构建目录是否存在
-frontend_dist = Path(__file__).parent.parent / "frontend" / "dist"
-if frontend_dist.exists():
-    # 挂载静态资源目录
-    app.mount("/assets", StaticFiles(directory=str(frontend_dist / "assets")), name="assets")
-
-    # SPA catch-all路由 - 必须放在最后
-    @app.get("/{full_path:path}")
-    async def serve_spa(request: Request, full_path: str):
-        """
-        处理所有未匹配的GET请求，返回index.html供前端路由处理
-        仅对非API路径生效
-        """
-        # 如果是API路径，不处理
-        if full_path in {"api", "v1"} or full_path.startswith(("api/", "v1/")):
-            raise HTTPException(status_code=404, detail="Not Found")
-
-        # 返回index.html，让前端路由处理
-        index_file = frontend_dist / "index.html"
-        if index_file.exists():
-            return FileResponse(str(index_file))
-        else:
-            raise HTTPException(status_code=404, detail="Frontend not built")
-
-else:
-    logger.warning("前端构建目录不存在，前端路由将无法使用")


 def main():
--- a/src/middleware/plugin_middleware.py
+++ b/src/middleware/plugin_middleware.py
@@ -336,10 +336,44 @@ class PluginMiddleware:
                    )
                return result
            return None
+        except ConnectionError as e:
+            # Redis 连接错误：根据配置决定
+            logger.warning(f"Rate limit connection error: {e}")
+            if config.rate_limit_fail_open:
+                return None
+            else:
+                return RateLimitResult(
+                    allowed=False,
+                    remaining=0,
+                    retry_after=30,
+                    message="Rate limit service unavailable"
+                )
+        except TimeoutError as e:
+            # 超时错误：可能是负载过高，根据配置决定
+            logger.warning(f"Rate limit timeout: {e}")
+            if config.rate_limit_fail_open:
+                return None
+            else:
+                return RateLimitResult(
+                    allowed=False,
+                    remaining=0,
+                    retry_after=30,
+                    message="Rate limit service timeout"
+                )
        except Exception as e:
-            logger.error(f"Rate limit error: {e}")
-            # 发生错误时允许请求通过
-            return None
+            logger.error(f"Rate limit error: {type(e).__name__}: {e}")
+            # 其他异常：根据配置决定
+            if config.rate_limit_fail_open:
+                # fail-open: 异常时放行请求（优先可用性）
+                return None
+            else:
+                # fail-close: 异常时拒绝请求（优先安全性）
+                return RateLimitResult(
+                    allowed=False,
+                    remaining=0,
+                    retry_after=60,
+                    message="Rate limit service error"
+                )

    async def _call_pre_request_plugins(self, request: Request) -> None:
        """调用请求前的插件（当前保留扩展点）"""
--- a/src/models/admin_requests.py
+++ b/src/models/admin_requests.py
@@ -317,6 +317,7 @@ class UpdateUserRequest(BaseModel):

    username: Optional[str] = Field(None, min_length=1, max_length=50)
    email: Optional[str] = Field(None, max_length=100)
+    password: Optional[str] = Field(None, min_length=6, max_length=128, description="新密码（留空保持不变）")
    quota_usd: Optional[float] = Field(None, ge=0)
    is_active: Optional[bool] = None
    role: Optional[str] = None
--- a/src/models/api.py
+++ b/src/models/api.py
@@ -346,9 +346,9 @@ class ModelCreate(BaseModel):
    provider_model_name: str = Field(
        ..., min_length=1, max_length=200, description="Provider 侧的主模型名称"
    )
-    provider_model_aliases: Optional[List[dict]] = Field(
+    provider_model_mappings: Optional[List[dict]] = Field(
        None,
-        description="模型名称别名列表，格式: [{'name': 'alias1', 'priority': 1}, ...]",
+        description="模型名称映射列表，格式: [{'name': 'alias1', 'priority': 1}, ...]",
    )
    global_model_id: str = Field(..., description="关联的 GlobalModel ID（必填）")
    # 按次计费配置 - 可选，为空时使用 GlobalModel 默认值
@@ -376,9 +376,9 @@ class ModelUpdate(BaseModel):
    """更新模型请求"""

    provider_model_name: Optional[str] = Field(None, min_length=1, max_length=200)
-    provider_model_aliases: Optional[List[dict]] = Field(
+    provider_model_mappings: Optional[List[dict]] = Field(
        None,
-        description="模型名称别名列表，格式: [{'name': 'alias1', 'priority': 1}, ...]",
+        description="模型名称映射列表，格式: [{'name': 'alias1', 'priority': 1}, ...]",
    )
    global_model_id: Optional[str] = None
    # 按次计费配置
@@ -404,7 +404,7 @@ class ModelResponse(BaseModel):
    provider_id: str
    global_model_id: Optional[str]
    provider_model_name: str
-    provider_model_aliases: Optional[List[dict]] = None
+    provider_model_mappings: Optional[List[dict]] = None

    # 按次计费配置
    price_per_request: Optional[float] = None
--- a/src/models/database.py
+++ b/src/models/database.py
@@ -671,10 +671,10 @@ class Model(Base):

    # Provider 映射配置
    provider_model_name = Column(String(200), nullable=False)  # Provider 侧的主模型名称
-    # 模型名称别名列表（带优先级），用于同一模型在 Provider 侧有多个名称变体的场景
+    # 模型名称映射列表（带优先级），用于同一模型在 Provider 侧有多个名称变体的场景
    # 格式: [{"name": "Claude-Sonnet-4.5", "priority": 1}, {"name": "Claude-Sonnet-4-5", "priority": 2}]
    # 为空时只使用 provider_model_name
-    provider_model_aliases = Column(JSON, nullable=True, default=None)
+    provider_model_mappings = Column(JSON, nullable=True, default=None)

    # 按次计费配置（每次请求的固定费用，美元）- 可为空，为空时使用 GlobalModel 的默认值
    price_per_request = Column(Float, nullable=True)  # 每次请求固定费用
@@ -820,25 +820,25 @@ class Model(Base):
    ) -> str:
        """按优先级选择要使用的 Provider 模型名称

-        如果配置了 provider_model_aliases，按优先级选择（数字越小越优先）；
-        相同优先级的别名通过哈希分散实现负载均衡（与 Key 调度策略一致）；
+        如果配置了 provider_model_mappings，按优先级选择（数字越小越优先）；
+        相同优先级的映射通过哈希分散实现负载均衡（与 Key 调度策略一致）；
        否则返回 provider_model_name。

        Args:
-            affinity_key: 用于哈希分散的亲和键（如用户 API Key 哈希），确保同一用户稳定选择同一别名
-            api_format: 当前请求的 API 格式（如 CLAUDE、OPENAI 等），用于过滤适用的别名
+            affinity_key: 用于哈希分散的亲和键（如用户 API Key 哈希），确保同一用户稳定选择同一映射
+            api_format: 当前请求的 API 格式（如 CLAUDE、OPENAI 等），用于过滤适用的映射
        """
        import hashlib

-        if not self.provider_model_aliases:
+        if not self.provider_model_mappings:
            return self.provider_model_name

-        raw_aliases = self.provider_model_aliases
-        if not isinstance(raw_aliases, list) or len(raw_aliases) == 0:
+        raw_mappings = self.provider_model_mappings
+        if not isinstance(raw_mappings, list) or len(raw_mappings) == 0:
            return self.provider_model_name

-        aliases: list[dict] = []
-        for raw in raw_aliases:
+        mappings: list[dict] = []
+        for raw in raw_mappings:
            if not isinstance(raw, dict):
                continue
            name = raw.get("name")
@@ -846,10 +846,10 @@ class Model(Base):
                continue

            # 检查 api_formats 作用域（如果配置了且当前有 api_format）
-            alias_api_formats = raw.get("api_formats")
-            if api_format and alias_api_formats:
+            mapping_api_formats = raw.get("api_formats")
+            if api_format and mapping_api_formats:
                # 如果配置了作用域，只有匹配时才生效
-                if isinstance(alias_api_formats, list) and api_format not in alias_api_formats:
+                if isinstance(mapping_api_formats, list) and api_format not in mapping_api_formats:
                    continue

            raw_priority = raw.get("priority", 1)
@@ -860,47 +860,47 @@ class Model(Base):
            if priority < 1:
                priority = 1

-            aliases.append({"name": name.strip(), "priority": priority})
+            mappings.append({"name": name.strip(), "priority": priority})

-        if not aliases:
+        if not mappings:
            return self.provider_model_name

        # 按优先级排序（数字越小越优先）
-        sorted_aliases = sorted(aliases, key=lambda x: x["priority"])
+        sorted_mappings = sorted(mappings, key=lambda x: x["priority"])

        # 获取最高优先级（最小数字）
-        highest_priority = sorted_aliases[0]["priority"]
+        highest_priority = sorted_mappings[0]["priority"]

-        # 获取所有最高优先级的别名
-        top_priority_aliases = [
-            alias for alias in sorted_aliases
-            if alias["priority"] == highest_priority
+        # 获取所有最高优先级的映射
+        top_priority_mappings = [
+            mapping for mapping in sorted_mappings
+            if mapping["priority"] == highest_priority
        ]

-        # 如果有多个相同优先级的别名，通过哈希分散选择
-        if len(top_priority_aliases) > 1 and affinity_key:
-            # 为每个别名计算哈希得分，选择得分最小的
-            def hash_score(alias: dict) -> int:
-                combined = f"{affinity_key}:{alias['name']}"
+        # 如果有多个相同优先级的映射，通过哈希分散选择
+        if len(top_priority_mappings) > 1 and affinity_key:
+            # 为每个映射计算哈希得分，选择得分最小的
+            def hash_score(mapping: dict) -> int:
+                combined = f"{affinity_key}:{mapping['name']}"
                return int(hashlib.md5(combined.encode()).hexdigest(), 16)

-            selected = min(top_priority_aliases, key=hash_score)
-        elif len(top_priority_aliases) > 1:
+            selected = min(top_priority_mappings, key=hash_score)
+        elif len(top_priority_mappings) > 1:
            # 没有 affinity_key 时，使用确定性选择（按名称排序后取第一个）
            # 避免随机选择导致同一请求重试时选择不同的模型名称
-            selected = min(top_priority_aliases, key=lambda x: x["name"])
+            selected = min(top_priority_mappings, key=lambda x: x["name"])
        else:
-            selected = top_priority_aliases[0]
+            selected = top_priority_mappings[0]

        return selected["name"]

    def get_all_provider_model_names(self) -> list[str]:
-        """获取所有可用的 Provider 模型名称（主名称 + 别名）"""
+        """获取所有可用的 Provider 模型名称（主名称 + 映射名称）"""
        names = [self.provider_model_name]
-        if self.provider_model_aliases:
-            for alias in self.provider_model_aliases:
-                if isinstance(alias, dict) and alias.get("name"):
-                    names.append(alias["name"])
+        if self.provider_model_mappings:
+            for mapping in self.provider_model_mappings:
+                if isinstance(mapping, dict) and mapping.get("name"):
+                    names.append(mapping["name"])
        return names


@@ -1308,6 +1308,53 @@ class StatsDaily(Base):
    )


+class StatsDailyModel(Base):
+    """每日模型统计快照 - 用于快速查询每日模型维度数据"""
+
+    __tablename__ = "stats_daily_model"
+
+    id = Column(String(36), primary_key=True, default=lambda: str(uuid.uuid4()))
+
+    # 统计日期 (UTC)
+    date = Column(DateTime(timezone=True), nullable=False, index=True)
+
+    # 模型名称
+    model = Column(String(100), nullable=False)
+
+    # 请求统计
+    total_requests = Column(Integer, default=0, nullable=False)
+
+    # Token 统计
+    input_tokens = Column(BigInteger, default=0, nullable=False)
+    output_tokens = Column(BigInteger, default=0, nullable=False)
+    cache_creation_tokens = Column(BigInteger, default=0, nullable=False)
+    cache_read_tokens = Column(BigInteger, default=0, nullable=False)
+
+    # 成本统计 (USD)
+    total_cost = Column(Float, default=0.0, nullable=False)
+
+    # 性能统计
+    avg_response_time_ms = Column(Float, default=0.0, nullable=False)
+
+    # 时间戳
+    created_at = Column(
+        DateTime(timezone=True), default=lambda: datetime.now(timezone.utc), nullable=False
+    )
+    updated_at = Column(
+        DateTime(timezone=True),
+        default=lambda: datetime.now(timezone.utc),
+        onupdate=lambda: datetime.now(timezone.utc),
+        nullable=False,
+    )
+
+    # 唯一约束：每个模型每天只有一条记录
+    __table_args__ = (
+        UniqueConstraint("date", "model", name="uq_stats_daily_model"),
+        Index("idx_stats_daily_model_date", "date"),
+        Index("idx_stats_daily_model_date_model", "date", "model"),
+    )
+
+
 class StatsSummary(Base):
    """全局统计汇总 - 单行记录，存储截止到昨天的累计数据"""

--- a/src/models/endpoint_models.py
+++ b/src/models/endpoint_models.py
@@ -226,8 +226,11 @@ class EndpointAPIKeyUpdate(BaseModel):
    global_priority: Optional[int] = Field(
        default=None, description="全局 Key 优先级（全局 Key 优先模式，数字越小越优先）"
    )
-    # 注意：max_concurrent=None 表示不更新，要切换为自适应模式请使用专用 API
-    max_concurrent: Optional[int] = Field(default=None, ge=1, description="最大并发数")
+    # max_concurrent: 使用特殊标记区分"未提供"和"设置为 null（自适应模式）"
+    # - 不提供字段：不更新
+    # - 提供 null：切换为自适应模式
+    # - 提供数字：设置固定并发限制
+    max_concurrent: Optional[int] = Field(default=None, ge=1, description="最大并发数（null=自适应模式）")
    rate_limit: Optional[int] = Field(default=None, ge=1, description="速率限制")
    daily_limit: Optional[int] = Field(default=None, ge=1, description="每日限制")
    monthly_limit: Optional[int] = Field(default=None, ge=1, description="每月限制")
--- a/src/models/pydantic_models.py
+++ b/src/models/pydantic_models.py
@@ -301,6 +301,36 @@ class BatchAssignModelsToProviderResponse(BaseModel):
    errors: List[dict]


+class ImportFromUpstreamRequest(BaseModel):
+    """从上游提供商导入模型请求"""
+
+    model_ids: List[str] = Field(..., min_length=1, description="上游模型 ID 列表")
+
+
+class ImportFromUpstreamSuccessItem(BaseModel):
+    """导入成功的模型信息"""
+
+    model_id: str = Field(..., description="上游模型 ID")
+    global_model_id: str = Field(..., description="GlobalModel ID")
+    global_model_name: str = Field(..., description="GlobalModel 名称")
+    provider_model_id: str = Field(..., description="Provider Model ID")
+    created_global_model: bool = Field(..., description="是否新创建了 GlobalModel")
+
+
+class ImportFromUpstreamErrorItem(BaseModel):
+    """导入失败的模型信息"""
+
+    model_id: str = Field(..., description="上游模型 ID")
+    error: str = Field(..., description="错误信息")
+
+
+class ImportFromUpstreamResponse(BaseModel):
+    """从上游提供商导入模型响应"""
+
+    success: List[ImportFromUpstreamSuccessItem]
+    errors: List[ImportFromUpstreamErrorItem]
+
+
 __all__ = [
    "BatchAssignModelsToProviderRequest",
    "BatchAssignModelsToProviderResponse",
@@ -311,6 +341,10 @@ __all__ = [
    "GlobalModelResponse",
    "GlobalModelUpdate",
    "GlobalModelWithStats",
+    "ImportFromUpstreamErrorItem",
+    "ImportFromUpstreamRequest",
+    "ImportFromUpstreamResponse",
+    "ImportFromUpstreamSuccessItem",
    "ModelCapabilities",
    "ModelCatalogItem",
    "ModelCatalogProviderDetail",
--- a/src/services/auth/service.py
+++ b/src/services/auth/service.py
@@ -27,7 +27,7 @@ if not config.jwt_secret_key:
    if config.environment == "production":
        raise ValueError("JWT_SECRET_KEY must be set in production environment!")
    config.jwt_secret_key = secrets.token_urlsafe(32)
-    logger.warning(f"JWT_SECRET_KEY未在环境变量中找到，已生成随机密钥用于开发: {config.jwt_secret_key[:10]}...")
+    logger.warning("JWT_SECRET_KEY未在环境变量中找到，已生成随机密钥用于开发")
    logger.warning("生产环境请设置JWT_SECRET_KEY环境变量!")

 JWT_SECRET_KEY = config.jwt_secret_key
--- a/src/services/cache/aware_scheduler.py
+++ b/src/services/cache/aware_scheduler.py
@@ -30,6 +30,8 @@

 from __future__ import annotations

+import hashlib
+import random
 import time
 from dataclasses import dataclass
 from typing import TYPE_CHECKING, Dict, List, Optional, Tuple, Union
@@ -589,14 +591,14 @@ class CacheAwareScheduler:

        target_format = normalize_api_format(api_format)

-        # 0. 解析 model_name 到 GlobalModel（支持直接匹配和别名匹配，使用 ModelCacheService）
+        # 0. 解析 model_name 到 GlobalModel（支持直接匹配和映射名匹配，使用 ModelCacheService）
        global_model = await ModelCacheService.resolve_global_model_by_name_or_alias(db, model_name)

        if not global_model:
            logger.warning(f"GlobalModel not found: {model_name}")
            raise ModelNotSupportedException(model=model_name)

-        # 使用 GlobalModel.id 作为缓存亲和性的模型标识，确保别名和规范名都能命中同一个缓存
+        # 使用 GlobalModel.id 作为缓存亲和性的模型标识，确保映射名和规范名都能命中同一个缓存
        global_model_id: str = str(global_model.id)
        requested_model_name = model_name
        resolved_model_name = str(global_model.name)
@@ -751,19 +753,19 @@ class CacheAwareScheduler:

        支持两种匹配方式：
        1. 直接匹配 GlobalModel.name
-        2. 通过 ModelCacheService 匹配别名（全局查找）
+        2. 通过 ModelCacheService 匹配映射名（全局查找）

        Args:
            db: 数据库会话
            provider: Provider 对象
-            model_name: 模型名称（可以是 GlobalModel.name 或别名）
+            model_name: 模型名称（可以是 GlobalModel.name 或映射名）
            is_stream: 是否是流式请求，如果为 True 则同时检查流式支持
            capability_requirements: 能力需求（可选），用于检查模型是否支持所需能力

        Returns:
            (is_supported, skip_reason, supported_capabilities) - 是否支持、跳过原因、模型支持的能力列表
        """
-        # 使用 ModelCacheService 解析模型名称（支持别名）
+        # 使用 ModelCacheService 解析模型名称（支持映射名）
        global_model = await ModelCacheService.resolve_global_model_by_name_or_alias(db, model_name)

        if not global_model:
@@ -914,7 +916,7 @@ class CacheAwareScheduler:
            db: 数据库会话
            providers: Provider 列表
            target_format: 目标 API 格式
-            model_name: 模型名称（用户请求的名称，可能是别名）
+            model_name: 模型名称（用户请求的名称，可能是映射名）
            affinity_key: 亲和性标识符（通常为API Key ID）
            resolved_model_name: 解析后的 GlobalModel.name（用于 Key.allowed_models 校验）
            max_candidates: 最大候选数
@@ -956,7 +958,16 @@ class CacheAwareScheduler:

                # 获取活跃的 Key 并按 internal_priority + 负载均衡排序
                active_keys = [key for key in endpoint.api_keys if key.is_active]
-                keys = self._shuffle_keys_by_internal_priority(active_keys, affinity_key)
+                # 检查是否所有 Key 都是 TTL=0（轮换模式）
+                # 如果所有 Key 的 cache_ttl_minutes 都是 0 或 None，则使用随机排序
+                use_random = all(
+                    (key.cache_ttl_minutes or 0) == 0 for key in active_keys
+                ) if active_keys else False
+                if use_random and len(active_keys) > 1:
+                    logger.debug(
+                        f"  Endpoint {endpoint.id[:8]}... 启用 Key 轮换模式 (TTL=0, {len(active_keys)} keys)"
+                    )
+                keys = self._shuffle_keys_by_internal_priority(active_keys, affinity_key, use_random)

                for key in keys:
                    # Key 级别的能力检查（模型级别的能力检查已在上面完成）
@@ -1170,6 +1181,7 @@ class CacheAwareScheduler:
        self,
        keys: List[ProviderAPIKey],
        affinity_key: Optional[str] = None,
+        use_random: bool = False,
    ) -> List[ProviderAPIKey]:
        """
        对 API Key 按 internal_priority 分组，同优先级内部基于 affinity_key 进行确定性打乱
@@ -1178,10 +1190,12 @@ class CacheAwareScheduler:
        - 数字越小越优先使用
        - 同优先级 Key 之间实现负载均衡
        - 使用 affinity_key 哈希确保同一请求 Key 的请求稳定（避免破坏缓存亲和性）
+        - 当 use_random=True 时，使用随机排序实现轮换（用于 TTL=0 的场景）

        Args:
            keys: API Key 列表
            affinity_key: 亲和性标识符（通常为 API Key ID，用于确定性打乱）
+            use_random: 是否使用随机排序（TTL=0 时为 True）

        Returns:
            排序后的 Key 列表
@@ -1198,28 +1212,35 @@ class CacheAwareScheduler:
            priority = key.internal_priority if key.internal_priority is not None else 999999
            priority_groups[priority].append(key)

-        # 对每个优先级组内的 Key 进行确定性打乱
+        # 对每个优先级组内的 Key 进行打乱
        result = []
        for priority in sorted(priority_groups.keys()):  # 数字小的优先级高，排前面
            group_keys = priority_groups[priority]

-            if len(group_keys) > 1 and affinity_key:
-                # 改进的哈希策略：为每个 key 计算独立的哈希值
-                import hashlib
+            if len(group_keys) > 1:
+                if use_random:
+                    # TTL=0 模式：使用随机排序实现 Key 轮换
+                    shuffled = list(group_keys)
+                    random.shuffle(shuffled)
+                    result.extend(shuffled)
+                elif affinity_key:
+                    # 正常模式：使用哈希确定性打乱（保持缓存亲和性）
+                    key_scores = []
+                    for key in group_keys:
+                        # 使用 affinity_key + key.id 的组合哈希
+                        hash_input = f"{affinity_key}:{key.id}"
+                        hash_value = int(hashlib.sha256(hash_input.encode()).hexdigest()[:16], 16)
+                        key_scores.append((hash_value, key))

-                key_scores = []
-                for key in group_keys:
-                    # 使用 affinity_key + key.id 的组合哈希
-                    hash_input = f"{affinity_key}:{key.id}"
-                    hash_value = int(hashlib.sha256(hash_input.encode()).hexdigest()[:16], 16)
-                    key_scores.append((hash_value, key))
-
-                # 按哈希值排序
-                sorted_group = [key for _, key in sorted(key_scores)]
-                result.extend(sorted_group)
+                    # 按哈希值排序
+                    sorted_group = [key for _, key in sorted(key_scores)]
+                    result.extend(sorted_group)
+                else:
+                    # 没有 affinity_key 时按 ID 排序保持稳定性
+                    result.extend(sorted(group_keys, key=lambda k: k.id))
            else:
-                # 单个 Key 或没有 affinity_key 时保持原顺序
-                result.extend(sorted(group_keys, key=lambda k: k.id))
+                # 单个 Key 直接添加
+                result.extend(group_keys)

        return result

--- a/src/services/cache/model_cache.py
+++ b/src/services/cache/model_cache.py
@@ -198,7 +198,7 @@ class ModelCacheService:
        provider_id: Optional[str] = None,
        global_model_id: Optional[str] = None,
        provider_model_name: Optional[str] = None,
-        provider_model_aliases: Optional[list] = None,
+        provider_model_mappings: Optional[list] = None,
    ) -> None:
        """清除 Model 缓存

@@ -207,7 +207,7 @@ class ModelCacheService:
            provider_id: Provider ID（用于清除 provider_global 缓存）
            global_model_id: GlobalModel ID（用于清除 provider_global 缓存）
            provider_model_name: provider_model_name（用于清除 resolve 缓存）
-            provider_model_aliases: 映射名称列表（用于清除 resolve 缓存）
+            provider_model_mappings: 映射名称列表（用于清除 resolve 缓存）
        """
        # 清除 model:id 缓存
        await CacheService.delete(f"model:id:{model_id}")
@@ -222,16 +222,16 @@ class ModelCacheService:
        else:
            logger.debug(f"Model 缓存已清除: {model_id}")

-        # 清除 resolve 缓存（provider_model_name 和 aliases 可能都被用作解析 key）
+        # 清除 resolve 缓存（provider_model_name 和 mappings 可能都被用作解析 key）
        resolve_keys_to_clear = []
        if provider_model_name:
            resolve_keys_to_clear.append(provider_model_name)
-        if provider_model_aliases:
-            for alias_entry in provider_model_aliases:
-                if isinstance(alias_entry, dict):
-                    alias_name = alias_entry.get("name", "").strip()
-                    if alias_name:
-                        resolve_keys_to_clear.append(alias_name)
+        if provider_model_mappings:
+            for mapping_entry in provider_model_mappings:
+                if isinstance(mapping_entry, dict):
+                    mapping_name = mapping_entry.get("name", "").strip()
+                    if mapping_name:
+                        resolve_keys_to_clear.append(mapping_name)

        for key in resolve_keys_to_clear:
            await CacheService.delete(f"global_model:resolve:{key}")
@@ -261,8 +261,8 @@ class ModelCacheService:
        2. 通过 provider_model_name 匹配（查询 Model 表）
        3. 直接匹配 GlobalModel.name（兜底）

-        注意：此方法不使用 provider_model_aliases 进行全局解析。
-        provider_model_aliases 是 Provider 级别的别名配置，只在特定 Provider 上下文中生效，
+        注意：此方法不使用 provider_model_mappings 进行全局解析。
+        provider_model_mappings 是 Provider 级别的映射配置，只在特定 Provider 上下文中生效，
        由 resolve_provider_model() 处理。

        Args:
@@ -301,9 +301,9 @@ class ModelCacheService:
                    logger.debug(f"GlobalModel 缓存命中(映射解析): {normalized_name}")
                    return ModelCacheService._dict_to_global_model(cached_data)

-            # 2. 通过 provider_model_name 匹配（不考虑 provider_model_aliases）
-            # 重要：provider_model_aliases 是 Provider 级别的别名配置，只在特定 Provider 上下文中生效
-            # 全局解析不应该受到某个 Provider 别名配置的影响
+            # 2. 通过 provider_model_name 匹配（不考虑 provider_model_mappings）
+            # 重要：provider_model_mappings 是 Provider 级别的映射配置，只在特定 Provider 上下文中生效
+            # 全局解析不应该受到某个 Provider 映射配置的影响
            # 例如：Provider A 把 "haiku" 映射到 "sonnet"，不应该影响 Provider B 的 "haiku" 解析
            from src.models.database import Provider

@@ -401,7 +401,7 @@ class ModelCacheService:
            "provider_id": model.provider_id,
            "global_model_id": model.global_model_id,
            "provider_model_name": model.provider_model_name,
-            "provider_model_aliases": getattr(model, "provider_model_aliases", None),
+            "provider_model_mappings": getattr(model, "provider_model_mappings", None),
            "is_active": model.is_active,
            "is_available": model.is_available if hasattr(model, "is_available") else True,
            "price_per_request": (
@@ -424,7 +424,7 @@ class ModelCacheService:
            provider_id=model_dict["provider_id"],
            global_model_id=model_dict["global_model_id"],
            provider_model_name=model_dict["provider_model_name"],
-            provider_model_aliases=model_dict.get("provider_model_aliases"),
+            provider_model_mappings=model_dict.get("provider_model_mappings"),
            is_active=model_dict["is_active"],
            is_available=model_dict.get("is_available", True),
            price_per_request=model_dict.get("price_per_request"),
--- a/src/services/health/endpoint.py
+++ b/src/services/health/endpoint.py
@@ -234,8 +234,15 @@ class EndpointHealthService:
                for api_format in format_key_mapping.keys()
            }

+        # 参数校验（API 层已通过 Query(ge=1) 保证，这里做防御性检查）
+        if lookback_hours <= 0 or segments <= 0:
+            raise ValueError(
+                f"lookback_hours and segments must be positive, "
+                f"got lookback_hours={lookback_hours}, segments={segments}"
+            )
+
        # 计算时间范围
-        interval_minutes = (lookback_hours * 60) // segments
+        segment_seconds = (lookback_hours * 3600) / segments
        start_time = now - timedelta(hours=lookback_hours)

        # 使用 RequestCandidate 表查询所有尝试记录
@@ -243,7 +250,7 @@ class EndpointHealthService:
        final_statuses = ["success", "failed", "skipped"]

        segment_expr = func.floor(
-            func.extract('epoch', RequestCandidate.created_at - start_time) / (interval_minutes * 60)
+            func.extract('epoch', RequestCandidate.created_at - start_time) / segment_seconds
        ).label('segment_idx')

        candidate_stats = (
--- a/src/services/model/cost.py
+++ b/src/services/model/cost.py
@@ -443,7 +443,7 @@ class ModelCostService:

        Args:
            provider: Provider 对象或提供商名称
-            model: 用户请求的模型名（可能是 GlobalModel.name 或别名）
+            model: 用户请求的模型名（可能是 GlobalModel.name 或映射名）

        Returns:
            按次计费价格，如果没有配置则返回 None
--- a/src/services/model/mapper.py
+++ b/src/services/model/mapper.py
@@ -84,11 +84,11 @@ class ModelMapperMiddleware:
        获取模型映射

        简化后的逻辑:
-        1. 通过 GlobalModel.name 或别名解析 GlobalModel
+        1. 通过 GlobalModel.name 或映射名解析 GlobalModel
        2. 找到 GlobalModel 后，查找该 Provider 的 Model 实现

        Args:
-            source_model: 用户请求的模型名（可以是 GlobalModel.name 或别名）
+            source_model: 用户请求的模型名（可以是 GlobalModel.name 或映射名）
            provider_id: 提供商ID (UUID)

        Returns:
@@ -101,7 +101,7 @@ class ModelMapperMiddleware:

        mapping = None

-        # 步骤 1: 解析 GlobalModel（支持别名）
+        # 步骤 1: 解析 GlobalModel（支持映射名）
        global_model = await ModelCacheService.resolve_global_model_by_name_or_alias(
            self.db, source_model
        )
--- a/src/services/model/service.py
+++ b/src/services/model/service.py
@@ -51,7 +51,7 @@ class ModelService:
                provider_id=provider_id,
                global_model_id=model_data.global_model_id,
                provider_model_name=model_data.provider_model_name,
-                provider_model_aliases=model_data.provider_model_aliases,
+                provider_model_mappings=model_data.provider_model_mappings,
                price_per_request=model_data.price_per_request,
                tiered_pricing=model_data.tiered_pricing,
                supports_vision=model_data.supports_vision,
@@ -153,9 +153,9 @@ class ModelService:
        if not model:
            raise NotFoundException(f"模型 {model_id} 不存在")

-        # 保存旧的别名，用于清除缓存
+        # 保存旧的映射，用于清除缓存
        old_provider_model_name = model.provider_model_name
-        old_provider_model_aliases = model.provider_model_aliases
+        old_provider_model_mappings = model.provider_model_mappings

        # 更新字段
        update_data = model_data.model_dump(exclude_unset=True)
@@ -174,26 +174,26 @@ class ModelService:
            db.refresh(model)

            # 清除 Redis 缓存（异步执行，不阻塞返回）
-            # 先清除旧的别名缓存
+            # 先清除旧的映射缓存
            asyncio.create_task(
                ModelCacheService.invalidate_model_cache(
                    model_id=model.id,
                    provider_id=model.provider_id,
                    global_model_id=model.global_model_id,
                    provider_model_name=old_provider_model_name,
-                    provider_model_aliases=old_provider_model_aliases,
+                    provider_model_mappings=old_provider_model_mappings,
                )
            )
-            # 再清除新的别名缓存（如果有变化）
+            # 再清除新的映射缓存（如果有变化）
            if (model.provider_model_name != old_provider_model_name or
-                model.provider_model_aliases != old_provider_model_aliases):
+                model.provider_model_mappings != old_provider_model_mappings):
                asyncio.create_task(
                    ModelCacheService.invalidate_model_cache(
                        model_id=model.id,
                        provider_id=model.provider_id,
                        global_model_id=model.global_model_id,
                        provider_model_name=model.provider_model_name,
-                        provider_model_aliases=model.provider_model_aliases,
+                        provider_model_mappings=model.provider_model_mappings,
                    )
                )

@@ -246,7 +246,7 @@ class ModelService:
            "provider_id": model.provider_id,
            "global_model_id": model.global_model_id,
            "provider_model_name": model.provider_model_name,
-            "provider_model_aliases": model.provider_model_aliases,
+            "provider_model_mappings": model.provider_model_mappings,
        }

        try:
@@ -260,7 +260,7 @@ class ModelService:
                    provider_id=cache_info["provider_id"],
                    global_model_id=cache_info["global_model_id"],
                    provider_model_name=cache_info["provider_model_name"],
-                    provider_model_aliases=cache_info["provider_model_aliases"],
+                    provider_model_mappings=cache_info["provider_model_mappings"],
                )
            )

@@ -297,7 +297,7 @@ class ModelService:
                provider_id=model.provider_id,
                global_model_id=model.global_model_id,
                provider_model_name=model.provider_model_name,
-                provider_model_aliases=model.provider_model_aliases,
+                provider_model_mappings=model.provider_model_mappings,
            )
        )

@@ -390,7 +390,7 @@ class ModelService:
            provider_id=model.provider_id,
            global_model_id=model.global_model_id,
            provider_model_name=model.provider_model_name,
-            provider_model_aliases=model.provider_model_aliases,
+            provider_model_mappings=model.provider_model_mappings,
            # 原始配置值（可能为空）
            price_per_request=model.price_per_request,
            tiered_pricing=model.tiered_pricing,
--- a/src/services/orchestration/error_classifier.py
+++ b/src/services/orchestration/error_classifier.py
@@ -15,6 +15,7 @@ from src.core.enums import APIFormat
 from src.core.exceptions import (
    ConcurrencyLimitError,
    ProviderAuthException,
+    ProviderCompatibilityException,
    ProviderException,
    ProviderNotAvailableException,
    ProviderRateLimitException,
@@ -81,7 +82,9 @@ class ErrorClassifier:
        "context_length_exceeded",  # 上下文长度超限
        "content_length_limit",  # 请求内容长度超限 (Claude API)
        "content_length_exceeds",  # 内容长度超限变体 (AWS CodeWhisperer)
-        "max_tokens",  # token 数超限
+        # 注意：移除了 "max_tokens"，因为 max_tokens 相关错误可能是 Provider 兼容性问题
+        # 如 "Unsupported parameter: 'max_tokens' is not supported with this model"
+        # 这类错误应由 COMPATIBILITY_ERROR_PATTERNS 处理
        "invalid_prompt",  # 无效的提示词
        "content too long",  # 内容过长
        "input is too long",  # 输入过长 (AWS)
@@ -136,6 +139,19 @@ class ErrorClassifier:
        "CONTENT_POLICY_VIOLATION",
    )

+    # Provider 兼容性错误模式 - 这类错误应该触发故障转移
+    # 因为换一个 Provider 可能就能成功
+    COMPATIBILITY_ERROR_PATTERNS: Tuple[str, ...] = (
+        "unsupported parameter",  # 不支持的参数
+        "unsupported model",  # 不支持的模型
+        "unsupported feature",  # 不支持的功能
+        "not supported with this model",  # 此模型不支持
+        "model does not support",  # 模型不支持
+        "parameter is not supported",  # 参数不支持
+        "feature is not supported",  # 功能不支持
+        "not available for this model",  # 此模型不可用
+    )
+
    def _parse_error_response(self, error_text: Optional[str]) -> Dict[str, Any]:
        """
        解析错误响应为结构化数据
@@ -261,6 +277,25 @@ class ErrorClassifier:
        search_text = f"{parsed['message']} {parsed['raw']}".lower()
        return any(pattern.lower() in search_text for pattern in self.CLIENT_ERROR_PATTERNS)

+    def _is_compatibility_error(self, error_text: Optional[str]) -> bool:
+        """
+        检测错误响应是否为 Provider 兼容性错误（应触发故障转移）
+
+        这类错误是因为 Provider 不支持某些参数或功能导致的，
+        换一个 Provider 可能就能成功。
+
+        Args:
+            error_text: 错误响应文本
+
+        Returns:
+            是否为兼容性错误
+        """
+        if not error_text:
+            return False
+
+        search_text = error_text.lower()
+        return any(pattern.lower() in search_text for pattern in self.COMPATIBILITY_ERROR_PATTERNS)
+
    def _extract_error_message(self, error_text: Optional[str]) -> Optional[str]:
        """
        从错误响应中提取错误消息
@@ -425,6 +460,16 @@ class ErrorClassifier:
                ),
            )

+        # 400 错误：先检查是否为 Provider 兼容性错误（应触发故障转移）
+        if status == 400 and self._is_compatibility_error(error_response_text):
+            logger.info(f"检测到 Provider 兼容性错误，将触发故障转移: {extracted_message}")
+            return ProviderCompatibilityException(
+                message=extracted_message or "Provider 不支持此请求",
+                provider_name=provider_name,
+                status_code=400,
+                upstream_error=error_response_text,
+            )
+
        # 400 错误：检查是否为客户端请求错误（不应重试）
        if status == 400 and self._is_client_error(error_response_text):
            logger.info(f"检测到客户端请求错误，不进行重试: {extracted_message}")
--- a/src/services/orchestration/fallback_orchestrator.py
+++ b/src/services/orchestration/fallback_orchestrator.py
@@ -427,6 +427,9 @@ class FallbackOrchestrator:
            )
            # str(cause) 可能为空（如 httpx 超时异常），使用 repr() 作为备用
            error_msg = str(cause) or repr(cause)
+            # 如果是 ProviderNotAvailableException，附加上游响应
+            if hasattr(cause, "upstream_response") and cause.upstream_response:
+                error_msg = f"{error_msg} | 上游响应: {cause.upstream_response[:500]}"
            RequestCandidateService.mark_candidate_failed(
                db=self.db,
                candidate_id=candidate_record_id,
@@ -439,6 +442,9 @@ class FallbackOrchestrator:

        # 未知错误：记录失败并抛出
        error_msg = str(cause) or repr(cause)
+        # 如果是 ProviderNotAvailableException，附加上游响应
+        if hasattr(cause, "upstream_response") and cause.upstream_response:
+            error_msg = f"{error_msg} | 上游响应: {cause.upstream_response[:500]}"
        RequestCandidateService.mark_candidate_failed(
            db=self.db,
            candidate_id=candidate_record_id,
--- a/src/services/request/result.py
+++ b/src/services/request/result.py
@@ -289,11 +289,17 @@ class RequestResult:
            status_code = 500
            error_type = "internal_error"

+        # 构建错误消息，包含上游响应信息
+        error_message = str(exception)
+        if isinstance(exception, ProviderNotAvailableException):
+            if exception.upstream_response:
+                error_message = f"{error_message} | 上游响应: {exception.upstream_response[:500]}"
+
        return cls(
            status=RequestStatus.FAILED,
            metadata=metadata,
            status_code=status_code,
-            error_message=str(exception),
+            error_message=error_message,
            error_type=error_type,
            response_time_ms=response_time_ms,
            is_stream=is_stream,
--- a/src/services/system/cleanup_scheduler.py
+++ b/src/services/system/cleanup_scheduler.py
@@ -208,89 +208,127 @@ class CleanupScheduler:
                        return

                    # 非首次运行，检查最近是否有缺失的日期需要回填
-                    latest_stat = db.query(StatsDaily).order_by(StatsDaily.date.desc()).first()
+                    from src.models.database import StatsDailyModel

-                    if latest_stat:
-                        latest_date_utc = latest_stat.date
-                        if latest_date_utc.tzinfo is None:
-                            latest_date_utc = latest_date_utc.replace(tzinfo=timezone.utc)
-                        else:
-                            latest_date_utc = latest_date_utc.astimezone(timezone.utc)
+                    yesterday_business_date = today_local.date() - timedelta(days=1)
+                    max_backfill_days: int = SystemConfigService.get_config(
+                        db, "max_stats_backfill_days", 30
+                    ) or 30

-                        # 使用业务日期计算缺失区间（避免用 UTC 年月日导致日期偏移，且对 DST 更安全）
-                        latest_business_date = latest_date_utc.astimezone(app_tz).date()
-                        yesterday_business_date = today_local.date() - timedelta(days=1)
-                        missing_start_date = latest_business_date + timedelta(days=1)
+                    # 计算回填检查的起始日期
+                    check_start_date = yesterday_business_date - timedelta(
+                        days=max_backfill_days - 1
+                    )

-                        if missing_start_date <= yesterday_business_date:
-                            missing_days = (
-                                yesterday_business_date - missing_start_date
-                            ).days + 1
+                    # 获取 StatsDaily 和 StatsDailyModel 中已有数据的日期集合
+                    existing_daily_dates = set()
+                    existing_model_dates = set()

-                            # 限制最大回填天数，防止停机很久后一次性回填太多
-                            max_backfill_days: int = SystemConfigService.get_config(
-                                db, "max_stats_backfill_days", 30
-                            ) or 30
-                            if missing_days > max_backfill_days:
-                                logger.warning(
-                                    f"缺失 {missing_days} 天数据超过最大回填限制 "
-                                    f"{max_backfill_days} 天，只回填最近 {max_backfill_days} 天"
+                    daily_stats = (
+                        db.query(StatsDaily.date)
+                        .filter(StatsDaily.date >= check_start_date.isoformat())
+                        .all()
+                    )
+                    for (stat_date,) in daily_stats:
+                        if stat_date.tzinfo is None:
+                            stat_date = stat_date.replace(tzinfo=timezone.utc)
+                        existing_daily_dates.add(stat_date.astimezone(app_tz).date())
+
+                    model_stats = (
+                        db.query(StatsDailyModel.date)
+                        .filter(StatsDailyModel.date >= check_start_date.isoformat())
+                        .distinct()
+                        .all()
+                    )
+                    for (stat_date,) in model_stats:
+                        if stat_date.tzinfo is None:
+                            stat_date = stat_date.replace(tzinfo=timezone.utc)
+                        existing_model_dates.add(stat_date.astimezone(app_tz).date())
+
+                    # 找出需要回填的日期
+                    all_dates = set()
+                    current = check_start_date
+                    while current <= yesterday_business_date:
+                        all_dates.add(current)
+                        current += timedelta(days=1)
+
+                    # 需要回填 StatsDaily 的日期
+                    missing_daily_dates = all_dates - existing_daily_dates
+                    # 需要回填 StatsDailyModel 的日期
+                    missing_model_dates = all_dates - existing_model_dates
+                    # 合并所有需要处理的日期
+                    dates_to_process = missing_daily_dates | missing_model_dates
+
+                    if dates_to_process:
+                        sorted_dates = sorted(dates_to_process)
+                        logger.info(
+                            f"检测到 {len(dates_to_process)} 天的统计数据需要回填 "
+                            f"(StatsDaily 缺失 {len(missing_daily_dates)} 天, "
+                            f"StatsDailyModel 缺失 {len(missing_model_dates)} 天)"
+                        )
+
+                        users = (
+                            db.query(DBUser.id).filter(DBUser.is_active.is_(True)).all()
+                        )
+
+                        failed_dates = 0
+                        failed_users = 0
+
+                        for current_date in sorted_dates:
+                            try:
+                                current_date_local = datetime.combine(
+                                    current_date, datetime.min.time(), tzinfo=app_tz
                                )
-                                missing_start_date = yesterday_business_date - timedelta(
-                                    days=max_backfill_days - 1
-                                )
-                                missing_days = max_backfill_days
-
-                            logger.info(
-                                f"检测到缺失 {missing_days} 天的统计数据 "
-                                f"({missing_start_date} ~ {yesterday_business_date})，开始回填..."
-                            )
-
-                            current_date = missing_start_date
-                            users = (
-                                db.query(DBUser.id).filter(DBUser.is_active.is_(True)).all()
-                            )
-
-                            while current_date <= yesterday_business_date:
-                                try:
-                                    current_date_local = datetime.combine(
-                                        current_date, datetime.min.time(), tzinfo=app_tz
-                                    )
+                                # 只在缺失时才聚合对应的表
+                                if current_date in missing_daily_dates:
                                    StatsAggregatorService.aggregate_daily_stats(
                                        db, current_date_local
                                    )
-                                    for (user_id,) in users:
-                                        try:
-                                            StatsAggregatorService.aggregate_user_daily_stats(
-                                                db, user_id, current_date_local
-                                            )
-                                        except Exception as e:
-                                            logger.warning(
-                                                f"回填用户 {user_id} 日期 {current_date} 失败: {e}"
-                                            )
-                                            try:
-                                                db.rollback()
-                                            except Exception:
-                                                pass
-                                except Exception as e:
-                                    logger.warning(f"回填日期 {current_date} 失败: {e}")
+                                if current_date in missing_model_dates:
+                                    StatsAggregatorService.aggregate_daily_model_stats(
+                                        db, current_date_local
+                                    )
+                                # 用户统计在任一缺失时都回填
+                                for (user_id,) in users:
                                    try:
-                                        db.rollback()
-                                    except Exception:
-                                        pass
+                                        StatsAggregatorService.aggregate_user_daily_stats(
+                                            db, user_id, current_date_local
+                                        )
+                                    except Exception as e:
+                                        failed_users += 1
+                                        logger.warning(
+                                            f"回填用户 {user_id} 日期 {current_date} 失败: {e}"
+                                        )
+                                        try:
+                                            db.rollback()
+                                        except Exception as rollback_err:
+                                            logger.error(f"回滚失败: {rollback_err}")
+                            except Exception as e:
+                                failed_dates += 1
+                                logger.warning(f"回填日期 {current_date} 失败: {e}")
+                                try:
+                                    db.rollback()
+                                except Exception as rollback_err:
+                                    logger.error(f"回滚失败: {rollback_err}")

-                                current_date += timedelta(days=1)
+                        StatsAggregatorService.update_summary(db)

-                            StatsAggregatorService.update_summary(db)
-                            logger.info(f"缺失数据回填完成，共 {missing_days} 天")
+                        if failed_dates > 0 or failed_users > 0:
+                            logger.warning(
+                                f"回填完成，共处理 {len(dates_to_process)} 天，"
+                                f"失败: {failed_dates} 天, {failed_users} 个用户记录"
+                            )
                        else:
-                            logger.info("统计数据已是最新，无需回填")
+                            logger.info(f"缺失数据回填完成，共处理 {len(dates_to_process)} 天")
+                    else:
+                        logger.info("统计数据已是最新，无需回填")
                    return

                # 定时任务：聚合昨天的数据
                yesterday_local = today_local - timedelta(days=1)

                StatsAggregatorService.aggregate_daily_stats(db, yesterday_local)
+                StatsAggregatorService.aggregate_daily_model_stats(db, yesterday_local)

                users = db.query(DBUser.id).filter(DBUser.is_active.is_(True)).all()
                for (user_id,) in users:
--- a/src/services/system/config.py
+++ b/src/services/system/config.py
@@ -78,19 +78,6 @@ class SystemConfigService:
            "value": False,
            "description": "是否自动删除过期的API Key（True=物理删除，False=仅禁用），仅管理员可配置",
        },
-        # 流式平滑输出配置
-        "stream_smoothing_enabled": {
-            "value": False,
-            "description": "是否启用流式平滑输出，自动根据文本长度调整输出速度",
-        },
-        "stream_smoothing_chunk_size": {
-            "value": 20,
-            "description": "流式平滑输出每个小块的字符数",
-        },
-        "stream_smoothing_delay_ms": {
-            "value": 8,
-            "description": "流式平滑输出每个小块之间的延迟毫秒数",
-        },
    }

    @classmethod
--- a/src/services/system/stats_aggregator.py
+++ b/src/services/system/stats_aggregator.py
@@ -16,6 +16,7 @@ from src.models.database import (
    ApiKey,
    RequestCandidate,
    StatsDaily,
+    StatsDailyModel,
    StatsSummary,
    StatsUserDaily,
    Usage,
@@ -219,6 +220,120 @@ class StatsAggregatorService:
        logger.info(f"[StatsAggregator] 聚合日期 {date.date()} 完成: {computed['total_requests']} 请求")
        return stats

+    @staticmethod
+    def aggregate_daily_model_stats(db: Session, date: datetime) -> list[StatsDailyModel]:
+        """聚合指定日期的模型维度统计数据
+
+        Args:
+            db: 数据库会话
+            date: 要聚合的业务日期
+
+        Returns:
+            StatsDailyModel 记录列表
+        """
+        day_start, day_end = _get_business_day_range(date)
+
+        # 按模型分组统计
+        model_stats = (
+            db.query(
+                Usage.model,
+                func.count(Usage.id).label("total_requests"),
+                func.sum(Usage.input_tokens).label("input_tokens"),
+                func.sum(Usage.output_tokens).label("output_tokens"),
+                func.sum(Usage.cache_creation_input_tokens).label("cache_creation_tokens"),
+                func.sum(Usage.cache_read_input_tokens).label("cache_read_tokens"),
+                func.sum(Usage.total_cost_usd).label("total_cost"),
+                func.avg(Usage.response_time_ms).label("avg_response_time"),
+            )
+            .filter(and_(Usage.created_at >= day_start, Usage.created_at < day_end))
+            .group_by(Usage.model)
+            .all()
+        )
+
+        results = []
+        for stat in model_stats:
+            if not stat.model:
+                continue
+
+            existing = (
+                db.query(StatsDailyModel)
+                .filter(and_(StatsDailyModel.date == day_start, StatsDailyModel.model == stat.model))
+                .first()
+            )
+
+            if existing:
+                record = existing
+            else:
+                record = StatsDailyModel(
+                    id=str(uuid.uuid4()), date=day_start, model=stat.model
+                )
+
+            record.total_requests = stat.total_requests or 0
+            record.input_tokens = int(stat.input_tokens or 0)
+            record.output_tokens = int(stat.output_tokens or 0)
+            record.cache_creation_tokens = int(stat.cache_creation_tokens or 0)
+            record.cache_read_tokens = int(stat.cache_read_tokens or 0)
+            record.total_cost = float(stat.total_cost or 0)
+            record.avg_response_time_ms = float(stat.avg_response_time or 0)
+
+            if not existing:
+                db.add(record)
+            results.append(record)
+
+        db.commit()
+        logger.info(
+            f"[StatsAggregator] 聚合日期 {date.date()} 模型统计完成: {len(results)} 个模型"
+        )
+        return results
+
+    @staticmethod
+    def get_daily_model_stats(db: Session, start_date: datetime, end_date: datetime) -> list[dict]:
+        """获取日期范围内的模型统计数据（优先使用预聚合）
+
+        Args:
+            db: 数据库会话
+            start_date: 开始日期 (UTC)
+            end_date: 结束日期 (UTC)
+
+        Returns:
+            模型统计数据列表
+        """
+        from zoneinfo import ZoneInfo
+
+        app_tz = ZoneInfo(APP_TIMEZONE)
+
+        # 从预聚合表获取历史数据
+        stats = (
+            db.query(StatsDailyModel)
+            .filter(and_(StatsDailyModel.date >= start_date, StatsDailyModel.date < end_date))
+            .order_by(StatsDailyModel.date.asc(), StatsDailyModel.total_cost.desc())
+            .all()
+        )
+
+        # 转换为字典格式，按日期分组
+        result = []
+        for stat in stats:
+            # 转换日期为业务时区
+            if stat.date.tzinfo is None:
+                date_utc = stat.date.replace(tzinfo=timezone.utc)
+            else:
+                date_utc = stat.date.astimezone(timezone.utc)
+            date_str = date_utc.astimezone(app_tz).date().isoformat()
+
+            result.append({
+                "date": date_str,
+                "model": stat.model,
+                "requests": stat.total_requests,
+                "tokens": (
+                    stat.input_tokens + stat.output_tokens +
+                    stat.cache_creation_tokens + stat.cache_read_tokens
+                ),
+                "cost": stat.total_cost,
+                "avg_response_time": stat.avg_response_time_ms / 1000.0 if stat.avg_response_time_ms else 0,
+            })
+
+        return result
+
    @staticmethod
    def aggregate_user_daily_stats(
        db: Session, user_id: str, date: datetime
@@ -497,6 +612,7 @@ class StatsAggregatorService:
        current_date = start_date
        while current_date < today_local:
            StatsAggregatorService.aggregate_daily_stats(db, current_date)
+            StatsAggregatorService.aggregate_daily_model_stats(db, current_date)
            count += 1
            current_date += timedelta(days=1)

--- a/src/services/usage/service.py
+++ b/src/services/usage/service.py
@@ -3,6 +3,7 @@
 """

 import uuid
+from dataclasses import dataclass
 from datetime import datetime, timedelta, timezone
 from typing import Any, Dict, List, Optional, Tuple

@@ -16,6 +17,71 @@ from src.services.model.cost import ModelCostService
 from src.services.system.config import SystemConfigService


+@dataclass
+class UsageRecordParams:
+    """用量记录参数数据类，用于在内部方法间传递数据"""
+    db: Session
+    user: Optional[User]
+    api_key: Optional[ApiKey]
+    provider: str
+    model: str
+    input_tokens: int
+    output_tokens: int
+    cache_creation_input_tokens: int
+    cache_read_input_tokens: int
+    request_type: str
+    api_format: Optional[str]
+    is_stream: bool
+    response_time_ms: Optional[int]
+    first_byte_time_ms: Optional[int]
+    status_code: int
+    error_message: Optional[str]
+    metadata: Optional[Dict[str, Any]]
+    request_headers: Optional[Dict[str, Any]]
+    request_body: Optional[Any]
+    provider_request_headers: Optional[Dict[str, Any]]
+    response_headers: Optional[Dict[str, Any]]
+    response_body: Optional[Any]
+    request_id: str
+    provider_id: Optional[str]
+    provider_endpoint_id: Optional[str]
+    provider_api_key_id: Optional[str]
+    status: str
+    cache_ttl_minutes: Optional[int]
+    use_tiered_pricing: bool
+    target_model: Optional[str]
+
+    def __post_init__(self) -> None:
+        """验证关键字段，确保数据完整性"""
+        # Token 数量不能为负数
+        if self.input_tokens < 0:
+            raise ValueError(f"input_tokens 不能为负数: {self.input_tokens}")
+        if self.output_tokens < 0:
+            raise ValueError(f"output_tokens 不能为负数: {self.output_tokens}")
+        if self.cache_creation_input_tokens < 0:
+            raise ValueError(
+                f"cache_creation_input_tokens 不能为负数: {self.cache_creation_input_tokens}"
+            )
+        if self.cache_read_input_tokens < 0:
+            raise ValueError(
+                f"cache_read_input_tokens 不能为负数: {self.cache_read_input_tokens}"
+            )
+
+        # 响应时间不能为负数
+        if self.response_time_ms is not None and self.response_time_ms < 0:
+            raise ValueError(f"response_time_ms 不能为负数: {self.response_time_ms}")
+        if self.first_byte_time_ms is not None and self.first_byte_time_ms < 0:
+            raise ValueError(f"first_byte_time_ms 不能为负数: {self.first_byte_time_ms}")
+
+        # HTTP 状态码范围校验
+        if not (100 <= self.status_code <= 599):
+            raise ValueError(f"无效的 HTTP 状态码: {self.status_code}")
+
+        # 状态值校验
+        valid_statuses = {"pending", "streaming", "completed", "failed"}
+        if self.status not in valid_statuses:
+            raise ValueError(f"无效的状态值: {self.status}，有效值: {valid_statuses}")
+

 class UsageService:
    """用量统计服务"""
@@ -471,6 +537,97 @@ class UsageService:
            cache_ttl_minutes=cache_ttl_minutes,
        )

+    @classmethod
+    async def _prepare_usage_record(
+        cls,
+        params: UsageRecordParams,
+    ) -> Tuple[Dict[str, Any], float]:
+        """准备用量记录的共享逻辑
+
+        此方法提取了 record_usage 和 record_usage_async 的公共处理逻辑：
+        - 获取费率倍数
+        - 计算成本
+        - 构建 Usage 参数
+
+        Args:
+            params: 用量记录参数数据类
+
+        Returns:
+            (usage_params 字典, total_cost 总成本)
+        """
+        # 获取费率倍数和是否免费套餐
+        actual_rate_multiplier, is_free_tier = await cls._get_rate_multiplier_and_free_tier(
+            params.db, params.provider_api_key_id, params.provider_id
+        )
+
+        # 计算成本
+        is_failed_request = params.status_code >= 400 or params.error_message is not None
+        (
+            input_price, output_price, cache_creation_price, cache_read_price, request_price,
+            input_cost, output_cost, cache_creation_cost, cache_read_cost, cache_cost,
+            request_cost, total_cost, _tier_index
+        ) = await cls._calculate_costs(
+            db=params.db,
+            provider=params.provider,
+            model=params.model,
+            input_tokens=params.input_tokens,
+            output_tokens=params.output_tokens,
+            cache_creation_input_tokens=params.cache_creation_input_tokens,
+            cache_read_input_tokens=params.cache_read_input_tokens,
+            api_format=params.api_format,
+            cache_ttl_minutes=params.cache_ttl_minutes,
+            use_tiered_pricing=params.use_tiered_pricing,
+            is_failed_request=is_failed_request,
+        )
+
+        # 构建 Usage 参数
+        usage_params = cls._build_usage_params(
+            db=params.db,
+            user=params.user,
+            api_key=params.api_key,
+            provider=params.provider,
+            model=params.model,
+            input_tokens=params.input_tokens,
+            output_tokens=params.output_tokens,
+            cache_creation_input_tokens=params.cache_creation_input_tokens,
+            cache_read_input_tokens=params.cache_read_input_tokens,
+            request_type=params.request_type,
+            api_format=params.api_format,
+            is_stream=params.is_stream,
+            response_time_ms=params.response_time_ms,
+            first_byte_time_ms=params.first_byte_time_ms,
+            status_code=params.status_code,
+            error_message=params.error_message,
+            metadata=params.metadata,
+            request_headers=params.request_headers,
+            request_body=params.request_body,
+            provider_request_headers=params.provider_request_headers,
+            response_headers=params.response_headers,
+            response_body=params.response_body,
+            request_id=params.request_id,
+            provider_id=params.provider_id,
+            provider_endpoint_id=params.provider_endpoint_id,
+            provider_api_key_id=params.provider_api_key_id,
+            status=params.status,
+            target_model=params.target_model,
+            input_cost=input_cost,
+            output_cost=output_cost,
+            cache_creation_cost=cache_creation_cost,
+            cache_read_cost=cache_read_cost,
+            cache_cost=cache_cost,
+            request_cost=request_cost,
+            total_cost=total_cost,
+            input_price=input_price,
+            output_price=output_price,
+            cache_creation_price=cache_creation_price,
+            cache_read_price=cache_read_price,
+            request_price=request_price,
+            actual_rate_multiplier=actual_rate_multiplier,
+            is_free_tier=is_free_tier,
+        )
+
+        return usage_params, total_cost
+
    @classmethod
    async def record_usage_async(
        cls,
@@ -516,76 +673,25 @@ class UsageService:
        if request_id is None:
            request_id = str(uuid.uuid4())[:8]

-        # 获取费率倍数和是否免费套餐
-        actual_rate_multiplier, is_free_tier = await cls._get_rate_multiplier_and_free_tier(
-            db, provider_api_key_id, provider_id
-        )
-
-        # 计算成本
-        is_failed_request = status_code >= 400 or error_message is not None
-        (
-            input_price, output_price, cache_creation_price, cache_read_price, request_price,
-            input_cost, output_cost, cache_creation_cost, cache_read_cost, cache_cost,
-            request_cost, total_cost, tier_index
-        ) = await cls._calculate_costs(
-            db=db,
-            provider=provider,
-            model=model,
-            input_tokens=input_tokens,
-            output_tokens=output_tokens,
+        # 使用共享逻辑准备记录参数
+        params = UsageRecordParams(
+            db=db, user=user, api_key=api_key, provider=provider, model=model,
+            input_tokens=input_tokens, output_tokens=output_tokens,
            cache_creation_input_tokens=cache_creation_input_tokens,
            cache_read_input_tokens=cache_read_input_tokens,
-            api_format=api_format,
-            cache_ttl_minutes=cache_ttl_minutes,
-            use_tiered_pricing=use_tiered_pricing,
-            is_failed_request=is_failed_request,
-        )
-
-        # 构建 Usage 参数
-        usage_params = cls._build_usage_params(
-            db=db,
-            user=user,
-            api_key=api_key,
-            provider=provider,
-            model=model,
-            input_tokens=input_tokens,
-            output_tokens=output_tokens,
-            cache_creation_input_tokens=cache_creation_input_tokens,
-            cache_read_input_tokens=cache_read_input_tokens,
-            request_type=request_type,
-            api_format=api_format,
-            is_stream=is_stream,
-            response_time_ms=response_time_ms,
-            first_byte_time_ms=first_byte_time_ms,
-            status_code=status_code,
-            error_message=error_message,
-            metadata=metadata,
-            request_headers=request_headers,
-            request_body=request_body,
+            request_type=request_type, api_format=api_format, is_stream=is_stream,
+            response_time_ms=response_time_ms, first_byte_time_ms=first_byte_time_ms,
+            status_code=status_code, error_message=error_message, metadata=metadata,
+            request_headers=request_headers, request_body=request_body,
            provider_request_headers=provider_request_headers,
-            response_headers=response_headers,
-            response_body=response_body,
-            request_id=request_id,
-            provider_id=provider_id,
+            response_headers=response_headers, response_body=response_body,
+            request_id=request_id, provider_id=provider_id,
            provider_endpoint_id=provider_endpoint_id,
-            provider_api_key_id=provider_api_key_id,
-            status=status,
+            provider_api_key_id=provider_api_key_id, status=status,
+            cache_ttl_minutes=cache_ttl_minutes, use_tiered_pricing=use_tiered_pricing,
            target_model=target_model,
-            input_cost=input_cost,
-            output_cost=output_cost,
-            cache_creation_cost=cache_creation_cost,
-            cache_read_cost=cache_read_cost,
-            cache_cost=cache_cost,
-            request_cost=request_cost,
-            total_cost=total_cost,
-            input_price=input_price,
-            output_price=output_price,
-            cache_creation_price=cache_creation_price,
-            cache_read_price=cache_read_price,
-            request_price=request_price,
-            actual_rate_multiplier=actual_rate_multiplier,
-            is_free_tier=is_free_tier,
        )
+        usage_params, _ = await cls._prepare_usage_record(params)

        # 创建 Usage 记录
        usage = Usage(**usage_params)
@@ -660,76 +766,25 @@ class UsageService:
        if request_id is None:
            request_id = str(uuid.uuid4())[:8]

-        # 获取费率倍数和是否免费套餐
-        actual_rate_multiplier, is_free_tier = await cls._get_rate_multiplier_and_free_tier(
-            db, provider_api_key_id, provider_id
-        )
-
-        # 计算成本
-        is_failed_request = status_code >= 400 or error_message is not None
-        (
-            input_price, output_price, cache_creation_price, cache_read_price, request_price,
-            input_cost, output_cost, cache_creation_cost, cache_read_cost, cache_cost,
-            request_cost, total_cost, _tier_index
-        ) = await cls._calculate_costs(
-            db=db,
-            provider=provider,
-            model=model,
-            input_tokens=input_tokens,
-            output_tokens=output_tokens,
+        # 使用共享逻辑准备记录参数
+        params = UsageRecordParams(
+            db=db, user=user, api_key=api_key, provider=provider, model=model,
+            input_tokens=input_tokens, output_tokens=output_tokens,
            cache_creation_input_tokens=cache_creation_input_tokens,
            cache_read_input_tokens=cache_read_input_tokens,
-            api_format=api_format,
-            cache_ttl_minutes=cache_ttl_minutes,
-            use_tiered_pricing=use_tiered_pricing,
-            is_failed_request=is_failed_request,
-        )
-
-        # 构建 Usage 参数
-        usage_params = cls._build_usage_params(
-            db=db,
-            user=user,
-            api_key=api_key,
-            provider=provider,
-            model=model,
-            input_tokens=input_tokens,
-            output_tokens=output_tokens,
-            cache_creation_input_tokens=cache_creation_input_tokens,
-            cache_read_input_tokens=cache_read_input_tokens,
-            request_type=request_type,
-            api_format=api_format,
-            is_stream=is_stream,
-            response_time_ms=response_time_ms,
-            first_byte_time_ms=first_byte_time_ms,
-            status_code=status_code,
-            error_message=error_message,
-            metadata=metadata,
-            request_headers=request_headers,
-            request_body=request_body,
+            request_type=request_type, api_format=api_format, is_stream=is_stream,
+            response_time_ms=response_time_ms, first_byte_time_ms=first_byte_time_ms,
+            status_code=status_code, error_message=error_message, metadata=metadata,
+            request_headers=request_headers, request_body=request_body,
            provider_request_headers=provider_request_headers,
-            response_headers=response_headers,
-            response_body=response_body,
-            request_id=request_id,
-            provider_id=provider_id,
+            response_headers=response_headers, response_body=response_body,
+            request_id=request_id, provider_id=provider_id,
            provider_endpoint_id=provider_endpoint_id,
-            provider_api_key_id=provider_api_key_id,
-            status=status,
+            provider_api_key_id=provider_api_key_id, status=status,
+            cache_ttl_minutes=cache_ttl_minutes, use_tiered_pricing=use_tiered_pricing,
            target_model=target_model,
-            input_cost=input_cost,
-            output_cost=output_cost,
-            cache_creation_cost=cache_creation_cost,
-            cache_read_cost=cache_read_cost,
-            cache_cost=cache_cost,
-            request_cost=request_cost,
-            total_cost=total_cost,
-            input_price=input_price,
-            output_price=output_price,
-            cache_creation_price=cache_creation_price,
-            cache_read_price=cache_read_price,
-            request_price=request_price,
-            actual_rate_multiplier=actual_rate_multiplier,
-            is_free_tier=is_free_tier,
        )
+        usage_params, total_cost = await cls._prepare_usage_record(params)

        # 检查是否已存在相同 request_id 的记录
        existing_usage = db.query(Usage).filter(Usage.request_id == request_id).first()
@@ -751,7 +806,7 @@ class UsageService:
            api_key = db.merge(api_key)

        # 使用原子更新避免并发竞态条件
-        from sqlalchemy import func, update
+        from sqlalchemy import func as sql_func, update
        from src.models.database import ApiKey as ApiKeyModel, User as UserModel, GlobalModel

        # 更新用户使用量（独立 Key 不计入创建者的使用记录）
@@ -762,7 +817,7 @@ class UsageService:
                .values(
                    used_usd=UserModel.used_usd + total_cost,
                    total_usd=UserModel.total_usd + total_cost,
-                    updated_at=func.now(),
+                    updated_at=sql_func.now(),
                )
            )

@@ -776,8 +831,8 @@ class UsageService:
                        total_requests=ApiKeyModel.total_requests + 1,
                        total_cost_usd=ApiKeyModel.total_cost_usd + total_cost,
                        balance_used_usd=ApiKeyModel.balance_used_usd + total_cost,
-                        last_used_at=func.now(),
-                        updated_at=func.now(),
+                        last_used_at=sql_func.now(),
+                        updated_at=sql_func.now(),
                    )
                )
            else:
@@ -787,8 +842,8 @@ class UsageService:
                    .values(
                        total_requests=ApiKeyModel.total_requests + 1,
                        total_cost_usd=ApiKeyModel.total_cost_usd + total_cost,
-                        last_used_at=func.now(),
-                        updated_at=func.now(),
+                        last_used_at=sql_func.now(),
+                        updated_at=sql_func.now(),
                    )
                )

@@ -1121,19 +1176,48 @@ class UsageService:
        ]

    @staticmethod
-    def cleanup_old_usage_records(db: Session, days_to_keep: int = 90) -> int:
-        """清理旧的使用记录"""
+    def cleanup_old_usage_records(
+        db: Session, days_to_keep: int = 90, batch_size: int = 1000
+    ) -> int:
+        """清理旧的使用记录（分批删除避免长事务锁定）

+        Args:
+            db: 数据库会话
+            days_to_keep: 保留天数，默认 90 天
+            batch_size: 每批删除数量，默认 1000 条
+
+        Returns:
+            删除的总记录数
+        """
        cutoff_date = datetime.now(timezone.utc) - timedelta(days=days_to_keep)
+        total_deleted = 0

-        # 删除旧记录
-        deleted = db.query(Usage).filter(Usage.created_at < cutoff_date).delete()
+        while True:
+            # 查询待删除的 ID（使用新索引 idx_usage_user_created）
+            batch_ids = (
+                db.query(Usage.id)
+                .filter(Usage.created_at < cutoff_date)
+                .limit(batch_size)
+                .all()
+            )

-        db.commit()
+            if not batch_ids:
+                break

-        logger.info(f"清理使用记录: 删除 {deleted} 条超过 {days_to_keep} 天的记录")
+            # 批量删除
+            deleted_count = (
+                db.query(Usage)
+                .filter(Usage.id.in_([row.id for row in batch_ids]))
+                .delete(synchronize_session=False)
+            )
+            db.commit()
+            total_deleted += deleted_count

-        return deleted
+            logger.debug(f"清理使用记录: 本批删除 {deleted_count} 条")
+
+        logger.info(f"清理使用记录: 共删除 {total_deleted} 条超过 {days_to_keep} 天的记录")
+
+        return total_deleted

    # ========== 请求状态追踪方法 ==========

@@ -1219,6 +1303,7 @@ class UsageService:
        error_message: Optional[str] = None,
        provider: Optional[str] = None,
        target_model: Optional[str] = None,
+        first_byte_time_ms: Optional[int] = None,
    ) -> Optional[Usage]:
        """
        快速更新使用记录状态
@@ -1230,6 +1315,7 @@ class UsageService:
            error_message: 错误消息（仅在 failed 状态时使用）
            provider: 提供商名称（可选，streaming 状态时更新）
            target_model: 映射后的目标模型名（可选）
+            first_byte_time_ms: 首字时间/TTFB（可选，streaming 状态时更新）

        Returns:
            更新后的 Usage 记录，如果未找到则返回 None
@@ -1247,6 +1333,8 @@ class UsageService:
            usage.provider = provider
        if target_model:
            usage.target_model = target_model
+        if first_byte_time_ms is not None:
+            usage.first_byte_time_ms = first_byte_time_ms

        db.commit()

--- a/src/services/usage/stream.py
+++ b/src/services/usage/stream.py
@@ -5,6 +5,7 @@

 import json
 import re
+import time
 from typing import Any, AsyncIterator, Dict, Optional, Tuple

 from sqlalchemy.orm import Session
@@ -457,26 +458,32 @@ class StreamUsageTracker:

        logger.debug(f"ID:{self.request_id} | 开始跟踪流式响应 | 估算输入tokens:{self.input_tokens}")

-        # 更新状态为 streaming，同时更新 provider
-        if self.request_id:
-            try:
-                from src.services.usage.service import UsageService
-                UsageService.update_usage_status(
-                    db=self.db,
-                    request_id=self.request_id,
-                    status="streaming",
-                    provider=self.provider,
-                )
-            except Exception as e:
-                logger.warning(f"更新使用记录状态为 streaming 失败: {e}")
-
        chunk_count = 0
+        first_chunk_received = False
        try:
            async for chunk in stream:
                chunk_count += 1
                # 保存原始字节流（用于错误诊断）
                self.raw_chunks.append(chunk)

+                # 第一个 chunk 收到时，更新状态为 streaming 并记录 TTFB
+                if not first_chunk_received:
+                    first_chunk_received = True
+                    if self.request_id:
+                        try:
+                            # 计算 TTFB（使用请求原始开始时间或 track_stream 开始时间）
+                            base_time = self.request_start_time or self.start_time
+                            first_byte_time_ms = int((time.time() - base_time) * 1000) if base_time else None
+                            UsageService.update_usage_status(
+                                db=self.db,
+                                request_id=self.request_id,
+                                status="streaming",
+                                provider=self.provider,
+                                first_byte_time_ms=first_byte_time_ms,
+                            )
+                        except Exception as e:
+                            logger.warning(f"更新使用记录状态为 streaming 失败: {e}")
+
                # 返回原始块给客户端
                yield chunk

--- a/src/services/user/apikey.py
+++ b/src/services/user/apikey.py
@@ -59,14 +59,15 @@ class ApiKeyService:
        if expire_days:
            expires_at = datetime.now(timezone.utc) + timedelta(days=expire_days)

+        # 空数组转为 None（表示不限制）
        api_key = ApiKey(
            user_id=user_id,
            key_hash=key_hash,
            key_encrypted=key_encrypted,
            name=name or f"API Key {datetime.now(timezone.utc).strftime('%Y%m%d%H%M%S')}",
-            allowed_providers=allowed_providers,
-            allowed_api_formats=allowed_api_formats,
-            allowed_models=allowed_models,
+            allowed_providers=allowed_providers or None,
+            allowed_api_formats=allowed_api_formats or None,
+            allowed_models=allowed_models or None,
            rate_limit=rate_limit,
            concurrent_limit=concurrent_limit,
            expires_at=expires_at,
@@ -141,8 +142,18 @@ class ApiKeyService:
            "auto_delete_on_expiry",
        ]

+        # 允许显式设置为空数组/None 的字段（空数组会转为 None，表示"全部"）
+        nullable_list_fields = {"allowed_providers", "allowed_api_formats", "allowed_models"}
+
        for field, value in kwargs.items():
-            if field in updatable_fields and value is not None:
+            if field not in updatable_fields:
+                continue
+            # 对于 nullable_list_fields，空数组应该转为 None（表示不限制）
+            if field in nullable_list_fields:
+                if value is not None:
+                    # 空数组转为 None（表示允许全部）
+                    setattr(api_key, field, value if value else None)
+            elif value is not None:
                setattr(api_key, field, value)

        api_key.updated_at = datetime.now(timezone.utc)
--- a/src/utils/task_coordinator.py
+++ b/src/utils/task_coordinator.py
@@ -1,8 +1,16 @@
-"""分布式任务协调器，确保仅有一个 worker 执行特定任务"""
+"""分布式任务协调器，确保仅有一个 worker 执行特定任务
+
+锁清理策略：
+- 单实例模式（默认）：启动时使用原子操作清理旧锁并获取新锁
+- 多实例模式：使用 NX 选项竞争锁，依赖 TTL 处理异常退出
+
+使用方式：
+- 默认行为：启动时清理旧锁（适用于单机部署）
+- 多实例部署：设置 SINGLE_INSTANCE_MODE=false 禁用启动清理
+"""

 from __future__ import annotations

-import asyncio
 import os
 import pathlib
 import uuid
@@ -19,6 +27,10 @@ except ImportError:  # pragma: no cover - Windows 环境
 class StartupTaskCoordinator:
    """利用 Redis 或文件锁，保证任务只在单个进程/实例中运行"""

+    # 类级别标记：在当前进程中是否已尝试过启动清理
+    # 注意：这在 fork 模式下每个 worker 都是独立的
+    _startup_cleanup_attempted = False
+
    def __init__(self, redis_client=None, lock_dir: Optional[str] = None):
        self.redis = redis_client
        self._tokens: Dict[str, str] = {}
@@ -26,6 +38,8 @@ class StartupTaskCoordinator:
        self._lock_dir = pathlib.Path(lock_dir or os.getenv("TASK_LOCK_DIR", "./.locks"))
        if not self._lock_dir.exists():
            self._lock_dir.mkdir(parents=True, exist_ok=True)
+        # 单实例模式：启动时清理旧锁（适用于单机部署，避免残留锁问题）
+        self._single_instance_mode = os.getenv("SINGLE_INSTANCE_MODE", "true").lower() == "true"

    def _redis_key(self, name: str) -> str:
        return f"task_lock:{name}"
@@ -36,12 +50,51 @@ class StartupTaskCoordinator:
        if self.redis:
            token = str(uuid.uuid4())
            try:
-                acquired = await self.redis.set(self._redis_key(name), token, nx=True, ex=ttl)
-                if acquired:
-                    self._tokens[name] = token
-                    logger.info(f"任务 {name} 通过 Redis 锁独占执行")
-                    return True
-                return False
+                if self._single_instance_mode:
+                    # 单实例模式：使用 Lua 脚本原子性地"清理旧锁 + 竞争获取"
+                    # 只有当锁不存在或成功获取时才返回 1
+                    # 这样第一个执行的 worker 会清理旧锁并获取，后续 worker 会正常竞争
+                    script = """
+                    local key = KEYS[1]
+                    local token = ARGV[1]
+                    local ttl = tonumber(ARGV[2])
+                    local startup_key = KEYS[1] .. ':startup'
+
+                    -- 检查是否已有 worker 执行过启动清理
+                    local cleaned = redis.call('GET', startup_key)
+                    if not cleaned then
+                        -- 第一个 worker：删除旧锁，标记已清理
+                        redis.call('DEL', key)
+                        redis.call('SET', startup_key, '1', 'EX', 60)
+                    end
+
+                    -- 尝试获取锁（NX 模式）
+                    local result = redis.call('SET', key, token, 'NX', 'EX', ttl)
+                    if result then
+                        return 1
+                    end
+                    return 0
+                    """
+                    result = await self.redis.eval(
+                        script, 2,
+                        self._redis_key(name), self._redis_key(name),
+                        token, ttl
+                    )
+                    if result == 1:
+                        self._tokens[name] = token
+                        logger.info(f"任务 {name} 通过 Redis 锁独占执行")
+                        return True
+                    return False
+                else:
+                    # 多实例模式：直接使用 NX 选项竞争锁
+                    acquired = await self.redis.set(
+                        self._redis_key(name), token, nx=True, ex=ttl
+                    )
+                    if acquired:
+                        self._tokens[name] = token
+                        logger.info(f"任务 {name} 通过 Redis 锁独占执行")
+                        return True
+                    return False
            except Exception as exc:  # pragma: no cover - Redis 异常回退
                logger.warning(f"Redis 锁获取失败，回退到文件锁: {exc}")

--- a/src/utils/timeout.py
+++ b/src/utils/timeout.py
@@ -139,3 +139,83 @@ async def with_timeout_context(timeout: float, operation_name: str = "operation"
        # Python 3.10 及以下版本的兼容实现
        # 注意：这个简单实现不支持嵌套取消
        pass
+
+
+async def read_first_chunk_with_ttfb_timeout(
+    byte_iterator: Any,
+    timeout: float,
+    request_id: str,
+    provider_name: str,
+) -> tuple[bytes, Any]:
+    """
+    读取流的首字节并应用 TTFB 超时检测
+
+    首字节超时（Time To First Byte）用于检测慢响应的 Provider，
+    超时时触发故障转移到其他可用的 Provider。
+
+    Args:
+        byte_iterator: 异步字节流迭代器
+        timeout: TTFB 超时时间（秒）
+        request_id: 请求 ID（用于日志）
+        provider_name: Provider 名称（用于日志和异常）
+
+    Returns:
+        (first_chunk, aiter): 首个字节块和异步迭代器
+
+    Raises:
+        ProviderTimeoutException: 如果首字节超时
+    """
+    from src.core.exceptions import ProviderTimeoutException
+
+    aiter = byte_iterator.__aiter__()
+
+    try:
+        first_chunk = await asyncio.wait_for(aiter.__anext__(), timeout=timeout)
+        return first_chunk, aiter
+    except asyncio.TimeoutError:
+        # 完整的资源清理：先关闭迭代器，再关闭底层响应
+        await _cleanup_iterator_resources(aiter, request_id)
+        logger.warning(
+            f"  [{request_id}] 流首字节超时 (TTFB): "
+            f"Provider={provider_name}, timeout={timeout}s"
+        )
+        raise ProviderTimeoutException(
+            provider_name=provider_name,
+            timeout=int(timeout),
+        )
+
+
+async def _cleanup_iterator_resources(aiter: Any, request_id: str) -> None:
+    """
+    清理异步迭代器及其底层资源
+
+    确保在 TTFB 超时后正确释放 HTTP 连接，避免连接泄漏。
+
+    Args:
+        aiter: 异步迭代器
+        request_id: 请求 ID（用于日志）
+    """
+    # 1. 关闭迭代器本身
+    if hasattr(aiter, "aclose"):
+        try:
+            await aiter.aclose()
+        except Exception as e:
+            logger.debug(f"  [{request_id}] 关闭迭代器失败: {e}")
+
+    # 2. 关闭底层响应对象（httpx.Response）
+    # 迭代器可能持有 _response 属性指向底层响应
+    response = getattr(aiter, "_response", None)
+    if response is not None and hasattr(response, "aclose"):
+        try:
+            await response.aclose()
+        except Exception as e:
+            logger.debug(f"  [{request_id}] 关闭底层响应失败: {e}")
+
+    # 3. 尝试关闭 httpx 流（如果迭代器是 httpx 的 aiter_bytes）
+    # httpx 的 Response.aiter_bytes() 返回的生成器可能有 _stream 属性
+    stream = getattr(aiter, "_stream", None)
+    if stream is not None and hasattr(stream, "aclose"):
+        try:
+            await stream.aclose()
+        except Exception as e:
+            logger.debug(f"  [{request_id}] 关闭流对象失败: {e}")
Author	SHA1	Message	Date
fawney19	41719a00e7	refactor: 改进分布式任务锁的清理策略实现两种锁清理模式： - 单实例模式（默认）：启动时使用 Lua 脚本原子性清理旧锁，解决 worker 重启时��锁残留问题 - 多实例模式：使用 NX 选项竞争锁，依赖 TTL 处理异常退出可通过 SINGLE_INSTANCE_MODE 环境变量控制模式选择。	2025-12-28 21:34:43 +08:00
fawney19	b5c0f85dca	refactor: 统一剪贴板复制功能到 useClipboard 组合式函数将各个组件和视图中重复的剪贴板复制逻辑提取到 useClipboard 组合式函数。增加 showToast 参数支持静默复制，减少代码重复，提高维护性。	2025-12-28 20:41:52 +08:00
fawney19	7d6d262ed3	feat: 增加用户密码修改时的确认验证在编辑用户时，如果填写了新密码，需要进行密码确认，确保两次输入一致。同时更新后端请求模型以支持密码字段。	2025-12-28 20:00:25 +08:00
fawney19	e21acd73eb	fix: 修复模型映射中重复关联的问题在批量分配模型和编辑模型映射时，需要检查不仅是主模型名是否已关联，还要检查其映射名称是否已存在，防止同一个上游模型被重复关联。	2025-12-28 19:40:07 +08:00
fawney19	702f9bc5f1	fix: 修复缓存监控页面TTL分析时间段选择器点击无响应为 Select 组件添加 v-model:open 绑定，解决 radix-vue Select 组件在某些情况下点击无响应的问题。 Fixes #55	2025-12-28 19:14:49 +08:00
fawney19	d0ce798881	fix: TTL=0时启用Key随机轮换模式 - 当所有Key的cache_ttl_minutes都为0时，使用随机排序代替确定性哈希 - 将hashlib和random的import移到文件顶部 - 简化单Key场景的处理逻辑 Closes #57	2025-12-28 19:07:25 +08:00
fawney19	2b1d197047	Merge remote-tracking branch 'gitcode/master' into htmambo/master	2025-12-25 22:47:08 +08:00
fawney19	71bc2e6aab	fix: 增加参数校验防止除零错误	2025-12-25 22:44:17 +08:00
fawney19	afb329934a	fix: 修复端点健康统计时间分段计算的除零错误	2025-12-25 19:54:16 +08:00
elky0401	1313af45a3	!4 merge htmambo/master into master refactor: 重构模型测试错误解析逻辑并修复用量统计变量引用 Created-by: elky0401 Commit-by: fawney19;hoping Merged-by: elky0401 Description: feat: 引入统一的端点检查器以重构适配器并改进错误处理和用量统计。 refactor: 重构模型测试错误解析逻辑并修复用量统计变量引用 See merge request: elky0401/Aether!4	2025-12-25 19:39:33 +08:00
fawney19	dddb327885	refactor: 重构模型测试错误解析逻辑并修复用量统计变量引用 - 将 ModelsTab 和 ModelAliasesTab 中重复的错误解析逻辑提取到 errorParser.ts - 添加 parseTestModelError 函数统一处理测试响应错误 - 为 testModel API 添加 TypeScript 类型定义 (TestModelRequest/TestModelResponse) - 修复 endpoint_checker.py 中 usage_data 变量引用错误	2025-12-25 19:36:29 +08:00
hoping	26b4a37323	feat: 引入统一的端点检查器以重构适配器并改进错误处理和用量统计。	2025-12-25 00:02:56 +08:00
fawney19	9dad194130	fix: 修复 API Key 访问限制字段无法清除的问题 - 统一前端创建和更新 API Key 时的空数组处理逻辑 - 后端创建和更新接口都支持空数组转 NULL（表示不限制） - 开启自动刷新时立即刷新一次数据	2025-12-24 22:35:30 +08:00
fawney19	03ad16ea8a	fix: 修复迁移脚本在全新安装时报错及改进统计回填逻辑迁移脚本修复: - 移除 AUTOCOMMIT 模式，改为在同一事务中创建索引 - 分别检查每个索引是否存在，只创建缺失的索引 - 修复全新安装时 AUTOCOMMIT 连接看不到未提交表的问题 (#46) 统计回填改进: - 分别检查 StatsDaily 和 StatsDailyModel 的缺失日期 - 只回填实际缺失的数据而非连续区间 - 添加失败统计计数和 rollback 错误日志	2025-12-24 21:50:05 +08:00
fawney19	2fa64b98e3	fix: deploy.sh 将 Dockerfile.app.local 纳入代码变化检测	2025-12-24 18:10:42 +08:00
fawney19	75d7e89cbb	perf: 添加 gunicorn --preload 参数优化内存占用 Worker 进程共享只读内存（代码、常量），可减少约 30-40% 内存占用 Closes #44	2025-12-24 18:10:42 +08:00
fawney19	d73a443484	fix: 修复初次执行 migrate.sh 时 usage 表不存在的问题 (#43 ) - 在 baseline 中直接创建 usage 表复合索引 - 在后续迁移中添加表存在性检查，避免 AUTOCOMMIT 连接看不到事务中的表	2025-12-24 18:10:42 +08:00
Hwwwww-dev	15a9b88fc8	feat: enhance extract_cache_creation_tokens function to support three formats[#41 ] (#42 ) - Updated the function to prioritize nested format, followed by flat new format, and finally old format for cache creation tokens. - Added fallback logic for cases where the preferred formats return zero. - Expanded unit tests to cover new format scenarios and ensure proper functionality across all formats. Co-authored-by: heweimin <heweimin@retaileye.ai>	2025-12-24 01:31:45 +08:00
fawney19	03eb7203ec	fix(api): 同步 chat_handler_base 使用 aiter_bytes 支持自动解压	2025-12-24 01:13:35 +08:00
hank9999	e38cd6819b	fix(api): 优化字节流迭代器以支持自动解压 gzip (#39 )	2025-12-24 01:11:35 +08:00
fawney19	d44cfaddf6	fix: rename variable to avoid shadowing in model mapping cache stats 循环内部变量 provider_model_mappings 与外部列表同名，导致外部列表被覆盖为 None 引发 AttributeError	2025-12-23 00:38:37 +08:00
fawney19	65225710a8	refactor: use ConcurrencyDefaults for CACHE_RESERVATION_RATIO constant	2025-12-23 00:34:18 +08:00
fawney19	d7f5b16359	fix: rebuild app image when migration files change deploy.sh was only running alembic upgrade on the old container when migration files changed, but the migration files are baked into the Docker image. Now it rebuilds the app image when migrations change.	2025-12-23 00:23:22 +08:00
fawney19	7185818724	fix: remove index_exists check to avoid transaction conflict in migration - Remove index_exists function that used op.get_bind() within transaction - Use IF NOT EXISTS / IF EXISTS SQL syntax instead - Fixes CREATE INDEX CONCURRENTLY error in Docker migration	2025-12-23 00:21:03 +08:00
fawney19	868f3349e5	fix: use AUTOCOMMIT mode for CREATE INDEX CONCURRENTLY in migration PostgreSQL 不允许在事务块内执行 CREATE INDEX CONCURRENTLY，通过创建独立连接并设置 AUTOCOMMIT 隔离级别来解决此问题。	2025-12-23 00:18:11 +08:00
fawney19	d7384e69d9	fix: improve code quality and add type safety for Key updates - Replace f-string logging with lazy formatting in keys.py (lines 256, 265) - Add EndpointAPIKeyUpdate type interface for frontend type safety - Use typed EndpointAPIKeyUpdate instead of any in KeyFormDialog.vue	2025-12-23 00:11:10 +08:00
fawney19	1d5c378343	feat: add TTFB timeout detection and improve stream handling - Add stream first byte timeout (TTFB) detection to trigger failover when provider responds too slowly (configurable via STREAM_FIRST_BYTE_TIMEOUT) - Add rate limit fail-open/fail-close strategy configuration - Improve exception handling in stream prefetch with proper error classification - Refactor UsageService with shared _prepare_usage_record method - Add batch deletion for old usage records to avoid long transaction locks - Update CLI adapters to use proper User-Agent headers for each CLI client - Add composite indexes migration for usage table query optimization - Fix streaming status display in frontend to show TTFB during streaming - Remove sensitive JWT secret logging in auth service	2025-12-22 23:44:42 +08:00
fawney19	4e1aed9976	feat: add daily model statistics aggregation with stats_daily_model table	2025-12-20 02:39:10 +08:00
fawney19	e2e7996a54	feat: implement upstream model import and batch model assignment with UI components	2025-12-20 02:01:17 +08:00
fawney19	df9f9a9f4f	feat: add internal model list query interface with configurable User-Agent headers	2025-12-19 23:40:42 +08:00
fawney19	7553b0da80	fix: 优化自动刷新交互和ESC关闭样式 - 自动刷新改为按钮切换模式，移除独立Switch开关 - 自动刷新间隔从30s改为10s - ESC关闭弹窗后blur焦点，避免样式残留	2025-12-19 18:47:14 +08:00
fawney19	8f30bf0bef	Merge pull request #32 from htmambo/master 个性化处理	2025-12-19 18:46:26 +08:00
hoping	8c12174521	个性化处理 1. 为所有抽屉和对话框添加 ESC 键关闭功能； 2. 为`使用记录`表格添加自动刷新开关； 3. 为后端 API 请求增加 User-Agent 头部； 4. 修改启动命令支持从.env中读取数据库和Redis配置。	2025-12-19 17:31:15 +08:00
fawney19	6aa1876955	feat: add Dockerfile.app.local for China mirror support	2025-12-19 16:20:02 +08:00
fawney19	7f07122aea	refactor: separate frontend build from base image for faster incremental builds	2025-12-19 16:02:38 +08:00
fawney19	c2ddc6bd3c	refactor: optimize Docker build with multi-stage and slim runtime base image	2025-12-19 15:51:21 +08:00
fawney19	af476ff21e	feat: enhance error logging and upstream response tracking for provider failures	2025-12-19 15:29:48 +08:00
fawney19	3bbc1c6b66	feat: add provider compatibility error detection for intelligent failover - Introduce ProviderCompatibilityException for unsupported parameter/feature errors - Add COMPATIBILITY_ERROR_PATTERNS to detect provider-specific limitations - Implement _is_compatibility_error() method in ErrorClassifier - Prioritize compatibility error checking before client error validation - Remove 'max_tokens' from CLIENT_ERROR_PATTERNS as it can indicate compatibility issues - Enable automatic failover when provider doesn't support requested features - Improve error classification accuracy with pattern matching for common compatibility issues	2025-12-19 13:28:26 +08:00
fawney19	c69a0a8506	refactor: remove stream smoothing config from system settings and improve base image caching - Remove stream_smoothing configuration from SystemConfigService (moved to handler default) - Remove stream smoothing UI controls from admin settings page - Add AdminClearSingleAffinityAdapter for targeted cache invalidation - Add clearSingleAffinity API endpoint to clear specific affinity cache entries - Include global_model_id in affinity list response for UI deletion support - Improve CI/CD workflow with hash-based base image change detection - Add hash label to base image for reliable cache invalidation detection - Use remote image inspection to determine if base image rebuild is needed - Include Dockerfile.base in hash calculation for proper dependency tracking	2025-12-19 13:09:56 +08:00
fawney19	1fae202bde	Merge pull request #30 from AAEE86/master chore: Modify the order of API format enumeration	2025-12-19 12:34:22 +08:00
fawney19	b9a26c4550	fix: add SETUPTOOLS_SCM_PRETEND_VERSION for CI builds	2025-12-19 12:01:19 +08:00
AAEE86	e42bd35d48	chore: Modify the order of API format enumeration - Move CLAUDE_CLI before OPENAI	2025-12-19 11:44:10 +08:00