feat: OpenAI 流式响应解析器支持提取 usage 信息

部分 OpenAI 兼容 API（如豆包）会在最后一个 chunk 中发送 usage 信息，现在可以正确提取 prompt_tokens 和 completion_tokens。
feat: 流式预读增强与自适应并发算法优化
2026-01-11 20:18:30 +08:00 · 2026-01-05 12:50:05 +08:00 · 2026-01-05 12:17:45 +08:00 · 2026-01-05 10:31:34 +08:00 · 2026-01-05 09:36:35 +08:00 · 2026-01-05 09:29:38 +08:00
50 changed files with 1405 additions and 487 deletions
--- a/README.md
+++ b/README.md
@@ -58,13 +58,13 @@ cp .env.example .env
 python generate_keys.py  # 生成密钥, 并将生成的密钥填入 .env
 # 3. 部署
-docker-compose up -d
+docker compose up -d
 # 4. 首次部署时, 初始化数据库
 ./migrate.sh
 # 5. 更新
-docker-compose pull && docker-compose up -d && ./migrate.sh
+docker compose pull && docker compose up -d && ./migrate.sh
 ```
 ### Docker Compose（本地构建镜像）
@@ -86,7 +86,7 @@ python generate_keys.py  # 生成密钥, 并将生成的密钥填入 .env
 ```bash
 # 启动依赖
-docker-compose -f docker-compose.build.yml up -d postgres redis
+docker compose -f docker-compose.build.yml up -d postgres redis
 # 后端
 uv sync
--- a/alembic/env.py
+++ b/alembic/env.py
@@ -30,7 +30,7 @@ from src.models.database import Base
 config = context.config
 # 从环境变量获取数据库 URL
-# 优先使用 DATABASE_URL，否则从 DB_PASSWORD 自动构建（与 docker-compose 保持一致）
+# 优先使用 DATABASE_URL，否则从 DB_PASSWORD 自动构建（与 docker compose 保持一致）
 database_url = os.getenv("DATABASE_URL")
 if not database_url:
    db_password = os.getenv("DB_PASSWORD", "")
--- a/docker-compose.build.yml
+++ b/docker-compose.build.yml
@@ -1,7 +1,7 @@
 # Aether 部署配置 - 本地构建
 # 使用方法:
 #   首次构建 base: docker build -f Dockerfile.base -t aether-base:latest .
-#   启动服务: docker-compose -f docker-compose.build.yml up -d --build
+#   启动服务: docker compose -f docker-compose.build.yml up -d --build
 services:
  postgres:
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -1,5 +1,5 @@
 # Aether 部署配置 - 使用预构建镜像
-# 使用方法: docker-compose up -d
+# 使用方法: docker compose up -d
 services:
  postgres:
--- a/frontend/src/api/admin.ts
+++ b/frontend/src/api/admin.ts
@@ -42,7 +42,7 @@ export interface UserApiKeyExport {
  allowed_endpoints?: string[] | null
  allowed_api_formats?: string[] | null
  allowed_models?: string[] | null
-  rate_limit?: number
+  rate_limit?: number | null  // null = 无限制
  concurrent_limit?: number | null
  force_capabilities?: any
  is_active: boolean
@@ -220,7 +220,7 @@ export interface AdminApiKey {
  total_requests?: number
  total_tokens?: number
  total_cost_usd?: number
-  rate_limit?: number
+  rate_limit?: number | null  // null = 无限制
  allowed_providers?: string[] | null  // 允许的提供商列表
  allowed_api_formats?: string[] | null  // 允许的 API 格式列表
  allowed_models?: string[] | null  // 允许的模型列表
@@ -236,8 +236,8 @@ export interface CreateStandaloneApiKeyRequest {
  allowed_providers?: string[] | null
  allowed_api_formats?: string[] | null
  allowed_models?: string[] | null
-  rate_limit?: number
+  rate_limit?: number | null  // null = 无限制
-  expire_days?: number | null  // null = 永不过期
+  expires_at?: string | null  // ISO 日期字符串，如 "2025-12-31"，null = 永不过期
  initial_balance_usd: number  // 初始余额，必须设置
  auto_delete_on_expiry?: boolean  // 过期后是否自动删除
 }
--- a/frontend/src/api/me.ts
+++ b/frontend/src/api/me.ts
@@ -75,6 +75,16 @@ export interface ModelSummary {
  actual_total_cost_usd?: number  // 倍率消耗（仅管理员可见）
 }
 // 提供商统计接口
 export interface ProviderSummary {
  provider: string
  requests: number
  total_tokens: number
  total_cost_usd: number
  success_rate: number | null
  avg_response_time_ms: number | null
 }
 // 使用统计响应接口
 export interface UsageResponse {
  total_requests: number
@@ -87,6 +97,13 @@ export interface UsageResponse {
  quota_usd: number | null
  used_usd: number
  summary_by_model: ModelSummary[]
  summary_by_provider?: ProviderSummary[]
  pagination?: {
    total: number
    limit: number
    offset: number
    has_more: boolean
  }
  records: UsageRecordDetail[]
  activity_heatmap?: ActivityHeatmap | null
 }
@@ -175,6 +192,8 @@ export const meApi = {
  async getUsage(params?: {
    start_date?: string
    end_date?: string
    limit?: number
    offset?: number
  }): Promise<UsageResponse> {
    const response = await apiClient.get<UsageResponse>('/api/users/me/usage', { params })
    return response.data
@@ -184,11 +203,12 @@ export const meApi = {
  async getActiveRequests(ids?: string): Promise<{
    requests: Array<{
      id: string
-      status: string
+      status: 'pending' | 'streaming' | 'completed' | 'failed'
      input_tokens: number
      output_tokens: number
      cost: number
      response_time_ms: number | null
      first_byte_time_ms: number | null
    }>
  }> {
    const params = ids ? { ids } : {}
@@ -267,5 +287,14 @@ export const meApi = {
  }> {
    const response = await apiClient.get('/api/users/me/usage/interval-timeline', { params })
    return response.data
  },
  /**
   * 获取活跃度热力图数据（用户）
   * 后端已缓存5分钟
   */
  async getActivityHeatmap(): Promise<ActivityHeatmap> {
    const response = await apiClient.get<ActivityHeatmap>('/api/users/me/usage/heatmap')
    return response.data
  }
 }
--- a/frontend/src/api/usage.ts
+++ b/frontend/src/api/usage.ts
@@ -193,10 +193,22 @@ export const usageApi = {
      output_tokens: number
      cost: number
      response_time_ms: number | null
      first_byte_time_ms: number | null
      provider?: string | null
      api_key_name?: string | null
    }>
  }> {
    const params = ids?.length ? { ids: ids.join(',') } : {}
    const response = await apiClient.get('/api/admin/usage/active', { params })
    return response.data
  },
  /**
   * 获取活跃度热力图数据（管理员）
   * 后端已缓存5分钟
   */
  async getActivityHeatmap(): Promise<ActivityHeatmap> {
    const response = await apiClient.get<ActivityHeatmap>('/api/admin/usage/heatmap')
    return response.data
  }
 }
--- a/frontend/src/components/common/ModelMultiSelect.vue
+++ b/frontend/src/components/common/ModelMultiSelect.vue
@@ -0,0 +1,117 @@
 <template>
  <div class="space-y-2">
    <Label class="text-sm font-medium">允许的模型</Label>
    <div class="relative">
      <button
        type="button"
        class="w-full h-10 px-3 border rounded-lg bg-background text-left flex items-center justify-between hover:bg-muted/50 transition-colors"
        @click="isOpen = !isOpen"
      >
        <span :class="modelValue.length ? 'text-foreground' : 'text-muted-foreground'">
          {{ modelValue.length ? `已选择 ${modelValue.length} 个` : '全部可用' }}
          <span
            v-if="invalidModels.length"
            class="text-destructive"
          >({{ invalidModels.length }} 个已失效)</span>
        </span>
        <ChevronDown
          class="h-4 w-4 text-muted-foreground transition-transform"
          :class="isOpen ? 'rotate-180' : ''"
        />
      </button>
      <div
        v-if="isOpen"
        class="fixed inset-0 z-[80]"
        @click.stop="isOpen = false"
      />
      <div
        v-if="isOpen"
        class="absolute z-[90] w-full mt-1 bg-popover border rounded-lg shadow-lg max-h-48 overflow-y-auto"
      >
        <!-- 失效模型（置顶显示，只能取消选择） -->
        <div
          v-for="modelName in invalidModels"
          :key="modelName"
          class="flex items-center gap-2 px-3 py-2 hover:bg-muted/50 cursor-pointer bg-destructive/5"
          @click="removeModel(modelName)"
        >
          <input
            type="checkbox"
            :checked="true"
            class="h-4 w-4 rounded border-gray-300 cursor-pointer"
            @click.stop
            @change="removeModel(modelName)"
          >
          <span class="text-sm text-destructive">{{ modelName }}</span>
          <span class="text-xs text-destructive/70">(已失效)</span>
        </div>
        <!-- 有效模型 -->
        <div
          v-for="model in models"
          :key="model.name"
          class="flex items-center gap-2 px-3 py-2 hover:bg-muted/50 cursor-pointer"
          @click="toggleModel(model.name)"
        >
          <input
            type="checkbox"
            :checked="modelValue.includes(model.name)"
            class="h-4 w-4 rounded border-gray-300 cursor-pointer"
            @click.stop
            @change="toggleModel(model.name)"
          >
          <span class="text-sm">{{ model.name }}</span>
        </div>
        <div
          v-if="models.length === 0 && invalidModels.length === 0"
          class="px-3 py-2 text-sm text-muted-foreground"
        >
          暂无可用模型
        </div>
      </div>
    </div>
  </div>
 </template>
 <script setup lang="ts">
 import { ref, computed } from 'vue'
 import { Label } from '@/components/ui'
 import { ChevronDown } from 'lucide-vue-next'
 import { useInvalidModels } from '@/composables/useInvalidModels'
 export interface ModelWithName {
  name: string
 }
 const props = defineProps<{
  modelValue: string[]
  models: ModelWithName[]
 }>()
 const emit = defineEmits<{
  'update:modelValue': [value: string[]]
 }>()
 const isOpen = ref(false)
 // 检测失效模型
 const { invalidModels } = useInvalidModels(
  computed(() => props.modelValue),
  computed(() => props.models)
 )
 function toggleModel(name: string) {
  const newValue = [...props.modelValue]
  const index = newValue.indexOf(name)
  if (index === -1) {
    newValue.push(name)
  } else {
    newValue.splice(index, 1)
  }
  emit('update:modelValue', newValue)
 }
 function removeModel(name: string) {
  const newValue = props.modelValue.filter(m => m !== name)
  emit('update:modelValue', newValue)
 }
 </script>
--- a/frontend/src/components/common/index.ts
+++ b/frontend/src/components/common/index.ts
@@ -7,3 +7,6 @@
 export { default as EmptyState } from './EmptyState.vue'
 export { default as AlertDialog } from './AlertDialog.vue'
 export { default as LoadingState } from './LoadingState.vue'
 // 表单组件
 export { default as ModelMultiSelect } from './ModelMultiSelect.vue'
--- a/frontend/src/composables/useInvalidModels.ts
+++ b/frontend/src/composables/useInvalidModels.ts
@@ -0,0 +1,34 @@
 import { computed, type Ref, type ComputedRef } from 'vue'
 /**
 * 检测失效模型的 composable
 *
 * 用于检测 allowed_models 中已不存在于 globalModels 的模型名称，
 * 这些模型可能已被删除但引用未清理。
 *
 * @example
 * ```typescript
 * const { invalidModels } = useInvalidModels(
 *   computed(() => form.value.allowed_models),
 *   globalModels
 * )
 * ```
 */
 export interface ModelWithName {
  name: string
 }
 export function useInvalidModels<T extends ModelWithName>(
  allowedModels: Ref<string[]> | ComputedRef<string[]>,
  globalModels: Ref<T[]>
 ): { invalidModels: ComputedRef<string[]> } {
  const validModelNames = computed(() =>
    new Set(globalModels.value.map(m => m.name))
  )
  const invalidModels = computed(() =>
    allowedModels.value.filter(name => !validModelNames.value.has(name))
  )
  return { invalidModels }
 }
--- a/frontend/src/features/api-keys/components/StandaloneKeyFormDialog.vue
+++ b/frontend/src/features/api-keys/components/StandaloneKeyFormDialog.vue
@@ -79,45 +79,45 @@
          <div class="space-y-2">
            <Label
-              for="form-expire-days"
+              for="form-expires-at"
              class="text-sm font-medium"
            >有效期设置</Label>
            <div class="flex items-center gap-2">
-              <Input
+              <div class="relative flex-1">
-                id="form-expire-days"
+                <Input
-                :model-value="form.expire_days ?? ''"
+                  id="form-expires-at"
-                type="number"
+                  :model-value="form.expires_at || ''"
-                min="1"
+                  type="date"
-                max="3650"
+                  :min="minExpiryDate"
-                placeholder="天数"
+                  class="h-9 pr-8"
-                :class="form.never_expire ? 'flex-1 h-9 opacity-50' : 'flex-1 h-9'"
+                  :placeholder="form.expires_at ? '' : '永不过期'"
-                :disabled="form.never_expire"
+                  @update:model-value="(v) => form.expires_at = v || undefined"
-                @update:model-value="(v) => form.expire_days = parseNumberInput(v, { min: 1, max: 3650 })"
+                />
-              />
+                <button
-              <label class="flex items-center gap-1.5 border rounded-md px-2 py-1.5 bg-muted/50 cursor-pointer text-xs whitespace-nowrap">
+                  v-if="form.expires_at"
-                <input
+                  type="button"
-                  v-model="form.never_expire"
+                  class="absolute right-2 top-1/2 -translate-y-1/2 text-muted-foreground hover:text-foreground"
-                  type="checkbox"
+                  title="清空（永不过期）"
-                  class="h-3.5 w-3.5 rounded border-gray-300 cursor-pointer"
+                  @click="clearExpiryDate"
                  @change="onNeverExpireChange"
                >
-                永不过期
+                  <X class="h-4 w-4" />
-              </label>
+                </button>
              </div>
              <label
                class="flex items-center gap-1.5 border rounded-md px-2 py-1.5 bg-muted/50 cursor-pointer text-xs whitespace-nowrap"
-                :class="form.never_expire ? 'opacity-50' : ''"
+                :class="!form.expires_at ? 'opacity-50 cursor-not-allowed' : ''"
              >
                <input
                  v-model="form.auto_delete_on_expiry"
                  type="checkbox"
                  class="h-3.5 w-3.5 rounded border-gray-300 cursor-pointer"
-                  :disabled="form.never_expire"
+                  :disabled="!form.expires_at"
                >
                到期删除
              </label>
            </div>
            <p class="text-xs text-muted-foreground">
-              不勾选"到期删除"则仅禁用
+              {{ form.expires_at ? '到期后' + (form.auto_delete_on_expiry ? '自动删除' : '仅禁用') + '（当天 23:59 失效）' : '留空表示永不过期' }}
            </p>
          </div>
@@ -244,55 +244,10 @@
          </div>
          <!-- 模型多选下拉框 -->
-          <div class="space-y-2">
+          <ModelMultiSelect
-            <Label class="text-sm font-medium">允许的模型</Label>
+            v-model="form.allowed_models"
-            <div class="relative">
+            :models="globalModels"
-              <button
+          />
                type="button"
                class="w-full h-10 px-3 border rounded-lg bg-background text-left flex items-center justify-between hover:bg-muted/50 transition-colors"
                @click="modelDropdownOpen = !modelDropdownOpen"
              >
                <span :class="form.allowed_models.length ? 'text-foreground' : 'text-muted-foreground'">
                  {{ form.allowed_models.length ? `已选择 ${form.allowed_models.length} 个` : '全部可用' }}
                </span>
                <ChevronDown
                  class="h-4 w-4 text-muted-foreground transition-transform"
                  :class="modelDropdownOpen ? 'rotate-180' : ''"
                />
              </button>
              <div
                v-if="modelDropdownOpen"
                class="fixed inset-0 z-[80]"
                @click.stop="modelDropdownOpen = false"
              />
              <div
                v-if="modelDropdownOpen"
                class="absolute z-[90] w-full mt-1 bg-popover border rounded-lg shadow-lg max-h-48 overflow-y-auto"
              >
                <div
                  v-for="model in globalModels"
                  :key="model.name"
                  class="flex items-center gap-2 px-3 py-2 hover:bg-muted/50 cursor-pointer"
                  @click="toggleSelection('allowed_models', model.name)"
                >
                  <input
                    type="checkbox"
                    :checked="form.allowed_models.includes(model.name)"
                    class="h-4 w-4 rounded border-gray-300 cursor-pointer"
                    @click.stop
                    @change="toggleSelection('allowed_models', model.name)"
                  >
                  <span class="text-sm">{{ model.name }}</span>
                </div>
                <div
                  v-if="globalModels.length === 0"
                  class="px-3 py-2 text-sm text-muted-foreground"
                >
                  暂无可用模型
                </div>
              </div>
            </div>
          </div>
        </div>
      </div>
    </form>
@@ -325,8 +280,9 @@ import {
  Input,
  Label,
 } from '@/components/ui'
-import { Plus, SquarePen, Key, Shield, ChevronDown } from 'lucide-vue-next'
+import { Plus, SquarePen, Key, Shield, ChevronDown, X } from 'lucide-vue-next'
 import { useFormDialog } from '@/composables/useFormDialog'
 import { ModelMultiSelect } from '@/components/common'
 import { getProvidersSummary } from '@/api/endpoints/providers'
 import { getGlobalModels } from '@/api/global-models'
 import { adminApi } from '@/api/admin'
@@ -338,8 +294,7 @@ export interface StandaloneKeyFormData {
  id?: string
  name: string
  initial_balance_usd?: number
-  expire_days?: number
+  expires_at?: string  // ISO 日期字符串，如 "2025-12-31"，undefined = 永不过期
  never_expire: boolean
  rate_limit?: number
  auto_delete_on_expiry: boolean
  allowed_providers: string[]
@@ -363,7 +318,6 @@ const saving = ref(false)
 // 下拉框状态
 const providerDropdownOpen = ref(false)
 const apiFormatDropdownOpen = ref(false)
 const modelDropdownOpen = ref(false)
 // 选项数据
 const providers = ref<ProviderWithEndpointsSummary[]>([])
@@ -374,8 +328,7 @@ const allApiFormats = ref<string[]>([])
 const form = ref<StandaloneKeyFormData>({
  name: '',
  initial_balance_usd: 10,
-  expire_days: undefined,
+  expires_at: undefined,
  never_expire: true,
  rate_limit: undefined,
  auto_delete_on_expiry: false,
  allowed_providers: [],
@@ -383,12 +336,18 @@ const form = ref<StandaloneKeyFormData>({
  allowed_models: []
 })
 // 计算最小可选日期（明天）
 const minExpiryDate = computed(() => {
  const tomorrow = new Date()
  tomorrow.setDate(tomorrow.getDate() + 1)
  return tomorrow.toISOString().split('T')[0]
 })
 function resetForm() {
  form.value = {
    name: '',
    initial_balance_usd: 10,
-    expire_days: undefined,
+    expires_at: undefined,
    never_expire: true,
    rate_limit: undefined,
    auto_delete_on_expiry: false,
    allowed_providers: [],
@@ -397,7 +356,6 @@ function resetForm() {
  }
  providerDropdownOpen.value = false
  apiFormatDropdownOpen.value = false
  modelDropdownOpen.value = false
 }
 function loadKeyData() {
@@ -406,8 +364,7 @@ function loadKeyData() {
    id: props.apiKey.id,
    name: props.apiKey.name || '',
    initial_balance_usd: props.apiKey.initial_balance_usd,
-    expire_days: props.apiKey.expire_days,
+    expires_at: props.apiKey.expires_at,
    never_expire: props.apiKey.never_expire,
    rate_limit: props.apiKey.rate_limit,
    auto_delete_on_expiry: props.apiKey.auto_delete_on_expiry,
    allowed_providers: props.apiKey.allowed_providers || [],
@@ -452,12 +409,10 @@ function toggleSelection(field: 'allowed_providers' | 'allowed_api_formats' | 'a
  }
 }
-// 永不过期切换
+// 清空过期日期（同时清空到期删除选项）
-function onNeverExpireChange() {
+function clearExpiryDate() {
-  if (form.value.never_expire) {
+  form.value.expires_at = undefined
-    form.value.expire_days = undefined
+  form.value.auto_delete_on_expiry = false
    form.value.auto_delete_on_expiry = false
  }
 }
 // 提交表单
--- a/frontend/src/features/usage/components/ActivityHeatmapCard.vue
+++ b/frontend/src/features/usage/components/ActivityHeatmapCard.vue
@@ -18,8 +18,22 @@
        <span class="flex-shrink-0">多</span>
      </div>
    </div>
    <div
      v-if="isLoading"
      class="h-full min-h-[160px] flex items-center justify-center text-sm text-muted-foreground"
    >
      <Loader2 class="h-5 w-5 animate-spin mr-2" />
      加载中...
    </div>
    <div
      v-else-if="hasError"
      class="h-full min-h-[160px] flex items-center justify-center text-sm text-destructive"
    >
      <AlertCircle class="h-4 w-4 mr-1.5" />
      加载失败
    </div>
    <ActivityHeatmap
-      v-if="hasData"
+      v-else-if="hasData"
      :data="data"
      :show-header="false"
    />
@@ -34,6 +48,7 @@
 <script setup lang="ts">
 import { computed } from 'vue'
 import { Loader2, AlertCircle } from 'lucide-vue-next'
 import Card from '@/components/ui/card.vue'
 import ActivityHeatmap from '@/components/stats/ActivityHeatmap.vue'
 import type { ActivityHeatmap as ActivityHeatmapData } from '@/types/activity'
@@ -41,6 +56,8 @@ import type { ActivityHeatmap as ActivityHeatmapData } from '@/types/activity'
 const props = defineProps<{
  data: ActivityHeatmapData | null
  title: string
  isLoading?: boolean
  hasError?: boolean
 }>()
 const legendLevels = [0.08, 0.25, 0.45, 0.65, 0.85]
--- a/frontend/src/features/usage/composables/useUsageData.ts
+++ b/frontend/src/features/usage/composables/useUsageData.ts
@@ -64,9 +64,6 @@ export function useUsageData(options: UseUsageDataOptions) {
    }))
  })
  // 活跃度热图数据
  const activityHeatmapData = computed(() => stats.value.activity_heatmap)
  // 加载统计数据（不加载记录）
  async function loadStats(dateRange?: DateRangeParams) {
    isLoadingStats.value = true
@@ -93,7 +90,7 @@ export function useUsageData(options: UseUsageDataOptions) {
          cache_stats: (statsData as any).cache_stats,
          period_start: '',
          period_end: '',
-          activity_heatmap: statsData.activity_heatmap || null
+          activity_heatmap: null
        }
        modelStats.value = modelData.map(item => ({
@@ -143,7 +140,7 @@ export function useUsageData(options: UseUsageDataOptions) {
          avg_response_time: userData.avg_response_time || 0,
          period_start: '',
          period_end: '',
-          activity_heatmap: userData.activity_heatmap || null
+          activity_heatmap: null
        }
        modelStats.value = (userData.summary_by_model || []).map((item: any) => ({
@@ -305,7 +302,6 @@ export function useUsageData(options: UseUsageDataOptions) {
    // 计算属性
    enhancedModelStats,
    activityHeatmapData,
    // 方法
    loadStats,
--- a/frontend/src/features/usage/types.ts
+++ b/frontend/src/features/usage/types.ts
@@ -1,5 +1,3 @@
 import type { ActivityHeatmap } from '@/types/activity'
 // 统计数据状态
 export interface UsageStatsState {
  total_requests: number
@@ -17,7 +15,6 @@ export interface UsageStatsState {
  }
  period_start: string
  period_end: string
  activity_heatmap: ActivityHeatmap | null
 }
 // 模型统计
@@ -115,7 +112,6 @@ export function createDefaultStats(): UsageStatsState {
    error_rate: undefined,
    cache_stats: undefined,
    period_start: '',
-    period_end: '',
+    period_end: ''
    activity_heatmap: null
  }
 }
--- a/frontend/src/features/users/components/UserFormDialog.vue
+++ b/frontend/src/features/users/components/UserFormDialog.vue
@@ -316,55 +316,10 @@
          </div>
          <!-- 模型多选下拉框 -->
-          <div class="space-y-2">
+          <ModelMultiSelect
-            <Label class="text-sm font-medium">允许的模型</Label>
+            v-model="form.allowed_models"
-            <div class="relative">
+            :models="globalModels"
-              <button
+          />
                type="button"
                class="w-full h-10 px-3 border rounded-lg bg-background text-left flex items-center justify-between hover:bg-muted/50 transition-colors"
                @click="modelDropdownOpen = !modelDropdownOpen"
              >
                <span :class="form.allowed_models.length ? 'text-foreground' : 'text-muted-foreground'">
                  {{ form.allowed_models.length ? `已选择 ${form.allowed_models.length} 个` : '全部可用' }}
                </span>
                <ChevronDown
                  class="h-4 w-4 text-muted-foreground transition-transform"
                  :class="modelDropdownOpen ? 'rotate-180' : ''"
                />
              </button>
              <div
                v-if="modelDropdownOpen"
                class="fixed inset-0 z-[80]"
                @click.stop="modelDropdownOpen = false"
              />
              <div
                v-if="modelDropdownOpen"
                class="absolute z-[90] w-full mt-1 bg-popover border rounded-lg shadow-lg max-h-48 overflow-y-auto"
              >
                <div
                  v-for="model in globalModels"
                  :key="model.name"
                  class="flex items-center gap-2 px-3 py-2 hover:bg-muted/50 cursor-pointer"
                  @click="toggleSelection('allowed_models', model.name)"
                >
                  <input
                    type="checkbox"
                    :checked="form.allowed_models.includes(model.name)"
                    class="h-4 w-4 rounded border-gray-300 cursor-pointer"
                    @click.stop
                    @change="toggleSelection('allowed_models', model.name)"
                  >
                  <span class="text-sm">{{ model.name }}</span>
                </div>
                <div
                  v-if="globalModels.length === 0"
                  class="px-3 py-2 text-sm text-muted-foreground"
                >
                  暂无可用模型
                </div>
              </div>
            </div>
          </div>
        </div>
      </div>
    </form>
@@ -404,10 +359,12 @@ import {
 } from '@/components/ui'
 import { UserPlus, SquarePen, ChevronDown } from 'lucide-vue-next'
 import { useFormDialog } from '@/composables/useFormDialog'
 import { ModelMultiSelect } from '@/components/common'
 import { getProvidersSummary } from '@/api/endpoints/providers'
 import { getGlobalModels } from '@/api/global-models'
 import { adminApi } from '@/api/admin'
 import { log } from '@/utils/logger'
 import type { ProviderWithEndpointsSummary, GlobalModelResponse } from '@/api/endpoints/types'
 export interface UserFormData {
  id?: string
@@ -440,11 +397,10 @@ const roleSelectOpen = ref(false)
 // 下拉框状态
 const providerDropdownOpen = ref(false)
 const endpointDropdownOpen = ref(false)
 const modelDropdownOpen = ref(false)
 // 选项数据
-const providers = ref<any[]>([])
+const providers = ref<ProviderWithEndpointsSummary[]>([])
-const globalModels = ref<any[]>([])
+const globalModels = ref<GlobalModelResponse[]>([])
 const apiFormats = ref<Array<{ value: string; label: string }>>([])
 // 表单数据
--- a/frontend/src/views/admin/ApiKeys.vue
+++ b/frontend/src/views/admin/ApiKeys.vue
@@ -850,28 +850,20 @@ async function deleteApiKey(apiKey: AdminApiKey) {
 }
 function editApiKey(apiKey: AdminApiKey) {
-  // 计算过期天数
+  // 解析过期日期为 YYYY-MM-DD 格式
-  let expireDays: number | undefined = undefined
+  // 保留原始日期，不做时间过滤（避免编辑当天过期的 Key 时意外清空）
-  let neverExpire = true
+  let expiresAt: string | undefined = undefined
  if (apiKey.expires_at) {
    const expiresDate = new Date(apiKey.expires_at)
-    const now = new Date()
+    expiresAt = expiresDate.toISOString().split('T')[0]
    const diffMs = expiresDate.getTime() - now.getTime()
    const diffDays = Math.ceil(diffMs / (1000 * 60 * 60 * 24))
    if (diffDays > 0) {
      expireDays = diffDays
      neverExpire = false
    }
  }
  editingKeyData.value = {
    id: apiKey.id,
    name: apiKey.name || '',
-    expire_days: expireDays,
+    expires_at: expiresAt,
-    never_expire: neverExpire,
+    rate_limit: apiKey.rate_limit ?? undefined,
    rate_limit: apiKey.rate_limit || 100,
    auto_delete_on_expiry: apiKey.auto_delete_on_expiry || false,
    allowed_providers: apiKey.allowed_providers || [],
    allowed_api_formats: apiKey.allowed_api_formats || [],
@@ -1033,14 +1025,25 @@ function closeKeyFormDialog() {
 // 统一处理表单提交
 async function handleKeyFormSubmit(data: StandaloneKeyFormData) {
  // 验证过期日期（如果设置了，必须晚于今天）
  if (data.expires_at) {
    const selectedDate = new Date(data.expires_at)
    const today = new Date()
    today.setHours(0, 0, 0, 0)
    if (selectedDate <= today) {
      error('过期日期必须晚于今天')
      return
    }
  }
  keyFormDialogRef.value?.setSaving(true)
  try {
    if (data.id) {
      // 更新
      const updateData: Partial<CreateStandaloneApiKeyRequest> = {
        name: data.name || undefined,
-        rate_limit: data.rate_limit,
+        rate_limit: data.rate_limit ?? null,  // undefined = 无限制，显式传 null
-        expire_days: data.never_expire ? null : (data.expire_days || null),
+        expires_at: data.expires_at || null,  // undefined/空 = 永不过期
        auto_delete_on_expiry: data.auto_delete_on_expiry,
        // 空数组表示清除限制（允许全部），后端会将空数组存为 NULL
        allowed_providers: data.allowed_providers,
@@ -1058,8 +1061,8 @@ async function handleKeyFormSubmit(data: StandaloneKeyFormData) {
      const createData: CreateStandaloneApiKeyRequest = {
        name: data.name || undefined,
        initial_balance_usd: data.initial_balance_usd,
-        rate_limit: data.rate_limit,
+        rate_limit: data.rate_limit ?? null,  // undefined = 无限制，显式传 null
-        expire_days: data.never_expire ? null : (data.expire_days || null),
+        expires_at: data.expires_at || null,  // undefined/空 = 永不过期
        auto_delete_on_expiry: data.auto_delete_on_expiry,
        // 空数组表示不设置限制（允许全部），后端会将空数组存为 NULL
        allowed_providers: data.allowed_providers,
--- a/frontend/src/views/shared/Usage.vue
+++ b/frontend/src/views/shared/Usage.vue
@@ -5,6 +5,8 @@
      <ActivityHeatmapCard
        :data="activityHeatmapData"
        :title="isAdminPage ? '总体活跃天数' : '我的活跃天数'"
        :is-loading="isLoadingHeatmap"
        :has-error="heatmapError"
      />
      <IntervalTimelineCard
        :title="isAdminPage ? '请求间隔时间线' : '我的请求间隔'"
@@ -112,8 +114,11 @@ import {
 import type { PeriodValue, FilterStatusValue } from '@/features/usage/types'
 import type { UserOption } from '@/features/usage/components/UsageRecordsTable.vue'
 import { log } from '@/utils/logger'
 import type { ActivityHeatmap } from '@/types/activity'
 import { useToast } from '@/composables/useToast'
 const route = useRoute()
 const { warning } = useToast()
 const authStore = useAuthStore()
 // 判断是否是管理员页面
@@ -144,13 +149,35 @@ const {
  currentRecords,
  totalRecords,
  enhancedModelStats,
  activityHeatmapData,
  availableModels,
  availableProviders,
  loadStats,
  loadRecords
 } = useUsageData({ isAdminPage })
 // 热力图状态
 const activityHeatmapData = ref<ActivityHeatmap | null>(null)
 const isLoadingHeatmap = ref(false)
 const heatmapError = ref(false)
 // 加载热力图数据
 async function loadHeatmapData() {
  isLoadingHeatmap.value = true
  heatmapError.value = false
  try {
    if (isAdminPage.value) {
      activityHeatmapData.value = await usageApi.getActivityHeatmap()
    } else {
      activityHeatmapData.value = await meApi.getActivityHeatmap()
    }
  } catch (error) {
    log.error('加载热力图数据失败:', error)
    heatmapError.value = true
  } finally {
    isLoadingHeatmap.value = false
  }
 }
 // 用户页面需要前端筛选
 const filteredRecords = computed(() => {
  if (!isAdminPage.value) {
@@ -232,27 +259,40 @@ async function pollActiveRequests() {
      ? await usageApi.getActiveRequests(activeRequestIds.value)
      : await meApi.getActiveRequests(idsParam)
-    // 检查是否有状态变化
+    let shouldRefresh = false
-    let hasChanges = false
+
    for (const update of requests) {
      const record = currentRecords.value.find(r => r.id === update.id)
-      if (record && record.status !== update.status) {
+      if (!record) {
-        hasChanges = true
+        // 后端返回了未知的活跃请求，触发刷新以获取完整数据
-        // 如果状态变为 completed 或 failed，需要刷新获取完整数据
+        shouldRefresh = true
-        if (update.status === 'completed' || update.status === 'failed') {
+        continue
-          break
+      }
-        }
+
-        // 否则只更新状态和 token 信息
+      // 状态变化：completed/failed 需要刷新获取完整数据
      if (record.status !== update.status) {
        record.status = update.status
-        record.input_tokens = update.input_tokens
+      }
-        record.output_tokens = update.output_tokens
+      if (update.status === 'completed' || update.status === 'failed') {
-        record.cost = update.cost
+        shouldRefresh = true
-        record.response_time_ms = update.response_time_ms ?? undefined
+      }
      // 进行中状态也需要持续更新（provider/key/TTFB 可能在 streaming 后才落库）
      record.input_tokens = update.input_tokens
      record.output_tokens = update.output_tokens
      record.cost = update.cost
      record.response_time_ms = update.response_time_ms ?? undefined
      record.first_byte_time_ms = update.first_byte_time_ms ?? undefined
      // 管理员接口返回额外字段
      if ('provider' in update && typeof update.provider === 'string') {
        record.provider = update.provider
      }
      if ('api_key_name' in update) {
        record.api_key_name = typeof update.api_key_name === 'string' ? update.api_key_name : undefined
      }
    }
-    // 如果有请求完成或失败，刷新整个列表获取完整数据
+    if (shouldRefresh) {
    if (hasChanges && requests.some(r => r.status === 'completed' || r.status === 'failed')) {
      await refreshData()
    }
  } catch (error) {
@@ -335,7 +375,22 @@ const selectedRequestId = ref<string | null>(null)
 // 初始化加载
 onMounted(async () => {
  const dateRange = getDateRangeFromPeriod(selectedPeriod.value)
-  await loadStats(dateRange)
+
  // 并行加载统计数据和热力图（使用 allSettled 避免其中一个失败影响另一个）
  const [statsResult, heatmapResult] = await Promise.allSettled([
    loadStats(dateRange),
    loadHeatmapData()
  ])
  // 检查加载结果并通知用户
  if (statsResult.status === 'rejected') {
    log.error('加载统计数据失败:', statsResult.reason)
    warning('统计数据加载失败，请刷新重试')
  }
  if (heatmapResult.status === 'rejected') {
    log.error('加载热力图数据失败:', heatmapResult.reason)
    // 热力图加载失败不提示，因为 UI 已显示占位符
  }
  // 管理员页面加载用户列表和第一页记录
  if (isAdminPage.value) {
--- a/src/api/admin/api_keys/routes.py
+++ b/src/api/admin/api_keys/routes.py
@@ -3,22 +3,64 @@
 独立余额Key：不关联用户配额，有独立余额限制，用于给非注册用户使用。
 """
-from datetime import datetime, timezone
+import os
 from datetime import datetime, timedelta, timezone
 from typing import Optional
 from zoneinfo import ZoneInfo
 from fastapi import APIRouter, Depends, HTTPException, Query, Request
 from sqlalchemy.orm import Session
 from src.api.base.admin_adapter import AdminApiAdapter
 from src.api.base.pipeline import ApiRequestPipeline
-from src.core.exceptions import NotFoundException
+from src.core.exceptions import InvalidRequestException, NotFoundException
 from src.core.logger import logger
 from src.database import get_db
 from src.models.api import CreateApiKeyRequest
-from src.models.database import ApiKey, User
+from src.models.database import ApiKey
 from src.services.user.apikey import ApiKeyService
 # 应用时区配置，默认为 Asia/Shanghai
 APP_TIMEZONE = ZoneInfo(os.getenv("APP_TIMEZONE", "Asia/Shanghai"))
 def parse_expiry_date(date_str: Optional[str]) -> Optional[datetime]:
    """解析过期日期字符串为 datetime 对象。
    Args:
        date_str: 日期字符串，支持 "YYYY-MM-DD" 或 ISO 格式
    Returns:
        datetime 对象（当天 23:59:59.999999，应用时区），或 None 如果输入为空
    Raises:
        BadRequestException: 日期格式无效
    """
    if not date_str or not date_str.strip():
        return None
    date_str = date_str.strip()
    # 尝试 YYYY-MM-DD 格式
    try:
        parsed_date = datetime.strptime(date_str, "%Y-%m-%d")
        # 设置为当天结束时间 (23:59:59.999999，应用时区)
        return parsed_date.replace(
            hour=23, minute=59, second=59, microsecond=999999, tzinfo=APP_TIMEZONE
        )
    except ValueError:
        pass
    # 尝试完整 ISO 格式
    try:
        return datetime.fromisoformat(date_str.replace("Z", "+00:00"))
    except ValueError:
        pass
    raise InvalidRequestException(f"无效的日期格式: {date_str}，请使用 YYYY-MM-DD 格式")
 router = APIRouter(prefix="/api/admin/api-keys", tags=["Admin - API Keys (Standalone)"])
 pipeline = ApiRequestPipeline()
@@ -215,6 +257,9 @@ class AdminCreateStandaloneKeyAdapter(AdminApiAdapter):
        # 独立Key需要关联到管理员用户（从context获取）
        admin_user_id = context.user.id
        # 解析过期时间（优先使用 expires_at，其次使用 expire_days）
        expires_at_dt = parse_expiry_date(self.key_data.expires_at)
        # 创建独立Key
        api_key, plain_key = ApiKeyService.create_api_key(
            db=db,
@@ -224,7 +269,8 @@ class AdminCreateStandaloneKeyAdapter(AdminApiAdapter):
            allowed_api_formats=self.key_data.allowed_api_formats,
            allowed_models=self.key_data.allowed_models,
            rate_limit=self.key_data.rate_limit,  # None 表示不限制
-            expire_days=self.key_data.expire_days,
+            expire_days=self.key_data.expire_days,  # 兼容旧版
            expires_at=expires_at_dt,  # 优先使用
            initial_balance_usd=self.key_data.initial_balance_usd,
            is_standalone=True,  # 标记为独立Key
            auto_delete_on_expiry=self.key_data.auto_delete_on_expiry,
@@ -270,7 +316,8 @@ class AdminUpdateApiKeyAdapter(AdminApiAdapter):
        update_data = {}
        if self.key_data.name is not None:
            update_data["name"] = self.key_data.name
-        if self.key_data.rate_limit is not None:
+        # rate_limit: 显式传递时更新（包括 null 表示无限制）
        if "rate_limit" in self.key_data.model_fields_set:
            update_data["rate_limit"] = self.key_data.rate_limit
        if (
            hasattr(self.key_data, "auto_delete_on_expiry")
@@ -287,19 +334,21 @@ class AdminUpdateApiKeyAdapter(AdminApiAdapter):
            update_data["allowed_models"] = self.key_data.allowed_models
        # 处理过期时间
-        if self.key_data.expire_days is not None:
+        # 优先使用 expires_at（如果显式传递且有值）
-            if self.key_data.expire_days > 0:
+        if self.key_data.expires_at and self.key_data.expires_at.strip():
-                from datetime import timedelta
+            update_data["expires_at"] = parse_expiry_date(self.key_data.expires_at)
-
+        elif "expires_at" in self.key_data.model_fields_set:
            # expires_at 明确传递为 null 或空字符串，设为永不过期
            update_data["expires_at"] = None
        # 兼容旧版 expire_days
        elif "expire_days" in self.key_data.model_fields_set:
            if self.key_data.expire_days is not None and self.key_data.expire_days > 0:
                update_data["expires_at"] = datetime.now(timezone.utc) + timedelta(
                    days=self.key_data.expire_days
                )
            else:
-                # expire_days = 0 或负数表示永不过期
+                # expire_days = None/0/负数 表示永不过期
                update_data["expires_at"] = None
        elif hasattr(self.key_data, "expire_days") and self.key_data.expire_days is None:
            # 明确传递 None，设为永不过期
            update_data["expires_at"] = None
        # 使用 ApiKeyService 更新
        updated_key = ApiKeyService.update_api_key(db, self.key_id, **update_data)
--- a/src/api/admin/endpoints/routes.py
+++ b/src/api/admin/endpoints/routes.py
@@ -206,6 +206,7 @@ class AdminCreateProviderEndpointAdapter(AdminApiAdapter):
            provider_id=self.provider_id,
            api_format=self.endpoint_data.api_format,
            base_url=self.endpoint_data.base_url,
            custom_path=self.endpoint_data.custom_path,
            headers=self.endpoint_data.headers,
            timeout=self.endpoint_data.timeout,
            max_retries=self.endpoint_data.max_retries,
--- a/src/api/admin/models/global_models.py
+++ b/src/api/admin/models/global_models.py
@@ -146,20 +146,25 @@ class AdminListGlobalModelsAdapter(AdminApiAdapter):
            search=self.search,
        )
-        # 为每个 GlobalModel 添加统计数据
+        # 一次性查询所有 GlobalModel 的 provider_count（优化 N+1 问题）
        model_ids = [gm.id for gm in models]
        provider_counts = {}
        if model_ids:
            count_results = (
                context.db.query(
                    Model.global_model_id, func.count(func.distinct(Model.provider_id))
                )
                .filter(Model.global_model_id.in_(model_ids))
                .group_by(Model.global_model_id)
                .all()
            )
            provider_counts = {gm_id: count for gm_id, count in count_results}
        # 构建响应
        model_responses = []
        for gm in models:
            # 统计关联的 Model 数量（去重 Provider）
            provider_count = (
                context.db.query(func.count(func.distinct(Model.provider_id)))
                .filter(Model.global_model_id == gm.id)
                .scalar()
                or 0
            )
            response = GlobalModelResponse.model_validate(gm)
-            response.provider_count = provider_count
+            response.provider_count = provider_counts.get(gm.id, 0)
            # usage_count 直接从 GlobalModel 表读取，已在 model_validate 中自动映射
            model_responses.append(response)
        return GlobalModelListResponse(
--- a/src/api/admin/provider_strategy.py
+++ b/src/api/admin/provider_strategy.py
@@ -2,7 +2,7 @@
 提供商策略管理 API 端点
 """
-from datetime import datetime, timedelta
+from datetime import datetime, timedelta, timezone
 from typing import Optional
 from fastapi import APIRouter, Depends, HTTPException, Request
@@ -103,6 +103,9 @@ class AdminProviderBillingAdapter(AdminApiAdapter):
        if config.quota_last_reset_at:
            new_reset_at = parser.parse(config.quota_last_reset_at)
            # 确保有时区信息，如果没有则假设为 UTC
            if new_reset_at.tzinfo is None:
                new_reset_at = new_reset_at.replace(tzinfo=timezone.utc)
            provider.quota_last_reset_at = new_reset_at
            # 自动同步该周期内的历史使用量
@@ -118,7 +121,11 @@ class AdminProviderBillingAdapter(AdminApiAdapter):
            logger.info(f"Synced usage for provider {provider.name}: ${period_usage:.4f} since {new_reset_at}")
        if config.quota_expires_at:
-            provider.quota_expires_at = parser.parse(config.quota_expires_at)
+            expires_at = parser.parse(config.quota_expires_at)
            # 确保有时区信息，如果没有则假设为 UTC
            if expires_at.tzinfo is None:
                expires_at = expires_at.replace(tzinfo=timezone.utc)
            provider.quota_expires_at = expires_at
        db.commit()
        db.refresh(provider)
@@ -149,7 +156,7 @@ class AdminProviderStatsAdapter(AdminApiAdapter):
        if not provider:
            raise HTTPException(status_code=404, detail="Provider not found")
-        since = datetime.now() - timedelta(hours=self.hours)
+        since = datetime.now(timezone.utc) - timedelta(hours=self.hours)
        stats = (
            db.query(ProviderUsageTracking)
            .filter(
--- a/src/api/admin/system.py
+++ b/src/api/admin/system.py
@@ -1133,7 +1133,7 @@ class AdminImportUsersAdapter(AdminApiAdapter):
                        allowed_endpoints=key_data.get("allowed_endpoints"),
                        allowed_api_formats=key_data.get("allowed_api_formats"),
                        allowed_models=key_data.get("allowed_models"),
-                        rate_limit=key_data.get("rate_limit", 100),
+                        rate_limit=key_data.get("rate_limit"),  # None = 无限制
                        concurrent_limit=key_data.get("concurrent_limit", 5),
                        force_capabilities=key_data.get("force_capabilities"),
                        is_active=key_data.get("is_active", True),
--- a/src/api/admin/usage/routes.py
+++ b/src/api/admin/usage/routes.py
@@ -73,6 +73,20 @@ async def get_usage_stats(
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
@router.get("/heatmap")
 async def get_activity_heatmap(
    request: Request,
    db: Session = Depends(get_db),
 ):
    """
    Get activity heatmap data for the past 365 days.
    This endpoint is cached for 5 minutes to reduce database load.
    """
    adapter = AdminActivityHeatmapAdapter()
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
@router.get("/records")
 async def get_usage_records(
    request: Request,
@@ -168,12 +182,6 @@ class AdminUsageStatsAdapter(AdminApiAdapter):
            (Usage.status_code >= 400) | (Usage.error_message.isnot(None))
        ).count()
        activity_heatmap = UsageService.get_daily_activity(
            db=db,
            window_days=365,
            include_actual_cost=True,
        )
        context.add_audit_metadata(
            action="usage_stats",
            start_date=self.start_date.isoformat() if self.start_date else None,
@@ -204,10 +212,22 @@ class AdminUsageStatsAdapter(AdminApiAdapter):
                ),
                "cache_read_cost": float(cache_stats.cache_read_cost or 0) if cache_stats else 0,
            },
            "activity_heatmap": activity_heatmap,
        }
 class AdminActivityHeatmapAdapter(AdminApiAdapter):
    """Activity heatmap adapter with Redis caching."""
    async def handle(self, context):  # type: ignore[override]
        result = await UsageService.get_cached_heatmap(
            db=context.db,
            user_id=None,
            include_actual_cost=True,
        )
        context.add_audit_metadata(action="activity_heatmap")
        return result
 class AdminUsageByModelAdapter(AdminApiAdapter):
    def __init__(self, start_date: Optional[datetime], end_date: Optional[datetime], limit: int):
        self.start_date = start_date
@@ -670,7 +690,9 @@ class AdminActiveRequestsAdapter(AdminApiAdapter):
            if not id_list:
                return {"requests": []}
-        requests = UsageService.get_active_requests_status(db=db, ids=id_list)
+        requests = UsageService.get_active_requests_status(
            db=db, ids=id_list, include_admin_fields=True
        )
        return {"requests": requests}
--- a/src/api/admin/users/routes.py
+++ b/src/api/admin/users/routes.py
@@ -248,6 +248,7 @@ class AdminUpdateUserAdapter(AdminApiAdapter):
            raise InvalidRequestException("请求数据验证失败")
        update_data = request.model_dump(exclude_unset=True)
        old_role = existing_user.role
        if "role" in update_data and update_data["role"]:
            if hasattr(update_data["role"], "value"):
                update_data["role"] = update_data["role"]
@@ -258,6 +259,12 @@ class AdminUpdateUserAdapter(AdminApiAdapter):
        if not user:
            raise NotFoundException("用户不存在", "user")
        # 角色变更时清除热力图缓存（影响 include_actual_cost 权限）
        if "role" in update_data and update_data["role"] != old_role:
            from src.services.usage.service import UsageService
            await UsageService.clear_user_heatmap_cache(self.user_id)
        changed_fields = list(update_data.keys())
        context.add_audit_metadata(
            action="update_user",
@@ -424,7 +431,7 @@ class AdminCreateUserKeyAdapter(AdminApiAdapter):
            name=key_data.name,
            allowed_providers=key_data.allowed_providers,
            allowed_models=key_data.allowed_models,
-            rate_limit=key_data.rate_limit or 100,
+            rate_limit=key_data.rate_limit,  # None = 无限制
            expire_days=key_data.expire_days,
            initial_balance_usd=None,  # 普通Key不设置余额限制
            is_standalone=False,  # 不是独立Key
--- a/src/api/handlers/base/base_handler.py
+++ b/src/api/handlers/base/base_handler.py
@@ -47,7 +47,6 @@ if TYPE_CHECKING:
    from src.api.handlers.base.stream_context import StreamContext
 class MessageTelemetry:
    """
    负责记录 Usage/Audit，避免处理器里重复代码。
@@ -406,7 +405,7 @@ class BaseMessageHandler:
        asyncio.create_task(_do_update())
    def _update_usage_to_streaming_with_ctx(self, ctx: "StreamContext") -> None:
-        """更新 Usage 状态为 streaming，同时更新 provider 和 target_model
+        """更新 Usage 状态为 streaming，同时更新 provider 相关信息
        使用 asyncio 后台任务执行数据库更新，避免阻塞流式传输
@@ -414,7 +413,7 @@ class BaseMessageHandler:
        并在最终 record_success 时传递到数据库，避免重复记录导致数据不一致。
        Args:
-            ctx: 流式上下文，包含 provider_name 和 mapped_model
+            ctx: 流式上下文，包含 provider 相关信息
        """
        import asyncio
        from src.database.database import get_db
@@ -422,6 +421,17 @@ class BaseMessageHandler:
        target_request_id = self.request_id
        provider = ctx.provider_name
        target_model = ctx.mapped_model
        provider_id = ctx.provider_id
        endpoint_id = ctx.endpoint_id
        key_id = ctx.key_id
        first_byte_time_ms = ctx.first_byte_time_ms
        # 如果 provider 为空，记录警告（不应该发生，但用于调试）
        if not provider:
            logger.warning(
                f"[{target_request_id}] 更新 streaming 状态时 provider 为空: "
                f"ctx.provider_name={ctx.provider_name}, ctx.provider_id={ctx.provider_id}"
            )
        async def _do_update() -> None:
            try:
@@ -434,6 +444,10 @@ class BaseMessageHandler:
                        status="streaming",
                        provider=provider,
                        target_model=target_model,
                        provider_id=provider_id,
                        provider_endpoint_id=endpoint_id,
                        provider_api_key_id=key_id,
                        first_byte_time_ms=first_byte_time_ms,
                    )
                finally:
                    db.close()
--- a/src/api/handlers/base/chat_handler_base.py
+++ b/src/api/handlers/base/chat_handler_base.py
@@ -36,6 +36,7 @@ from src.api.handlers.base.stream_processor import StreamProcessor
 from src.api.handlers.base.stream_telemetry import StreamTelemetryRecorder
 from src.api.handlers.base.utils import build_sse_headers
 from src.config.settings import config
 from src.core.error_utils import extract_error_message
 from src.core.exceptions import (
    EmbeddedErrorException,
    ProviderAuthException,
@@ -500,6 +501,8 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
            error_text = await self._extract_error_text(e)
            logger.error(f"Provider 返回错误: {e.response.status_code}\n  Response: {error_text}")
            await http_client.aclose()
            # 将上游错误信息附加到异常，以便故障转移时能够返回给客户端
            e.upstream_response = error_text  # type: ignore[attr-defined]
            raise
        except EmbeddedErrorException:
@@ -549,7 +552,7 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
            model=ctx.model,
            response_time_ms=response_time_ms,
            status_code=status_code,
-            error_message=str(error),
+            error_message=extract_error_message(error),
            request_headers=original_headers,
            request_body=actual_request_body,
            is_stream=True,
@@ -785,7 +788,7 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
                model=model,
                response_time_ms=response_time_ms,
                status_code=status_code,
-                error_message=str(e),
+                error_message=extract_error_message(e),
                request_headers=original_headers,
                request_body=actual_request_body,
                is_stream=False,
@@ -802,10 +805,10 @@ class ChatHandlerBase(BaseMessageHandler, ABC):
        try:
            if hasattr(e.response, "is_stream_consumed") and not e.response.is_stream_consumed:
                error_bytes = await e.response.aread()
-                return error_bytes.decode("utf-8", errors="replace")[:500]
+                return error_bytes.decode("utf-8", errors="replace")
            else:
                return (
-                    e.response.text[:500] if hasattr(e.response, "_content") else "Unable to read"
+                    e.response.text if hasattr(e.response, "_content") else "Unable to read"
                )
        except Exception as decode_error:
            return f"Unable to read error: {decode_error}"
--- a/src/api/handlers/base/cli_handler_base.py
+++ b/src/api/handlers/base/cli_handler_base.py
@@ -34,7 +34,12 @@ from src.api.handlers.base.base_handler import (
 from src.api.handlers.base.parsers import get_parser_for_format
 from src.api.handlers.base.request_builder import PassthroughRequestBuilder
 from src.api.handlers.base.stream_context import StreamContext
-from src.api.handlers.base.utils import build_sse_headers
+from src.api.handlers.base.utils import (
    build_sse_headers,
    check_html_response,
    check_prefetched_response_error,
 )
 from src.core.error_utils import extract_error_message
 # 直接从具体模块导入，避免循环依赖
 from src.api.handlers.base.response_parser import (
@@ -57,6 +62,7 @@ from src.models.database import (
    ProviderEndpoint,
    User,
 )
 from src.config.constants import StreamDefaults
 from src.config.settings import config
 from src.services.provider.transport import build_provider_url
 from src.utils.sse_parser import SSEEventParser
@@ -328,9 +334,9 @@ class CliMessageHandlerBase(BaseMessageHandler):
                stream_generator,
                provider_name,
                attempt_id,
-                _provider_id,
+                provider_id,
-                _endpoint_id,
+                endpoint_id,
-                _key_id,
+                key_id,
            ) = await self.orchestrator.execute_with_fallback(
                api_format=ctx.api_format,
                model_name=ctx.model,
@@ -340,7 +346,17 @@ class CliMessageHandlerBase(BaseMessageHandler):
                is_stream=True,
                capability_requirements=capability_requirements or None,
            )
            # 更新上下文（确保 provider 信息已设置，用于 streaming 状态更新）
            ctx.attempt_id = attempt_id
            if not ctx.provider_name:
                ctx.provider_name = provider_name
            if not ctx.provider_id:
                ctx.provider_id = provider_id
            if not ctx.endpoint_id:
                ctx.endpoint_id = endpoint_id
            if not ctx.key_id:
                ctx.key_id = key_id
            # 创建后台任务记录统计
            background_tasks = BackgroundTasks()
@@ -488,6 +504,8 @@ class CliMessageHandlerBase(BaseMessageHandler):
            error_text = await self._extract_error_text(e)
            logger.error(f"Provider 返回错误状态: {e.response.status_code}\n  Response: {error_text}")
            await http_client.aclose()
            # 将上游错误信息附加到异常，以便故障转移时能够返回给客户端
            e.upstream_response = error_text  # type: ignore[attr-defined]
            raise
        except EmbeddedErrorException:
@@ -523,8 +541,8 @@ class CliMessageHandlerBase(BaseMessageHandler):
        try:
            sse_parser = SSEEventParser()
            last_data_time = time.time()
            streaming_status_updated = False
            buffer = b""
            output_state = {"first_yield": True, "streaming_updated": False}
            # 使用增量解码器处理跨 chunk 的 UTF-8 字符
            decoder = codecs.getincrementaldecoder("utf-8")(errors="replace")
@@ -532,11 +550,6 @@ class CliMessageHandlerBase(BaseMessageHandler):
            needs_conversion = self._needs_format_conversion(ctx)
            async for chunk in stream_response.aiter_bytes():
                # 在第一次输出数据前更新状态为 streaming
                if not streaming_status_updated:
                    self._update_usage_to_streaming_with_ctx(ctx)
                    streaming_status_updated = True
                buffer += chunk
                # 处理缓冲区中的完整行
                while b"\n" in buffer:
@@ -561,6 +574,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                                event.get("event"),
                                event.get("data") or "",
                            )
                        self._mark_first_output(ctx, output_state)
                        yield b"\n"
                        continue
@@ -578,6 +592,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                                    "message": f"提供商 '{ctx.provider_name}' 流超时且未返回有效数据",
                                },
                            }
                            self._mark_first_output(ctx, output_state)
                            yield f"event: error\ndata: {json.dumps(error_event)}\n\n".encode("utf-8")
                            return  # 结束生成器
@@ -585,8 +600,10 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    if needs_conversion:
                        converted_line = self._convert_sse_line(ctx, line, events)
                        if converted_line:
                            self._mark_first_output(ctx, output_state)
                            yield (converted_line + "\n").encode("utf-8")
                    else:
                        self._mark_first_output(ctx, output_state)
                        yield (line + "\n").encode("utf-8")
                for event in events:
@@ -637,7 +654,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    },
                }
                yield f"event: error\ndata: {json.dumps(error_event)}\n\n".encode("utf-8")
-        except httpx.RemoteProtocolError as e:
+        except httpx.RemoteProtocolError:
            if ctx.data_count > 0:
                error_event = {
                    "type": "error",
@@ -691,7 +708,9 @@ class CliMessageHandlerBase(BaseMessageHandler):
            ProviderTimeoutException: 如果首字节超时（TTFB timeout）
        """
        prefetched_chunks: list = []
-        max_prefetch_lines = 5  # 最多预读5行来检测错误
+        max_prefetch_lines = config.stream_prefetch_lines  # 最多预读行数来检测错误
        max_prefetch_bytes = StreamDefaults.MAX_PREFETCH_BYTES  # 避免无换行响应导致 buffer 增长
        total_prefetched_bytes = 0
        buffer = b""
        line_count = 0
        should_stop = False
@@ -718,14 +737,16 @@ class CliMessageHandlerBase(BaseMessageHandler):
                provider_name=str(provider.name),
            )
            prefetched_chunks.append(first_chunk)
            total_prefetched_bytes += len(first_chunk)
            buffer += first_chunk
            # 继续读取剩余的预读数据
            async for chunk in aiter:
                prefetched_chunks.append(chunk)
                total_prefetched_bytes += len(chunk)
                buffer += chunk
-                # 尝试按行解析缓冲区
+                # 尝试按行解析缓冲区（SSE 格式）
                while b"\n" in buffer:
                    line_bytes, buffer = buffer.split(b"\n", 1)
                    try:
@@ -742,15 +763,15 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    normalized_line = line.rstrip("\r")
                    # 检测 HTML 响应（base_url 配置错误的常见症状）
-                    lower_line = normalized_line.lower()
+                    if check_html_response(normalized_line):
                    if lower_line.startswith("<!doctype") or lower_line.startswith("<html"):
                        logger.error(
                            f"  [{self.request_id}] 检测到 HTML 响应，可能是 base_url 配置错误: "
                            f"Provider={provider.name}, Endpoint={endpoint.id[:8]}..., "
                            f"base_url={endpoint.base_url}"
                        )
                        raise ProviderNotAvailableException(
-                            f"提供商 '{provider.name}' 返回了 HTML 页面而非 API 响应，请检查 endpoint 的 base_url 配置是否正确"
+                            f"提供商 '{provider.name}' 返回了 HTML 页面而非 API 响应，"
                            f"请检查 endpoint 的 base_url 配置是否正确"
                        )
                    if not normalized_line or normalized_line.startswith(":"):
@@ -799,9 +820,30 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    should_stop = True
                    break
                # 达到预读字节上限，停止继续预读（避免无换行响应导致内存增长）
                if not should_stop and total_prefetched_bytes >= max_prefetch_bytes:
                    logger.debug(
                        f"  [{self.request_id}] 预读达到字节上限，停止继续预读: "
                        f"Provider={provider.name}, bytes={total_prefetched_bytes}, "
                        f"max_bytes={max_prefetch_bytes}"
                    )
                    break
                if should_stop or line_count >= max_prefetch_lines:
                    break
            # 预读结束后，检查是否为非 SSE 格式的 HTML/JSON 响应
            # 处理某些代理返回的纯 JSON 错误（可能无换行/多行 JSON）以及 HTML 页面（base_url 配置错误）
            if not should_stop and prefetched_chunks:
                check_prefetched_response_error(
                    prefetched_chunks=prefetched_chunks,
                    parser=provider_parser,
                    request_id=self.request_id,
                    provider_name=str(provider.name),
                    endpoint_id=endpoint.id,
                    base_url=endpoint.base_url,
                )
        except (EmbeddedErrorException, ProviderTimeoutException, ProviderNotAvailableException):
            # 重新抛出可重试的 Provider 异常，触发故障转移
            raise
@@ -833,17 +875,13 @@ class CliMessageHandlerBase(BaseMessageHandler):
            sse_parser = SSEEventParser()
            last_data_time = time.time()
            buffer = b""
-            first_yield = True  # 标记是否是第一次 yield
+            output_state = {"first_yield": True, "streaming_updated": False}
            # 使用增量解码器处理跨 chunk 的 UTF-8 字符
            decoder = codecs.getincrementaldecoder("utf-8")(errors="replace")
            # 检查是否需要格式转换
            needs_conversion = self._needs_format_conversion(ctx)
            # 在第一次输出数据前更新状态为 streaming
            if prefetched_chunks:
                self._update_usage_to_streaming_with_ctx(ctx)
            # 先处理预读的字节块
            for chunk in prefetched_chunks:
                buffer += chunk
@@ -870,10 +908,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                                event.get("event"),
                                event.get("data") or "",
                            )
-                        # 记录首字时间 (第一次 yield)
+                        self._mark_first_output(ctx, output_state)
                        if first_yield:
                            ctx.record_first_byte_time(self.start_time)
                            first_yield = False
                        yield b"\n"
                        continue
@@ -883,16 +918,10 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    if needs_conversion:
                        converted_line = self._convert_sse_line(ctx, line, events)
                        if converted_line:
-                            # 记录首字时间 (第一次 yield)
+                            self._mark_first_output(ctx, output_state)
                            if first_yield:
                                ctx.record_first_byte_time(self.start_time)
                                first_yield = False
                            yield (converted_line + "\n").encode("utf-8")
                    else:
-                        # 记录首字时间 (第一次 yield)
+                        self._mark_first_output(ctx, output_state)
                        if first_yield:
                            ctx.record_first_byte_time(self.start_time)
                            first_yield = False
                        yield (line + "\n").encode("utf-8")
                    for event in events:
@@ -931,10 +960,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                                event.get("event"),
                                event.get("data") or "",
                            )
-                        # 记录首字时间 (第一次 yield) - 如果预读数据为空
+                        self._mark_first_output(ctx, output_state)
                        if first_yield:
                            ctx.record_first_byte_time(self.start_time)
                            first_yield = False
                        yield b"\n"
                        continue
@@ -952,6 +978,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                                    "message": f"提供商 '{ctx.provider_name}' 流超时且未返回有效数据",
                                },
                            }
                            self._mark_first_output(ctx, output_state)
                            yield f"event: error\ndata: {json.dumps(error_event)}\n\n".encode("utf-8")
                            return
@@ -959,16 +986,10 @@ class CliMessageHandlerBase(BaseMessageHandler):
                    if needs_conversion:
                        converted_line = self._convert_sse_line(ctx, line, events)
                        if converted_line:
-                            # 记录首字时间 (第一次 yield) - 如果预读数据为空
+                            self._mark_first_output(ctx, output_state)
                            if first_yield:
                                ctx.record_first_byte_time(self.start_time)
                                first_yield = False
                            yield (converted_line + "\n").encode("utf-8")
                    else:
-                        # 记录首字时间 (第一次 yield) - 如果预读数据为空
+                        self._mark_first_output(ctx, output_state)
                        if first_yield:
                            ctx.record_first_byte_time(self.start_time)
                            first_yield = False
                        yield (line + "\n").encode("utf-8")
                    for event in events:
@@ -1352,7 +1373,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
            model=ctx.model,
            response_time_ms=response_time_ms,
            status_code=status_code,
-            error_message=str(error),
+            error_message=extract_error_message(error),
            request_headers=original_headers,
            request_body=actual_request_body,
            is_stream=True,
@@ -1620,7 +1641,7 @@ class CliMessageHandlerBase(BaseMessageHandler):
                model=model,
                response_time_ms=response_time_ms,
                status_code=status_code,
-                error_message=str(e),
+                error_message=extract_error_message(e),
                request_headers=original_headers,
                request_body=actual_request_body,
                is_stream=False,
@@ -1640,14 +1661,14 @@ class CliMessageHandlerBase(BaseMessageHandler):
                for encoding in ["utf-8", "gbk", "latin1"]:
                    try:
-                        return error_bytes.decode(encoding)[:500]
+                        return error_bytes.decode(encoding)
                    except (UnicodeDecodeError, LookupError):
                        continue
-                return error_bytes.decode("utf-8", errors="replace")[:500]
+                return error_bytes.decode("utf-8", errors="replace")
            else:
                return (
-                    e.response.text[:500]
+                    e.response.text
                    if hasattr(e.response, "_content")
                    else "Unable to read response"
                )
@@ -1665,6 +1686,25 @@ class CliMessageHandlerBase(BaseMessageHandler):
            return False
        return ctx.provider_api_format.upper() != ctx.client_api_format.upper()
    def _mark_first_output(self, ctx: StreamContext, state: Dict[str, bool]) -> None:
        """
        标记首次输出：记录 TTFB 并更新 streaming 状态
        在第一次 yield 数据前调用，确保：
        1. 首字时间 (TTFB) 已记录到 ctx
        2. Usage 状态已更新为 streaming（包含 provider/key/TTFB 信息）
        Args:
            ctx: 流上下文
            state: 包含 first_yield 和 streaming_updated 的状态字典
        """
        if state["first_yield"]:
            ctx.record_first_byte_time(self.start_time)
            state["first_yield"] = False
            if not state["streaming_updated"]:
                self._update_usage_to_streaming_with_ctx(ctx)
                state["streaming_updated"] = True
    def _convert_sse_line(
        self,
        ctx: StreamContext,
--- a/src/api/handlers/base/parsers.py
+++ b/src/api/handlers/base/parsers.py
@@ -98,6 +98,17 @@ class OpenAIResponseParser(ResponseParser):
            chunk.is_done = True
            stats.has_completion = True
        # 提取 usage 信息（某些 OpenAI 兼容 API 如豆包会在最后一个 chunk 中发送 usage）
        # 这个 chunk 通常 choices 为空数组，但包含完整的 usage 信息
        usage = parsed.get("usage")
        if usage and isinstance(usage, dict):
            chunk.input_tokens = usage.get("prompt_tokens", 0)
            chunk.output_tokens = usage.get("completion_tokens", 0)
            # 更新 stats
            stats.input_tokens = chunk.input_tokens
            stats.output_tokens = chunk.output_tokens
        stats.chunk_count += 1
        stats.data_count += 1
--- a/src/api/handlers/base/stream_processor.py
+++ b/src/api/handlers/base/stream_processor.py
@@ -25,8 +25,17 @@ from src.api.handlers.base.content_extractors import (
 from src.api.handlers.base.parsers import get_parser_for_format
 from src.api.handlers.base.response_parser import ResponseParser
 from src.api.handlers.base.stream_context import StreamContext
 from src.api.handlers.base.utils import (
    check_html_response,
    check_prefetched_response_error,
 )
 from src.config.constants import StreamDefaults
 from src.config.settings import config
-from src.core.exceptions import EmbeddedErrorException, ProviderTimeoutException
+from src.core.exceptions import (
    EmbeddedErrorException,
    ProviderNotAvailableException,
    ProviderTimeoutException,
 )
 from src.core.logger import logger
 from src.models.database import Provider, ProviderEndpoint
 from src.utils.sse_parser import SSEEventParser
@@ -165,6 +174,7 @@ class StreamProcessor:
        endpoint: ProviderEndpoint,
        ctx: StreamContext,
        max_prefetch_lines: int = 5,
        max_prefetch_bytes: int = StreamDefaults.MAX_PREFETCH_BYTES,
    ) -> list:
        """
        预读流的前几行，检测嵌套错误
@@ -180,12 +190,14 @@ class StreamProcessor:
            endpoint: Endpoint 对象
            ctx: 流式上下文
            max_prefetch_lines: 最多预读行数
            max_prefetch_bytes: 最多预读字节数（避免无换行响应导致 buffer 增长）
        Returns:
            预读的字节块列表
        Raises:
            EmbeddedErrorException: 如果检测到嵌套错误
            ProviderNotAvailableException: 如果检测到 HTML 响应（配置错误）
            ProviderTimeoutException: 如果首字节超时（TTFB timeout）
        """
        prefetched_chunks: list = []
@@ -193,6 +205,7 @@ class StreamProcessor:
        buffer = b""
        line_count = 0
        should_stop = False
        total_prefetched_bytes = 0
        # 使用增量解码器处理跨 chunk 的 UTF-8 字符
        decoder = codecs.getincrementaldecoder("utf-8")(errors="replace")
@@ -206,11 +219,13 @@ class StreamProcessor:
                provider_name=str(provider.name),
            )
            prefetched_chunks.append(first_chunk)
            total_prefetched_bytes += len(first_chunk)
            buffer += first_chunk
            # 继续读取剩余的预读数据
            async for chunk in aiter:
                prefetched_chunks.append(chunk)
                total_prefetched_bytes += len(chunk)
                buffer += chunk
                # 尝试按行解析缓冲区
@@ -228,10 +243,21 @@ class StreamProcessor:
                    line_count += 1
                    # 检测 HTML 响应（base_url 配置错误的常见症状）
                    if check_html_response(line):
                        logger.error(
                            f"  [{self.request_id}] 检测到 HTML 响应，可能是 base_url 配置错误: "
                            f"Provider={provider.name}, Endpoint={endpoint.id[:8]}..., "
                            f"base_url={endpoint.base_url}"
                        )
                        raise ProviderNotAvailableException(
                            f"提供商 '{provider.name}' 返回了 HTML 页面而非 API 响应，"
                            f"请检查 endpoint 的 base_url 配置是否正确"
                        )
                    # 跳过空行和注释行
                    if not line or line.startswith(":"):
                        if line_count >= max_prefetch_lines:
                            should_stop = True
                            break
                        continue
@@ -248,7 +274,6 @@ class StreamProcessor:
                        data = json.loads(data_str)
                    except json.JSONDecodeError:
                        if line_count >= max_prefetch_lines:
                            should_stop = True
                            break
                        continue
@@ -276,14 +301,34 @@ class StreamProcessor:
                    should_stop = True
                    break
                # 达到预读字节上限，停止继续预读（避免无换行响应导致内存增长）
                if not should_stop and total_prefetched_bytes >= max_prefetch_bytes:
                    logger.debug(
                        f"  [{self.request_id}] 预读达到字节上限，停止继续预读: "
                        f"Provider={provider.name}, bytes={total_prefetched_bytes}, "
                        f"max_bytes={max_prefetch_bytes}"
                    )
                    break
                if should_stop or line_count >= max_prefetch_lines:
                    break
-        except (EmbeddedErrorException, ProviderTimeoutException):
+            # 预读结束后，检查是否为非 SSE 格式的 HTML/JSON 响应
            if not should_stop and prefetched_chunks:
                check_prefetched_response_error(
                    prefetched_chunks=prefetched_chunks,
                    parser=parser,
                    request_id=self.request_id,
                    provider_name=str(provider.name),
                    endpoint_id=endpoint.id,
                    base_url=endpoint.base_url,
                )
        except (EmbeddedErrorException, ProviderNotAvailableException, ProviderTimeoutException):
            # 重新抛出可重试的 Provider 异常，触发故障转移
            raise
        except (OSError, IOError) as e:
-            # 网络 I/O <EFBFBD><EFBFBD><EFBFBD>常：记录警告，可能需要重试
+            # 网络 I/O 异常：记录警告，可能需要重试
            logger.warning(
                f"  [{self.request_id}] 预读流时发生网络异常: {type(e).__name__}: {e}"
            )
@@ -332,15 +377,15 @@ class StreamProcessor:
            # 处理预读数据
            if prefetched_chunks:
                if not streaming_started and self.on_streaming_start:
                    self.on_streaming_start()
                    streaming_started = True
                for chunk in prefetched_chunks:
                    # 记录首字时间 (TTFB) - 在 yield 之前记录
                    if start_time is not None:
                        ctx.record_first_byte_time(start_time)
                        start_time = None  # 只记录一次
                    # 首次输出前触发 streaming 回调（确保 TTFB 已写入 ctx）
                    if not streaming_started and self.on_streaming_start:
                        self.on_streaming_start()
                        streaming_started = True
                    # 把原始数据转发给客户端
                    yield chunk
@@ -363,14 +408,14 @@ class StreamProcessor:
            # 处理剩余的流数据
            async for chunk in byte_iterator:
                if not streaming_started and self.on_streaming_start:
                    self.on_streaming_start()
                    streaming_started = True
                # 记录首字时间 (TTFB) - 在 yield 之前记录（如果预读数据为空）
                if start_time is not None:
                    ctx.record_first_byte_time(start_time)
                    start_time = None  # 只记录一次
                # 首次输出前触发 streaming 回调（确保 TTFB 已写入 ctx）
                if not streaming_started and self.on_streaming_start:
                    self.on_streaming_start()
                    streaming_started = True
                # 原始数据透传
                yield chunk
--- a/src/api/handlers/base/utils.py
+++ b/src/api/handlers/base/utils.py
@@ -2,8 +2,10 @@
 Handler 基础工具函数
 """
 import json
 from typing import Any, Dict, Optional
 from src.core.exceptions import EmbeddedErrorException, ProviderNotAvailableException
 from src.core.logger import logger
@@ -107,3 +109,95 @@ def build_sse_headers(extra_headers: Optional[Dict[str, str]] = None) -> Dict[st
    if extra_headers:
        headers.update(extra_headers)
    return headers
 def check_html_response(line: str) -> bool:
    """
    检查行是否为 HTML 响应（base_url 配置错误的常见症状）
    Args:
        line: 要检查的行内容
    Returns:
        True 如果检测到 HTML 响应
    """
    lower_line = line.lstrip().lower()
    return lower_line.startswith("<!doctype") or lower_line.startswith("<html")
 def check_prefetched_response_error(
    prefetched_chunks: list,
    parser: Any,
    request_id: str,
    provider_name: str,
    endpoint_id: Optional[str],
    base_url: Optional[str],
 ) -> None:
    """
    检查预读的响应是否为非 SSE 格式的错误响应（HTML 或纯 JSON 错误）
    某些代理可能返回：
    1. HTML 页面（base_url 配置错误）
    2. 纯 JSON 错误（无换行或多行 JSON）
    Args:
        prefetched_chunks: 预读的字节块列表
        parser: 响应解析器（需要有 is_error_response 和 parse_response 方法）
        request_id: 请求 ID（用于日志）
        provider_name: Provider 名称
        endpoint_id: Endpoint ID
        base_url: Endpoint 的 base_url
    Raises:
        ProviderNotAvailableException: 如果检测到 HTML 响应
        EmbeddedErrorException: 如果检测到 JSON 错误响应
    """
    if not prefetched_chunks:
        return
    try:
        prefetched_bytes = b"".join(prefetched_chunks)
        stripped = prefetched_bytes.lstrip()
        # 去除 BOM
        if stripped.startswith(b"\xef\xbb\xbf"):
            stripped = stripped[3:]
        # HTML 响应（通常是 base_url 配置错误导致返回网页）
        lower_prefix = stripped[:32].lower()
        if lower_prefix.startswith(b"<!doctype") or lower_prefix.startswith(b"<html"):
            endpoint_short = endpoint_id[:8] + "..." if endpoint_id else "N/A"
            logger.error(
                f"  [{request_id}] 检测到 HTML 响应，可能是 base_url 配置错误: "
                f"Provider={provider_name}, Endpoint={endpoint_short}, "
                f"base_url={base_url}"
            )
            raise ProviderNotAvailableException(
                f"提供商 '{provider_name}' 返回了 HTML 页面而非 API 响应，"
                f"请检查 endpoint 的 base_url 配置是否正确"
            )
        # 纯 JSON（可能无换行/多行 JSON）
        if stripped.startswith(b"{") or stripped.startswith(b"["):
            payload_str = stripped.decode("utf-8", errors="replace").strip()
            data = json.loads(payload_str)
            if isinstance(data, dict) and parser.is_error_response(data):
                parsed = parser.parse_response(data, 200)
                logger.warning(
                    f"  [{request_id}] 检测到 JSON 错误响应: "
                    f"Provider={provider_name}, "
                    f"error_type={parsed.error_type}, "
                    f"message={parsed.error_message}"
                )
                raise EmbeddedErrorException(
                    provider_name=provider_name,
                    error_code=(
                        int(parsed.error_type)
                        if parsed.error_type and parsed.error_type.isdigit()
                        else None
                    ),
                    error_message=parsed.error_message,
                    error_status=parsed.error_type,
                )
    except json.JSONDecodeError:
        pass
--- a/src/api/user_me/routes.py
+++ b/src/api/user_me/routes.py
@@ -104,9 +104,11 @@ async def get_my_usage(
    request: Request,
    start_date: Optional[datetime] = None,
    end_date: Optional[datetime] = None,
    limit: int = Query(100, ge=1, le=200, description="每页记录数，默认100，最大200"),
    offset: int = Query(0, ge=0, le=2000, description="偏移量，用于分页，最大2000"),
    db: Session = Depends(get_db),
 ):
-    adapter = GetUsageAdapter(start_date=start_date, end_date=end_date)
+    adapter = GetUsageAdapter(start_date=start_date, end_date=end_date, limit=limit, offset=offset)
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
@@ -133,6 +135,20 @@ async def get_my_interval_timeline(
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
@router.get("/usage/heatmap")
 async def get_my_activity_heatmap(
    request: Request,
    db: Session = Depends(get_db),
 ):
    """
    Get user's activity heatmap data for the past 365 days.
    This endpoint is cached for 5 minutes to reduce database load.
    """
    adapter = GetMyActivityHeatmapAdapter()
    return await pipeline.run(adapter=adapter, http_request=request, db=db, mode=adapter.mode)
@router.get("/providers")
 async def list_available_providers(request: Request, db: Session = Depends(get_db)):
    adapter = ListAvailableProvidersAdapter()
@@ -471,6 +487,8 @@ class ToggleMyApiKeyAdapter(AuthenticatedApiAdapter):
 class GetUsageAdapter(AuthenticatedApiAdapter):
    start_date: Optional[datetime]
    end_date: Optional[datetime]
    limit: int = 100
    offset: int = 0
    async def handle(self, context):  # type: ignore[override]
        db = context.db
@@ -553,7 +571,7 @@ class GetUsageAdapter(AuthenticatedApiAdapter):
            stats["total_cost_usd"] += item["total_cost_usd"]
            # 假设 summary 中的都是成功的请求
            stats["success_count"] += item["requests"]
-            if item.get("avg_response_time_ms"):
+            if item.get("avg_response_time_ms") is not None:
                stats["total_response_time_ms"] += item["avg_response_time_ms"] * item["requests"]
                stats["response_time_count"] += item["requests"]
@@ -582,7 +600,10 @@ class GetUsageAdapter(AuthenticatedApiAdapter):
            query = query.filter(Usage.created_at >= self.start_date)
        if self.end_date:
            query = query.filter(Usage.created_at <= self.end_date)
-        usage_records = query.order_by(Usage.created_at.desc()).limit(100).all()
+
        # 计算总数用于分页
        total_records = query.count()
        usage_records = query.order_by(Usage.created_at.desc()).offset(self.offset).limit(self.limit).all()
        avg_resp_query = db.query(func.avg(Usage.response_time_ms)).filter(
            Usage.user_id == user.id,
@@ -608,6 +629,13 @@ class GetUsageAdapter(AuthenticatedApiAdapter):
            "used_usd": user.used_usd,
            "summary_by_model": summary_by_model,
            "summary_by_provider": summary_by_provider,
            # 分页信息
            "pagination": {
                "total": total_records,
                "limit": self.limit,
                "offset": self.offset,
                "has_more": self.offset + self.limit < total_records,
            },
            "records": [
                {
                    "id": r.id,
@@ -636,13 +664,6 @@ class GetUsageAdapter(AuthenticatedApiAdapter):
            ],
        }
        response_data["activity_heatmap"] = UsageService.get_daily_activity(
            db=db,
            user_id=user.id,
            window_days=365,
            include_actual_cost=user.role == "admin",
        )
        # 管理员可以看到真实成本
        if user.role == "admin":
            response_data["total_actual_cost"] = total_actual_cost
@@ -709,6 +730,20 @@ class GetMyIntervalTimelineAdapter(AuthenticatedApiAdapter):
        return result
 class GetMyActivityHeatmapAdapter(AuthenticatedApiAdapter):
    """Activity heatmap adapter with Redis caching for user."""
    async def handle(self, context):  # type: ignore[override]
        user = context.user
        result = await UsageService.get_cached_heatmap(
            db=context.db,
            user_id=user.id,
            include_actual_cost=user.role == "admin",
        )
        context.add_audit_metadata(action="activity_heatmap")
        return result
 class ListAvailableProvidersAdapter(AuthenticatedApiAdapter):
    async def handle(self, context):  # type: ignore[override]
        from sqlalchemy.orm import selectinload
--- a/src/clients/redis_client.py
+++ b/src/clients/redis_client.py
@@ -213,7 +213,7 @@ class RedisClientManager:
                    f"Redis连接失败: {error_msg}\n"
                    "缓存亲和性功能需要Redis支持，请确保Redis服务正常运行。\n"
                    "检查事项：\n"
-                    "1. Redis服务是否已启动（docker-compose up -d redis）\n"
+                    "1. Redis服务是否已启动（docker compose up -d redis）\n"
                    "2. 环境变量 REDIS_URL 或 REDIS_PASSWORD 是否配置正确\n"
                    "3. Redis端口（默认6379）是否可访问"
                ) from e
--- a/src/config/constants.py
+++ b/src/config/constants.py
@@ -21,6 +21,9 @@ class CacheTTL:
    # L1 本地缓存（用于减少 Redis 访问）
    L1_LOCAL = 3  # 3秒
    # 活跃度热力图缓存 - 历史数据变化不频繁
    ACTIVITY_HEATMAP = 300  # 5分钟
    # 并发锁 TTL - 防止死锁
    CONCURRENCY_LOCK = 600  # 10分钟
@@ -38,8 +41,25 @@ class CacheSize:
 # ==============================================================================
 class StreamDefaults:
    """流式处理默认值"""
    # 预读字节上限（避免无换行响应导致内存增长）
    # 64KB 基于：
    # 1. SSE 单条消息通常远小于此值
    # 2. 足够检测 HTML 和 JSON 错误响应
    # 3. 不会占用过多内存
    MAX_PREFETCH_BYTES = 64 * 1024  # 64KB
 class ConcurrencyDefaults:
-    """并发控制默认值"""
+    """并发控制默认值
    算法说明：边界记忆 + 渐进探测
    - 触发 429 时记录边界（last_concurrent_peak），新限制 = 边界 - 1
    - 扩容时不超过边界，除非是探测性扩容（长时间无 429）
    - 这样可以快速收敛到真实限制附近，避免过度保守
    """
    # 自适应并发初始限制（宽松起步，遇到 429 再降低）
    INITIAL_LIMIT = 50
@@ -69,10 +89,6 @@ class ConcurrencyDefaults:
    # 扩容步长 - 每次扩容增加的并发数
    INCREASE_STEP = 2
    # 缩容乘数 - 遇到 429 时基于当前并发数的缩容比例
    # 0.85 表示降到触发 429 时并发数的 85%
    DECREASE_MULTIPLIER = 0.85
    # 最大并发限制上限
    MAX_CONCURRENT_LIMIT = 200
@@ -84,6 +100,7 @@ class ConcurrencyDefaults:
    # === 探测性扩容参数 ===
    # 探测性扩容间隔（分钟）- 长时间无 429 且有流量时尝试扩容
    # 探测性扩容可以突破已知边界，尝试更高的并发
    PROBE_INCREASE_INTERVAL_MINUTES = 30
    # 探测性扩容最小请求数 - 在探测间隔内至少需要这么多请求
--- a/src/core/error_utils.py
+++ b/src/core/error_utils.py
@@ -0,0 +1,28 @@
 """
 错误消息处理工具函数
 """
 from typing import Optional
 def extract_error_message(error: Exception, status_code: Optional[int] = None) -> str:
    """
    从异常中提取错误消息，优先使用上游响应内容
    Args:
        error: 异常对象
        status_code: 可选的 HTTP 状态码，用于构建更详细的错误消息
    Returns:
        错误消息字符串
    """
    # 优先使用 upstream_response 属性（包含上游 Provider 的原始错误）
    upstream_response = getattr(error, "upstream_response", None)
    if upstream_response and isinstance(upstream_response, str) and upstream_response.strip():
        return str(upstream_response)
    # 回退到异常的字符串表示（str 可能为空，如 httpx 超时异常）
    error_str = str(error) or repr(error)
    if status_code is not None:
        return f"HTTP {status_code}: {error_str}"
    return error_str
--- a/src/core/exceptions.py
+++ b/src/core/exceptions.py
@@ -547,11 +547,19 @@ class ErrorResponse:
        - 所有错误都记录到日志，通过错误 ID 关联
        """
        if isinstance(e, ProxyException):
            details = e.details.copy() if e.details else {}
            status_code = e.status_code
            message = e.message
            # 如果是 ProviderNotAvailableException 且有上游错误，直接透传上游信息
            if isinstance(e, ProviderNotAvailableException) and e.upstream_response:
                if e.upstream_status:
                    status_code = e.upstream_status
                message = e.upstream_response
            return ErrorResponse.create(
                error_type=e.error_type,
-                message=e.message,
+                message=message,
-                status_code=e.status_code,
+                status_code=status_code,
-                details=e.details,
+                details=details if details else None,
            )
        elif isinstance(e, HTTPException):
            return ErrorResponse.create(
--- a/src/database/database.py
+++ b/src/database/database.py
@@ -411,7 +411,7 @@ def init_db():
        print("  3. 数据库用户名和密码是否正确", file=sys.stderr)
        print("", file=sys.stderr)
        print("如果使用 Docker，请先运行:", file=sys.stderr)
-        print("  docker-compose up -d postgres redis", file=sys.stderr)
+        print("  docker compose -f docker-compose.build.yml up -d postgres redis", file=sys.stderr)
        print("", file=sys.stderr)
        print("=" * 60, file=sys.stderr)
        # 使用 os._exit 直接退出，避免 uvicorn 捕获并打印堆栈
--- a/src/models/api.py
+++ b/src/models/api.py
@@ -309,8 +309,9 @@ class CreateApiKeyRequest(BaseModel):
    allowed_endpoints: Optional[List[str]] = None  # 允许使用的端点 ID 列表
    allowed_api_formats: Optional[List[str]] = None  # 允许使用的 API 格式列表
    allowed_models: Optional[List[str]] = None  # 允许使用的模型名称列表
-    rate_limit: Optional[int] = 100
+    rate_limit: Optional[int] = None  # None = 无限制
-    expire_days: Optional[int] = None  # None = 永不过期，数字 = 多少天后过期
+    expire_days: Optional[int] = None  # None = 永不过期，数字 = 多少天后过期（兼容旧版）
    expires_at: Optional[str] = None  # ISO 日期字符串，如 "2025-12-31"，优先于 expire_days
    initial_balance_usd: Optional[float] = Field(
        None, description="初始余额（USD），仅用于独立Key，None = 无限制"
    )
--- a/src/models/database.py
+++ b/src/models/database.py
@@ -150,7 +150,7 @@ class ApiKey(Base):
    allowed_endpoints = Column(JSON, nullable=True)  # 允许使用的端点 ID 列表
    allowed_api_formats = Column(JSON, nullable=True)  # 允许使用的 API 格式列表
    allowed_models = Column(JSON, nullable=True)  # 允许使用的模型名称列表
-    rate_limit = Column(Integer, default=100)  # 每分钟请求限制
+    rate_limit = Column(Integer, default=None, nullable=True)  # 每分钟请求限制，None = 无限制
    concurrent_limit = Column(Integer, default=5, nullable=True)  # 并发请求限制
    # Key 能力配置
--- a/src/models/endpoint_models.py
+++ b/src/models/endpoint_models.py
@@ -19,6 +19,7 @@ class ProviderEndpointCreate(BaseModel):
    provider_id: str = Field(..., description="Provider ID")
    api_format: str = Field(..., description="API 格式 (CLAUDE, OPENAI, CLAUDE_CLI, OPENAI_CLI)")
    base_url: str = Field(..., min_length=1, max_length=500, description="API 基础 URL")
    custom_path: Optional[str] = Field(default=None, max_length=200, description="自定义请求路径")
    # 请求配置
    headers: Optional[Dict[str, str]] = Field(default=None, description="自定义请求头")
@@ -62,6 +63,7 @@ class ProviderEndpointUpdate(BaseModel):
    base_url: Optional[str] = Field(
        default=None, min_length=1, max_length=500, description="API 基础 URL"
    )
    custom_path: Optional[str] = Field(default=None, max_length=200, description="自定义请求路径")
    headers: Optional[Dict[str, str]] = Field(default=None, description="自定义请求头")
    timeout: Optional[int] = Field(default=None, ge=10, le=600, description="超时时间（秒）")
    max_retries: Optional[int] = Field(default=None, ge=0, le=10, description="最大重试次数")
@@ -94,6 +96,7 @@ class ProviderEndpointResponse(BaseModel):
    # API 配置
    api_format: str
    base_url: str
    custom_path: Optional[str] = None
    # 请求配置
    headers: Optional[Dict[str, str]] = None
--- a/src/plugins/rate_limit/sliding_window.py
+++ b/src/plugins/rate_limit/sliding_window.py
@@ -21,7 +21,7 @@ WARNING: 多进程环境注意事项
 import asyncio
 import time
 from collections import deque
-from datetime import datetime
+from datetime import datetime, timezone
 from typing import Any, Deque, Dict
 from src.core.logger import logger
@@ -95,12 +95,12 @@ class SlidingWindow:
        """获取最早的重置时间"""
        self._cleanup()
        if not self.requests:
-            return datetime.now()
+            return datetime.now(timezone.utc)
        # 最早的请求将在window_size秒后过期
        oldest_request = self.requests[0]
        reset_time = oldest_request + self.window_size
-        return datetime.fromtimestamp(reset_time)
+        return datetime.fromtimestamp(reset_time, tz=timezone.utc)
 class SlidingWindowStrategy(RateLimitStrategy):
@@ -250,7 +250,7 @@ class SlidingWindowStrategy(RateLimitStrategy):
            retry_after = None
            if not allowed:
                # 计算需要等待的时间（最早请求过期的时间）
-                retry_after = int((reset_at - datetime.now()).total_seconds()) + 1
+                retry_after = int((reset_at - datetime.now(timezone.utc)).total_seconds()) + 1
            return RateLimitResult(
                allowed=allowed,
--- a/src/plugins/rate_limit/token_bucket.py
+++ b/src/plugins/rate_limit/token_bucket.py
@@ -3,7 +3,7 @@
 import asyncio
 import os
 import time
-from datetime import datetime, timedelta
+from datetime import datetime, timedelta, timezone
 from typing import Any, Dict, Optional, Tuple
 from ...clients.redis_client import get_redis_client_sync
@@ -63,11 +63,11 @@ class TokenBucket:
    def get_reset_time(self) -> datetime:
        """获取下次完全恢复的时间"""
        if self.tokens >= self.capacity:
-            return datetime.now()
+            return datetime.now(timezone.utc)
        tokens_needed = self.capacity - self.tokens
        seconds_to_full = tokens_needed / self.refill_rate
-        return datetime.now() + timedelta(seconds=seconds_to_full)
+        return datetime.now(timezone.utc) + timedelta(seconds=seconds_to_full)
 class TokenBucketStrategy(RateLimitStrategy):
@@ -370,7 +370,7 @@ class RedisTokenBucketBackend:
        if tokens is None or last_refill is None:
            remaining = capacity
-            reset_at = datetime.now() + timedelta(seconds=capacity / refill_rate)
+            reset_at = datetime.now(timezone.utc) + timedelta(seconds=capacity / refill_rate)
        else:
            tokens_value = float(tokens)
            last_refill_value = float(last_refill)
@@ -378,7 +378,7 @@ class RedisTokenBucketBackend:
            tokens_value = min(capacity, tokens_value + delta * refill_rate)
            remaining = int(tokens_value)
            reset_after = 0 if tokens_value >= capacity else (capacity - tokens_value) / refill_rate
-            reset_at = datetime.now() + timedelta(seconds=reset_after)
+            reset_at = datetime.now(timezone.utc) + timedelta(seconds=reset_after)
        allowed = remaining >= amount
        retry_after = None
--- a/src/services/model/global_model.py
+++ b/src/services/model/global_model.py
@@ -148,6 +148,8 @@ class GlobalModelService:
        删除 GlobalModel
        默认行为: 级联删除所有关联的 Provider 模型实现
        注意: 不清理 API Key 和 User 的 allowed_models 引用，
        保留无效引用可让用户在前端看到"已失效"的模型，便于手动清理或等待重建同名模型
        """
        global_model = GlobalModelService.get_global_model(db, global_model_id)
--- a/src/services/orchestration/error_classifier.py
+++ b/src/services/orchestration/error_classifier.py
@@ -237,7 +237,7 @@ class ErrorClassifier:
                result["reason"] = str(data.get("reason", data.get("code", "")))
        except (json.JSONDecodeError, TypeError, KeyError):
-            result["message"] = error_text[:500] if len(error_text) > 500 else error_text
+            result["message"] = error_text
        return result
@@ -323,8 +323,8 @@ class ErrorClassifier:
        if parts:
            return ": ".join(parts) if len(parts) > 1 else parts[0]
-        # 无法解析，返回原始文本（截断）
+        # 无法解析，返回原始文本
-        return parsed["raw"][:500] if len(parsed["raw"]) > 500 else parsed["raw"]
+        return parsed["raw"]
    def classify(
        self,
@@ -484,11 +484,15 @@ class ErrorClassifier:
            return ProviderNotAvailableException(
                message=detailed_message,
                provider_name=provider_name,
                upstream_status=status,
                upstream_response=error_response_text,
            )
        return ProviderNotAvailableException(
            message=detailed_message,
            provider_name=provider_name,
            upstream_status=status,
            upstream_response=error_response_text,
        )
    async def handle_http_error(
@@ -532,12 +536,14 @@ class ErrorClassifier:
        provider_name = str(provider.name)
        # 尝试读取错误响应内容
-        error_response_text = None
+        # 优先使用 handler 附加的 upstream_response 属性（流式请求中 response.text 可能为空）
-        try:
+        error_response_text = getattr(http_error, "upstream_response", None)
-            if http_error.response and hasattr(http_error.response, "text"):
+        if not error_response_text:
-                error_response_text = http_error.response.text[:1000]  # 限制长度
+            try:
-        except Exception:
+                if http_error.response and hasattr(http_error.response, "text"):
-            pass
+                    error_response_text = http_error.response.text
            except Exception:
                pass
        logger.warning(f"  [{request_id}] HTTP错误 (attempt={attempt}/{max_attempts}): "
            f"{http_error.response.status_code if http_error.response else 'unknown'}")
--- a/src/services/orchestration/fallback_orchestrator.py
+++ b/src/services/orchestration/fallback_orchestrator.py
@@ -30,6 +30,7 @@ from redis import Redis
 from sqlalchemy.orm import Session
 from src.core.enums import APIFormat
 from src.core.error_utils import extract_error_message
 from src.core.exceptions import (
    ConcurrencyLimitError,
    ProviderNotAvailableException,
@@ -401,7 +402,7 @@ class FallbackOrchestrator:
                db=self.db,
                candidate_id=candidate_record_id,
                error_type="HTTPStatusError",
-                error_message=f"HTTP {status_code}: {str(cause)}",
+                error_message=extract_error_message(cause, status_code),
                status_code=status_code,
                latency_ms=elapsed_ms,
                concurrent_requests=captured_key_concurrent,
@@ -425,31 +426,22 @@ class FallbackOrchestrator:
                attempt=attempt,
                max_attempts=max_attempts,
            )
            # str(cause) 可能为空（如 httpx 超时异常），使用 repr() 作为备用
            error_msg = str(cause) or repr(cause)
            # 如果是 ProviderNotAvailableException，附加上游响应
            if hasattr(cause, "upstream_response") and cause.upstream_response:
                error_msg = f"{error_msg} | 上游响应: {cause.upstream_response[:500]}"
            RequestCandidateService.mark_candidate_failed(
                db=self.db,
                candidate_id=candidate_record_id,
                error_type=type(cause).__name__,
-                error_message=error_msg,
+                error_message=extract_error_message(cause),
                latency_ms=elapsed_ms,
                concurrent_requests=captured_key_concurrent,
            )
            return "continue" if has_retry_left else "break"
        # 未知错误：记录失败并抛出
        error_msg = str(cause) or repr(cause)
        # 如果是 ProviderNotAvailableException，附加上游响应
        if hasattr(cause, "upstream_response") and cause.upstream_response:
            error_msg = f"{error_msg} | 上游响应: {cause.upstream_response[:500]}"
        RequestCandidateService.mark_candidate_failed(
            db=self.db,
            candidate_id=candidate_record_id,
            error_type=type(cause).__name__,
-            error_message=error_msg,
+            error_message=extract_error_message(cause),
            latency_ms=elapsed_ms,
            concurrent_requests=captured_key_concurrent,
        )
@@ -543,7 +535,9 @@ class FallbackOrchestrator:
                raise last_error
        # 所有组合都已尝试完毕，全部失败
-        self._raise_all_failed_exception(request_id, max_attempts, last_candidate, model_name, api_format_enum)
+        self._raise_all_failed_exception(
            request_id, max_attempts, last_candidate, model_name, api_format_enum, last_error
        )
    async def _try_candidate_with_retries(
        self,
@@ -565,6 +559,7 @@ class FallbackOrchestrator:
        provider = candidate.provider
        endpoint = candidate.endpoint
        max_retries_for_candidate = int(endpoint.max_retries) if candidate.is_cached else 1
        last_error: Optional[Exception] = None
        for retry_index in range(max_retries_for_candidate):
            attempt_counter += 1
@@ -599,6 +594,7 @@ class FallbackOrchestrator:
                return {"success": True, "response": response}
            except ExecutionError as exec_err:
                last_error = exec_err.cause
                action = await self._handle_candidate_error(
                    exec_err=exec_err,
                    candidate=candidate,
@@ -630,6 +626,7 @@ class FallbackOrchestrator:
            "success": False,
            "attempt_counter": attempt_counter,
            "max_attempts": max_attempts,
            "error": last_error,
        }
    def _attach_metadata_to_error(
@@ -678,6 +675,7 @@ class FallbackOrchestrator:
        last_candidate: Optional[ProviderCandidate],
        model_name: str,
        api_format_enum: APIFormat,
        last_error: Optional[Exception] = None,
    ) -> NoReturn:
        """所有组合都失败时抛出异常"""
        logger.error(f"  [{request_id}] 所有 {max_attempts} 个组合均失败")
@@ -693,9 +691,38 @@ class FallbackOrchestrator:
                "api_format": api_format_enum.value,
            }
        # 提取上游错误响应
        upstream_status: Optional[int] = None
        upstream_response: Optional[str] = None
        if last_error:
            # 从 httpx.HTTPStatusError 提取
            if isinstance(last_error, httpx.HTTPStatusError):
                upstream_status = last_error.response.status_code
                # 优先使用我们附加的 upstream_response 属性（流已读取时 response.text 可能为空）
                upstream_response = getattr(last_error, "upstream_response", None)
                if not upstream_response:
                    try:
                        upstream_response = last_error.response.text
                    except Exception:
                        pass
            # 从其他异常属性提取（如 ProviderNotAvailableException）
            else:
                upstream_status = getattr(last_error, "upstream_status", None)
                upstream_response = getattr(last_error, "upstream_response", None)
            # 如果响应为空或无效，使用异常的字符串表示
            if (
                not upstream_response
                or not upstream_response.strip()
                or upstream_response.startswith("Unable to read")
            ):
                upstream_response = str(last_error)
        raise ProviderNotAvailableException(
            f"所有Provider均不可用，已尝试{max_attempts}个组合",
            request_metadata=request_metadata,
            upstream_status=upstream_status,
            upstream_response=upstream_response,
        )
    async def execute_with_fallback(
--- a/src/services/rate_limit/adaptive_concurrency.py
+++ b/src/services/rate_limit/adaptive_concurrency.py
@@ -1,14 +1,16 @@
 """
-自适应并发调整器 - 基于滑动窗口利用率的并发限制调整
+自适应并发调整器 - 基于边界记忆的并发限制调整
-核心改进（相对于旧版基于"持续高利用率"的方案）：
+核心算法：边界记忆 + 渐进探测
- 使用滑动窗口采样，容忍并发波动
+- 触发 429 时记录边界（last_concurrent_peak），这就是真实上限
- 基于窗口内高利用率采样比例决策，而非要求连续高利用率
+- 缩容策略：新限制 = 边界 - 1，而非乘性减少
- 增加探测性扩容机制，长时间稳定时主动尝试扩容
+- 扩容策略：不超过已知边界，除非是探测性扩容
 - 探测性扩容：长时间无 429 时尝试突破边界
-AIMD 参数说明：
+设计原则：
- 扩容：加性增加 (+INCREASE_STEP)
+1. 快速收敛：一次 429 就能找到接近真实的限制
- 缩容：乘性减少 (*DECREASE_MULTIPLIER，默认 0.85)
+2. 避免过度保守：不会因为多次 429 而无限下降
 3. 安全探测：允许在稳定后尝试更高并发
 """
 from datetime import datetime, timezone
@@ -35,21 +37,21 @@ class AdaptiveConcurrencyManager:
    """
    自适应并发管理器
-    核心算法：基于滑动窗口利用率的 AIMD
+    核心算法：边界记忆 + 渐进探测
-    - 滑动窗口记录最近 N 次请求的利用率
+    - 触发 429 时记录边界（last_concurrent_peak = 触发时的并发数）
-    - 当窗口内高利用率采样比例 >= 60% 时触发扩容
+    - 缩容：新限制 = 边界 - 1（快速收敛到真实限制附近）
-    - 遇到 429 错误时乘性减少 (*0.85)
+    - 扩容：不超过边界（即 last_concurrent_peak），允许回到边界值尝试
-    - 长时间无 429 且有流量时触发探测性扩容
+    - 探测性扩容：长时间（30分钟）无 429 时，可以尝试 +1 突破边界
    扩容条件（满足任一即可）：
-    1. 滑动窗口扩容：窗口内 >= 60% 的采样利用率 >= 70%，且不在冷却期
+    1. 利用率扩容：窗口内高利用率比例 >= 60%，且当前限制 < 边界
-    2. 探测性扩容：距上次 429 超过 30 分钟，且期间有足够请求量
+    2. 探测性扩容：距上次 429 超过 30 分钟，可以尝试突破边界
    关键特性：
-    1. 滑动窗口容忍并发波动，不会因单次低利用率重置
+    1. 快速收敛：一次 429 就能学到接近真实的限制值
-    2. 区分并发限制和 RPM 限制
+    2. 边界保护：普通扩容不会超过已知边界
-    3. 探测性扩容避免长期卡在低限制
+    3. 安全探测：长时间稳定后允许尝试更高并发
-    4. 记录调整历史
+    4. 区分并发限制和 RPM 限制
    """
    # 默认配置 - 使用统一常量
@@ -59,7 +61,6 @@ class AdaptiveConcurrencyManager:
    # AIMD 参数
    INCREASE_STEP = ConcurrencyDefaults.INCREASE_STEP
    DECREASE_MULTIPLIER = ConcurrencyDefaults.DECREASE_MULTIPLIER
    # 滑动窗口参数
    UTILIZATION_WINDOW_SIZE = ConcurrencyDefaults.UTILIZATION_WINDOW_SIZE
@@ -115,7 +116,13 @@ class AdaptiveConcurrencyManager:
        # 更新429统计
        key.last_429_at = datetime.now(timezone.utc)  # type: ignore[assignment]
        key.last_429_type = rate_limit_info.limit_type  # type: ignore[assignment]
-        key.last_concurrent_peak = current_concurrent  # type: ignore[assignment]
+        # 仅在并发限制且拿到并发数时记录边界（RPM/UNKNOWN 不应覆盖并发边界记忆）
        if (
            rate_limit_info.limit_type == RateLimitType.CONCURRENT
            and current_concurrent is not None
            and current_concurrent > 0
        ):
            key.last_concurrent_peak = current_concurrent  # type: ignore[assignment]
        # 遇到 429 错误，清空利用率采样窗口（重新开始收集）
        key.utilization_samples = []  # type: ignore[assignment]
@@ -207,6 +214,9 @@ class AdaptiveConcurrencyManager:
        current_limit = int(key.learned_max_concurrent or self.DEFAULT_INITIAL_LIMIT)
        # 获取已知边界（上次触发 429 时的并发数）
        known_boundary = key.last_concurrent_peak
        # 计算当前利用率
        utilization = float(current_concurrent / current_limit) if current_limit > 0 else 0.0
@@ -217,22 +227,29 @@ class AdaptiveConcurrencyManager:
        samples = self._update_utilization_window(key, now_ts, utilization)
        # 检查是否满足扩容条件
-        increase_reason = self._check_increase_conditions(key, samples, now)
+        increase_reason = self._check_increase_conditions(key, samples, now, known_boundary)
        if increase_reason and current_limit < self.MAX_CONCURRENT_LIMIT:
            old_limit = current_limit
-            new_limit = self._increase_limit(current_limit)
+            is_probe = increase_reason == "probe_increase"
            new_limit = self._increase_limit(current_limit, known_boundary, is_probe)
            # 如果没有实际增长（已达边界），跳过
            if new_limit <= old_limit:
                return None
            # 计算窗口统计用于日志
            avg_util = sum(s["util"] for s in samples) / len(samples) if samples else 0
            high_util_count = sum(1 for s in samples if s["util"] >= self.UTILIZATION_THRESHOLD)
            high_util_ratio = high_util_count / len(samples) if samples else 0
            boundary_info = f"边界: {known_boundary}" if known_boundary else "无边界"
            logger.info(
                f"[INCREASE] {increase_reason}: Key {key.id[:8]}... | "
                f"窗口采样: {len(samples)} | "
                f"平均利用率: {avg_util:.1%} | "
                f"高利用率比例: {high_util_ratio:.1%} | "
                f"{boundary_info} | "
                f"调整: {old_limit} -> {new_limit}"
            )
@@ -246,13 +263,14 @@ class AdaptiveConcurrencyManager:
                high_util_ratio=round(high_util_ratio, 2),
                sample_count=len(samples),
                current_concurrent=current_concurrent,
                known_boundary=known_boundary,
            )
            # 更新限制
            key.learned_max_concurrent = new_limit  # type: ignore[assignment]
            # 如果是探测性扩容，更新探测时间
-            if increase_reason == "probe_increase":
+            if is_probe:
                key.last_probe_increase_at = now  # type: ignore[assignment]
            # 扩容后清空采样窗口，重新开始收集
@@ -303,7 +321,11 @@ class AdaptiveConcurrencyManager:
        return samples
    def _check_increase_conditions(
-        self, key: ProviderAPIKey, samples: List[Dict[str, Any]], now: datetime
+        self,
        key: ProviderAPIKey,
        samples: List[Dict[str, Any]],
        now: datetime,
        known_boundary: Optional[int] = None,
    ) -> Optional[str]:
        """
        检查是否满足扩容条件
@@ -312,6 +334,7 @@ class AdaptiveConcurrencyManager:
            key: API Key对象
            samples: 利用率采样列表
            now: 当前时间
            known_boundary: 已知边界（触发 429 时的并发数）
        Returns:
            扩容原因（如果满足条件），否则返回 None
@@ -320,15 +343,25 @@ class AdaptiveConcurrencyManager:
        if self._is_in_cooldown(key):
            return None
-        # 条件1：滑动窗口扩容
+        current_limit = int(key.learned_max_concurrent or self.DEFAULT_INITIAL_LIMIT)
        # 条件1：滑动窗口扩容（不超过边界）
        if len(samples) >= self.MIN_SAMPLES_FOR_DECISION:
            high_util_count = sum(1 for s in samples if s["util"] >= self.UTILIZATION_THRESHOLD)
            high_util_ratio = high_util_count / len(samples)
            if high_util_ratio >= self.HIGH_UTILIZATION_RATIO:
-                return "high_utilization"
+                # 检查是否还有扩容空间（边界保护）
                if known_boundary:
                    # 允许扩容到边界值（而非 boundary - 1），因为缩容时已经 -1 了
                    if current_limit < known_boundary:
                        return "high_utilization"
                    # 已达边界，不触发普通扩容
                else:
                    # 无边界信息，允许扩容
                    return "high_utilization"
-        # 条件2：探测性扩容（长时间无 429 且有流量）
+        # 条件2：探测性扩容（长时间无 429 且有流量，可以突破边界）
        if self._should_probe_increase(key, samples, now):
            return "probe_increase"
@@ -406,32 +439,65 @@ class AdaptiveConcurrencyManager:
        current_concurrent: Optional[int] = None,
    ) -> int:
        """
-        减少并发限制
+        减少并发限制（基于边界记忆策略）
        策略：
-        - 如果知道当前并发数，设置为当前并发的70%
+        - 如果知道触发 429 时的并发数，新限制 = 并发数 - 1
-        - 否则，使用乘性减少
+        - 这样可以快速收敛到真实限制附近，而不会过度保守
        - 例如：真实限制 8，触发时并发 8 -> 新限制 7（而非 8*0.85=6）
        """
-        if current_concurrent:
+        if current_concurrent is not None and current_concurrent > 0:
-            # 基于当前并发数减少
+            # 边界记忆策略：新限制 = 触发边界 - 1
-            new_limit = max(
+            candidate = current_concurrent - 1
                int(current_concurrent * self.DECREASE_MULTIPLIER), self.MIN_CONCURRENT_LIMIT
            )
        else:
-            # 乘性减少
+            # 没有并发信息时，保守减少 1
-            new_limit = max(
+            candidate = current_limit - 1
-                int(current_limit * self.DECREASE_MULTIPLIER), self.MIN_CONCURRENT_LIMIT
+
-            )
+        # 保证不会“缩容变扩容”（例如 current_concurrent > current_limit 的异常场景）
        candidate = min(candidate, current_limit - 1)
        new_limit = max(candidate, self.MIN_CONCURRENT_LIMIT)
        return new_limit
-    def _increase_limit(self, current_limit: int) -> int:
+    def _increase_limit(
        self,
        current_limit: int,
        known_boundary: Optional[int] = None,
        is_probe: bool = False,
    ) -> int:
        """
-        增加并发限制
+        增加并发限制（考虑边界保护）
-        策略：加性增加 (+1)
+        策略：
        - 普通扩容：每次 +INCREASE_STEP，但不超过 known_boundary
          （因为缩容时已经 -1 了，这里允许回到边界值尝试）
        - 探测性扩容：每次只 +1，可以突破边界，但要谨慎
        Args:
            current_limit: 当前限制
            known_boundary: 已知边界（last_concurrent_peak），即触发 429 时的并发数
            is_probe: 是否是探测性扩容（可以突破边界）
        """
-        new_limit = min(current_limit + self.INCREASE_STEP, self.MAX_CONCURRENT_LIMIT)
+        if is_probe:
            # 探测模式：每次只 +1，谨慎突破边界
            new_limit = current_limit + 1
        else:
            # 普通模式：每次 +INCREASE_STEP
            new_limit = current_limit + self.INCREASE_STEP
            # 边界保护：普通扩容不超过 known_boundary（允许回到边界值尝试）
            if known_boundary:
                if new_limit > known_boundary:
                    new_limit = known_boundary
        # 全局上限保护
        new_limit = min(new_limit, self.MAX_CONCURRENT_LIMIT)
        # 确保有增长（否则返回原值表示不扩容）
        if new_limit <= current_limit:
            return current_limit
        return new_limit
    def _record_adjustment(
@@ -503,11 +569,16 @@ class AdaptiveConcurrencyManager:
        if key.last_probe_increase_at:
            last_probe_at_str = cast(datetime, key.last_probe_increase_at).isoformat()
        # 边界信息
        known_boundary = key.last_concurrent_peak
        return {
            "adaptive_mode": is_adaptive,
            "max_concurrent": key.max_concurrent,  # NULL=自适应，数字=固定限制
            "effective_limit": effective_limit,  # 当前有效限制
            "learned_limit": key.learned_max_concurrent,  # 学习到的限制
            # 边界记忆相关
            "known_boundary": known_boundary,  # 触发 429 时的并发数（已知上限）
            "concurrent_429_count": int(key.concurrent_429_count or 0),
            "rpm_429_count": int(key.rpm_429_count or 0),
            "last_429_at": last_429_at_str,
--- a/src/services/request/result.py
+++ b/src/services/request/result.py
@@ -289,11 +289,11 @@ class RequestResult:
            status_code = 500
            error_type = "internal_error"
-        # 构建错误消息，包含上游响应信息
+        # 构建错误消息：优先使用上游响应作为主要错误信息
-        error_message = str(exception)
+        if isinstance(exception, ProviderNotAvailableException) and exception.upstream_response:
-        if isinstance(exception, ProviderNotAvailableException):
+            error_message = exception.upstream_response
-            if exception.upstream_response:
+        else:
-                error_message = f"{error_message} | 上游响应: {exception.upstream_response[:500]}"
+            error_message = str(exception)
        return cls(
            status=RequestStatus.FAILED,
--- a/src/services/usage/service.py
+++ b/src/services/usage/service.py
@@ -86,6 +86,118 @@ class UsageRecordParams:
 class UsageService:
    """用量统计服务"""
    # ==================== 缓存键常量 ====================
    # 热力图缓存键前缀（依赖 TTL 自动过期，用户角色变更时主动清除）
    HEATMAP_CACHE_KEY_PREFIX = "activity_heatmap"
    # ==================== 热力图缓存 ====================
    @classmethod
    def _get_heatmap_cache_key(cls, user_id: Optional[str], include_actual_cost: bool) -> str:
        """生成热力图缓存键"""
        cost_suffix = "with_cost" if include_actual_cost else "no_cost"
        if user_id:
            return f"{cls.HEATMAP_CACHE_KEY_PREFIX}:user:{user_id}:{cost_suffix}"
        else:
            return f"{cls.HEATMAP_CACHE_KEY_PREFIX}:admin:all:{cost_suffix}"
    @classmethod
    async def clear_user_heatmap_cache(cls, user_id: str) -> None:
        """
        清除用户的热力图缓存（用户角色变更时调用）
        Args:
            user_id: 用户ID
        """
        from src.clients.redis_client import get_redis_client
        redis_client = await get_redis_client(require_redis=False)
        if not redis_client:
            return
        # 清除该用户的所有热力图缓存（with_cost 和 no_cost）
        keys_to_delete = [
            cls._get_heatmap_cache_key(user_id, include_actual_cost=True),
            cls._get_heatmap_cache_key(user_id, include_actual_cost=False),
        ]
        for key in keys_to_delete:
            try:
                await redis_client.delete(key)
                logger.debug(f"已清除热力图缓存: {key}")
            except Exception as e:
                logger.warning(f"清除热力图缓存失败: {key}, error={e}")
    @classmethod
    async def get_cached_heatmap(
        cls,
        db: Session,
        user_id: Optional[str] = None,
        include_actual_cost: bool = False,
    ) -> Dict[str, Any]:
        """
        获取带缓存的热力图数据
        缓存策略：
        - TTL: 5分钟（CacheTTL.ACTIVITY_HEATMAP）
        - 仅依赖 TTL 自动过期，新使用记录最多延迟 5 分钟出现
        - 用户角色变更时通过 clear_user_heatmap_cache() 主动清除
        Args:
            db: 数据库会话
            user_id: 用户ID，None 表示获取全局热力图（管理员）
            include_actual_cost: 是否包含实际成本
        Returns:
            热力图数据字典
        """
        from src.clients.redis_client import get_redis_client
        from src.config.constants import CacheTTL
        import json
        cache_key = cls._get_heatmap_cache_key(user_id, include_actual_cost)
        cache_ttl = CacheTTL.ACTIVITY_HEATMAP
        redis_client = await get_redis_client(require_redis=False)
        # 尝试从缓存获取
        if redis_client:
            try:
                cached = await redis_client.get(cache_key)
                if cached:
                    try:
                        return json.loads(cached)  # type: ignore[no-any-return]
                    except json.JSONDecodeError as e:
                        logger.warning(f"热力图缓存解析失败，删除损坏缓存: {cache_key}, error={e}")
                        try:
                            await redis_client.delete(cache_key)
                        except Exception:
                            pass
            except Exception as e:
                logger.error(f"读取热力图缓存出错: {cache_key}, error={e}")
        # 从数据库查询
        result = cls.get_daily_activity(
            db=db,
            user_id=user_id,
            window_days=365,
            include_actual_cost=include_actual_cost,
        )
        # 保存到缓存（失败不影响返回结果）
        if redis_client:
            try:
                await redis_client.setex(
                    cache_key,
                    cache_ttl,
                    json.dumps(result, ensure_ascii=False, default=str),
                )
            except Exception as e:
                logger.warning(f"保存热力图缓存失败: {cache_key}, error={e}")
        return result
    # ==================== 内部数据类 ====================
    @staticmethod
@@ -1027,7 +1139,12 @@ class UsageService:
        window_days: int = 365,
        include_actual_cost: bool = False,
    ) -> Dict[str, Any]:
-        """按天统计请求活跃度，用于渲染热力图。"""
+        """按天统计请求活跃度，用于渲染热力图。
        优化策略：
        - 历史数据从预计算的 StatsDaily/StatsUserDaily 表读取
        - 只有"今天"的数据才实时查询 Usage 表
        """
        def ensure_timezone(value: datetime) -> datetime:
            if value.tzinfo is None:
@@ -1041,54 +1158,109 @@ class UsageService:
            ensure_timezone(start_date) if start_date else end_dt - timedelta(days=window_days - 1)
        )
-        # 对齐到自然日的开始/结束，避免遗漏边界数据
+        # 对齐到自然日的开始/结束
-        start_dt = start_dt.replace(hour=0, minute=0, second=0, microsecond=0)
+        start_dt = datetime.combine(start_dt.date(), datetime.min.time(), tzinfo=timezone.utc)
-        end_dt = end_dt.replace(hour=23, minute=59, second=59, microsecond=999999)
+        end_dt = datetime.combine(end_dt.date(), datetime.max.time(), tzinfo=timezone.utc)
        from src.utils.database_helpers import date_trunc_portable
        bind = db.get_bind()
        dialect = bind.dialect.name if bind is not None else "sqlite"
        day_bucket = date_trunc_portable(dialect, "day", Usage.created_at).label("day")
        columns = [
            day_bucket,
            func.count(Usage.id).label("requests"),
            func.sum(Usage.total_tokens).label("total_tokens"),
            func.sum(Usage.total_cost_usd).label("total_cost_usd"),
        ]
        if include_actual_cost:
            columns.append(func.sum(Usage.actual_total_cost_usd).label("actual_total_cost_usd"))
        query = db.query(*columns).filter(Usage.created_at >= start_dt, Usage.created_at <= end_dt)
        if user_id:
            query = query.filter(Usage.user_id == user_id)
        query = query.group_by(day_bucket).order_by(day_bucket)
        rows = query.all()
        def normalize_period(value: Any) -> str:
            if value is None:
                return ""
            if isinstance(value, str):
                return value[:10]
            if isinstance(value, datetime):
                return value.date().isoformat()
            return str(value)
        today = now.date()
        today_start_dt = datetime.combine(today, datetime.min.time(), tzinfo=timezone.utc)
        aggregated: Dict[str, Dict[str, Any]] = {}
        for row in rows:
            key = normalize_period(row.day)
            aggregated[key] = {
                "requests": int(row.requests or 0),
                "total_tokens": int(row.total_tokens or 0),
                "total_cost_usd": float(row.total_cost_usd or 0.0),
            }
            if include_actual_cost:
                aggregated[key]["actual_total_cost_usd"] = float(row.actual_total_cost_usd or 0.0)
        # 1. 从预计算表读取历史数据（不包括今天）
        if user_id:
            from src.models.database import StatsUserDaily
            hist_query = db.query(StatsUserDaily).filter(
                StatsUserDaily.user_id == user_id,
                StatsUserDaily.date >= start_dt,
                StatsUserDaily.date < today_start_dt,
            )
            for row in hist_query.all():
                key = (
                    row.date.date().isoformat()
                    if isinstance(row.date, datetime)
                    else str(row.date)[:10]
                )
                aggregated[key] = {
                    "requests": row.total_requests or 0,
                    "total_tokens": (
                        (row.input_tokens or 0)
                        + (row.output_tokens or 0)
                        + (row.cache_creation_tokens or 0)
                        + (row.cache_read_tokens or 0)
                    ),
                    "total_cost_usd": float(row.total_cost or 0.0),
                }
                # StatsUserDaily 没有 actual_total_cost 字段，用户视图不需要倍率成本
        else:
            from src.models.database import StatsDaily
            hist_query = db.query(StatsDaily).filter(
                StatsDaily.date >= start_dt,
                StatsDaily.date < today_start_dt,
            )
            for row in hist_query.all():
                key = (
                    row.date.date().isoformat()
                    if isinstance(row.date, datetime)
                    else str(row.date)[:10]
                )
                aggregated[key] = {
                    "requests": row.total_requests or 0,
                    "total_tokens": (
                        (row.input_tokens or 0)
                        + (row.output_tokens or 0)
                        + (row.cache_creation_tokens or 0)
                        + (row.cache_read_tokens or 0)
                    ),
                    "total_cost_usd": float(row.total_cost or 0.0),
                }
                if include_actual_cost:
                    aggregated[key]["actual_total_cost_usd"] = float(
                        row.actual_total_cost or 0.0  # type: ignore[attr-defined]
                    )
        # 2. 实时查询今天的数据（如果在查询范围内）
        if today >= start_dt.date() and today <= end_dt.date():
            today_start = datetime.combine(today, datetime.min.time(), tzinfo=timezone.utc)
            today_end = datetime.combine(today, datetime.max.time(), tzinfo=timezone.utc)
            if include_actual_cost:
                today_query = db.query(
                    func.count(Usage.id).label("requests"),
                    func.sum(Usage.total_tokens).label("total_tokens"),
                    func.sum(Usage.total_cost_usd).label("total_cost_usd"),
                    func.sum(Usage.actual_total_cost_usd).label("actual_total_cost_usd"),
                ).filter(
                    Usage.created_at >= today_start,
                    Usage.created_at <= today_end,
                )
            else:
                today_query = db.query(
                    func.count(Usage.id).label("requests"),
                    func.sum(Usage.total_tokens).label("total_tokens"),
                    func.sum(Usage.total_cost_usd).label("total_cost_usd"),
                ).filter(
                    Usage.created_at >= today_start,
                    Usage.created_at <= today_end,
                )
            if user_id:
                today_query = today_query.filter(Usage.user_id == user_id)
            today_row = today_query.first()
            if today_row and today_row.requests:
                aggregated[today.isoformat()] = {
                    "requests": int(today_row.requests or 0),
                    "total_tokens": int(today_row.total_tokens or 0),
                    "total_cost_usd": float(today_row.total_cost_usd or 0.0),
                }
                if include_actual_cost:
                    aggregated[today.isoformat()]["actual_total_cost_usd"] = float(
                        today_row.actual_total_cost_usd or 0.0
                    )
        # 3. 构建返回结果
        days: List[Dict[str, Any]] = []
        cursor = start_dt.date()
        end_date_only = end_dt.date()
@@ -1304,6 +1476,9 @@ class UsageService:
        provider: Optional[str] = None,
        target_model: Optional[str] = None,
        first_byte_time_ms: Optional[int] = None,
        provider_id: Optional[str] = None,
        provider_endpoint_id: Optional[str] = None,
        provider_api_key_id: Optional[str] = None,
    ) -> Optional[Usage]:
        """
        快速更新使用记录状态
@@ -1316,6 +1491,9 @@ class UsageService:
            provider: 提供商名称（可选，streaming 状态时更新）
            target_model: 映射后的目标模型名（可选）
            first_byte_time_ms: 首字时间/TTFB（可选，streaming 状态时更新）
            provider_id: Provider ID（可选，streaming 状态时更新）
            provider_endpoint_id: Endpoint ID（可选，streaming 状态时更新）
            provider_api_key_id: Provider API Key ID（可选，streaming 状态时更新）
        Returns:
            更新后的 Usage 记录，如果未找到则返回 None
@@ -1331,10 +1509,22 @@ class UsageService:
            usage.error_message = error_message
        if provider:
            usage.provider = provider
        elif status == "streaming" and usage.provider == "pending":
            # 状态变为 streaming 但 provider 仍为 pending，记录警告
            logger.warning(
                f"状态更新为 streaming 但 provider 为空: request_id={request_id}, "
                f"当前 provider={usage.provider}"
            )
        if target_model:
            usage.target_model = target_model
        if first_byte_time_ms is not None:
            usage.first_byte_time_ms = first_byte_time_ms
        if provider_id is not None:
            usage.provider_id = provider_id
        if provider_endpoint_id is not None:
            usage.provider_endpoint_id = provider_endpoint_id
        if provider_api_key_id is not None:
            usage.provider_api_key_id = provider_api_key_id
        db.commit()
@@ -1446,6 +1636,8 @@ class UsageService:
        ids: Optional[List[str]] = None,
        user_id: Optional[str] = None,
        default_timeout_seconds: int = 300,
        *,
        include_admin_fields: bool = False,
    ) -> List[Dict[str, Any]]:
        """
        获取活跃请求状态（用于前端轮询），并自动清理超时的 pending/streaming 请求
@@ -1482,6 +1674,15 @@ class UsageService:
            ProviderEndpoint.timeout.label("endpoint_timeout"),
        ).outerjoin(ProviderEndpoint, Usage.provider_endpoint_id == ProviderEndpoint.id)
        # 管理员轮询：可附带 provider 与上游 key 名称（注意：不要在普通用户接口暴露上游 key 信息）
        if include_admin_fields:
            from src.models.database import ProviderAPIKey
            query = query.add_columns(
                Usage.provider,
                ProviderAPIKey.name.label("api_key_name"),
            ).outerjoin(ProviderAPIKey, Usage.provider_api_key_id == ProviderAPIKey.id)
        if ids:
            query = query.filter(Usage.id.in_(ids))
            if user_id:
@@ -1518,8 +1719,9 @@ class UsageService:
            )
            db.commit()
-        return [
+        result: List[Dict[str, Any]] = []
-            {
+        for r in records:
            item: Dict[str, Any] = {
                "id": r.id,
                "status": "failed" if r.id in timeout_ids else r.status,
                "input_tokens": r.input_tokens,
@@ -1528,8 +1730,12 @@ class UsageService:
                "response_time_ms": r.response_time_ms,
                "first_byte_time_ms": r.first_byte_time_ms,  # 首字时间 (TTFB)
            }
-            for r in records
+            if include_admin_fields:
-        ]
+                item["provider"] = r.provider
                item["api_key_name"] = r.api_key_name
            result.append(item)
        return result
    # ========== 缓存亲和性分析方法 ==========
--- a/src/services/usage/stream.py
+++ b/src/services/usage/stream.py
@@ -459,34 +459,38 @@ class StreamUsageTracker:
        logger.debug(f"ID:{self.request_id} | 开始跟踪流式响应 | 估算输入tokens:{self.input_tokens}")
        chunk_count = 0
-        first_chunk_received = False
+        first_byte_time_ms = None  # 预先记录 TTFB，避免 yield 后计算不准确
        try:
            async for chunk in stream:
                chunk_count += 1
                # 保存原始字节流（用于错误诊断）
                self.raw_chunks.append(chunk)
-                # 第一个 chunk 收到时，更新状态为 streaming 并记录 TTFB
+                # 第一个 chunk 收到时，记录 TTFB 时间点（但先不更新数据库，避免阻塞）
-                if not first_chunk_received:
+                if chunk_count == 1:
-                    first_chunk_received = True
+                    # 计算 TTFB（使用请求原始开始时间或 track_stream 开始时间）
-                    if self.request_id:
+                    base_time = self.request_start_time or self.start_time
-                        try:
+                    first_byte_time_ms = int((time.time() - base_time) * 1000) if base_time else None
                            # 计算 TTFB（使用请求原始开始时间或 track_stream 开始时间）
                            base_time = self.request_start_time or self.start_time
                            first_byte_time_ms = int((time.time() - base_time) * 1000) if base_time else None
                            UsageService.update_usage_status(
                                db=self.db,
                                request_id=self.request_id,
                                status="streaming",
                                provider=self.provider,
                                first_byte_time_ms=first_byte_time_ms,
                            )
                        except Exception as e:
                            logger.warning(f"更新使用记录状态为 streaming 失败: {e}")
-                # 返回原始块给客户端
+                # 先返回原始块给客户端，确保 TTFB 不受数据库操作影响
                yield chunk
                # yield 后再更新数据库状态（仅第一个 chunk 时执行）
                if chunk_count == 1 and self.request_id:
                    try:
                        UsageService.update_usage_status(
                            db=self.db,
                            request_id=self.request_id,
                            status="streaming",
                            provider=self.provider,
                            first_byte_time_ms=first_byte_time_ms,
                            provider_id=self.provider_id,
                            provider_endpoint_id=self.provider_endpoint_id,
                            provider_api_key_id=self.provider_api_key_id,
                        )
                    except Exception as e:
                        logger.warning(f"更新使用记录状态为 streaming 失败: {e}")
                # 解析块以提取内容和使用信息（chunk是原始字节）
                content, usage = self.parse_stream_chunk(chunk)
@@ -916,15 +920,38 @@ class EnhancedStreamUsageTracker(StreamUsageTracker):
        logger.debug(f"ID:{self.request_id} | 开始跟踪流式响应(Enhanced) | 估算输入tokens:{self.input_tokens}")
        chunk_count = 0
        first_byte_time_ms = None  # 预先记录 TTFB，避免 yield 后计算不准确
        try:
            async for chunk in stream:
                chunk_count += 1
                # 保存原始字节流（用于错误诊断）
                self.raw_chunks.append(chunk)
-                # 返回原始块给客户端
+                # 第一个 chunk 收到时，记录 TTFB 时间点（但先不更新数据库，避免阻塞）
                if chunk_count == 1:
                    # 计算 TTFB（使用请求原始开始时间或 track_stream 开始时间）
                    base_time = self.request_start_time or self.start_time
                    first_byte_time_ms = int((time.time() - base_time) * 1000) if base_time else None
                # 先返回原始块给客户端，确保 TTFB 不受数据库操作影响
                yield chunk
                # yield 后再更新数据库状态（仅第一个 chunk 时执行）
                if chunk_count == 1 and self.request_id:
                    try:
                        UsageService.update_usage_status(
                            db=self.db,
                            request_id=self.request_id,
                            status="streaming",
                            provider=self.provider,
                            first_byte_time_ms=first_byte_time_ms,
                            provider_id=self.provider_id,
                            provider_endpoint_id=self.provider_endpoint_id,
                            provider_api_key_id=self.provider_api_key_id,
                        )
                    except Exception as e:
                        logger.warning(f"更新使用记录状态为 streaming 失败: {e}")
                # 解析块以提取内容和使用信息（chunk是原始字节）
                content, usage = self.parse_stream_chunk(chunk)
--- a/src/services/user/apikey.py
+++ b/src/services/user/apikey.py
@@ -25,9 +25,10 @@ class ApiKeyService:
        allowed_providers: Optional[List[str]] = None,
        allowed_api_formats: Optional[List[str]] = None,
        allowed_models: Optional[List[str]] = None,
-        rate_limit: int = 100,
+        rate_limit: Optional[int] = None,
        concurrent_limit: int = 5,
        expire_days: Optional[int] = None,
        expires_at: Optional[datetime] = None,  # 直接传入过期时间，优先于 expire_days
        initial_balance_usd: Optional[float] = None,
        is_standalone: bool = False,
        auto_delete_on_expiry: bool = False,
@@ -44,6 +45,7 @@ class ApiKeyService:
            rate_limit: 速率限制
            concurrent_limit: 并发限制
            expire_days: 过期天数，None = 永不过期
            expires_at: 直接指定过期时间，优先于 expire_days
            initial_balance_usd: 初始余额（USD），仅用于独立Key，None = 无限制
            is_standalone: 是否为独立余额Key（仅管理员可创建）
            auto_delete_on_expiry: 过期后是否自动删除（True=物理删除，False=仅禁用）
@@ -54,10 +56,10 @@ class ApiKeyService:
        key_hash = ApiKey.hash_key(key)
        key_encrypted = crypto_service.encrypt(key)  # 加密存储密钥
-        # 计算过期时间
+        # 计算过期时间：优先使用 expires_at，其次使用 expire_days
-        expires_at = None
+        final_expires_at = expires_at
-        if expire_days:
+        if final_expires_at is None and expire_days:
-            expires_at = datetime.now(timezone.utc) + timedelta(days=expire_days)
+            final_expires_at = datetime.now(timezone.utc) + timedelta(days=expire_days)
        # 空数组转为 None（表示不限制）
        api_key = ApiKey(
@@ -70,7 +72,7 @@ class ApiKeyService:
            allowed_models=allowed_models or None,
            rate_limit=rate_limit,
            concurrent_limit=concurrent_limit,
-            expires_at=expires_at,
+            expires_at=final_expires_at,
            balance_used_usd=0.0,
            current_balance_usd=initial_balance_usd,  # 直接使用初始余额，None = 无限制
            is_standalone=is_standalone,
@@ -145,6 +147,9 @@ class ApiKeyService:
        # 允许显式设置为空数组/None 的字段（空数组会转为 None，表示"全部"）
        nullable_list_fields = {"allowed_providers", "allowed_api_formats", "allowed_models"}
        # 允许显式设置为 None 的字段（如 expires_at=None 表示永不过期，rate_limit=None 表示无限制）
        nullable_fields = {"expires_at", "rate_limit"}
        for field, value in kwargs.items():
            if field not in updatable_fields:
                continue
@@ -153,6 +158,9 @@ class ApiKeyService:
                if value is not None:
                    # 空数组转为 None（表示允许全部）
                    setattr(api_key, field, value if value else None)
            elif field in nullable_fields:
                # 这些字段允许显式设置为 None
                setattr(api_key, field, value)
            elif value is not None:
                setattr(api_key, field, value)
--- a/src/utils/cache_decorator.py
+++ b/src/utils/cache_decorator.py
@@ -49,8 +49,16 @@ def cache_result(key_prefix: str, ttl: int = 60, user_specific: bool = True) ->
                # 尝试从缓存获取
                cached = await redis_client.get(cache_key)
                if cached:
-                    logger.debug(f"缓存命中: {cache_key}")
+                    try:
-                    return json.loads(cached)
+                        result = json.loads(cached)
                        logger.debug(f"缓存命中: {cache_key}")
                        return result
                    except json.JSONDecodeError as e:
                        logger.warning(f"缓存解析失败，删除损坏缓存: {cache_key}, 错误: {e}")
                        try:
                            await redis_client.delete(cache_key)
                        except Exception:
                            pass
                # 执行原函数
                result = await func(*args, **kwargs)
Author	SHA1	Message	Date
fawney19	465da6f818	feat: OpenAI 流式响应解析器支持提取 usage 信息部分 OpenAI 兼容 API（如豆包）会在最后一个 chunk 中发送 usage 信息，现在可以正确提取 prompt_tokens 和 completion_tokens。	2026-01-05 12:50:05 +08:00
fawney19	e5f12fddd9	feat: 流式预读增强与自适应并发算法优化流式预读增强： - 新增预读字节上限（64KB），防止无换行响应导致内存增长 - 预读结束后检测非 SSE 格式的错误响应（HTML 页面、纯 JSON 错误） - 抽取 check_html_response 和 check_prefetched_response_error 到 utils.py 自适应并发算法优化（边界记忆 + 渐进探测）： - 缩容策略：从乘性减少改为边界 -1，一次 429 即可收敛到真实限制附近 - 扩容策略：普通扩容不超过已知边界，探测性扩容可谨慎突破（每次 +1） - 仅在并发限制 429 时记录边界，避免 RPM/UNKNOWN 类型覆盖	2026-01-05 12:17:45 +08:00
fawney19	4fa9a1303a	feat: 优化首字时间和 streaming 状态的记录时序改进 streaming 状态更新机制： - 统一在首次输出时记录 TTFB 并更新 streaming 状态 - 重构 CliMessageHandlerBase 中的状态更新逻辑，消除重复 - 确保 provider/key 信息在 streaming 状态更新时已可用前端改进： - 添加 first_byte_time_ms 字段支持 - 管理员接口支持返回 provider/api_key_name 字段 - 优化活跃请求轮询逻辑，更准确地判断是否需要刷新完整数据数据库与 API： - UsageService.get_active_requests_status 添加 include_admin_fields 参数 - 管理员接口调用时启用该参数以获取额外信息	2026-01-05 10:31:34 +08:00
fawney19	43f349d415	fix: 确保 CLI handler 的 streaming 状态更新时 provider 信息已设置在 execute_with_fallback 返回后，显式设置 ctx 的 provider 信息，与 chat_handler_base.py 的行为保持一致，避免 streaming 状态更新时 provider 为空的问题。	2026-01-05 09:36:35 +08:00
fawney19	02069954de	fix: streaming 状态更新时传递 first_byte_time_ms	2026-01-05 09:29:38 +08:00
fawney19	2e15875fed	feat: 端点 API 支持 custom_path 字段 - ProviderEndpointCreate 添加 custom_path 参数 - ProviderEndpointUpdate 添加 custom_path 参数 - ProviderEndpointResponse 返回 custom_path 字段 - 创建端点时传递 custom_path 到数据库模型	2026-01-05 09:22:20 +08:00
fawney19	b34cfb676d	fix: streaming 状态更新时传递 provider 相关 ID 信息在 update_usage_status 方法中增加 provider_id、provider_endpoint_id 和 provider_api_key_id 参数，确保流式请求进入 streaming 状态时能正确记录这些字段。	2026-01-05 09:12:03 +08:00
fawney19	3064497636	refactor: 改进上游错误消息的提取和传递 - 新增 extract_error_message 工具函数，统一错误消息提取逻辑 - 在 HTTPStatusError 异常上附加 upstream_response 属性，保留原始错误 - 优先使用上游响应内容作为错误消息，而非异常字符串表示 - 移除错误消息的长度限制（500/1000 字符） - 修复边界条件检查，使用 startswith 匹配 "Unable to read" 前缀 - 简化 result.py 中的条件判断逻辑	2026-01-05 03:18:55 +08:00
fawney19	dec681fea0	fix: 统一时区处理，确保所有 datetime 带时区信息 - token_bucket.py: get_reset_time 和 Redis 后端使用 timezone.utc - sliding_window.py: get_reset_time 和 retry_after 计算使用 timezone.utc - provider_strategy.py: dateutil.parser 解析后确保有时区信息	2026-01-05 02:23:24 +08:00
fawney19	523e27ba9a	fix: API Key 过期时间使用应用时区而非 UTC - 后端：parse_expiry_date 使用 APP_TIMEZONE（默认 Asia/Shanghai） - 前端：移除提示文案中的 "UTC"	2026-01-05 02:18:16 +08:00
fawney19	e7db76e581	refactor: API Key 过期时间改用日期选择器，rate_limit 支持无限制 - 前端：将过期时间设置从"天数输入"改为"日期选择器"，更直观 - 后端：新增 expires_at 字段（ISO 日期格式），兼容旧版 expire_days - rate_limit 字段现在支持 null 表示无限制，移除默认值 100 - 解析逻辑：过期时间设为当天 UTC 23:59:59.999999	2026-01-05 02:16:16 +08:00
fawney19	689339117a	refactor: 提取 ModelMultiSelect 组件并支持失效模型检测 - 新增 ModelMultiSelect 组件，支持显示和移除已失效的模型 - 新增 useInvalidModels composable 检测 allowed_models 中的无效引用 - 重构 StandaloneKeyFormDialog 和 UserFormDialog 使用新组件 - 补充 GlobalModel 删除逻辑的设计说明注释	2026-01-05 01:20:58 +08:00
fawney19	b202765be4	perf: 优化流式响应 TTFB，将数据库状态更新移至 yield 后执行 - StreamUsageTracker: 先 yield 首个 chunk 再更新 streaming 状态 - EnhancedStreamUsageTracker: 同步添加 TTFB 记录和状态更新逻辑 - 确保客户端首字节响应不受数据库操作延迟影响	2026-01-05 00:13:23 +08:00
fawney19	3bbf3073df	feat: 所有 Provider 失败时透传上游错误信息 - FallbackOrchestrator 在所有候选组合失败后保留最后的错误信息 - 从 httpx.HTTPStatusError 提取上游状态码和响应内容 - ProviderNotAvailableException 携带上游错误信息 - ErrorResponse 在返回错误时透传上游状态码和响应	2026-01-04 23:50:15 +08:00
fawney19	f46aaa2182	debug: 添加 streaming 状态更新时 provider 为空的调试日志 - base_handler: 更新 streaming 状态时检测并记录 provider 为空的情况 - cli_handler_base: 修复预读数据为空时未更新 streaming 状态的问题 - usage service: 检测状态变为 streaming 但 provider 仍为 pending 的异常	2026-01-04 23:16:01 +08:00
fawney19	a2f33a6c35	perf: 拆分热力图为独立接口并添加 Redis 缓存 - 新增独立热力图 API 端点 (/api/admin/usage/heatmap, /api/users/me/usage/heatmap) - 添加 Redis 缓存层 (5分钟 TTL)，减少数据库查询 - 用户角色变更时清除热力图缓存 - 前端并行加载统计数据和热力图，添加加载/错误状态显示 - 修复 cache_decorator 缺少 JSON 解析错误处理的问题 - 更新 docker-compose 启动命令提示	2026-01-04 22:42:58 +08:00
fawney19	b6bd6357ed	perf: 优化 GlobalModel 列表查询的 N+1 问题	2026-01-04 20:05:23 +08:00
fawney19	c3a5878b1b	feat: 优化用量查询分页和热力图性能 - 用量查询接口添加 limit/offset 分页参数支持 - 热力图统计从实时查询 Usage 表改为读取预计算的 StatsDaily/StatsUserDaily 表 - 修复 avg_response_time_ms 为 0 时被错误跳过的问题	2026-01-04 18:02:47 +08:00
fawney19	c02ac56da8	chore: 更新 docker-compose 命令为 docker compose 统一使用 Docker Compose V2 的现代写法	2026-01-03 01:39:45 +08:00