第12章：综合项目优化¶

理论学完了？通过一个完整的InteliKB v2.0项目，将所有优化技术整合应用，实现从60%到85% Hit Rate的跨越！

📚 学习目标¶

学完本章后，你将能够：

预计学习时间：3小时 难度等级：⭐⭐⭐⭐⭐

前置知识¶

在开始本章学习前，你需要完成：

模块1：基础RAG实现
模块2第6-11章：所有优化技术
有一个可运行的RAG系统

环境要求： - 完整的RAG开发环境 - 测试数据集 - 评估工具

12.1 项目概述¶

12.1.1 项目目标¶

InteliKB v2.0：智能知识库问答系统

将InteliKB-Lite（模块1）升级到v2.0版本，应用所有优化技术。

性能目标：

指标                v1.0 (基准)    v2.0 (目标)    提升
────────────────────────────────────────────────────
Hit Rate           0.60          0.85          +42%
MRR                0.50          0.75          +50%
P95延迟            3000ms        1500ms        -50%
用户满意度         70%           90%           +29%

12.1.2 技术方案¶

InteliKB v2.0 技术架构

┌─────────────────────────────────────────────────────────┐
│                     前端层                              │
│  Streamlit Web界面                                      │
└──────────────────┬──────────────────────────────────────┘
                   │
┌──────────────────┴──────────────────────────────────────┐
│                   API层                                 │
│  - 查询接口                                             │
│  - 管理接口                                             │
│  - 监控接口                                             │
└──────────────────┬──────────────────────────────────────┘
                   │
┌──────────────────┴──────────────────────────────────────┐
│                  业务层                                 │
│  ┌─────────────────────────────────────────────────┐   │
│  │  查询处理器                                      │   │
│  │  - 查询复杂度分析                                │   │
│  │  - 自适应策略选择                                │   │
│  │  - 缓存管理                                      │   │
│  └─────────────────────────────────────────────────┘   │
│  ┌─────────────────────────────────────────────────┐   │
│  │  优化引擎                                        │   │
│  │  - 混合检索 (向量+BM25)                          │   │
│  │  - RRF融合                                       │   │
│  │  - 重排序 (CrossEncoder)                         │   │
│  │  - 迭代检索                                       │   │
│  └─────────────────────────────────────────────────┘   │
└──────────────────┬──────────────────────────────────────┘
                   │
┌──────────────────┴──────────────────────────────────────┐
│                  数据层                                 │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  │
│  │ 向量数据库   │  │ 元数据存储   │  │ 缓存 (Redis)│  │
│  │ Chroma       │  │ PostgreSQL   │  │ L1+L2       │  │
│  └──────────────┘  └──────────────┘  └──────────────┘  │
└───────────────────────────────────────────────────────────┘

12.2 项目规划¶

12.2.1 优化路线图¶

Phase 1: 基础优化 (第1-2周)
  ✅ 更好的嵌入模型
  ✅ 语义分块
  ✅ 查询增强 (HyDE)

  预期提升: Hit Rate 0.60 → 0.70 (+17%)

Phase 2: 检索优化 (第3-4周)
  ✅ 混合检索 (向量+BM25)
  ✅ RRF融合
  ✅ 重排序

  预期提升: Hit Rate 0.70 → 0.80 (+14%)

Phase 3: 高级模式 (第5-6周)
  ✅ 迭代检索
  ✅ 自适应检索
  ✅ 元数据过滤

  预期提升: Hit Rate 0.80 → 0.85 (+6%)

Phase 4: 性能优化 (第7-8周)
  ✅ 多层缓存
  ✅ 批处理
  ✅ 并发处理

  预期提升: 延迟 3000ms → 1500ms (-50%)

Phase 5: 评估与调优 (第9-10周)
  ✅ A/B测试
  ✅ 性能监控
  ✅ 持续优化

  预期: 达到所有目标

12.2.2 技术选型¶

# 文件名：config.py
"""
InteliKB v2.0 配置
"""

class Config:
    """配置类"""

    # ========== 嵌入模型 ==========
    # 使用BGE模型（性能优于OpenAI）
    EMBEDDING_MODEL = "BAAI/bge-small-en-v1.5"
    EMBEDDING_DIM = 768
    EMBEDDING_BATCH_SIZE = 32

    # ========== 分块策略 ==========
    # 语义分块 + 上下文保留
    CHUNKING_STRATEGY = "semantic"
    CHUNK_SIZE = 512
    CHUNK_OVERLAP = 50
    KEEP_HEADERS = True

    # ========== 检索配置 ==========
    # 混合检索权重
    VECTOR_WEIGHT = 0.6
    BM25_WEIGHT = 0.4

    # RRF参数
    RRF_K = 60

    # 检索数量
    INITIAL_TOP_K = 50
    FINAL_TOP_K = 10

    # ========== 重排序 ==========
    RERANKER_MODEL = "cross-encoder/ms-marco-MiniLM-L-6-v2"
    RERANK_TOP_K = 10

    # ========== 缓存配置 ==========
    # L1缓存（内存）
    L1_CACHE_SIZE = 1000
    L1_CACHE_TTL = 3600

    # L2缓存（Redis）
    ENABLE_L2_CACHE = True
    L2_CACHE_TTL = 86400
    REDIS_HOST = "localhost"
    REDIS_PORT = 6379

    # ========== 并发配置 ==========
    MAX_WORKERS = 10
    BATCH_SIZE = 8

    # ========== 高级模式 ==========
    ENABLE_ITERATIVE_RETRIEVAL = True
    MAX_ITERATIONS = 3
    ENABLE_ADAPTIVE_RETRIEVAL = True

    # ========== LLM配置 ==========
    LLM_MODEL = "gpt-3.5-turbo"
    LLM_TEMPERATURE = 0.3
    LLM_MAX_TOKENS = 500
    LLM_TIMEOUT = 30

    # ========== 监控配置 ==========
    ENABLE_MONITORING = True
    LOG_LEVEL = "INFO"
    METRICS_PORT = 9090

12.3 核心代码实现¶

12.3.1 优化的RAG引擎¶

# 文件名：intelikb_v2.py
"""
InteliKB v2.0 - 优化的RAG引擎
"""

from typing import List, Dict, Optional, Tuple
import time
import numpy as np
from sentence_transformers import SentenceTransformer, CrossEncoder
from rank_bm25 import BM25Okapi
import chromadb
from chromadb.config import Settings


class IntelikBEngine:
    """
    InteliKB v2.0 引擎

    整合所有优化技术

    Args:
        config: 配置对象

    Example:
        >>> engine = IntelikBEngine(Config())
        >>> engine.add_documents(documents)
        >>> result = engine.query("Python性能优化技巧")
        >>> print(result['answer'])
    """

    def __init__(self, config):
        self.config = config

        # 初始化组件
        self._init_embedding_model()
        self._init_vector_store()
        self._init_reranker()
        self._init_cache()
        self._init_bm25()

        # 文档存储
        self.documents = []
        self.doc_ids = []

        # 统计信息
        self.stats = {
            'total_queries': 0,
            'cache_hits': 0,
            'iterative_queries': 0,
            'avg_response_time_ms': 0.0
        }

    def _init_embedding_model(self):
        """初始化嵌入模型"""
        print(f"加载嵌入模型: {self.config.EMBEDDING_MODEL}")
        self.embedding_model = SentenceTransformer(self.config.EMBEDDING_MODEL)
        print("✓ 嵌入模型已加载")

    def _init_vector_store(self):
        """初始化向量数据库"""
        print("初始化向量数据库...")
        self.chroma_client = chromadb.Client(Settings())
        self.collection = self.chroma_client.get_or_create_collection(
            name="intelikb_v2"
        )
        print("✓ 向量数据库已初始化")

    def _init_reranker(self):
        """初始化重排序模型"""
        print(f"加载重排序模型: {self.config.RERANKER_MODEL}")
        self.reranker = CrossEncoder(self.config.RERANKER_MODEL)
        print("✓ 重排序模型已加载")

    def _init_cache(self):
        """初始化缓存"""
        print("初始化缓存...")
        from cache_strategies import MemoryCache

        self.l1_cache = MemoryCache(
            max_size=self.config.L1_CACHE_SIZE,
            ttl=self.config.L1_CACHE_TTL
        )

        if self.config.ENABLE_L2_CACHE:
            try:
                from cache_strategies import RedisCache
                self.l2_cache = RedisCache(
                    host=self.config.REDIS_HOST,
                    port=self.config.REDIS_PORT,
                    ttl=self.config.L2_CACHE_TTL
                )
                print("✓ L2缓存已启用")
            except Exception as e:
                print(f"⚠ L2缓存初始化失败: {e}")
                self.l2_cache = None
        else:
            self.l2_cache = None

        print("✓ L1缓存已初始化")

    def _init_bm25(self):
        """初始化BM25索引"""
        self.bm25_index = None
        self.tokenized_docs = []

    def add_documents(self, documents: List[str],
                     doc_ids: List[str] = None,
                     metadata: List[Dict] = None):
        """
        添加文档

        Args:
            documents: 文档文本列表
            doc_ids: 文档ID列表
            metadata: 元数据列表
        """
        if doc_ids is None:
            doc_ids = [f"doc_{i}" for i in range(len(documents))]

        if metadata is None:
            metadata = [{}] * len(documents)

        self.documents = documents
        self.doc_ids = doc_ids

        print(f"\n添加 {len(documents)} 个文档...")

        # 步骤1：嵌入文档
        print("步骤1: 嵌入文档...")
        embeddings = self.embedding_model.encode(
            documents,
            batch_size=self.config.EMBEDDING_BATCH_SIZE,
            show_progress_bar=True
        )

        # 步骤2：存储到向量数据库
        print("步骤2: 存储到向量数据库...")
        self.collection.add(
            embeddings=embeddings.tolist(),
            documents=documents,
            ids=doc_ids,
            metadatas=metadata
        )

        # 步骤3：构建BM25索引
        print("步骤3: 构建BM25索引...")
        self.tokenized_docs = [doc.split() for doc in documents]
        self.bm25_index = BM25Okapi(self.tokenized_docs)

        print(f"✓ 已添加 {len(documents)} 个文档")

    def _vector_retrieve(self, query: str, top_k: int = 20) -> List[Tuple[str, float]]:
        """
        向量检索
        """
        query_embedding = self.embedding_model.encode([query]).tolist()
        results = self.collection.query(
            query_embeddings=query_embedding,
            n_results=top_k
        )

        vector_results = []
        for i, doc_id in enumerate(results['ids'][0]):
            score = 1 - results['distances'][0][i]  # 距离转相似度
            vector_results.append((doc_id, score))

        return vector_results

    def _bm25_retrieve(self, query: str, top_k: int = 20) -> List[Tuple[str, float]]:
        """
        BM25检索
        """
        if self.bm25_index is None:
            return []

        tokenized_query = query.split()
        scores = self.bm25_index.get_scores(tokenized_query)
        top_indices = np.argsort(scores)[::-1][:top_k]

        bm25_results = []
        for idx in top_indices:
            if scores[idx] > 0:
                doc_id = self.doc_ids[idx]
                bm25_results.append((doc_id, scores[idx]))

        return bm25_results

    def _rrf_fusion(self,
                   vector_results: List[Tuple[str, float]],
                   bm25_results: List[Tuple[str, float]]) -> List[Tuple[str, float]]:
        """
        RRF融合
        """
        k = self.config.RRF_K
        rrf_scores = {}

        # 向量检索结果
        for rank, (doc_id, _) in enumerate(vector_results, start=1):
            rrf_scores[doc_id] = rrf_scores.get(doc_id, 0) + 1.0 / (k + rank)

        # BM25检索结果
        for rank, (doc_id, _) in enumerate(bm25_results, start=1):
            rrf_scores[doc_id] = rrf_scores.get(doc_id, 0) + 1.0 / (k + rank)

        # 排序
        fused = sorted(rrf_scores.items(), key=lambda x: x[1], reverse=True)
        return fused

    def _rerank(self,
                query: str,
                candidates: List[Tuple[str, float]],
                top_k: int = None) -> List[Tuple[str, float]]:
        """
        重排序
        """
        if top_k is None:
            top_k = self.config.RERANK_TOP_K

        # 准备候选文档
        candidate_docs = []
        for doc_id, _ in candidates:
            doc_idx = self.doc_ids.index(doc_id)
            candidate_docs.append((doc_id, self.documents[doc_idx]))

        # 准备查询-文档对
        pairs = [(query, doc_text) for _, doc_text in candidate_docs]

        # 批量打分
        scores = self.reranker.predict(pairs)

        # 组合结果
        reranked = [
            (doc_id, float(score))
            for (doc_id, _), score in zip(candidate_docs, scores)
        ]

        # 排序并返回top-k
        reranked.sort(key=lambda x: x[1], reverse=True)
        return reranked[:top_k]

    def _generate_answer(self, query: str, context_docs: List[Dict]) -> str:
        """
        生成答案（占位符）
        """
        # 实际使用时调用LLM
        context = "\n\n".join([doc['text'] for doc in context_docs[:3]])

        # 简化示例
        return f"基于{len(context_docs)}个相关文档生成的答案...\n\n上下文:\n{context[:500]}..."

    def query(self, query: str, use_cache: bool = True) -> Dict:
        """
        查询（完整流程）

        Args:
            query: 查询文本
            use_cache: 是否使用缓存

        Returns:
            {
                'answer': str,
                'sources': List[str],
                'cache': str,
                'response_time_ms': float
            }
        """
        start_time = time.time()
        self.stats['total_queries'] += 1

        # 检查缓存
        if use_cache:
            cached = self.l1_cache.get(query)
            if cached is None and self.l2_cache:
                cached = self.l2_cache.get(query)

            if cached is not None:
                self.stats['cache_hits'] += 1
                response_time = (time.time() - start_time) * 1000
                return {
                    'answer': cached['answer'],
                    'sources': cached['sources'],
                    'cache': 'L1' if self.l1_cache.get(query) else 'L2',
                    'response_time_ms': response_time
                }

        # 步骤1：向量检索
        vector_results = self._vector_retrieve(
            query,
            top_k=self.config.INITIAL_TOP_K
        )

        # 步骤2：BM25检索
        bm25_results = self._bm25_retrieve(
            query,
            top_k=self.config.INITIAL_TOP_K
        )

        # 步骤3：RRF融合
        fused_results = self._rrf_fusion(vector_results, bm25_results)

        # 步骤4：重排序
        reranked = self._rerank(query, fused_results)

        # 步骤5：生成答案
        context_docs = [
            {'id': doc_id, 'text': self.documents[self.doc_ids.index(doc_id)]}
            for doc_id, _ in reranked
        ]

        answer = self._generate_answer(query, context_docs)

        # 存储到缓存
        cache_data = {
            'answer': answer,
            'sources': [doc_id for doc_id, _ in reranked]
        }

        self.l1_cache.set(query, cache_data)
        if self.l2_cache:
            self.l2_cache.set(query, cache_data)

        response_time = (time.time() - start_time) * 1000

        # 更新统计
        self.stats['avg_response_time_ms'] = (
            (self.stats['avg_response_time_ms'] * (self.stats['total_queries'] - 1) + response_time)
            / self.stats['total_queries']
        )

        return {
            'answer': answer,
            'sources': [doc_id for doc_id, _ in reranked],
            'cache': 'None',
            'response_time_ms': response_time
        }

    def get_stats(self) -> Dict:
        """
        获取统计信息
        """
        total = self.stats['total_queries']
        hits = self.stats['cache_hits']

        return {
            'total_queries': total,
            'cache_hits': hits,
            'cache_hit_rate': hits / total if total > 0 else 0,
            'avg_response_time_ms': self.stats['avg_response_time_ms'],
            'total_documents': len(self.documents)
        }


# 使用示例
if __name__ == "__main__":
    from config import Config

    # 创建引擎
    config = Config()
    engine = IntelikBEngine(config)

    # 准备测试文档
    documents = [
        "Python是一种高级编程语言，以其简洁的语法和强大的功能著称。",
        "JavaScript是Web开发的标配语言，主要用于前端开发。",
        "Python性能优化可以通过使用PyPy、Cython或优化算法实现。",
        "JavaScript的性能优化包括减少DOM操作、使用事件委托等技术。",
        "Python的GIL限制了多线程性能，但multiprocessing模块提供了替代方案。",
        "V8引擎使得JavaScript执行速度大幅提升，接近编译型语言。",
    ]

    # 添加文档
    engine.add_documents(documents)

    # 测试查询
    test_queries = [
        "如何优化Python代码性能？",
        "JavaScript的V8引擎是什么？",
        "对比Python和JavaScript的性能"
    ]

    print("\n" + "="*80)
    print("InteliKB v2.0 测试")
    print("="*80 + "\n")

    for query in test_queries:
        print(f"查询: {query}")
        result = engine.query(query)

        print(f"  缓存: {result['cache']}")
        print(f"  响应时间: {result['response_time_ms']:.2f} ms")
        print(f"  来源文档: {', '.join(result['sources'])}")
        print(f"  答案:\n{result['answer'][:200]}...\n")

    # 统计信息
    stats = engine.get_stats()

    print("="*80)
    print("系统统计")
    print("="*80)
    print(f"总查询数: {stats['total_queries']}")
    print(f"缓存命中: {stats['cache_hits']} ({stats['cache_hit_rate']*100:.1f}%)")
    print(f"平均响应时间: {stats['avg_response_time_ms']:.2f} ms")
    print(f"文档总数: {stats['total_documents']}")

12.4 A/B测试¶

12.4.1 测试设计¶

A/B测试设计

目标：验证优化效果

分组：
  - A组（对照组）：v1.0 基础RAG
  - B组（实验组）：v2.0 优化RAG

指标：
  - Hit Rate
  - MRR
  - 响应时间
  - 用户满意度

测试数据：
  - 100个测试查询
  - 涵盖不同类型和难度

显著性检验：
  - t-test
  - 置信区间95%

12.4.2 测试实现¶

# 文件名：ab_test.py
"""
A/B测试框架
"""

from typing import List, Dict, Callable
import numpy as np
from scipy import stats


class ABTestFramework:
    """
    A/B测试框架

    Args:
        system_a: 对照组系统
        system_b: 实验组系统
        test_queries: 测试查询列表

    Example:
        >>> ab_test = ABTestFramework(system_v1, system_v2, test_queries)
        >>> results = ab_test.run_test()
        >>> ab_test.print_report(results)
    """

    def __init__(self,
                 system_a: Callable,
                 system_b: Callable,
                 test_queries: List[Dict]):

        self.system_a = system_a
        self.system_b = system_b
        self.test_queries = test_queries

    def run_test(self) -> Dict:
        """
        运行A/B测试

        Returns:
            {
                'system_a': metrics,
                'system_b': metrics,
                'comparison': comparison_results,
                'significance': statistical_tests
            }
        """
        print("\n" + "="*80)
        print("运行A/B测试")
        print("="*80 + "\n")

        # 测试系统A
        print("测试系统A（对照组）...")
        results_a = self._test_system(self.system_a, "A")

        # 测试系统B
        print("\n测试系统B（实验组）...")
        results_b = self._test_system(self.system_b, "B")

        # 对比分析
        comparison = self._compare_systems(results_a, results_b)

        # 显著性检验
        significance = self._statistical_tests(results_a, results_b)

        return {
            'system_a': results_a,
            'system_b': results_b,
            'comparison': comparison,
            'significance': significance
        }

    def _test_system(self, system: Callable, system_name: str) -> Dict:
        """
        测试单个系统
        """
        hit_rates = []
        mrrs = []
        response_times = []

        for item in self.test_queries:
            query = item['query']
            relevant_docs = item['relevant_docs']

            # 查询
            result = system(query)
            retrieved_docs = result.get('sources', [])

            # 计算指标
            hit_rate = 1.0 if any(doc in relevant_docs for doc in retrieved_docs) else 0.0
            hit_rates.append(hit_rate)

            # MRR
            mrr = self._calculate_mrr(retrieved_docs, relevant_docs)
            mrrs.append(mrr)

            # 响应时间
            response_time = result.get('response_time_ms', 0)
            response_times.append(response_time)

        return {
            'hit_rates': hit_rates,
            'mrrs': mrrs,
            'response_times': response_times,
            'avg_hit_rate': np.mean(hit_rates),
            'avg_mrr': np.mean(mrrs),
            'avg_response_time': np.mean(response_times)
        }

    def _calculate_mrr(self, retrieved: List[str], relevant: List[str]) -> float:
        """计算MRR"""
        for rank, doc in enumerate(retrieved, start=1):
            if doc in relevant:
                return 1.0 / rank
        return 0.0

    def _compare_systems(self, results_a: Dict, results_b: Dict) -> Dict:
        """
        对比两个系统
        """
        comparison = {}

        # Hit Rate对比
        hit_rate_improvement = (
            (results_b['avg_hit_rate'] - results_a['avg_hit_rate'])
            / results_a['avg_hit_rate'] * 100
        )
        comparison['hit_rate_improvement_pct'] = hit_rate_improvement

        # MRR对比
        mrr_improvement = (
            (results_b['avg_mrr'] - results_a['avg_mrr'])
            / results_a['avg_mrr'] * 100
        )
        comparison['mrr_improvement_pct'] = mrr_improvement

        # 响应时间对比
        response_time_change = (
            (results_b['avg_response_time'] - results_a['avg_response_time'])
            / results_a['avg_response_time'] * 100
        )
        comparison['response_time_change_pct'] = response_time_change

        return comparison

    def _statistical_tests(self, results_a: Dict, results_b: Dict) -> Dict:
        """
        统计显著性检验
        """
        significance = {}

        # Hit Rate t-test
        t_stat_hr, p_value_hr = stats.ttest_ind(
            results_a['hit_rates'],
            results_b['hit_rates']
        )
        significance['hit_rate'] = {
            't_statistic': t_stat_hr,
            'p_value': p_value_hr,
            'significant': p_value_hr < 0.05
        }

        # MRR t-test
        t_stat_mrr, p_value_mrr = stats.ttest_ind(
            results_a['mrrs'],
            results_b['mrrs']
        )
        significance['mrr'] = {
            't_statistic': t_stat_mrr,
            'p_value': p_value_mrr,
            'significant': p_value_mrr < 0.05
        }

        # 响应时间 t-test
        t_stat_rt, p_value_rt = stats.ttest_ind(
            results_a['response_times'],
            results_b['response_times']
        )
        significance['response_time'] = {
            't_statistic': t_stat_rt,
            'p_value': p_value_rt,
            'significant': p_value_rt < 0.05
        }

        return significance

    def print_report(self, test_results: Dict):
        """
        打印测试报告
        """
        print("\n" + "="*80)
        print("A/B测试报告")
        print("="*80 + "\n")

        # 系统A结果
        results_a = test_results['system_a']
        print("系统A（对照组）:")
        print(f"  Hit Rate:   {results_a['avg_hit_rate']:.4f}")
        print(f"  MRR:        {results_a['avg_mrr']:.4f}")
        print(f"  响应时间:   {results_a['avg_response_time']:.2f} ms\n")

        # 系统B结果
        results_b = test_results['system_b']
        print("系统B（实验组）:")
        print(f"  Hit Rate:   {results_b['avg_hit_rate']:.4f}")
        print(f"  MRR:        {results_b['avg_mrr']:.4f}")
        print(f"  响应时间:   {results_b['avg_response_time']:.2f} ms\n")

        # 对比
        comparison = test_results['comparison']
        print("改进效果:")
        print(f"  Hit Rate:   {comparison['hit_rate_improvement_pct']:+.2f}%")
        print(f"  MRR:        {comparison['mrr_improvement_pct']:+.2f}%")
        print(f"  响应时间:   {comparison['response_time_change_pct']:+.2f}%\n")

        # 显著性检验
        significance = test_results['significance']
        print("统计显著性 (p < 0.05):")
        for metric, result in significance.items():
            sig_marker = "***" if result['significant'] else "ns"
            print(f"  {metric}:   p={result['p_value']:.4f} {sig_marker}")

        print("\n" + "="*80)


# 使用示例
if __name__ == "__main__":
    # 准备测试查询
    test_queries = [
        {
            'query': 'Python性能优化',
            'relevant_docs': ['doc_2', 'doc_4', 'doc_10']
        },
        {
            'query': 'JavaScript V8引擎',
            'relevant_docs': ['doc_6']
        },
        # ... 更多测试查询
    ]

    # 模拟系统
    def system_v1(query):
        """v1.0系统"""
        import random
        import time
        time.sleep(random.uniform(0.1, 0.3))  # 模拟处理

        return {
            'sources': ['doc_1', 'doc_2', 'doc_3'],  # 假设结果
            'response_time_ms': random.uniform(200, 300)
        }

    def system_v2(query):
        """v2.0系统（优化版）"""
        import random
        import time
        time.sleep(random.uniform(0.05, 0.15))  # 更快

        return {
            'sources': ['doc_2', 'doc_4', 'doc_10'],  # 更精确的结果
            'response_time_ms': random.uniform(100, 150)
        }

    # 运行A/B测试
    ab_test = ABTestFramework(system_v1, system_v2, test_queries)
    results = ab_test.run_test()
    ab_test.print_report(results)

12.5 性能监控¶

12.5.1 监控指标¶

# 文件名：monitoring.py
"""
性能监控系统
"""

from typing import Dict, List
import time
from collections import deque
import json


class PerformanceMonitor:
    """
    性能监控器

    跟踪系统性能指标

    Args:
        window_size: 滑动窗口大小（用于计算移动平均）

    Example:
        >>> monitor = PerformanceMonitor(window_size=100)
        >>> monitor.log_query(query, result)
        >>> metrics = monitor.get_metrics()
    """

    def __init__(self, window_size: int = 100):
        self.window_size = window_size

        # 滑动窗口
        self.response_times = deque(maxlen=window_size)
        self.cache_hits = deque(maxlen=window_size)
        self.query_types = deque(maxlen=window_size)

        # 统计
        self.total_queries = 0
        self.total_errors = 0

    def log_query(self, query: str, result: Dict):
        """
        记录查询
        """
        self.total_queries += 1

        # 响应时间
        response_time = result.get('response_time_ms', 0)
        self.response_times.append(response_time)

        # 缓存命中
        cache_hit = 1 if result.get('cache') != 'None' else 0
        self.cache_hits.append(cache_hit)

        # 查询类型（简单分类）
        query_type = self._classify_query(query)
        self.query_types.append(query_type)

        # 错误
        if 'error' in result:
            self.total_errors += 1

    def _classify_query(self, query: str) -> str:
        """
        分类查询类型
        """
        if '?' in query or '？' in query:
            return 'question'
        elif '如何' in query or '怎么' in query:
            return 'how_to'
        elif '对比' in query or '区别' in query:
            return 'comparison'
        else:
            return 'other'

    def get_metrics(self) -> Dict:
        """
        获取指标
        """
        if len(self.response_times) == 0:
            return {}

        import numpy as np

        response_times_list = list(self.response_times)

        return {
            'total_queries': self.total_queries,
            'total_errors': self.total_errors,
            'error_rate': self.total_errors / self.total_queries if self.total_queries > 0 else 0,

            # 响应时间
            'avg_response_time_ms': np.mean(response_times_list),
            'p50_response_time_ms': np.percentile(response_times_list, 50),
            'p95_response_time_ms': np.percentile(response_times_list, 95),
            'p99_response_time_ms': np.percentile(response_times_list, 99),

            # 缓存
            'cache_hit_rate': np.mean(list(self.cache_hits)),

            # QPS
            'qps': len(self.response_times) / max(response_times_list[-1] - response_times_list[0], 1) * 1000
        }

    def print_metrics(self):
        """
        打印指标
        """
        metrics = self.get_metrics()

        print("\n" + "="*80)
        print("性能指标")
        print("="*80)

        print(f"\n查询统计:")
        print(f"  总查询数:  {metrics['total_queries']}")
        print(f"  错误数:    {metrics['total_errors']}")
        print(f"  错误率:    {metrics['error_rate']*100:.2f}%")

        print(f"\n响应时间:")
        print(f"  平均:      {metrics['avg_response_time_ms']:.2f} ms")
        print(f"  P50:       {metrics['p50_response_time_ms']:.2f} ms")
        print(f"  P95:       {metrics['p95_response_time_ms']:.2f} ms")
        print(f"  P99:       {metrics['p99_response_time_ms']:.2f} ms")

        print(f"\n缓存:")
        print(f"  命中率:    {metrics['cache_hit_rate']*100:.2f}%")

        print(f"\n吞吐量:")
        print(f"  QPS:       {metrics['qps']:.2f}")

        print("\n" + "="*80)

12.6 最佳实践总结¶

12.6.1 优化检查清单¶

✅ 数据层优化
  ☑ 使用高质量的嵌入模型
  ☑ 应用语义分块
  ☑ 添加文档元数据

✅ 检索层优化
  ☑ 实现混合检索（向量+BM25）
  ☑ 使用RRF融合结果
  ☑ 应用重排序精炼

✅ 查询层优化
  ☑ 实现查询增强（HyDE）
  ☑ 支持迭代检索
  ☑ 自适应策略选择

✅ 性能优化
  ☑ 多层缓存（L1+L2）
  ☑ 批处理接口
  ☑ 并发处理

✅ 监控与评估
  ☑ 性能监控
  ☑ A/B测试
  ☑ 持续优化

12.6.2 常见陷阱¶

❌ 陷阱1：过度优化
  问题：优化了不需要优化的部分
  解决：先profiling，找到真正的瓶颈

❌ 陷阱2：忽略基线
  问题：不知道优化提升了多少
  解决：始终建立评估基线

❌ 陷阱3：过早优化
  问题：功能未完善就开始优化
  解决：先确保正确性，再优化性能

❌ 陷阱4：单一指标
  问题：只关注Hit Rate
  解决：综合考虑多个指标

❌ 陷阱5：缺乏监控
  问题：不知道生产环境表现
  解决：建立完善的监控体系

练习题¶

练习1：综合项目 - InteliKB v2.0¶

项目描述：完整实现InteliKB v2.0

功能需求： 1. ✅ 混合检索（向量+BM25+RRF） 2. ✅ 重排序 3. ✅ 多层缓存 4. ✅ 性能监控 5. ✅ A/B测试

性能目标： - Hit Rate > 0.80 - MRR > 0.70 - P95延迟 < 1000ms

交付标准： - ✅ 完整的代码实现 - ✅ 单元测试 - ✅ 性能报告 - ✅ 使用文档

练习2：进阶挑战 - 持续优化¶

挑战描述：在达到目标后持续优化

挑战目标： 1. Hit Rate达到0.90+ 2. 响应时间降低到500ms以下 3. 实现自动化优化流程

提示： - 尝试不同的嵌入模型 - 调优融合权重 - 实现模型微调

练习3：实战项目 - 生产部署¶

项目描述：将InteliKB v2.0部署到生产环境

需求： 1. Docker容器化 2. 负载均衡 3. 自动扩缩容 4. 监控告警 5. 日志收集

提示： - 使用Docker Compose - 配置Nginx负载均衡 - 集成Prometheus监控

总结¶

模块2要点回顾¶

第6章：嵌入模型深入 - 理解Transformer架构 - 选择合适的嵌入模型 - 模型微调提升性能

第7章：高级分块策略 - 语义分块优于固定分块 - 上下文分块头提升质量 - 父文档检索平衡精度和上下文

第8章：查询增强技术 - HyDE将查询转换为假设答案 - 查询重写提升清晰度 - 多查询策略覆盖更全面

第9章：混合检索与重排序 - 向量+BM25互补优势 - RRF融合鲁棒性强 - 重排序显著提升精度

第10章：高级RAG模式 - 迭代检索处理多跳问题 - 自适应检索平衡速度和质量 - 元数据过滤精确控制范围

第11章：性能优化 - 缓存减少重复计算 - 批处理提升吞吐量 - 并发处理加速I/O操作

第12章：综合项目优化 - 整合所有优化技术 - A/B测试验证效果 - 持续监控和优化

学习检查清单¶

下一步学习¶

下一模块：模块3：高级架构模式
相关项目：
部署InteliKB到生产环境
构建多租户RAG系统
实现RAG API服务
扩展阅读：
LlamaIndex Production: https://docs.llamaindex.ai/en/stable/
RAG in Production: https://arxiv.org/abs/2312.10997

恭喜完成模块2！¶

你已经掌握了RAG系统的所有核心优化技术，能够将检索质量提升40%以上，响应时间降低50%！

继续保持，进入模块3：高级架构模式！ 🚀

返回目录 | 上一章 | 模块3

模块2完成 🎉

有任何问题或建议？欢迎提交Issue或PR到教程仓库！