编辑“︁C++ 性能优化”︁

= C++性能优化 =

性能优化是C++开发中的关键环节，它通过改进代码执行效率、减少资源消耗来提升程序运行速度。本指南将介绍C++性能优化的核心原则、工具和实用技巧。

== 核心优化原则 ==

=== 1. 测量优先 ===
优化前必须使用性能分析工具（如gprof、VTune、perf）定位瓶颈。著名的"'''阿姆达尔定律'''"表明：
<math>
S = \frac{1}{(1 - P) + \frac{P}{N}}
</math>
其中：
* S：加速比
* P：可优化部分比例
* N：优化后的性能提升倍数

=== 2. 内存访问模式 ===
现代CPU的缓存体系对性能影响极大。示例展示行优先 vs 列优先访问的差异：

<syntaxhighlight lang="cpp">
// 行优先访问（高效）
for(int i=0; i<1024; ++i)
    for(int j=0; j<1024; ++j)
        matrix[i][j] = i+j;

// 列优先访问（低效）
for(int j=0; j<1024; ++j)
    for(int i=0; i<1024; ++i)
        matrix[i][j] = i+j;
</syntaxhighlight>

<mermaid>
graph LR
    A[CPU] -->|快速访问| B[L1缓存]
    B -->|较慢| C[L2缓存]
    C -->|更慢| D[L3缓存]
    D -->|最慢| E[主内存]
</mermaid>

== 编译器优化技术 ==

=== 1. 内联函数 ===
使用<code>inline</code>关键字或编译器自动内联：

<syntaxhighlight lang="cpp">
inline int square(int x) {
    return x * x;  // 小函数适合内联
}
</syntaxhighlight>

=== 2. 循环优化 ===
编译器可自动进行的优化：
* 循环展开（Loop unrolling）
* 循环不变代码外提（LICM）
* 自动向量化

示例手动优化：
<syntaxhighlight lang="cpp">
// 优化前
for(int i=0; i<n; ++i) {
    sum += data[i];
}

// 优化后（展开4次）
int i=0;
for(; i+3<n; i+=4) {
    sum += data[i] + data[i+1] + data[i+2] + data[i+3];
}
for(; i<n; ++i) sum += data[i];
</syntaxhighlight>

== 数据结构优化 ==

=== 1. 热点数据结构 ===
{| class="wikitable"
|+ 数据结构性能比较
! 操作 \ 结构 || std::vector || std::list || std::unordered_map
|-
| 随机访问 || O(1) || O(n) || O(1)
|-
| 中间插入 || O(n) || O(1) || N/A
|-
| 缓存友好度 || 高 || 低 || 中
|}

=== 2. 内存池技术 ===
自定义分配器示例：
<syntaxhighlight lang="cpp">
template<typename T>
class MemoryPool {
    std::vector<T*> blocks;
    T* freeList = nullptr;
public:
    T* allocate() {
        if(!freeList) addBlock();
        T* obj = freeList;
        freeList = *(T**)freeList;  // 指针转换技巧
        return obj;
    }
    // ... 其他方法实现
};
</syntaxhighlight>

== 并发优化技术 ==

=== 1. 无锁编程 ===
CAS（Compare-And-Swap）示例：
<syntaxhighlight lang="cpp">
std::atomic<int> counter(0);

void increment() {
    int old = counter.load();
    while(!counter.compare_exchange_weak(old, old+1)) {
        // 失败时自动更新old值
    }
}
</syntaxhighlight>

=== 2. 伪共享解决 ===
<mermaid>
graph TD
    A[CPU0] -->|频繁写入| B[缓存行X]
    C[CPU1] -->|频繁写入| B[缓存行X]
    D[性能下降] --> B
</mermaid>

解决方案——缓存行对齐：
<syntaxhighlight lang="cpp">
struct alignas(64) Counter { // 64字节对齐
    std::atomic<int> value;
};
</syntaxhighlight>

== 实际案例研究 ==

'''案例：图像处理管道优化'''
1. 初始版本：逐像素处理，耗时120ms/帧
2. 优化步骤：
   * 使用SIMD指令（AVX2）
   * 多线程分块处理
   * 内存访问模式优化
3. 结果：提升至18ms/帧，6.7倍加速

== 性能分析工具 ==
* '''Linux'''：perf, gprof, Valgrind
* '''Windows'''：VTune, Windows Performance Analyzer
* '''跨平台'''：Google Benchmark, Catch2（性能测试）

== 高级技巧 ==
* '''分支预测优化'''：<code>[[likely]]</code>/<code>[[unlikely]]</code>属性
* '''SIMD编程'''：使用intrinsic或自动向量化
* '''编译器指令'''：<code>#pragma GCC unroll</code>等

== 总结 ==
性能优化是持续过程，需结合：
1. 准确测量
2. 算法改进
3. 硬件特性利用
4. 编译器能力

记住Knuth的名言："'''过早优化是万恶之源'''"，应在正确的位置进行优化。

[[Category:编程语言]]
[[Category:C++]]
[[Category:C++ 项目与工具]]