编辑“︁C 语言国际化字符串”︁

{{DISPLAYTITLE:C语言国际化字符串}}

'''C语言国际化字符串'''是指通过特定编码和技术处理，使字符串能够支持多语言文本（如中文、阿拉伯语、emoji等）的表示与操作。由于C语言原生字符串（基于ASCII或窄字符）无法直接处理非拉丁字符集，国际化通常依赖宽字符（`wchar_t`）、UTF-8编码或第三方库（如ICU）实现。

== 基本概念 ==
=== 字符编码基础 ===
C语言传统字符串使用`char`类型和ASCII编码，仅支持128个字符。国际化需扩展字符集：
* '''UTF-8'''：变长编码（1-4字节），兼容ASCII，是Web和Linux系统的首选。
* '''UTF-16/UTF-32'''：定长编码，适合内存操作（如Windows API）。
* '''宽字符（`wchar_t`）'''：编译器相关（Windows为UTF-16，Linux为UTF-32）。

数学表示：UTF-8编码规则可表示为：
<math>
\text{Code Point} \rightarrow \begin{cases}
1\text{字节} & \text{if } U+0000 \leq \text{Code Point} \leq U+007F \\
2\text{字节} & \text{if } U+0080 \leq \text{Code Point} \leq U+07FF \\
\vdots & \vdots
\end{cases}
</math>

=== 关键数据类型 ===
{| class="wikitable"
|+ C语言国际化字符串类型对比
! 类型 !! 头文件 !! 说明
|-
| `char[]` | `<string.h>` | 传统ASCII/UTF-8字符串
|-
| `wchar_t[]` | `<wchar.h>` | 宽字符字符串
|-
| `char16_t[]`/`char32_t[]` | `<uchar.h>` | C11引入的定宽Unicode类型
|}

== 实现方法 ==
=== 使用宽字符（wchar_t） ===
{{Note|宽字符在跨平台时需谨慎，`wchar_t`大小可能不同。}}

<syntaxhighlight lang="c">
#include <stdio.h>
#include <wchar.h>
#include <locale.h>

int main() {
    setlocale(LC_ALL, ""); // 设置本地化环境
    wchar_t wstr[] = L"你好，世界！"; // L前缀表示宽字符字面量
    wprintf(L"%ls\n", wstr); // 使用%ls格式化宽字符串
    return 0;
}
</syntaxhighlight>

'''输出'''：
<pre>
你好，世界！
</pre>

=== UTF-8处理 ===
UTF-8可与传统`char`数组兼容，但需注意多字节操作：

<syntaxhighlight lang="c">
#include <stdio.h>
#include <string.h>

int main() {
    char utf8_str[] = u8"こんにちは"; // C11的u8前缀
    printf("Length in bytes: %zu\n", strlen(utf8_str)); // 注意：返回字节数而非字符数
    return 0;
}
</syntaxhighlight>

'''输出'''：
<pre>
Length in bytes: 15
</pre>

=== 使用ICU库（高级） ===
[第三方库ICU]提供完整的国际化支持，示例：

<syntaxhighlight lang="c">
#include <unicode/ustdio.h>

int main() {
    UChar32 ch = U'😊'; // Unicode代码点
    u_printf("%lc\n", ch);
    return 0;
}
</syntaxhighlight>

== 实际案例 ==
=== 多语言日志系统 ===
需要支持中英文日志输出的系统：

<mermaid>
graph TD
    A[用户选择语言] --> B{语言类型?}
    B -->|中文| C[加载UTF-8中文字符串]
    B -->|English| D[加载ASCII字符串]
    C & D --> E[统一UTF-8处理]
</mermaid>

=== 文件名处理 ===
Windows系统需转换UTF-8与UTF-16：

<syntaxhighlight lang="c">
#include <windows.h>
#include <stdio.h>

void print_file(const char* utf8_name) {
    WCHAR wide_name[256];
    MultiByteToWideChar(CP_UTF8, 0, utf8_name, -1, wide_name, 256);
    HANDLE file = CreateFileW(wide_name, GENERIC_READ, 0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
    // 后续文件操作...
}
</syntaxhighlight>

== 常见问题 ==
{| class="wikitable"
|+ 问题与解决方案
! 问题 !! 原因 !! 解决
|-
| 乱码 | 编码不匹配 | 统一使用UTF-8
|-
| `wprintf`无输出 | 未设置locale | 调用`setlocale(LC_ALL, "")`
|-
| 跨平台差异 | `wchar_t`实现不同 | 改用`char16_t`/`char32_t`
|}

== 最佳实践 ==
# 优先使用'''UTF-8'''编码（兼容性强）
# 避免直接操作多字节字符串（使用库函数如`mblen()`）
# 在Windows API中明确区分ANSI（`char*`）和Wide（`wchar_t*`）版本

{{Warning|直接使用`strlen()`计算UTF-8字符数会得到错误结果！需专用函数如`utf8len()`。}}

== 扩展阅读 ==
* Unicode标准：[https://unicode.org]
* ICU库文档：[https://icu.unicode.org]

[[Category:编程语言]]
[[Category:C]]
[[Category:C 语言字符串]]