Go字符与符文(Rune)[编辑 | 编辑源代码]

介绍[编辑 | 编辑源代码]

在Go语言中，字符和符文(Rune)是处理文本数据的基本概念。理解它们的区别和用法对于正确处理字符串和国际化文本至关重要。

字符(Character)：在传统编程中通常指单个字母、数字或符号，但在Go中更精确的概念是符文(Rune)。

符文(Rune)：是Go语言中的一种类型，表示一个Unicode码点(Unicode code point)。本质上，rune是int32的别名，用于表示UTF-8编码的Unicode字符。

Unicode与UTF-8背景[编辑 | 编辑源代码]

Go语言使用UTF-8编码处理所有字符串。UTF-8是Unicode的一种变长编码方式：

每个Unicode码点占用1-4个字节
ASCII字符(0-127)只需1个字节
大多数常用字符需要2-3个字节
一些罕见字符需要4个字节

基本用法[编辑 | 编辑源代码]

声明符文[编辑 | 编辑源代码]

package main

import "fmt"

func main() {
    // 使用单引号声明符文
    var r1 rune = 'A'
    var r2 rune = '你'
    var r3 rune = '😊'  // 表情符号也是有效的符文
    
    fmt.Printf("%c %c %c\n", r1, r2, r3)
    fmt.Printf("%U %U %U\n", r1, r2, r3)  // Unicode格式
    fmt.Printf("%d %d %d\n", r1, r2, r3)  // 十进制值
}

输出：

A 你 😊
U+0041 U+4F60 U+1F60A
65 20320 128522

字符串与符文切片[编辑 | 编辑源代码]

字符串本质上是一个只读的字节切片，而符文切片([]rune)则是字符串的Unicode码点表示：

package main

import "fmt"

func main() {
    s := "Hello, 世界!"
    
    // 作为字节切片
    fmt.Println("字节长度:", len(s))          // 输出: 13
    fmt.Println("字节表示:", []byte(s))      // 输出各字节的十进制值
    
    // 转换为符文切片
    runes := []rune(s)
    fmt.Println("符文长度:", len(runes))     // 输出: 9
    fmt.Println("符文表示:", runes)         // 输出各符文的Unicode码点
    
    // 遍历字符串的两种方式
    fmt.Println("\n字节遍历:")
    for i := 0; i < len(s); i++ {
        fmt.Printf("%x ", s[i])  // 输出UTF-8编码的字节
    }
    
    fmt.Println("\n\n符文遍历:")
    for _, r := range s {       // range自动按符文遍历
        fmt.Printf("%c ", r)
    }
}

符文操作[编辑 | 编辑源代码]

符文大小写转换[编辑 | 编辑源代码]

package main

import (
    "fmt"
    "unicode"
)

func main() {
    r := 'ä'
    upper := unicode.ToUpper(r)
    lower := unicode.ToLower(upper)
    title := unicode.ToTitle(r)
    
    fmt.Printf("原始: %c (%U)\n", r, r)
    fmt.Printf("大写: %c\n", upper)
    fmt.Printf("小写: %c\n", lower)
    fmt.Printf("标题: %c\n", title)
}

符文分类检查[编辑 | 编辑源代码]

package main

import (
    "fmt"
    "unicode"
)

func main() {
    runes := []rune{'A', '1', ' ', '你', '😊', '\n'}
    
    for _, r := range runes {
        fmt.Printf("%c:\n", r)
        fmt.Printf("  字母: %t, 数字: %t, 空格: %t, 控制: %t\n",
            unicode.IsLetter(r), unicode.IsNumber(r),
            unicode.IsSpace(r), unicode.IsControl(r))
    }
}

实际应用案例[编辑 | 编辑源代码]

统计字符串中的中文字符[编辑 | 编辑源代码]

package main

import (
    "fmt"
    "unicode"
)

func countChineseChars(s string) int {
    count := 0
    for _, r := range s {
        if unicode.Is(unicode.Han, r) {
            count++
        }
    }
    return count
}

func main() {
    text := "Go语言(又称Golang)是Google开发的一种静态强类型、编译型语言。"
    fmt.Printf("中文字符数: %d\n", countChineseChars(text))
}

字符串反转(考虑Unicode)[编辑 | 编辑源代码]

package main

import "fmt"

func reverseString(s string) string {
    runes := []rune(s)
    for i, j := 0, len(runes)-1; i < j; i, j = i+1, j-1 {
        runes[i], runes[j] = runes[j], runes[i]
    }
    return string(runes)
}

func main() {
    s := "Hello, 世界! 😊"
    fmt.Println("原始:", s)
    fmt.Println("反转:", reverseString(s))
}