R Language
外观
R语言是一种开源的编程语言和软件环境,主要用于统计分析、数据可视化和数据科学。它由罗斯·伊哈卡和罗伯特·杰特曼于1993年创建,现已成为统计计算领域的重要工具。
历史与发展[编辑 | 编辑源代码]
R语言起源于S语言,由贝尔实验室开发。1991年,新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开始开发R语言,作为S语言的另一种实现。1993年,第一个公开版本发布。1995年,马丁·马赫勒加入了开发团队,并引入了GNU通用公共许可证。
特点[编辑 | 编辑源代码]
- 开源免费:R语言遵循GNU通用公共许可证,用户可以自由使用、修改和分发
- 强大的统计功能:内置大量统计函数和算法
- 丰富的可视化能力:通过ggplot2等包提供高质量的数据可视化
- 活跃的社区:拥有庞大的用户社区和丰富的扩展包
- 跨平台:支持Windows、macOS和Linux等操作系统
基本语法[编辑 | 编辑源代码]
变量赋值[编辑 | 编辑源代码]
R语言使用箭头运算符`<-`进行变量赋值:
x <- 10
y <- "Hello, World!"
数据结构[编辑 | 编辑源代码]
R语言支持多种数据结构:
- 向量(Vector):相同类型元素的一维数组
- 矩阵(Matrix):二维数组
- 数组(Array):多维数组
- 数据框(Data Frame):类似表格的结构
- 列表(List):可以包含不同类型元素的集合
示例:
# 创建向量
v <- c(1, 2, 3, 4, 5)
# 创建矩阵
m <- matrix(1:9, nrow = 3)
# 创建数据框
df <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(25, 30, 35),
stringsAsFactors = FALSE
)
常用包[编辑 | 编辑源代码]
R语言拥有丰富的扩展包生态系统,以下是一些常用包:
应用案例[编辑 | 编辑源代码]
数据分析[编辑 | 编辑源代码]
R语言广泛应用于数据分析领域。以下是一个简单的数据分析示例:
# 加载数据
data(mtcars)
# 查看数据结构
str(mtcars)
# 计算基本统计量
summary(mtcars)
# 绘制散点图
plot(mtcars$wt, mtcars$mpg,
xlab = "Weight", ylab = "Miles per Gallon",
main = "MPG vs Weight")
机器学习[编辑 | 编辑源代码]
R语言也可以用于机器学习模型的构建:
# 加载caret包
library(caret)
# 划分训练集和测试集
set.seed(123)
trainIndex <- createDataPartition(iris$Species, p = 0.8, list = FALSE)
train <- iris[trainIndex, ]
test <- iris[-trainIndex, ]
# 训练模型
model <- train(Species ~ ., data = train, method = "rf")
# 预测
predictions <- predict(model, newdata = test)
# 评估模型
confusionMatrix(predictions, test$Species)
与其他语言的比较[编辑 | 编辑源代码]
特性 | R语言 | Python | SAS | SPSS |
---|---|---|---|---|
开源 | 是 | 是 | 否 | 否 |
学习曲线 | 中等 | 中等 | 平缓 | 平缓 |
数据可视化 | 优秀 | 优秀 | 良好 | 良好 |
大数据处理 | 需要额外包 | 优秀 | 优秀 | 有限 |
社区支持 | 活跃 | 非常活跃 | 商业支持 | 商业支持 |