chapter04 基本数据管理
基本数据管理
1、创建新变量
|
|
2、变量重编码
需要使用逻辑运算符:
|
|
(1)将年龄99重编码为缺失值
|
|
(2)创建agecat变量
|
|
3、变量的重命名
(1)交互方式:fix(leadership)
(2)编程方式:
|
|
4、缺失值处理
(1)识别:is.na(y),不可使用逻辑测试yvar==NA,永远为false,R中NA为关键字表示缺失值
(2)重编码为缺失值:见2
(3)分析中排除缺失值:
诸多函数中含有排除缺失值的参数,
|
|
5、日期值
(1)字符型变量转化为数值形式的日期变量,as.Date(x,"input_format")
- %d 数字表示的日期(0~31) 01~31
- %a 缩写的星期名 Mon
- %A 非缩写星期名 Monday
- %m 月份(00~12) 00~12
- %b 缩写的月份 Jan
- %B 非缩写月份 January
- %y 两位数的年份 07
- %Y 四位数的年份 2007
|
|
(2)输出为特定格式的日期
|
|
(3)日期转换为字符型变量strDates <- as.character(dates)
(4)更近一步
|
|
6、类型判断
判 断 | 转 换 |
---|---|
is.numeric() | as.numeric() |
is.character() | as.character() |
is.vector() | as.vector() |
is.matrix() | as.matrix() |
is.data.frame() | as.data.frame() |
is.factor() | as.factor() |
is.logical() | as.logical() |
7、数据排序
|
|
8、数据集合并
|
|
9、数据集取子集
(1)选入(保留)变量
|
|
(2)剔除变量
|
|
(3)选择行
|
|
(4)subset()函数
|
|
(5)随机抽样
sample(抽取的母集合,抽取数量,是否放回抽样)
|
|
10、SQL语句操作数据框
install.packages("sqldf")
|
|