read.dta
位于 foreign
包(package)。 说明
将 Stata 版本 5-12 二进制格式的文件读入数据帧。
《冰雪奇缘》:12 以后将不支持 Stata 格式。
用法
read.dta(file, convert.dates = TRUE, convert.factors = TRUE,
missing.type = FALSE,
convert.underscore = FALSE, warn.missing.labels = TRUE)
参数
file |
字符串形式的文件名或 URL。 |
convert.dates |
将 Stata 日期转换为 |
convert.factors |
使用Stata值标签创建因子? (6.0 或更高版本)。 |
missing.type |
对于版本 8 或更高版本,存储有关不同类型缺失数据的信息? |
convert.underscore |
将 Stata 变量名称中的 |
warn.missing.labels |
如果使用值标签指定变量并且这些值标签不存在于文件中,则发出警告。 |
细节
如果文件名看起来是一个 URL(方案‘http:', 'ftp:' 或者 'https:’)URL 首先被下载到临时文件中,然后读取。 (‘https:’仅在某些平台上受支持。)
Stata数据集中的变量成为 DataFrame 的列。缺失值得到正确处理。数据标签、变量标签、时间戳和变量/数据集特征存储为数据帧的属性。
默认情况下,Stata 日期(%d 和 %td 格式)转换为R的Date
类,带有 Stata 值标签的变量将转换为因子。按说,read.dta
除非每个级别都存在标签,否则不会将变量转换为因子。使用convert.factors = NA
来覆盖这个。在任何情况下,值标签和格式信息都作为属性存储在返回的数据帧上。 Stata的日期格式被粗略记录:如果需要使用convert.dates = FALSE
并检查属性以找出如何 post-process 日期。
Stata 8 引入了一个包含 27 个不同缺失数据值的系统。如果missing.type
是TRUE
,则会创建一个单独的列表,其变量名称与加载的数据相同。对于字符串变量,列表值为 NULL
。对于其他变量,如果观测值未丢失,则值为 NA
;如果观测值丢失,则值为 0-26。它作为返回值的 "missing"
属性附加。
Stata 13 的默认文件格式 format-115
与 Stata 5-12 的默认文件格式有很大不同。
值
具有属性的 DataFrame 。这些将包括 "datalabel"
、 "time.stamp"
、 "formats"
、 "types"
、 "val.labels"
、 "var.labels"
和 "version"
,并可能包括 "label.table"
和 "expansion.table"
。可能的版本有5, 6, 7
、-7
(Stata 7SE,'format-111')、8
(Stata 8 和 9,'format-113')、10
(Stata 10 和 11,'format-114) ')。和 12
(Stata 12,“format-115”)。
属性 "val.labels"
中的值标签为每个变量命名一个表,或者是一个空字符串。这些表是命名列表属性 "label.table"
的元素:每个表都是带有名称的整数向量。
例子
write.dta(swiss,swissfile <- tempfile())
read.dta(swissfile)
作者
Thomas Lumley and R-core members: support for value labels by Brian Quistorff.
参考
Stata Users Manual (versions 5 & 6), Programming manual (version 7), or online help (version 8 and later) describe the format of the files. Or directly at https://www.stata.com/help.cgi?dta_114 and https://www.stata.com/help.cgi?dta_113, but note that these have been changed since first published.
也可以看看
包 memisc
(请参阅 Stata.file
的帮助)、包 haven
中的函数 read_dta
和包 readstata13
中提供了不同的方法。
write.dta
, attributes
, Date
, factor
相关用法
- R read.dbf 读取 DBF 文件
- R read.ssd 通过 read.xport 从 SAS 永久数据集中获取数据帧
- R read.mtp 阅读 Minitab 便携式工作表
- R read.octave 读取八度文本数据文件
- R read.epiinfo 读取 Epi 信息数据文件
- R read.xport 读取 SAS XPORT 格式库
- R read.arff 从 ARFF 文件读取数据
- R read.spss 读取 SPSS 数据文件
- R read.systat 从 Systat 文件获取数据帧
- R write.dbf 写入 DBF 文件
- R write.foreign 编写文本文件和代码来读取它们
- R write.dta 以 Stata 二进制格式写入文件
- R S3 读取 S3 二进制或 data.dump 文件
- R lookup.xport 有关 SAS XPORT 格式库的查找信息
- R write.arff 将数据写入 ARFF 文件
- R forcats fct_relevel 手动重新排序因子级别
- R forcats as_factor 将输入转换为因子
- R forcats fct_anon 匿名因子水平
- R forcats fct_rev 因子水平的倒序
- R forcats fct_match 测试因子中是否存在水平
- R forcats fct_relabel 使用函数重新标记因子水平,并根据需要折叠
- R forcats fct_c 连接因子,组合级别
- R forcats fct_collapse 将因子级别折叠为手动定义的组
注:本文由纯净天空筛选整理自R-devel大神的英文原创作品 Read Stata Binary Files。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。