R函数 tapply()

tapply()为向量中的每个因子变量计算一个度量值(均值、中值、最小值、最大值等)或一个函数。这是一个非常有用的函数它可以让你创建一个向量的子集然后对每个子集应用一些函数。


语法

参数 描述
X 一个对象,通常是向量
INDEX 一个包含因子的列表
FUN 作用于x中每个元素的函数

数据科学家或研究人员的部分工作是计算变量的摘要。例如,根据特征测量平均数据或组数据。大多数数据按ID、城市、国家等分组。总结小组揭示了更有趣的模式。

为了理解它是如何工作的,让我们使用iris数据集。这个数据集在机器学习领域非常有名。这个数据集的目的是预测三种花的种类:萼片,花斑,维珍。数据集收集每个物种的长度和宽度的信息。

作为前提工作,我们可以计算每个物种长度的中位数。tapply()是执行此计算的一种快速方法:


data(iris)
tapply(iris$Sepal.Width, iris$Species, median)
# 结果
     setosa versicolor  virginica 
        3.4        2.8        3.0





公众号

关注公众号,获取一手资讯

“ R函数 tapply() ” comments 0

评论/回复

电子邮件地址不会被公开。 必填项已用*标注