您好、欢迎来到现金彩票网!
当前位置:双彩网 > 向量数据结构 >

使用dplyr进行数据操作(30个实例)

发布时间:2019-06-04 02:50 来源:未知 编辑:admin

  dplyr软件包是R中功能最强大,最受欢迎的软件包之一。该软件包由最受欢迎的R程序员Hadley Wickham编写,他编写了许多有用的R软件包,如ggplot2,tidyr等。本文包括一些示例和如何使用使用dplyr软件包来清理和转换数据。这是一个关于数据操作和数据处理的完整教程。

  dplyr是一个强大的R软件包,用于处理,清理和汇总非结构化数据。简而言之,它使得R中的数据探索和数据操作变得简单快捷。

  软件包“dplyr”包含许多主要使用的数据操作功能,例如应用过滤器,选择特定列,排序数据,添加或删除列以及聚合数据。这个包的另一个最重要的优点是学习和使用dplyr函数非常容易。也很容易回想起这些功能。例如,filter()用于过滤行。

  dplyr函数处理速度比基本R函数快。 这是因为dplyr函数是以计算有效的方式编写的。 它们在语法上也更稳定,并且比向量更好地支持数据帧。

  数十年来人们一直在使用SQL来分析数据。 每个现代数据分析软件如Python,R,SAS等都支持SQL命令。 但SQL从未被设计为执行数据分析。 它专为查询和管理数据而设计。 有许多数据分析操作在SQL失败或使简单的事情困难。 例如,计算多个变量的中位数,将宽格式数据转换为长格式等。而dplyr软件包的设计目的是进行数据分析。

  dplyr函数的名称类似于SQL命令,如用于选择变量的select(),group_by() - 通过对变量进行分组来组合数据,join() - 将两个数据集合在一起。 还包括inner_join()和left_join()。 它也支持SQL常用的子查询。

  在本教程中,我们使用以下数据,其中包含2002年至2015年各州产生的收入。注意:此数据不包含各州的实际收入数据。

  该数据集包含51个观测值(行)和16个变量(列)。 下面显示了数据集前6行的快照。

  sample_n函数从数据框(或表)中随机选择行。 函数的第二个参数告诉R要选择的行数。

  sample_frac函数随机返回N%的行。 在下面的例子中,它随机返回10%的行。

  在此数据集中,没有单个重复行,因此返回的行数与mydata中的行数相同。

  在下面的例子中,我们使用两个变量 - Index,Y2010来确定唯一性。

  假设你被要求只选择几个变量。 下面的代码选择变量“Index”,从“State”到“Y2008”的列。

  在starts_with()之前添加一个负号表示将删除以’Y’开始的变量

  %in%运算符可用于选择多个项目。 在下面的程序中,我们告诉R选择Index列中的’A’和’C’行。

  假设你需要应用’AND’条件。 在这种情况下,我们在“索引”栏中选择’A’和’C’的数据,并在2002年收入超过130万美元。

  grepl函数用于搜索模式匹配。 在下面的代码中,我们正在查找state列包含“Ar”的记录。

  在下面的例子中,我们计算了记录的数量,变量Y2005和Y2006的平均值和中位数。summarise_at函数允许我们通过名称选择多个变量。

  我们也可以在汇总功能中使用自定义函数。 在这种情况下,我们计算记录数,缺失值的数量,变量Y2011和Y2012的平均数和中位数。 点(.)表示函数的第二个参数中指定的每个变量。

  arrange()函数的默认排序顺序是递增的。 在这个例子中,我们通过多个变量来排序数据。

  我们通过变量Index计算变量Y2011和Y2012的变量的计数和均值。

  我们正在通过变量Index计算变量Y2015的第三个最大值。 以下代码首先仅选择两个变量Index和Y2015。 然后它用’A’,’C’和’I’过滤变量索引,然后对变量进行分组,然后按降序对变量Y2015进行排序。 最后,它选择第三行。

  像SQL一样,dplyr使用窗口函数来将数据分组。 它返回值的向量。 我们可以使用min_rank()函数来计算上例中的rank,

  在这种情况下,我们通过变量Index来计算变量Y2014和Y2015的均值。 然后通过计算的变量Y2015的均值对结果进行排序。

http://bluecaleel.com/xiangliangshujujiegou/80.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有