R语言 数据分析


数据分析可以分为三个部分:

  • 提取:首先,我们需要从许多来源收集数据并组合它们。
  • 转化:此步骤涉及数据操作。一旦我们整合了所有数据源,我们就可以开始清理数据了。
  • 可视化:最后一步是可视化我们的数据以检查不规则性。

数据科学家面临的最重大挑战之一是数据操作。数据永远不会以所需的格式呈现给我们。

数据科学家需要花费至少一半的时间来清理和操作数据。

这是工作中最重要的任务之一。如果数据操作过程不完整、不精确和不严格,模型将不能正确执行。


数据分析有用的包

R有一个叫dplyr的库来帮助进行数据转换。

dplyr库基本上是围绕操作数据的四个函数和清理数据的五个动词创建的。

之后,我们可以使用ggplot库来分析和可视化数据。

数据分析的三个部分以及有用的R语言包
数据分析的三个部分以及有用的R语言包公众号

关注公众号,获取一手资讯

评论/回复

邮箱地址不会被公开。 必填项已用*标注