如何处理R中面板数据中观测值内部和观测值之间的异常值



我有一个数据集,显示了大约100000家公司20年来的收入。该数据还有许多其他变量,但在下面,我将编写该数据集简化样本的可复制版本。

my_data <- data.frame(Company = c("A","B","C","D"), CITY = c("Paris", "Paris", "Quimper", "Nice"), year_creation = c("2010", "2009", "2008", "2009"), revenue_2008 = c(NA, NA, 10, NA), 
revenue_2009 = c(NA,10, 20, 15000), revenue_2010 = c(02, 10, 2500, 20000), revenue_2011 = c(14, 16, 10, 30000),
size = c(2, 3, 5, 1))

正如你所看到的,我正在处理一个不平衡的面板数据,它在观察范围内(例如,C公司在2010年的突然收入(和观察范围之间(例如,D公司的收入比其他公司高得多,即使考虑到我选择了本应相似的公司(都有异常值。。。

所以,我的问题是,处理R中这两种类型的异常值的最佳方法是什么?我认为,对于内部异常值,宽格式的数据应该更好,对吧?但是,哪种代码可以逐行检查异常值(即逐个观察(?对于第二种类型的异常值呢?将数据转换为长格式更好吗?如果是,我如何测试长格式中的异常值?

非常感谢你的帮助!最佳,

如何检测主要是统计问题。你可以使用的一种方法是Hampel过滤器(它的优点和缺点不在这个答案的范围内(。

它将median ± 3*(median absolute deviation)之外的值视为异常值。

让我们想象一下,我们将使用这个标准。您可以通过data.tableby参数在测试内部和测试之间执行。

转换长格式的数据更好吗?

这将使分析更容易,因此我通过melt进行了转换

my_data <- data.frame(Company = c("A","B","C","D"), CITY = c("Paris", "Paris", "Quimper", "Nice"), year_creation = c("2010", "2009", "2008", "2009"), revenue_2008 = c(NA, NA, 10, NA), 
revenue_2009 = c(NA,10, 20, 15000), revenue_2010 = c(02, 10, 2500, 20000), revenue_2011 = c(14, 16, 10, 30000),
size = c(2, 3, 5, 1))
library(data.table)
my_data <- as.data.table(my_data)
my_data <- melt(my_data, id.vars = c("Company", "CITY", "year_creation", "size"))
hampel_filter <- function(x){
x_med <- median(x, na.rm = TRUE)
x_mad <- mad(x, na.rm = TRUE)
(x > x_med + 3*x_mad | x < x_med - 3*x_mad)
}
my_data[, between_out := hampel_filter(value), by = variable]
my_data[, within_out := hampel_filter(value), by = Company]
> my_data
Company    CITY year_creation size     variable value between_out within_out
1:       A   Paris          2010    2 revenue_2008    NA          NA         NA
2:       B   Paris          2009    3 revenue_2008    NA          NA         NA
3:       C Quimper          2008    5 revenue_2008    10       FALSE      FALSE
4:       D    Nice          2009    1 revenue_2008    NA          NA         NA
5:       A   Paris          2010    2 revenue_2009    NA          NA         NA
6:       B   Paris          2009    3 revenue_2009    10       FALSE      FALSE
7:       C Quimper          2008    5 revenue_2009    20       FALSE      FALSE
8:       D    Nice          2009    1 revenue_2009 15000        TRUE      FALSE
9:       A   Paris          2010    2 revenue_2010     2       FALSE      FALSE
10:       B   Paris          2009    3 revenue_2010    10       FALSE      FALSE
11:       C Quimper          2008    5 revenue_2010  2500       FALSE       TRUE
12:       D    Nice          2009    1 revenue_2010 20000        TRUE      FALSE
13:       A   Paris          2010    2 revenue_2011    14       FALSE      FALSE
14:       B   Paris          2009    3 revenue_2011    16       FALSE       TRUE
15:       C Quimper          2008    5 revenue_2011    10       FALSE      FALSE
16:       D    Nice          2009    1 revenue_2011 30000        TRUE      FALSE

您还可以使用DescTools中的Winsorize()同时检测和处理异常值。查看详细信息:https://en.wikipedia.org/wiki/Winsorizing

相关内容

  • 没有找到相关文章

最新更新