r-有效地分割数据和拟合分布

对于一个项目，我收到了大量机密的患者级数据，我需要将其适应分布，以便在模拟模型中使用。我正在使用R.

问题是，我需要拟合分布，以获得至少288个单独分布(至少48个子集，6个变量(的形状/速率数据。变量之间的过程会略有不同(取决于变量的分布方式(，但我希望能够为每个变量设置一个函数或循环，并为我定义的每个子集生成形状和速率数据。

举个例子：我需要找到患者子集的住院时间数据。共有48个患者亚群。我目前这样做的方式是手动过滤数据，然后将其提取为向量，然后使用fitdist将数据拟合为向量。

即对于伽马分布的变量：

vector1 <- los_data %>%
filter(group == 1, setting == 1, diagnosis == 1)
fitdist(vector1, "gamma")

我对数据科学和数据处理很陌生，我知道一定有比手工更简单的方法！我假设与矩阵有关，但我完全不知道如何最好地进行。

一种常见的做法是使用split分割数据，然后在该组上应用感兴趣的函数。假设这里有四列，组、设置、诊断和停留时间。前三列有两个级别。

df <- data.frame(
group = sample(1:2, 64, TRUE),
setting  = sample(1:2, 64, TRUE),
diagnosis  = sample(1:2, 64, TRUE), 
stay.length = sample(1:5, 64, TRUE)
)
> head(df)
group setting diagnosis var
1     1       1         1   4
2     1       1         2   5
3     1       1         2   4
4     2       1         2   3
5     1       2         2   3
6     1       1         2   5

执行split，您将得到一个拆分的List:

dfl <- split(df$stay.length, list(df$group, df$setting, df$diagnosis))
> head(dfl)
$`1.1.1`
[1] 5 3 4 1 4 5 4 2 1
$`2.1.1`
[1] 5 4 5 4 3 1 5 3 1
$`1.2.1`
[1] 4 2 5 4 5 3 5 3
$`2.2.1`
[1] 2 1 4 3 5 4 4
$`1.1.2`
[1] 5 4 4 4 3 2 4 4 5 1 5 5
$`2.1.2`
[1] 5 4 4 5 3 2 4 5 1 2

然后，我们可以使用lapply对列表中的每个组执行任何功能。例如，我们可以应用mean

dflm <- lapply(dfl, mean)
> dflm
$`1.1.1`
[1] 3.222222
.
.
.
.
$`2.2.2`
[1] 2.8

在您的情况下，您可以应用fitdist或任何其他函数。

dfl.fitdist <- lapply(dfl, function(x) fitdist(x, "gamma"))
> dfl
$`1.1.1`
Fitting of the distribution ' gamma ' by maximum likelihood 
Parameters:
estimate Std. Error
shape  3.38170  2.2831073
rate   1.04056  0.7573495
.
.
.

$`2.2.2`
Fitting of the distribution ' gamma ' by maximum likelihood 
Parameters:
estimate Std. Error
shape 4.868843  2.5184018
rate  1.549188  0.8441106

好吧，你的例子在这里不太可复制，但我认为你想要的答案如下：

result <- los_data %>%
group_by(group, setting, diagnosis) %>%
do({
fit <- fitdist(.$my_column, "gamma")
data_frame(group=.$group[1], setting=.$setting[1], diagnosis=.$diagnosis[1], fit = list(fit))
}) %>%
ungroup()

这将为您提供所有拟合的数据框架，包括组、设置、诊断列，以及包含每个拟合的列表列。由于它是一个列表列，您将需要使用双括号来提取单独的拟合。示例：

# Get the fit in the first row
result$fit[[1]]

相关内容

最新更新

热门标签：