使用 rpy2 将 R 包安装/导入到 python 中,导入/忽略有问题的数据包



这是我正在尝试做的:

  1. 我想使用离散柯尔莫哥罗夫-斯米罗夫拟合优度检验,该检验目前仅在 R 中可用。此外,R 也有正常的 KS 测试 - 我不想使用此测试。
  2. 我是 python 用户,所以需要将离散 KS 测试移植到 python,为此我正在尝试使用rpy2.

我面临的问题,正如这里更详细的统计细节所详述的那样,rpy2似乎用标准版本替换了导入的离散测试。我知道这一点,因为它在测试时不会产生正确的答案。

迄今为止的尝试次数

import rpy2.robjects.packages as r
utils = r.importr("utils")
package_name = "dgof"
utils.install_packages(package_name)

结果在

/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: 
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: 
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: The downloaded source packages are in
‘/tmp/RtmpTBas6a/downloaded_packages’
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: Updating HTML index of packages in '.Library'
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: Making 'packages.html' ...
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning:  done
warnings.warn(x, RRuntimeWarning)
rpy2.rinterface.NULL

好的,到目前为止一切顺利,应该已经安装了它。所以让我们导入它:

# Import Discrete goodness-of-fit package which includes KS and CVM tests.
dgof = rpackages.importr('dgof')

它真的进口了吗?让我们看看:

env = r.wherefrom('dgof')

返回

/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: Error: object 'dgof' not found
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: In addition: 
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: Warning message:
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: In (function (x, y, ..., alternative = c("two.sided", "less", "greater"),  :
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: 
warnings.warn(x, RRuntimeWarning)
/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning:  cannot compute correct p-values with ties
warnings.warn(x, RRuntimeWarning)
warnings.warn(x, RRuntimeWarning)

好吧,这很奇怪,但也许它无论如何都可以工作,让我们看看(这与 R 端使用的示例完全相同,应该返回D = 0.66667, p-value = 0.07407):

import rpy2.robjects.numpy2ri
rpy2.robjects.numpy2ri.activate()
import numpy as np
a = np.array([1,1,1])
b = np.arange(1,3)
dgof.ks_test(a,b)

返回

D = 0.5, p-value = 0.925086

如果这对你没有任何意义,那很好,你需要知道的是它是错误的。这似乎是错误的,因为不知何故,标准ks_test被加载代替离散(我们在上面列表中的第 2 项中讨论的那个)。让我们通过加载标准库和 KS 测试来验证:

from rpy2.robjects.packages import importr
base     = importr('base')
stats    = importr('stats')
import rpy2.robjects.numpy2ri
rpy2.robjects.numpy2ri.activate()
import numpy as np
a = np.array([1,1,1])
b = np.arange(1,3)
stats.ks_test(a,b)

返回

D = 0.5, p-value = 0.925086

所以这很酷 - 有谁知道为什么会这样?

注意:这个问题与我的另一个问题有关,但在python方面有很多细节。

它真的导入了吗?让我们看看:

env = r.wherefrom('dgof')

返回

/home/usr/anaconda3/lib/python3.6/site-packages/rpy2/rinterface/__init__.py:146: RRuntimeWarning: Error: object 'dgof' not found

RRuntimeWarning来自R本身,是人们所期望的。没有对象dgof因为 R 包命名空间不是对象。

你想要的很可能wherefrom('ks.test')(请参阅 https://rpy2.github.io/doc/v2.9.x/html/robjects_rpackages.html#finding-where-an-r-symbol-is-coming-from)。

这里之间可能发生很多事情,这取决于包'dgof'在做什么(如果你来自Python,R可以让包开发人员做一些非常奇怪的事情)。

您是否尝试过依赖 R 的调度和函数重载机制?加载 R 包dgof后,调用ks.test而不指定命名空间。

dgof = rpackages.importr('dgof')
import rpy2.robjects
# "generic" function ks.test
ks_test = rpy2.robjects.r('ks.test')
# Use it
ks_test(a, b)

最新更新