r - 多个(非生物、离散状态)序列的对齐 - r - Alignment of multiple (non-biological, discrete state) sequences 小贝子编程网

我有一些描述一组有序离散事件(或状态)的数据。有 34 种可能的状态，可以按任何顺序发生，也可以重复。每个事件序列可以包含任意数量的事件，并且至关重要的是，有超过 2 个事件序列。我的最终目标是将这些序列聚类到相似的子集中，但我的预感是，除非这些序列对齐，使得等效事件在所有序列中占据相同的位置，否则这没有意义。

我非常熟悉生物序列的多重比对，但我遇到的所有软件(MUSCLE，MAFFT，T-COFFEE，Clustal*等)都需要DNA，RNA或AA序列，而且我的状态比任何这些都多，所以我无法让它们工作。

我已经找到了成对对齐算法的各种实现，例如R中的Needleman-Wunsch，但到目前为止还没有遇到任何多序列比对算法的通用(非生物)实现。

例如，假设我的数据如下所示：

1: ABCDEFG
2: ACDGH
3: BDEFEGI
4: AH
5: DEGHI

我的目标是让它看起来像这样：

1: ABCDEF-G--
2: A-CD---GH-
3: -B-DEFE--I
4: A-------H-
5: ---DE--GHI

其中-符号表示此序列中不存在事件。这是一个简化的例子，实际上我正在寻找一些东西，以与生物序列MSA算法相同的方式惩罚间隙(-)的开放。

我发现唯一可能做到这一点的软件是 Alphamalig (http://alggen.lsi.upc.es/recerca/align/alphamalig/intro-alphamalig.html)，但它很旧，我无法让它在我的机器上运行。理想情况下，我想要一些可以在 R 中实现的东西。

我建议使用MAFFT序列比对。通常，这用于对齐生物序列，但它可以选择使用 --anysymbol 对齐文本。请注意，MAFFT 是一个 bash 脚本，需要一个输入/输出文件。

输入文件 (mafft_anysymbol_input.txt)：

>Seq1
ABCDEFG
>Seq2
ACDGH
>Seq3
BDEFEGI
>Seq4
AH
>Seq5
DEGHI

运行 bash 脚本的 R 代码：

#Be sure that input/output and R files share the same path, otherwise you'll have to specify the path in the mafft script call.
x <- 'mafft --anysymbol mafft_anysymbol_input.txt > mafft_anysymbol_output.txt'
system(x)

输出文件的内容 (mafft_anysymbol_output.txt)：

>Seq1
ABCDEFG--
>Seq2
-ACDGH---
>Seq3
--BDEFEGI
>Seq4
----AH---
>Seq5
---DEGHI-

编辑 - 我现在看到你熟悉生物比对工具。如果要为文本对齐方式创建自定义评分矩阵，请查看 mafft 选项 --text 和 --textmatrix。它需要 ascii 代码输入(额外的数据类型转换)，但您可以选择按分数关联相似的字母(无论您选择如何定义相似字母)。例如，您可以关联大写和小写字母，或者带有/不带重音符号的字母。

假设我们需要匹配LETTERS，一个选项是str_match，然后将NA更改为-，paste

library(stringr)
library(dplyr)
f1 <- Vectorize(function(x) str_match(x, LETTERS))
out1 <- f1(v1)
do.call(paste0, as.data.frame(t(replace_na(out1[!!rowSums(!is.na(out1)),], '-'))))
#[1] "ABCDEFG--" "A-CD--GH-" "-B-DEFG-I" "A------H-" "---DE-GHI"

也可以通过拆分后的match来完成

lst <- strsplit(v1, "")
mx <- match(max(sapply(lst, tail, 1)), LETTERS)
sapply(lst, function(x) paste(replace_na(x[match(LETTERS[seq_len(mx)], 
x)], '-'), collapse=""))

数据

v1 <- c("ABCDEFG", "ACDGH", "BDEFEGI", "AH", "DEGHI")

r - 多个(非生物、离散状态)序列的对齐

数据

相关内容

最新更新

热门标签：