我想知道是否有办法从单蛋白ID中获取蛋白质序列。我确实检查了一些在线软件,但它们允许一次获取一个序列,但我有 5536 个 vlues。生物蟒蛇中是否有任何软件包可以做到这一点?
uniprot 的所有序列都可以从 "http://www.uniprot.org/uniprot/" + UniprotID +.fasta 访问。您可以使用以下方法获取任何序列
import requests as r
from Bio import SeqIO
from io import StringIO
cID='P04637'
baseUrl="http://www.uniprot.org/uniprot/"
currentUrl=baseUrl+cID+".fasta"
response = r.post(currentUrl)
cData=''.join(response.text)
Seq=StringIO(cData)
pSeq=list(SeqIO.parse(Seq,'fasta'))
cID可以是列表或单个条目,如果您通过错误列表循环,只需在下载之间添加延迟,尽量不要使服务器饱和。希望对你有帮助
在 Python 中从 UniProt 获取许多序列的最快、最简单的方法之一是使用 pyfaidx 包。这是一个简单但经过良好测试的工具,建立在SAMtools的知名算法之上。它也可以用于学术出版物。
只需从 https://www.uniprot.org/downloads 下载包含所有序列(或仅选定子集(的fasta文件,如果需要,请解压缩文件,安装pyfadix(例如使用pip install pyfaidx --user
或bioconda(并使用Fasta
构造函数加载序列:
from pyfaidx import Fasta
sequences = Fasta('uniprot_sprot.fasta')
第一次加载可能需要一段时间,但之后所有操作都会非常快。现在sequences
是一个类似字典的对象,因此您可以使用以下命令访问所需的条目:
p53 = sequences['sp|P04637|P53_HUMAN']
print(p53)
其中显示了序列:
MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD
然而,这个序列对象不仅仅是一个字符串 - 它提供了许多方便的实用程序函数和属性(long_name
,unpadded_len
,带有:start
,end
,complement()
和reverse()
等的切片 - 请参阅文档了解更多信息(。
如果要通过 UniprotID 而不是 fasta 文件中的完整标识符访问序列,请使用:
def extract_id(header):
return header.split('|')[1]
sequences = Fasta('uniprot_sprot.fasta', key_function=extract_id)
print(sequences['P04637'])
附言。只有一个警告 - 注意基于 1 的索引。
您也可以从 NCBI Entrez 服务器从 SwissProt/UniProt 数据库中获取序列。从NCBI Entrez获取文件并读取序列的一种方法是Python包biotite
:
>>> import biotite.database.entrez as entrez
>>> import biotite.sequence as seq
>>> import biotite.sequence.io.fasta as fasta
>>> # Find UIDs for SwissProt/UniProt entries
>>> query = entrez.SimpleQuery("Avidin", "Protein Name")
... & entrez.SimpleQuery("Gallus gallus", "Organism")
... & entrez.SimpleQuery("srcdb_swiss-prot", "Properties")
>>> print(query)
((Avidin[Protein Name]) AND ("Gallus gallus"[Organism])) AND (srcdb_swiss-prot[Properties])
>>> uids = entrez.search(query, db_name="protein")
>>> print(uids)
['158515411']
>>> # Download FASTA file containing the sequence(s)
>>> # from NCBI Entrez database
>>> file_name = entrez.fetch_single_file(
... uids, "avidin.fa", db_name="protein", ret_type="fasta"
... )
>>> # Read file
>>> fasta_file = fasta.FastaFile()
>>> fasta_file.read(file_name)
>>> print(fasta_file)
>sp|P02701.3|AVID_CHICK RecName: Full=Avidin; Flags: Precursor
MVHATSPLLLLLLLSLALVAPGLSARKCSLTGKWTNDLGSNMTIGAVNSRGEFTGTYITAVTATSNEIKE
SPLHGTQNTINKRTQPTFGFTVNWKFSESTTVFTGQCFIDRNGKEVLKTMWLLRSSVNDIGDDWKATRVG
INIFTRLRTQKE
>>> # Convert first sequence in file to 'ProteinSequence' object
>>> seq = fasta.get_sequence(fasta_file)
>>> print(seq)
MVHATSPLLLLLLLSLALVAPGLSARKCSLTGKWTNDLGSNMTIGAVNSRGEFTGTYITAVTATSNEIKESPLHGTQNTINKRTQPTFGFTVNWKFSESTTVFTGQCFIDRNGKEVLKTMWLLRSSVNDIGDDWKATRVGINIFTRLRTQKE
您可以遍历值列表,每次从库中调用所需的方法。
尝试以下代码获取查询参数中提供的所有蛋白质序列
import urllib,urllib2
url = 'https://www.uniprot.org/uploadlists/'
params = {
'from':'ACC+ID',
'to':'ACC',
'format':'txt',
'query':'P13368 P20806 Q9UM73 P97793 Q17192'
}
data = urllib.urlencode(params)
request = urllib2.Request(url, data)
contact = "" # contact email address debug
request.add_header('User-Agent', 'Python %s' % contact)
response = urllib2.urlopen(request)
page = response.read()
print page