Python-将地址的长列表转换为字符串列表和列表交集

我有两个很长的文本文件(数千个电子邮件地址，每行一个(，我正在寻找一种方法来比较这两个文件，并将输出与第一个文件和第二个文件中包含的地址进行比较，但不在两者中(类似于集合论中的AUB/(a⋂B((。如果我可以使用包含字符串的列表作为输入，这将非常容易，就像这个

input1=['address1','address2',...,'addressn']

但由于我的文本文件很长，而且在不同的行上，我应该手动将每个地址放在"中。因此，我尝试使用一个字符串作为输入，所有地址用空格分隔，然后将其转换为字符串列表。这就是我提出的：

import numpy as np
from StringIO import StringIO
def conv(data):
    array1=np.genfromtxt(StringIO(data),dtype="|S50")
    lista1=[]
    for el in array1:
        lista1.append(el)
    return lista1
input1='address1 address2 ... addressn'

这就是我调用函数时得到的结果

>conv(input1)
>['address1', 'address2', 'addressn']

它可以工作，但我有一个问题：输入需要水平，所以我不能从文本文件中复制地址并将它们粘贴到字符串中，因为我会得到类似的东西

input1="Davide
...:Michele
...:Giorgio
...:Paolo"
File "<ipython-input-4-6d70053fb94e>", line 1
  input1="Davide
             ^
SyntaxError: EOL while scanning string literal

我该如何处理这个问题？任何改进代码的建议都将非常值得赞赏。我对StringIO模块几乎一无所知，今天我第一次遇到它，我相信有可能编写一个比我更高效的程序。顺便说一句，这就是整个程序：

def scan(data1,data2): #Strings
    array1=np.genfromtxt(StringIO(data1),dtype="|S50")
    array2=np.genfromtxt(StringIO(data2),dtype="|S50")
    lista1=[]
    lista2=[]
    for el in array1:
        lista1.append(el)
    for el in array2:
        lista2.append(el) #lista1 and lista2 are lists containing strings
    num1,num2=len(lista1),len(lista2)
    shared=[]
    for el in lista1:
        if el in lista2:
            shared.append(el) #shared is the intersection of lista1 and lista2
    if len(shared)==0:
        print 'No shared elements'
        return lista1+lista2
    else:
        for el in shared:
            n1=lista1.count(el)
            for i in range(n1):
                lista1.remove(el) #Removes from lista1 the elements shared with lista2
            n2=lista2.count(el)   #as many times as they appear
            for j in range(n2):
                lista2.remove(el) #Removes from lista2 the elements shared with lista1
    result=lista1+lista2          #as many times as they appear
    print 'Addresses list 1:',num1
    print 'Addresses list 2:',num2
    print 'Useful Addresses:',len(list(set(result)))
    return (list(set(result)))

这是它如何工作的一个例子：

data1="Davide John Kate Mary Susan"
data2="John Alice Clara Kate John Alex"
scan(data1,data2)
>Addresses list 1: 5
>Addresses list 2: 6
>Useful Addresses: 6
>['Alex', 'Susan', 'Clara', 'Alice', 'Mary', 'Davide']

感谢您的帮助：(

在跨越多行的字符串周围使用三引号：

input1="""Davide
...:Michele
...:Giorgio
...:Paolo"""

然后，它们将由返回("n"(分隔，因此可以使用inpu1.split('n')将其转换为列表。

使用集合对象，您的操作变得非常简单。为了得到s1中不在s2中的元素，我们可以简单地做s1 - s2。并集就是|，交集就是&，所以我们都有。

s1 = set(input1.split('n'))
s2 = set(input2.split('n'))
adresses_in_only_one_file = (s1 | s2) - (s1 & s2)

扩展@irh的答案，然后可以使用sets获得两个集合之间的对称差：(list1和list2中的元素，但不在两者中(

list1 = ['address1', 'address2', 'address3']
list1 = ['address5', 'address4', 'address3']
result = list(set(list1) ^ set(list2))
>>> print result
['address1', 'address2', 'address4', 'address5']     #note result might be jumbled but that shouldn't matter

shared =[]
for el in lista1:
    if el in lista2:
        shared.append(el) #shared is the intersection of lista1 and lista2
In [10]: lista1=[1,2,3,4,5,6,7,8,9]
In [11]: lista2=[1,2,3,10,11,12,13]
In [12]: lista1=set(lista1)
In [13]: shared = lista1.intersection(lista2) # same as your loop above
In [14]: shared
Out[14]: {1, 2, 3}

如果你想要一个列表，只需使用list(lista1.intersection(lista2))

for el in shared:
    n1=lista1.count(el)
    for i in range(n1):
        lista1.remove(el) #Removes from lista1 the elements shared with lista2
    n2=lista2.count(el)   #as many times as they appear
    for j in range(n2):
        lista2.remove(el)
result=lista1+lista2
         lista1=set(lista1) 
In [15]: list(lista1.symmetric_difference(lista2))
Out[15]: [4, 5, 6, 7, 8, 9, 10, 11, 12, 13] # same as above.

相关内容

最新更新

热门标签：