在循环中访问迭代器 'for in'



根据我的理解,当运行如下代码时:

for i in MyObject:
print(i)

MyObject 的__iter__函数运行,for 循环使用它返回的迭代器来运行循环。

是否可以在循环中访问此迭代器对象?它是一个隐藏的局部变量,还是类似的东西?

我想做以下几点:

for i in MyObject:
blah = forloopiterator()
modify_blah(blah)
print(i)

我想这样做是因为我正在构建一个调试器,我需要在实例化迭代器后对其进行修改(在此循环期间添加要迭代的对象,执行中期)。我知道这是一个黑客,不应该按照惯例进行。直接修改MyObject.items(这是迭代器正在迭代的内容)是行不通的,因为迭代器只计算一次。所以我需要直接修改迭代器。

你可以做你想做的事情,只要你愿意依赖你的Python解释器的多个未记录的内部(在我的例子中,CPython 3.7)——但它对你没有任何好处。


迭代器不会公开给locals,或者其他任何地方(甚至不向调试器公开)。但正如帕特里克·霍(Patrick Haugh)所指出的,您可以通过get_referrers间接获得它。例如:

for ref in gc.get_referrers(seq):
if isinstance(ref, collections.abc.Iterator):
break
else:
raise RuntimeError('Oops')

当然,如果你对同一个列表有两个不同的迭代器,我不知道你是否有办法在它们之间做出决定,但让我们忽略这个问题。


现在,你用这个做什么?你有一个迭代器超过seq,并且...现在怎么办?你不能用有用的东西代替它,比如itertools.chain(seq, [1, 2, 3]).没有用于改变列表、集合等迭代器的公共 API,更不用说任意迭代器了。

如果你碰巧知道它是一个列表迭代器......好吧,CPython 3.xlistiterator确实碰巧是可变的。它们的腌制方式是创建一个空迭代器并使用对列表和索引的引用调用__setstate__

>>> print(ref.__reduce__())
(<function iter>, ([0, 1, 2, 3, 4, 5, 6, 7, 8, 9],), 7)
>>> ref.__setstate__(3) # resets the iterator to index 3 instead of 7
>>> ref.__reduce__()[1][0].append(10) # adds another value

但这有点愚蠢,因为你可以通过改变原始列表来获得相同的效果。事实上:

>>> ref.__reduce__()[1][0] is seq
True

所以:

lst = list(range(10))
for elem in lst:
print(elem, end=' ')
if elem % 2:
lst.append(elem * 2)
print()

。将打印出来:

0 1 2 3 4 5 6 7 8 9 2 6 10 14 18 

。根本不用和迭代器一起耍猴子。


你不能对一套做同样的事情。

在迭代过程中改变一个集合会影响迭代器,就像改变列表一样——但它的作用是不确定的。毕竟,集合具有任意顺序,只要不添加或删除,才能保证保持一致。如果在中间添加或删除会发生什么?你可能会得到一个完全不同的顺序,这意味着你最终可能会重复你已经迭代过的元素,而错过你从未见过的元素。Python暗示这在任何实现中都应该是非法的,CPython确实检查了它:

s = set(range(10))
for elem in s:
print(elem, end=' ')
if elem % 2:
s.add(elem * 2)
print()

这只会立即引发:

RuntimeError: Set changed size during iteration

那么,如果我们使用相同的技巧在 Python 的背后,找到set_iterator,并尝试改变它,会发生什么?

s = {1, 2, 3}
for elem in s:
print(elem)
for ref in gc.get_referrers(seq):
if isinstance(ref, collections.abc.Iterator):
break
else:
raise RuntimeError('Oops')
print(ref.__reduce__)

在这种情况下,您将看到如下所示的内容:

2
(<function iter>, ([1, 3],))
1
(<function iter>, ([3],))
3
(<function iter>, ([],))

换句话说,当你腌制一个set_iterator时,它会创建一个剩余元素的列表,并给你一个指令,让你从该列表中建立一个新的列表器。改变该临时列表显然没有有用的效果。


元组呢?显然,你不能只是改变元组本身,因为元组是不可变的。但是迭代器呢?

在幕后,在CPython中,tuple_iteratorlistiterator共享相同的结构和代码(就像您在"旧式序列"类型上调用iter获得的iterator类型一样,该类型定义了__len____getitem__,但__iter__). So, you can do the exact same trick to get at the iterator, and to减少它。

但是一旦你这样做了,ref.__reduce__()[1][0] is seq就会再次成为现实——换句话说,它是一个元组,与你已经拥有的元组相同,并且仍然是不可变的。

不,无法访问此迭代器(除非使用 Python C API,但这只是一个猜测)。如果需要,请在循环之前将其分配给变量。

it = iter(MyObject)
for i in it:
print(i)
# do something with it

请记住,手动推进迭代器可能会引发StopIteration异常。

for i in it:
if check_skip_next_element(i):
try: next(it)
except StopIteration: break

break的使用是可以讨论的。在这种情况下,它具有与continue相同的语义,但如果您想继续使用pass直到for块结束,则可以只使用。

如果要在调试器的迭代中将其他对象插入到循环中,则无需通过修改迭代器来实现。相反,在循环结束后,跳转到循环主体的第一行,然后将循环变量设置为所需的对象。下面是一个 PDB 示例。使用以下文件:

import pdb
def f():
pdb.set_trace()
for i in range(5):
print(i)
f()

我记录了一个将15插入循环的调试会话:

> /tmp/asdf.py(5)f()
-> for i in range(5):
(Pdb) n
> /tmp/asdf.py(6)f()
-> print(i)
(Pdb) n
0
> /tmp/asdf.py(5)f()
-> for i in range(5):
(Pdb) j 6
> /tmp/asdf.py(6)f()
-> print(i)
(Pdb) i = 15
(Pdb) n
15
> /tmp/asdf.py(5)f()
-> for i in range(5):
(Pdb) n
> /tmp/asdf.py(6)f()
-> print(i)
(Pdb) n
1
> /tmp/asdf.py(5)f()
-> for i in range(5):
(Pdb) c
2
3
4

(由于 PDB 错误,您必须跳转,然后设置循环变量。如果在设置循环变量后立即跳转,PDB 将丢失对循环变量的更改。

如果您不知道 python 中的pdb调试器,请尝试一下。这是我遇到过的非常交互式的调试器。

Python 调试器

我相信我们可以使用 pdb 手动控制循环迭代。但是中途更改列表,不确定。试一试。

要访问给定对象的迭代器,可以使用 iter() 内置函数。

>>> it = iter(MyObject)
>>> it.next()

最新更新