飞翔飞翔
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
  • 学习路径
  • 第1章 认识Python

    • Python 历史与特点
    • Python 2 与 Python 3 的核心差异
    • 安装与运行 Python 2.7.18
    • 编码规范 PEP 8
  • 第2章 基础语法

    • 变量与对象
    • 数字类型
    • 字符串 str
    • Unicode 字符串
    • 运算符
    • 空值 None
  • 第3章 流程控制

    • if 条件语句
    • if-else 条件语句
    • if-elif-else 多分支
    • 条件表达式(三元运算符)
    • while 循环
    • for 循环
    • range 与 xrange
    • 循环控制:break、continue、pass
    • 循环 else 子句
  • 第4章 数据结构

    • 列表基础
    • 列表方法
    • 列表推导式
    • 元组
    • 字典基础
    • 字典方法
    • 字典循环技巧
    • 集合
    • 序列解包
    • 序列比较
  • 第5章 函数

    • 定义函数
    • 参数传递机制
    • 默认参数
    • 关键字参数
    • 可变参数
    • Lambda 表达式
    • 文档字符串
    • 函数对象
  • 第6章 模块与包

    • import 导入
    • 模块搜索路径
    • name 与主程序
    • 编译文件 .pyc 与 .pyo
    • 包结构
    • dir() 函数
  • 第7章 文件与IO

    • 打开与关闭文件
    • 文件读写方法
    • with 上下文管理器
    • 格式化输出:% 操作符
    • 格式化输出:str.format()
    • JSON 序列化
  • 第8章 面向对象

    • 类定义与实例化
    • init 构造方法
    • 类变量与实例变量
    • 方法调用与 self
    • 继承基础
    • 多重继承
    • 新式类与旧式类
    • 私有变量与名称改写
    • 属性装饰器 property
    • 类方法与静态方法
    • 魔术方法
    • 空类与数据记录
  • 第9章 异常处理

    • 异常类型
    • try-except
    • try-except-else-finally
    • 抛出异常 raise
    • 自定义异常
    • with 语句与上下文管理器
  • 第10章 迭代器与生成器

    • 迭代器协议
    • 生成器函数
    • 生成器表达式
    • itertools模块
  • 第11章 标准库精要

    • os模块
    • sys模块
    • datetime模块
    • re模块
    • json模块
    • collections模块
    • math与random模块
    • urllib2与网络请求
    • subprocess与命令执行
    • threading与并发
    • unittest与测试
    • 虚拟环境与包管理
  • 第12章 工程实践

    • 调试技巧
    • 性能分析
    • 文档与注释
    • 下一步学习

迭代器协议

迭代器(Iterator)是 Python 中遍历集合的统一接口。理解迭代器协议,就能理解 for 循环、list()、sum() 等内置功能的工作原理,也能写出支持遍历的自定义对象。

迭代器协议

迭代器协议要求对象实现两个方法:

  • __iter__():返回迭代器对象自身
  • next():返回下一个元素,没有元素时抛出 StopIteration
class CountDown(object):
    def __init__(self, start):
        self.start = start
    
    def __iter__(self):
        return self
    
    def next(self):
        if self.start <= 0:
            raise StopIteration
        self.start -= 1
        return self.start + 1

# 使用
for num in CountDown(5):
    print num,
# 输出:5 4 3 2 1

for 循环的执行过程:

  1. 调用 iter(obj),即 obj.__iter__(),获取迭代器
  2. 反复调用迭代器的 next()
  3. 捕获 StopIteration,循环结束

可迭代对象 vs 迭代器

可迭代对象(Iterable)只需实现 __iter__(),返回一个迭代器:

class Range(object):
    def __init__(self, n):
        self.n = n
    
    def __iter__(self):
        return RangeIterator(self.n)

class RangeIterator(object):
    def __init__(self, n):
        self.i = 0
        self.n = n
    
    def __iter__(self):
        return self
    
    def next(self):
        if self.i >= self.n:
            raise StopIteration
        i = self.i
        self.i += 1
        return i

for i in Range(5):
    print i,
# 输出:0 1 2 3 4

Range 是可迭代对象,RangeIterator 是迭代器。一个对象可以同时是可迭代对象和迭代器(__iter__() 返回 self),但更好的设计是分离两者——可迭代对象可以多次遍历,迭代器是一次性的。

迭代器是一次性的

迭代器遍历完就耗尽,不能重置:

it = iter([1, 2, 3])
print list(it)      # [1, 2, 3]
print list(it)      # [] —— 已经耗尽

如果需要多次遍历,应该创建新的迭代器:

class ReusableRange(object):
    def __init__(self, n):
        self.n = n
    
    def __iter__(self):
        return RangeIterator(self.n)    # 每次创建新的迭代器

内置迭代工具

iter() 函数获取迭代器:

it = iter([1, 2, 3])
print it.next()     # 1
print it.next()     # 2
print it.next()     # 3
print it.next()     # StopIteration

next() 函数(Python 2.6+)是 it.next() 的函数形式:

it = iter([1, 2, 3])
print next(it)      # 1
print next(it, "default")   # 2, 3, "default"(不抛出 StopIteration)

迭代器与列表的区别

特性列表迭代器
内存占用存储所有元素惰性计算,一次一个
可重复遍历是否(一次性)
长度len() 可用不知道长度
索引访问list[i]不支持
# 列表:占用内存大
big_list = range(1000000)       # 创建百万个整数的列表

# 迭代器:占用内存小
big_iter = xrange(1000000)      # 惰性生成,不存储所有值

实际应用

自定义文件读取器:

class LineReader(object):
    def __init__(self, filename):
        self.filename = filename
    
    def __iter__(self):
        return self
    
    def next(self):
        line = self.file.readline()
        if not line:
            self.file.close()
            raise StopIteration
        return line.strip()
    
    def __enter__(self):
        self.file = open(self.filename, "r")
        return self
    
    def __exit__(self, *args):
        self.file.close()

with LineReader("data.txt") as reader:
    for line in reader:
        print line

无限序列:

class Fibonacci(object):
    def __init__(self):
        self.a, self.b = 0, 1
    
    def __iter__(self):
        return self
    
    def next(self):
        result = self.a
        self.a, self.b = self.b, self.a + self.b
        return result

fib = Fibonacci()
for i, num in enumerate(fib):
    if i >= 10:
        break
    print num,
# 输出:0 1 1 2 3 5 8 13 21 34

迭代器与生成器

手动实现迭代器比较繁琐。Python 提供了生成器(Generator),用函数语法自动实现迭代器协议。生成器是迭代器的语法糖,将在下一节详细讲解。

下一页
生成器函数