飞翔飞翔
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
  • 学习路径
  • 第1章 认识Python

    • Python 历史与特点
    • Python 2 与 Python 3 的核心差异
    • 安装与运行 Python 2.7.18
    • 编码规范 PEP 8
  • 第2章 基础语法

    • 变量与对象
    • 数字类型
    • 字符串 str
    • Unicode 字符串
    • 运算符
    • 空值 None
  • 第3章 流程控制

    • if 条件语句
    • if-else 条件语句
    • if-elif-else 多分支
    • 条件表达式(三元运算符)
    • while 循环
    • for 循环
    • range 与 xrange
    • 循环控制:break、continue、pass
    • 循环 else 子句
  • 第4章 数据结构

    • 列表基础
    • 列表方法
    • 列表推导式
    • 元组
    • 字典基础
    • 字典方法
    • 字典循环技巧
    • 集合
    • 序列解包
    • 序列比较
  • 第5章 函数

    • 定义函数
    • 参数传递机制
    • 默认参数
    • 关键字参数
    • 可变参数
    • Lambda 表达式
    • 文档字符串
    • 函数对象
  • 第6章 模块与包

    • import 导入
    • 模块搜索路径
    • name 与主程序
    • 编译文件 .pyc 与 .pyo
    • 包结构
    • dir() 函数
  • 第7章 文件与IO

    • 打开与关闭文件
    • 文件读写方法
    • with 上下文管理器
    • 格式化输出:% 操作符
    • 格式化输出:str.format()
    • JSON 序列化
  • 第8章 面向对象

    • 类定义与实例化
    • init 构造方法
    • 类变量与实例变量
    • 方法调用与 self
    • 继承基础
    • 多重继承
    • 新式类与旧式类
    • 私有变量与名称改写
    • 属性装饰器 property
    • 类方法与静态方法
    • 魔术方法
    • 空类与数据记录
  • 第9章 异常处理

    • 异常类型
    • try-except
    • try-except-else-finally
    • 抛出异常 raise
    • 自定义异常
    • with 语句与上下文管理器
  • 第10章 迭代器与生成器

    • 迭代器协议
    • 生成器函数
    • 生成器表达式
    • itertools模块
  • 第11章 标准库精要

    • os模块
    • sys模块
    • datetime模块
    • re模块
    • json模块
    • collections模块
    • math与random模块
    • urllib2与网络请求
    • subprocess与命令执行
    • threading与并发
    • unittest与测试
    • 虚拟环境与包管理
  • 第12章 工程实践

    • 调试技巧
    • 性能分析
    • 文档与注释
    • 下一步学习

生成器函数

生成器函数(Generator Function)是创建迭代器的简洁方式。它使用普通函数语法,但用 yield 代替 return,每次产生一个值后暂停执行,下次从暂停处继续。这让惰性计算、无限序列、大数据流处理变得简单自然。

基本语法

def countdown(n):
    while n > 0:
        yield n
        n -= 1

# 使用
for num in countdown(5):
    print num,
# 输出:5 4 3 2 1

countdown 是生成器函数。调用它不会执行函数体,而是返回一个生成器对象(迭代器):

gen = countdown(5)
print gen           # <generator object countdown at 0x...>
print gen.next()    # 5
print gen.next()    # 4
print gen.next()    # 3
print gen.next()    # 2
print gen.next()    # 1
print gen.next()    # StopIteration

yield 的执行流程

def simple_generator():
    print "Start"
    yield 1
    print "After 1"
    yield 2
    print "After 2"
    yield 3
    print "End"

g = simple_generator()
print g.next()      # Start, 1
print g.next()      # After 1, 2
print g.next()      # After 2, 3
print g.next()      # End, StopIteration

每次调用 next():

  1. 函数从上次 yield 处继续执行(或从头开始)
  2. 执行到下一个 yield,产生值,暂停
  3. 如果没有更多 yield,函数结束,抛出 StopIteration

生成器的状态

生成器有三种状态:

  • GEN_CREATED:创建后未启动
  • GEN_RUNNING:正在执行
  • GEN_CLOSED:执行完毕或主动关闭
g = countdown(3)
print g.gi_frame.f_lineno     # 函数当前行号

g.close()                     # 提前关闭生成器
g.next()                      # StopIteration(或 RuntimeError)

生成器与列表的对比

# 列表:一次性计算所有值
def squares_list(n):
    return [x * x for x in range(n)]

# 生成器:惰性计算
def squares_gen(n):
    for x in range(n):
        yield x * x

# 内存对比
import sys
print sys.getsizeof(squares_list(1000000))    # 约 8MB
print sys.getsizeof(squares_gen(1000000))     # 约 80 字节

生成器不存储所有值,适合处理大数据流。

实际应用

读取大文件:

def read_large_file(filename):
    with open(filename, "r") as f:
        for line in f:
            yield line.strip()

# 处理 10GB 文件,内存只占用一行
for line in read_large_file("huge.log"):
    if "ERROR" in line:
        print line

无限序列:

def fibonacci():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b

fib = fibonacci()
for i in range(10):
    print fib.next(),
# 输出:0 1 1 2 3 5 8 13 21 34

管道处理:

def find_files(pattern):
    import glob
    for path in glob.glob(pattern):
        yield path

def read_lines(files):
    for filename in files:
        with open(filename, "r") as f:
            for line in f:
                yield line.strip()

def grep(pattern, lines):
    for line in lines:
        if pattern in line:
            yield line

# 组合成管道
files = find_files("*.log")
lines = read_lines(files)
errors = grep("ERROR", lines)

for error in errors:
    print error

send() 方法

Python 2.5+ 支持 send(),向生成器发送数据:

def accumulator():
    total = 0
    while True:
        value = yield total
        if value is None:
            continue
        total += value

acc = accumulator()
print acc.next()        # 0(启动生成器)
print acc.send(10)      # 10
print acc.send(20)      # 30
print acc.send(5)       # 35

send(value) 把值赋给 yield 表达式,然后继续执行到下一个 yield。

throw() 和 close()

def generator():
    try:
        yield 1
        yield 2
    except ValueError:
        yield "Caught"

g = generator()
print g.next()          # 1
g.throw(ValueError, "test")     # Caught

throw() 在生成器内部抛出异常,close() 抛出 GeneratorExit 让生成器清理资源。

生成器 vs 迭代器类

方式代码量状态管理适用场景
迭代器类多手动复杂状态
生成器函数少自动(yield)简单到中等
# 迭代器类(繁琐)
class CountDown(object):
    def __init__(self, n):
        self.n = n
    def __iter__(self):
        return self
    def next(self):
        if self.n <= 0:
            raise StopIteration
        self.n -= 1
        return self.n + 1

# 生成器函数(简洁)
def countdown(n):
    while n > 0:
        yield n
        n -= 1
上一页
迭代器协议
下一页
生成器表达式