飞翔飞翔
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
主页
  • 计算机基础

    • TCP/IP协议
    • Linux命令
  • 数据库

    • SQL教程
  • 编程语言

    • C语言
    • Python2
    • Python3
  • 数据格式

    • JSON教程
  • 工具

    • Markdown指南
  • Git

    • GitFlow
  • Quartz

    • Quartz教程
  • Java

    • Java设计模式
  • 缓存

    • Redis教程
联系
阿里云
  • 学习路径
  • 第1章 认识Python

    • Python 历史与特点
    • Python 2 与 Python 3 的核心差异
    • 安装与运行 Python 2.7.18
    • 编码规范 PEP 8
  • 第2章 基础语法

    • 变量与对象
    • 数字类型
    • 字符串 str
    • Unicode 字符串
    • 运算符
    • 空值 None
  • 第3章 流程控制

    • if 条件语句
    • if-else 条件语句
    • if-elif-else 多分支
    • 条件表达式(三元运算符)
    • while 循环
    • for 循环
    • range 与 xrange
    • 循环控制:break、continue、pass
    • 循环 else 子句
  • 第4章 数据结构

    • 列表基础
    • 列表方法
    • 列表推导式
    • 元组
    • 字典基础
    • 字典方法
    • 字典循环技巧
    • 集合
    • 序列解包
    • 序列比较
  • 第5章 函数

    • 定义函数
    • 参数传递机制
    • 默认参数
    • 关键字参数
    • 可变参数
    • Lambda 表达式
    • 文档字符串
    • 函数对象
  • 第6章 模块与包

    • import 导入
    • 模块搜索路径
    • name 与主程序
    • 编译文件 .pyc 与 .pyo
    • 包结构
    • dir() 函数
  • 第7章 文件与IO

    • 打开与关闭文件
    • 文件读写方法
    • with 上下文管理器
    • 格式化输出:% 操作符
    • 格式化输出:str.format()
    • JSON 序列化
  • 第8章 面向对象

    • 类定义与实例化
    • init 构造方法
    • 类变量与实例变量
    • 方法调用与 self
    • 继承基础
    • 多重继承
    • 新式类与旧式类
    • 私有变量与名称改写
    • 属性装饰器 property
    • 类方法与静态方法
    • 魔术方法
    • 空类与数据记录
  • 第9章 异常处理

    • 异常类型
    • try-except
    • try-except-else-finally
    • 抛出异常 raise
    • 自定义异常
    • with 语句与上下文管理器
  • 第10章 迭代器与生成器

    • 迭代器协议
    • 生成器函数
    • 生成器表达式
    • itertools模块
  • 第11章 标准库精要

    • os模块
    • sys模块
    • datetime模块
    • re模块
    • json模块
    • collections模块
    • math与random模块
    • urllib2与网络请求
    • subprocess与命令执行
    • threading与并发
    • unittest与测试
    • 虚拟环境与包管理
  • 第12章 工程实践

    • 调试技巧
    • 性能分析
    • 文档与注释
    • 下一步学习

生成器表达式

生成器表达式(Generator Expression)是列表推导式的惰性版本。它用圆括号代替方括号,不一次性创建列表,而是返回一个生成器对象,按需计算每个元素。这是处理大数据流时节省内存的利器。

基本语法

# 列表推导式:创建完整列表
squares_list = [x * x for x in range(1000000)]

# 生成器表达式:惰性计算
squares_gen = (x * x for x in range(1000000))

print type(squares_list)    # <type 'list'>
print type(squares_gen)     # <type 'generator'>

import sys
print sys.getsizeof(squares_list)   # 约 8MB
print sys.getsizeof(squares_gen)    # 约 80 字节

生成器表达式与列表推导式的语法几乎相同,只是用 () 代替 []:

# 列表推导式
[x * x for x in range(10)]

# 生成器表达式
(x * x for x in range(10))

使用方式

生成器表达式可以直接用于需要迭代器的场景:

# 求和(不需要存储所有平方数)
total = sum(x * x for x in range(1000000))

# 找最大值
max_val = max(len(line) for line in open("data.txt"))

# 转换为列表(如果需要)
squares = list(x * x for x in range(10))

注意:生成器表达式作为函数唯一参数时,可以省略外层括号:

sum((x * x for x in range(10)))     # 可以
sum(x * x for x in range(10))       # 更简洁,推荐

过滤与转换

生成器表达式支持 if 条件:

# 偶数的平方
even_squares = (x * x for x in range(100) if x % 2 == 0)
print list(even_squares)
# [0, 4, 16, 36, 64, 100, 144, 196, 256, 324, 400, 484, 576, 676, 784, 900, 1024, 1156, 1296, 1444, 1600, 1764, 1936, 2116, 2304, 2500, 2704, 2916, 3136, 3364, 3600, 3844, 4096, 4356, 4624, 4900, 5184, 5476, 5776, 6084, 6400, 6724, 7056, 7396, 7744, 8100, 8464, 8836, 9216, 9604]

# 文件中的非空行
lines = (line.strip() for line in open("data.txt") if line.strip())

嵌套生成器表达式

# 二维列表扁平化
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
flat = (x for row in matrix for x in row)
print list(flat)    # [1, 2, 3, 4, 5, 6, 7, 8, 9]

# 笛卡尔积
colors = ["red", "green", "blue"]
sizes = ["S", "M", "L"]
products = ((c, s) for c in colors for s in sizes)
print list(products)
# [('red', 'S'), ('red', 'M'), ('red', 'L'), ('green', 'S'), ...]

与生成器函数的选择

场景推荐方式
简单转换/过滤生成器表达式
复杂逻辑、多步骤生成器函数
需要状态管理生成器函数
需要 send()/throw()生成器函数
# 简单场景:生成器表达式更简洁
evens = (x for x in range(100) if x % 2 == 0)

# 复杂场景:生成器函数更清晰
def parse_logs(filename):
    with open(filename, "r") as f:
        for line in f:
            parts = line.strip().split(" ")
            if len(parts) >= 3:
                yield {
                    "time": parts[0],
                    "level": parts[1],
                    "message": " ".join(parts[2:])
                }

惰性求值的优势

# 处理无限序列
import itertools

# 斐波那契数列的前 10 个偶数
fib = itertools.islice(
    (x for x in fibonacci() if x % 2 == 0),
    10
)
print list(fib)
# [0, 2, 8, 34, 144, 610, 2584, 10946, 46368, 196418]

由于惰性求值,我们不需要先生成无限多的斐波那契数,而是按需计算。

实际应用

大文件处理:

def process_large_file(filename):
    # 链式生成器表达式
    lines = (line.strip() for line in open(filename, "r"))
    data_lines = (line for line in lines if not line.startswith("#"))
    records = (line.split(",") for line in data_lines)
    valid_records = (r for r in records if len(r) == 5)
    
    for record in valid_records:
        yield record

# 内存占用极小
for record in process_large_file("huge.csv"):
    print record

数据库结果流:

def query_stream(cursor):
    return (
        {"id": row[0], "name": row[1]}
        for row in cursor.execute("SELECT id, name FROM users")
    )

# 不加载所有用户到内存
for user in query_stream(cursor):
    process_user(user)

注意事项

生成器只能遍历一次:

gen = (x * x for x in range(5))
print list(gen)     # [0, 1, 4, 9, 16]
print list(gen)     # [] —— 已耗尽

如果需要多次使用,转换为列表或重新创建生成器:

# 方案 1:转换为列表
squares = list(x * x for x in range(5))

# 方案 2:函数返回新的生成器
def squares():
    return (x * x for x in range(5))

print list(squares())
print list(squares())
上一页
生成器函数
下一页
itertools模块