生成器表达式
生成器表达式(Generator Expression)是列表推导式的惰性版本。它用圆括号代替方括号,不一次性创建列表,而是返回一个生成器对象,按需计算每个元素。这是处理大数据流时节省内存的利器。
基本语法
# 列表推导式:创建完整列表
squares_list = [x * x for x in range(1000000)]
# 生成器表达式:惰性计算
squares_gen = (x * x for x in range(1000000))
print type(squares_list) # <type 'list'>
print type(squares_gen) # <type 'generator'>
import sys
print sys.getsizeof(squares_list) # 约 8MB
print sys.getsizeof(squares_gen) # 约 80 字节
生成器表达式与列表推导式的语法几乎相同,只是用 () 代替 []:
# 列表推导式
[x * x for x in range(10)]
# 生成器表达式
(x * x for x in range(10))
使用方式
生成器表达式可以直接用于需要迭代器的场景:
# 求和(不需要存储所有平方数)
total = sum(x * x for x in range(1000000))
# 找最大值
max_val = max(len(line) for line in open("data.txt"))
# 转换为列表(如果需要)
squares = list(x * x for x in range(10))
注意:生成器表达式作为函数唯一参数时,可以省略外层括号:
sum((x * x for x in range(10))) # 可以
sum(x * x for x in range(10)) # 更简洁,推荐
过滤与转换
生成器表达式支持 if 条件:
# 偶数的平方
even_squares = (x * x for x in range(100) if x % 2 == 0)
print list(even_squares)
# [0, 4, 16, 36, 64, 100, 144, 196, 256, 324, 400, 484, 576, 676, 784, 900, 1024, 1156, 1296, 1444, 1600, 1764, 1936, 2116, 2304, 2500, 2704, 2916, 3136, 3364, 3600, 3844, 4096, 4356, 4624, 4900, 5184, 5476, 5776, 6084, 6400, 6724, 7056, 7396, 7744, 8100, 8464, 8836, 9216, 9604]
# 文件中的非空行
lines = (line.strip() for line in open("data.txt") if line.strip())
嵌套生成器表达式
# 二维列表扁平化
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
flat = (x for row in matrix for x in row)
print list(flat) # [1, 2, 3, 4, 5, 6, 7, 8, 9]
# 笛卡尔积
colors = ["red", "green", "blue"]
sizes = ["S", "M", "L"]
products = ((c, s) for c in colors for s in sizes)
print list(products)
# [('red', 'S'), ('red', 'M'), ('red', 'L'), ('green', 'S'), ...]
与生成器函数的选择
| 场景 | 推荐方式 |
|---|---|
| 简单转换/过滤 | 生成器表达式 |
| 复杂逻辑、多步骤 | 生成器函数 |
| 需要状态管理 | 生成器函数 |
| 需要 send()/throw() | 生成器函数 |
# 简单场景:生成器表达式更简洁
evens = (x for x in range(100) if x % 2 == 0)
# 复杂场景:生成器函数更清晰
def parse_logs(filename):
with open(filename, "r") as f:
for line in f:
parts = line.strip().split(" ")
if len(parts) >= 3:
yield {
"time": parts[0],
"level": parts[1],
"message": " ".join(parts[2:])
}
惰性求值的优势
# 处理无限序列
import itertools
# 斐波那契数列的前 10 个偶数
fib = itertools.islice(
(x for x in fibonacci() if x % 2 == 0),
10
)
print list(fib)
# [0, 2, 8, 34, 144, 610, 2584, 10946, 46368, 196418]
由于惰性求值,我们不需要先生成无限多的斐波那契数,而是按需计算。
实际应用
大文件处理:
def process_large_file(filename):
# 链式生成器表达式
lines = (line.strip() for line in open(filename, "r"))
data_lines = (line for line in lines if not line.startswith("#"))
records = (line.split(",") for line in data_lines)
valid_records = (r for r in records if len(r) == 5)
for record in valid_records:
yield record
# 内存占用极小
for record in process_large_file("huge.csv"):
print record
数据库结果流:
def query_stream(cursor):
return (
{"id": row[0], "name": row[1]}
for row in cursor.execute("SELECT id, name FROM users")
)
# 不加载所有用户到内存
for user in query_stream(cursor):
process_user(user)
注意事项
生成器只能遍历一次:
gen = (x * x for x in range(5))
print list(gen) # [0, 1, 4, 9, 16]
print list(gen) # [] —— 已耗尽
如果需要多次使用,转换为列表或重新创建生成器:
# 方案 1:转换为列表
squares = list(x * x for x in range(5))
# 方案 2:函数返回新的生成器
def squares():
return (x * x for x in range(5))
print list(squares())
print list(squares())