作者jserv (松鼠)
看板CompilerDev
标题Re: [分享] shecc - 可自我编译的简化 C 编译器实作
时间Fri Sep 12 16:32:59 2025
shecc [1] 不仅是一个从无到有开发、可编译自身 (self-hosting) 的 C 语言编译器,
更是理解编译器最佳化策略的教学范例。其最佳化设计已形成层次分明的架构:前端产生
SSA 形式的中间表示,中端透过全域与区域的分析进行转换,後端再以 peephole 最佳化
和指令序列重写完成修饰,展现出具体而微的最佳化流程。连同 Arm 和 RISC-V 处理器
後端的程式码,全部仅 1 万行出头的 C 专案,且不依赖任何组译器或连结器,直接输出
ELF 执行档。
在 SSA 层级,shecc 能进行常数折叠 (constant folding) 与条件化简,将运算式在编译
阶段就化约为常数,并且配合代数化简策略,移除多余的加零、乘一、位元运算恒等式,
使产生的程式更加紧凑。它同时支援公共子表示式消除 (Common Subexpression
Elimination, CSE),避免重复计算相同的表达式,并透过死码删除移除 (Dead Code
Elimination, DCE) 不影响结果的运算与基本区块,以缩短执行路径。phi 节点的最佳化
则专注於 SSA 合流点的裁剪与简化,减少不必要的数值传递 (value propagation),使
後续暂存器配置 (register allocation) 更有效率。
当进入後端产生目标码时,shecc 会套用多阶段的窥孔最佳化。这些规则涵盖位元运算、
比较运算的模式化简,并包含强度削弱 (strength reduction),例如将乘除以二的幂转换
为位移操作以降低成本。它还能进行多指令分析,允许在更大的指令视窗 (instruction
window) 内进行最佳化,例如连续搬移或计算指令的合并。针对冗余的搬移指令,亦可
检测并删除,减少暂存器压力并缩短指令序列。即使是除法与余数运算,编译器也会加入
安全防护与条件化简,确保不会产生除以零的错误,并针对常值情况进行简化。
这些最佳化策略和改进并非仅限於前端或後端,而是跨越整个编译流程,例如近期 GitHub
提交纪录中还可以看到暂存器配置的强化,进一步降低记忆体存取次数并提升执行效率。
由於 shecc 的设计是教学导向,它同时保留可观察的中间表示输出功能,方便学生比较
最佳化前後的差异,并验证其效果。
[1]
https://github.com/sysprog21/shecc
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.116.245.217 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/CompilerDev/M.1757665982.A.956.html
1F:推 mshockwave: 推推 09/18 11:48
2F:推 SmallHanley: 推 09/18 15:38
3F:推 cseslowpoke: 推 09/21 21:41
4F:推 ChampYen: 推 10/14 15:11