C|头文件包含的处理原则、规则、建议
在C程序中,使用分离编译的原则,头文件(.h或.hpp)提供声明、接口的作用,源文件(.c)提供实现的作用,C编译器通常以源文件作为编译单元。编译时,根据声明来验证标识符,到了链接阶段,才去查找具体实现,并链接为一个整体。
另外,为了避免二义性,对于声明定义的原则是“多次声明(外部变量),一次定义”。在C工程中,为避免歧义,只能有一次定义,一次定义好的定义可以多次声明,以供在同一文件的定义前声明或其它作为编译单元的文件中使用。
关于声明和定义
1 定义通常涉及到内存分配,而声明不会;
2 定义的同时也是声明;如
int v_g; // 既是定义,也是声明
3 声明通常使用关键字extern;
extern int v_g; // 使用同文件中后面的外部变量或其它文件中定义的外部变量
4 如果了extern声明的同时进行了初始化,则是定义;
extern const int vc_g = 28; // const默认为内部链接,显示声明为extern后为外部链接
源文件中实现变量、函数的定义,并指定链接范围。头文件中书写外部需要使用的全局变量、函数声明及数据类型和宏的定义。
Unix编译器和链接器常使用允许多重定义的“通用模式”,只要保证最多对一处定义进行初始化即可。
该方式被ANSI C标准称为一种“通用扩展”。某些很老的系统可能要求显式初始化以区别定义和外部声明。
通用扩展在《深入理解计算机系统》中解释为:多重定义的符号只允许最多一个强符号。函数和定义时已初始化的全局变量是强符号;未初始化的全局变量是弱符号。Unix链接器使用以下规则来处理多重定义的符号:
规则一:不允许有多个强符号。在被多个源文件包含的头文件内定义的全局变量会被定义多次(预处理阶段会将头文件内容展开在源文件中),若在定义时显式地赋值(初始化),则会违反此规则。
规则二:若存在一个强符号和多个弱符号,则选择强符号。
规则三:若存在多个弱符号,则从这些弱符号中任选一个。
当不同文件内定义同名(即便类型和含义不同)的全局变量时,该变量共享同一块内存(地址相同)。若变量定义时均初始化,则会产生重定义(multiple definition)的链接错误;若某处变量定义时未初始化,则无链接错误,仅在因类型不同而大小不同时可能产生符号大小变化(size of symbol `XXX\’ changed)的编译警告。
在最坏情况下,编译链接正常,但不同文件对同名全局变量读写时相互影响,引发非常诡异的问题。这种风险在使用无法接触源码的第三方库时尤为突出。
C工程通常文件来实现模块化,模块化的要求是“高内聚、低耦合。”
以及三个原则可以衍生出一系统头文件包含的处理原则、规则、建议
目录:
1 原则
1.1 头文件中适合放置接口的声明,不适合放置实现。
1.2 头文件应当职责单一。
1.3 头文件划分原则
1.4 头文件的语义层次化原则及使用通用头文件
1.5 头文件的语义相关性原则
1.6 源文件内的头文件包含顺序应从最特殊到一般。
1.7 精减原则:使用前置声明和extern函数声明,能不包含就不包含头文件
2 规则
2.1 每一个.c文件应有一个同名.h文件,用于声明需要对外公开的接口。
2.2 禁止头文件循环依赖,减少嵌套和交叉引用,尽量避免顺序依赖
2.3 尽量在源文件中包含头文件,而非在头文件中。.c/.h文件禁止包含用不到的头文件
2.4 头文件应当自包含和自完备的。
2.5 头文件应包含哪些头文件仅取决于自身,而非包含该头文件的源文件
2.6 总是编写内部#include保护符( #define 保护)。
27 禁止在头文件中定义变量。
2.8 只能通过包含头文件的方式使用其他.c提供的接口,
禁止在.c中通过extern的方式使用外部函数接口、变量。
2.9 禁止在extern “C”中包含头文件。
3 建议
3.1 一个模块通常包含多个.c文件,建议放在同一个目录下,目录名即为模块名。
为方便外部使用者,建议每一个模块提供一个.h,文件名为目录名。
3.2 如果一个模块包含多个子模块,则建议每一个子模块提供一个对外的.h,文件名为子模块名。
3.3 头文件不要使用非习惯用法的扩展名,如.inc。
3.4 同一产品统一包含头文件排列方式。
曾以为,一个.c文件对应一个.h文件,.c文件只包含它自身的.h文件就好,若.c文件中用到其他文件中的内容,则.h文件把用到的头文件包含进来就可以了。貌似可以一直秉承这个理念在进行代码编写。工程文件数量小时,这种理念貌似看不出问题,但随着工程文件数量越来越多,会发现自己这种思路有了弊端:头文件互相包含,导致编译时自以为有些宏变量声明了,它就能起作用,但实际测试发现这种方式编码后,有些声明的宏没能起到作用。(.h文件采用了避免重复包含的extern\”C\”的写法)
其实这是一个不正确的代码编写习惯,应该秉承.c文件对应的.h文件只包含头文件里用到的其它文件的头文件,任何非必须的.h文件不要包含;而.c文件里面要包含用到的所有.h文件。这样写即使存在.c文件内头文件重复包含也不伤大雅。
语言描述有时太抽象,还是符号举例说明下:假如有两个.c文件分别为A.c和B.c,通常都定义了各自的A.h和B.h文件。
原有的思路:A.c里面只有一个#include \”A.h\”,而A.h所包含的就是一大堆如B.h、C.h、D.h…..文件,因为A.c文件里面要用到B.h、C.h、D.h里面的内容。如下图所示:
新思路:A.h里面只包含A.h所写内容要用到的.h文件,很多时候A.h里面无需任何.h文件。而在A.c文件内就要写成 #include \”B.h\” #include \”C.h\” #include \”D.h\”。而且两个文件的.c文件在头文件包含上可以互相包含,如下图所示:
背景
对于C语言来说,头文件的设计体现了大部分的系统设计。不合理的头文件布局是编译时间过长的根因,不合理的头文件实际上是不合理的设计。
依赖
特指编译依赖。若x.h包含了y.h,则称作x依赖y。依赖关系会进行传导,如x.h包含y.h,而y.h又包含了z.h,则x通过y依赖了z。依赖将导致编译时间的上升。虽然依赖是不可避免的,也是必须的,但是不良的设计会导致整个系统的依赖关系无比复杂,使得任意一个文件的修改都要重新编译整个系统,导致编译时间巨幅上升。
在一个设计良好的系统中, 修改一个文件,只需要重新编译数个,甚至是一个文件。
某产品曾经做过一个实验,把所有函数的实现通过工具注释掉,其编译时间只减少了不到10%,究其原因,在于A包含B, B包含C, C包含D,最终几乎每一个源文件都包含了项目组所有的头文件,从而导致绝大部分编译时间都花在解析头文件上。
某产品更有一个“优秀实践”,用于将.c文件通过工具合并成一个比较大的.c文件,从而大幅度提高编译效率。其根本原因还是在于通过合并.c文件减少了头文件解析次数。但是,这样的“优秀实践”是对合理划分.c文件的一种破坏。
大部分产品修改一处代码,都得需要编译整个工程,对于TDD之类的实践,要求对于模块级别的编译时间控制在秒级,即使使用分布式编译也难以实现,最终仍然需要合理的划分头文件、以及头文件之间的包含关系, 从根本上降低编译时间。
《google C++ Style Guide》 1.2 头文件依赖 章节也给出了类似的阐述:
若包含了头文件aa.h,则就引入了新的依赖:
一旦aa.h被修改,任何直接和间接包含aa.h代码都会被重新编译。如果aa.h又包含了其他头文件如bb.h,那么bb.h的任何改变都将导致所有包含了aa.h的代码被重新编译,在敏捷开发方式下,代码会被频繁构建,漫长的编译时间将极大的阻碍频繁构建。因此,我们倾向于减少包含头文件,尤其是在头文件中包含头文件,以控制改动代码后的编译时间。
合理的头文件划分体现了系统设计的思想,但是从编程规范的角度看,仍然有一些通用的方法,用来合理规划头文件。本章节介绍的一些方法,对于合理规划头文件会有一定的帮助。
原则1.1:头文件中适合放置接口的声明,不适合放置实现。
头文件是模块( Module)或单元( Unit)的对外接口。头文件中应放置对外部的声明,如对外提供的函数声明、宏定义、类型定义等。
内部使用的函数(相当于类的私有方法)声明不应放在头文件中。
内部使用的宏、枚举、结构定义不应放入头文件中。
变量定义不应放在头文件中,而应放在.c文件中。
变量的声明尽量不要放在头文件中,亦即尽量不要使用全局变量作为接口 。变量是模块或单元的内部实现细节,不应通过在头文件中声明的方式直接暴露给外部,应通过函数接口的方式进行对外暴露。 即使必须使用全局变量,也只应当在.c中定义全局变量,在.h中仅声明变量为全局的。
头文件内不允许定义变量和函数,只能有宏、类型(typedef/struct/union/enum等)及变量和函数的声明。特殊情况下可extern基本类型的全局变量,源文件通过包含该头文件访问全局变量。但头文件内不应extern自定义类型(如结构体)的全局变量,否则将迫使本不需要访问该变量的源文件包含自定义类型所在头文件。
「【注】全局变量的使用原则」
1)若全局变量仅在单个源文件中访问,则可将该变量改为该文件内的静态全局变量;
2)若全局变量仅由单个函数访问,则可将该变量改为该函数内的静态局部变量;
3)尽量不要使用extern声明全局变量,最好提供函数访问这些变量。直接暴露全局变量是不安全的,外部用户未必完全理解这些变量的含义。
4)设计和调用访问动态全局变量、静态全局变量、静态局部变量的函数时,需要考虑重入问题。
延伸阅读材料: 《 C语言接口与实现》 ( David R. Hanson 著 傅蓉 周鹏 张昆琪 权威 译 机械工业出版社 2004年1月) (英文版: “C Interfaces and Implementations”)
原则1.2:头文件应当职责单一。
说明:头文件过于复杂,依赖过于复杂是导致编译时间过长的主要原因。 很多现有代码中头文件过大,职责过多, 再加上循环依赖的问题,可能导致为了在.c中使用一个宏,而包含十几个头文件。
某个头文件不但定义了基本数据类型WORD,还包含了stdio.h syslib.h等等不常用的头文件。如果工程中有10000个源文件,而其中100个源文件使用了stdio.h的printf,由于上述头文件的职责过于庞大,而WORD又是每一个文件必须包含的,从而导致stdio.h/syslib.h等可能被不必要的展开了9900次,大大增加了工程的编译时间。
原则1.3:头文件划分原则
类型定义、宏定义尽量与函数声明相分离,分别位于不同的头文件中。内部函数声明头文件与外部函数声明头文件相分离,内部类型定义头文件与外部类型定义头文件相分离。
注意,类型和宏定义有时无法分拆为不同文件,比如结构体内数组成员的元素个数用常量宏表示时。因此仅分离类型宏定义与函数声明,且分别置于*.th和*.fh文件(并非强制要求)。
原则1.4:头文件的语义层次化原则及使用通用头文件
头文件需要有语义层次。不同语义层次的类型定义不要放在一个头文件中,不同层次的函数声明不要放在一个头文件中。
对于函数库(包括标准库和自定义的公共宏及接口)的头文件,可将其加入到一个通用头文件中。需要控制该头文件的体积(主要是该头文件所包含的所有头文件内容大小),并确保所有源文件首先包含该通用头文件。
原则1.5:头文件的语义相关性原则
同一头文件中出现的类型定义、函数声明应该是语义相关的、有内部逻辑关系的,避免将无关的定义和声明放在一个头文件中。
原则1.6:源文件内的头文件包含顺序应从最特殊到一般
优点是每个头文件必须include需要的关联头文件,否则会报错。同时,源文件同名头文件置于包含列表前端便于检查该头文件是否自完备,以及类型或函数声明是否与标准库冲突。
头文件的包含关系是一种依赖,一般来说,应当让不稳定的模块依赖稳定的模块,从而当不稳定的模块发生变化时,不会影响(编译)稳定的模块。
就我们的产品来说,依赖的方向应该是: 产品依赖于平台,平台依赖于标准库。 某产品线平台的代码中已经包含了产品的头文件,导致平台无法单独编译、发布和测试, 是一个非常糟糕的反例。
除了不稳定的模块依赖于稳定的模块外,更好的方式是两个模块共同依赖于接口,这样任何一个模块的内部实现更改都不需要重新编译另外一个模块。在这里,我们假设接口本身是最稳定的。
延伸阅读材料: 编者推荐开发人员使用“依赖倒置”原则,即由使用者制定接口,服务提供者实现接口,更具体的描述可以参见《 敏捷软件开发:原则、模式与实践》 ( Robert C.Martin 著 邓辉 译 清华大学出版社2003年9月) 的第二部分“敏捷设计”章节。
原则1.7:精减原则:使用前置声明和extern函数声明,能不包含就不包含头文件
头文件中若能前置声明,就不要包含另一头文件。仅当前置声明不能满足或过于麻烦时才使用include,如此可减少依赖性方面的问题。示例如下:
避免包含重量级的平台头文件,如windows.h或d3d9.h等。若仅使用该头文件少量函数,可extern函数到源文件内。若还使用该头文件某些类型和宏定义,可创建适配性源文件。在该源文件内包含平台头文件,封装新的接口并将其声明在同名头文件内,其他源文件将通过适配头文件间接访问平台接口。
规则2.1:每一个.c文件应有一个同名.h文件,用于声明需要对外公开的接口。
说明: 如果一个.c文件不需要对外公布任何接口,则其就不应当存在,除非它是程序的入口,如main函数所在的文件。
现有某些产品中,习惯一个.c文件对应两个头文件,一个用于存放对外公开的接口,一个用于存放内部需要用到的定义、声明等,以控制.c文件的代码行数。编者不提倡这种风格。这种风格的根源在于源文件过大,应首先考虑拆分.c文件,使之不至于太大。另外,一旦把私有定义、声明放到独立的头文件中,就无法从技术上避免别人include之,难以保证这些定义最后真的只是私有的。
本规则反过来并不一定成立。有些特别简单的头文件,如命令ID定义头文件,不需要有对应的.c存在[a1] 。
示例:对于如下场景,如在一个.c中存在函数调用关系:
必须在foo之前声明bar,否则会导致编译错误。
这一类的函数声明,应当在.c的头部声明,并声明为static的,如下:
规则2.2:禁止头文件循环依赖,减少嵌套和交叉引用,尽量要不要顺序依赖
说明: 头文件循环依赖,指a.h包含b.h, b.h包含c.h, c.h包含a.h之类导致任何一个头文件修改,都导致所有包含了a.h/b.h/c.h的代码全部重新编译一遍。而如果是单向依赖,如a.h包含b.h, b.h包含c.h,而c.h不包含任何头文件,则修改a.h不会导致包含了b.h/c.h的源代码重新编译。
例如,头文件A中出现的类型定义在头文件B中,则头文件A应包含头文件B,除此以外的其他头文件不允许包含。
头文件的嵌套和交叉引用会使程序组织结构和文件组织变得混乱,同时造成潜在的错误。大型工程中,原有头文件可能会被多个其他(源或头)文件包含,在原有头文件中添加新的头文件往往牵一发而动全身。若头文件中类型定义需要其他头文件时,可将其提出来单独形成一个全局头文件。
规则2.3:尽量在源文件中包含头文件,而非在头文件中。.c/.h文件禁止包含用不到的头文件
说明: 很多系统中头文件包含关系复杂,开发人员为了省事起见,可能不会去一一钻研,直接包含一切想到的头文件,甚至有些产品干脆发布了一个god.h,其中包含了所有头文件,然后发布给各个项目组使用,这种只图一时省事的做法,导致整个系统的编译时间进一步恶化,并对后来人的维护造成了巨大的麻烦。
规则2.4:头文件应当自包含和自完备的
说明: 简单的说,自包含就是任意一个头文件均可独立编译。 如果一个头文件包含某个头文件,还要包含另外一个头文件才能工作的话,就会增加交流障碍,给这个头文件的用户增添不必要的负担[a2] 。
示例:
如果a.h不是自包含的,需要包含b.h才能编译,会带来的危害:
每个使用a.h头文件的.c文件,为了让引入的a.h的内容编译通过,都要包含额外的头文件b.h。
额外的头文件b.h必须在a.h之前进行包含,这在包含顺序上产生了依赖。
注意:该规则需要与“ .c/.h文件禁止包含用不到的头文件”规则一起使用,不能为了让a.h自包含,而在a.h中包含不必要的头文件。 a.h要刚刚可以自包含,不能在a.h中多包含任何满足自包含之外的其他头文件。
头文件应是自完备的,即在任一源文件中包含任一头文件而不会产生编译错误。尽量保证用户使用此头文件时,无需手动包含其他前提头文件,即此头文件内已包含前提头文件。
例如,面积相关操作的头文件Area.h内已包含关于点操作的头文件Point.h,则用户包含Area.h后无需再手动包含Point.h。这样用户就不必了解头文件的内在依赖关系。
规则2.5:头文件应包含哪些头文件仅取决于自身,而非包含该头文件的源文件
例如,编译源文件时需要用到头文件B,且源文件已包含头文件A,而索性将头文件B包含在头文件A中,这是错误的做法。
规则2.6:总是编写内部#include保护符( #define 保护)。
说明:多次包含一个头文件可以通过认真的设计来避免。如果不能做到这一点,就需要采取阻止头文件内容被包含多于一次的机制。
通常的手段是为每个文件配置一个宏,当头文件第一次被包含时就定义这个宏,并在头文件被再次包含时使用它以排除文件内容。
所有头文件都应当使用#define 防止头文件被多重包含,命名格式为FILENAME_H,为了保证唯一性,更好的命名是PROJECTNAME_PATH_FILENAME_H。
注:没有在宏最前面加上““,即使用FILENAME_H代替_FILENAME_H,是因为一般以”“和”_“开头的标识符为系统保留或者标准库使用,在有些静态检查工具中,若全局可见的标识符以”_”开头会给出告警。
定义包含保护符时,应该遵守如下规则:
1)保护符使用唯一名称;
2)不要在受保护部分的前后放置代码或者注释。
示例:假定VOS工程的timer模块的timer.h,其目录为VOS/include/timer/timer.h,应按如下方式保护:
也可以使用如下简单方式保护:
例外情况:头文件的版权声明部分以及头文件的整体注释部分(如阐述此头文件的开发背景、使用注意事项等)可以放在保护符(#ifndef XX_H)前面。
使用#pragma once或header guard(亦称include guard或macro guard)避免头文件重复包含。#pragma once是一种非标准但已被现代编译器广泛支持的技巧,它明确告知预处理器“不要重复包含当前头文件”。而header guard则通过预处理命令模拟类似行为:
使用#pragma once相比header guard具有两个优点:
- 更快。编译器不会第二次读取标记#pragma once的文件,但却会读若干遍使用header guard 的文件(寻找#endif);
- 更简单。不再需要为每个文件的header guard取名,避免宏名重名引发的“找不到声明”问题。缺点则是:
- #pragma once保证物理上的同一个文件不会被包含多次,无法对头文件中的一段代码作#pragma once声明。若某个头文件具有多份拷贝(内容相同的多个文件),pragma不能保证它们不被重复包含。当然,这种重复包含很容易被发现并修正。
- 而#pragma once仅由编译器提供保证,存在可移植性等问题。
- 还有种写法同时使用#pragma once和header guard编写“可移植性”代码,以利用编译器可能支持的#pragma once优化。如下:
规则2.7:禁止在头文件中定义变量。
在头文件中定义变量,将会由于头文件被其他.c文件包含而导致变量重复定义。
规则2.8:只能通过包含头文件的方式使用其他.c提供的接口,禁止在.c中通过extern的方式使用外部函数接口、变量[a3] 。
若a.c使用了b.c定义的foo()函数,则应当在b.h中声明extern int foo(int input);并在a.c中通过#include 来使用foo。禁止通过在a.c中直接写extern int foo(int input);来使用foo,后面这种写法容易在foo改变时可能导致声明和定义不一致[a4] 。
规则2.9:禁止在extern “C”中包含头文件。
在extern “C”中包含头文件, 会导致extern “C”嵌套, Visual Studio对extern “C”嵌套层次有限制,嵌套层次太多会编译错误。
在extern “C”中包含头文件,可能会导致被包含头文件的原有意图遭到破坏。例如,存在a.h和b.h两个头文件:
使用C++预处理器展开b.h,将会得到
按照a.h作者的本意,函数foo是一个C++自由函数,其链接规范为”C++”。但在b.h中,由于#include “a.h”被放到了extern “C” { }的内部,函数foo的链接规范被不正确地更改了。
示例: 错误的使用方式:
建议3.1:一个模块通常包含多个.c文件,建议放在同一个目录下,目录名即为模块名。为方便外部使用者,建议每一个模块提供一个.h,文件名为目录名。
需要注意的是,这个.h并不是简单的包含所有内部的.h,它是为了模块使用者的方便,对外整体提供的模块接口。
以Google test(简称GTest)为例, GTest作为一个整体对外提供C++单元测试框架,其1.5版本的gtest工程下有6个源文件和12个头文件。但是它对外只提供一个gtest.h,只要包含gtest.h即可使用GTest提供的所有对外提供的功能,使用者不必关系GTest内部各个文件的关系,即使以后GTest的内部实现改变了,比如把一个源文件c拆成两个源文件,使用者也不必关心,甚至如果对外功能不变,连重新编译都不需要。
对于有些模块,其内部功能相对松散,可能并不一定需要提供这个.h,而是直接提供各个子模块或者.c的头文件。
比如产品普遍使用的VOS,作为一个大模块,其内部有很多子模块,他们之间的关系相对比较松散,就不适合提供一个vos.h。而VOS的子模块,如Memory(仅作举例说明,与实际情况可能有所出入),其内部实现高度内聚,虽然其内部实现可能有多个.c和.h,但是对外只需要提供一个Memory.h声明接口。
建议3.2:如果一个模块包含多个子模块,则建议每一个子模块提供一个对外的.h,文件名为子模块名。
说明:降低接口使用者的编写难度。
建议3.3:头文件不要使用非习惯用法的扩展名,如.inc。
说明:目前很多产品中使用了.inc作为头文件扩展名,这不符合c语言的习惯用法。在使用.inc作为头文件扩展名的产品,习惯上用于标识此头文件为私有头文件。但是从产品的实际代码来看,这一条并没有被遵守,一个.inc文件被多个.c包含比比皆是。本规范不提倡将私有定义单独放在头文件中,具体见 规则1.1。
除此之外,使用.inc还导致source insight、 Visual stduio等IDE工具无法识别其为头文件,导致很多功能不可用,如“跳转到变量定义处”。虽然可以通过配置,强迫IDE识别.inc为头文件,但是有些软件无法配置,如Visual Assist只能识别.h而无法通过配置识别.inc。
建议3.4:同一产品统一包含头文件排列方式。
说明:常见的包含头文件排列方式: 功能块排序、文件名升序、稳定度排序。
以稳定度排序,建议将不稳定的头文件放在前面,如把产品的头文件放在平台的头文件前面,如下:
相对来说, product.h修改的较为频繁,如果有错误,不必编译platform.h就可以发现product.h的错误,可以部分减少编译时间。
其它:
1 头文件名应尽量与实现功能的源文件相同,即module.c和module.h。但源文件不一定要包含其同名的头文件。
2 头文件中不应包含本地数据,以降低模块间耦合度。
即只有源文件自己使用的类型、宏定义和变量、函数声明,不应出现在头文件里。作用域限于单文件的私有变量和函数应声明为static,以防止外部调用。将私有类型置于源文件中,会提高聚合度,并减少不必要的格式外漏。
3 说明性头文件不需要有对应的源文件。此类头文件内大多包含大量概念性宏定义或枚举类型定义,不包含任何其他类型定义和变量或函数声明。此类头文件也不应包含任何其他头文件。
4 C++中要引用C函数时,函数所在头文件内应包含extern \”C\”。
被extern \”C\”修饰的变量和函数将按照C语言方式编译和连接,否则编译器将无法找到C函数定义,从而导致链接失败。
5 头文件内要有面向用户的充足注释,从应用角度描述接口暴露的内容。
代码文件组织原则
建议C语言项目中代码文件组织遵循以下原则:
1)使用层次化和模块化的软件开发模型。每个模块只能使用所在层和下一层模块提供的接口。
2)每个模块的文件(可能多个)保存在一个独立文件夹中。
模块文件较多时可采用子目录的方式,物理上隔离不同层次的文件。子目录下源文件和头文件应分开存放,如分别置入include和source目录。
3)用于模块裁减的条件编译宏保存在一个独立文件中,便于软件裁减。
4)硬件相关代码和操作系统相关代码与工程代码相对独立保存,以便于软件移植。
5)按相同功能或相关性组织源文件和头文件。同一文件内的聚合度要高,不同文件中的耦合度要低。
在对既有工程做单元测试时,耦合度低的文件布局非常便于搭建环境。
6)声明和定义分开,使用头文件暴露模块需要提供给外部的类型、宏、变量和函数。尽量做到模块对外部透明,用户在使用模块功能时无需了解具体的实现。
7)作为对外接口的头文件一经发布,应保持稳定。修改时一定要慎重。
8)文件夹和文件命名要能够反映出模块的功能。
9)正式版本和测试版本使用统一文件,使用宏控制是否产生测试输出。
10)必要的注释不可缺少。
注释:
[a1] 例如一些屏驱动的地址文件,一些协议的格式定义文件,只存在.c或者.h即可,不一定两者都要有。
[a2] 自包含是指一个文件做为单独的模块,尽量避免自己的声明声明依赖外部的接口而产生包含,自包含也就是尽量要做到自我实现,实现尽可能少的包含和依赖。
[a3] 这种做法应该尽量避免,而是通过调用头文件的方式来使用该函数。
[a4] 随着工程量的增大,后面某个细节调整了foo函数,但其它extern调用它的地方没有及时改正,而编译器又没有报错,导致bug出现,而且不易查找。
ref:
https://blog.csdn.net/fengcq126/article/details/103016917
https://mp.weixin.qq.com/s/ZEGSQKp75FuRyJpfSdrOoQ
-End-
C/C++|头文件、源文件分开写的源起及作用
通常,在一个 C++ 程序中,只包含两类文件—— .cpp 文件和 .h 文件。其中,.cpp 文件被称作 C++ 源文件,里面放的都是 C++ 的源代码;而 .h 文件则被称作 C++ 头文件,里面放的也是 C++ 的源代码。
C++ 语言支持“分别编译”(separatecompilation)。也就是说,一个程序所有的内容,可以分成不同的部分分别放在不同的 .cpp 文件里。.cpp 文件里的东西都是相对独立的,在编译(compile)时不需要与其他文件互通,只需要在编译成目标文件后再与其他的目标文件做一次链接(link)就行了。比如,在文件 a.cpp 中定义了一个全局函数 \”void a(){}\”,而在文件 b.cpp 中需要调用这个函数。即使这样,文件 a.cpp 和文件 b.cpp 并不需要相互知道对方的存在,而是可以分别地对它们进行编译,编译成目标文件之后再链接,整个程序就可以运行了。
这是怎么实现的呢?从写程序的角度来讲,很简单。在文件 b.cpp 中,在调用 \”void a()\” 函数之前,先声明一下这个函数 \”void a();\”,就可以了。这是因为编译器在编译 b.cpp 的时候会生成一个符号表(symbol table),像 \”void a()\” 这样的看不到定义的符号,就会被存放在这个表中。再进行链接的时候,编译器就会在别的目标文件(实现文件)中去寻找这个符号的定义。一旦找到了,程序也就可以顺利地生成了,如果找不到,则会产生链接错误。
注意这里提到了两个概念,一个是\”定义\”,一个是\”声明\”。简单地说,\”定义\”就是把一个符号完完整整地描述出来:它是变量还是函数,返回什么类型,需要什么参数等等。而\”声明\”则只是声明这个符号的存在,即告诉编译器,这个符号是在其他文件中定义的,我这里先用着,你链接的时候再到别的地方去找找看它到底是什么吧。定义的时候要按 C++ 语法完整地定义一个符号(变量或者函数),而声明的时候就只需要写出这个符号的原型了。需要注意的是,一个符号,在整个程序中可以被声明多次,但却要且仅要被定义一次。试想,如果一个符号出现了两种不同的定义,编译器该听谁的?
这种机制给 C++ 程序员们带来了很多好处,同时也引出了一种编写程序的方法。考虑一下,如果有一个很常用的函数 \”void f() {}\”,在整个程序中的许多 .cpp 文件中都会被调用,那么,我们就只需要在一个文件中定义这个函数,而在其他的文件中声明这个函数就可以了。
这是否和外部调用有关?为什么现在大多数语言都没有采用这种设计?为什么调用dll有时需要使用Windows提供的API导出函数或者结构,而不能直接include xxxx.h或者像C#写的dll那样在项目中添加引用然后直接using xxxx。
需要从C/C++历史演变的角度回答下这个问题。
上世纪70年代初,C语言初始版本被设计出来时,是没有头文件的。这一点与后世的Java只有.java文件,C#只有.cs文件很相似。即使是现代的C编译器,头文件也不是必须的。我使用下面这个例子说明:
上例只有两个源文件,alpha.c与beta.c。其中alpha.c使用了一个自定义函数print_hello,beta.c中使用了标准库函数puts。注意:alpha.c与beta.c都没有包含任何头文件。
你可以使用MSCL编译器来编译:
cl/Fe:program.exealpha.cbeta.c
或者GCC以及Clang:
clang-oprogramalpha.cbeta.c
这样会得到一个名为program的可执行文件,并且它可以正常工作。
以beta.c为例:当beta.c被编译时,编译器解析到名为puts的符号,虽然它是未定义的,但从语法上可以判断puts是一个函数,故而将其认定为函数,作为外部符号等待链接就可以了(倘若alpha,beta是C++源文件,编译无法通过,这个后文会做解释)。
下面我用ASCII字符绘制的“编译”与“链接”流程图:
相信这个流程作为基础知识已广为人知,我就不再赘述了。问题在于:当初为什么要采用这样的设计?将“编译”、“链接”两个步骤区分开,并让用户可知是什么意图?
其实这是上世纪60、70年代各语言的“套路”做法,因为各个obj文件可能并不是同一种语言源文件编译得到的,它们可能来自于C,可能是汇编、也可能是Fortran这样与C一样的高级语言。即是说“编译”、“链接”的流程其实是这样的:
所以,编译阶段C源文件(当然也包括其它语言的源文件)是不与其它源文件产生关系的,因为编译器(这里指的是狭义的编译器,不包括链接器)本身有可能并不能识别其它源。
说到这里,定然有人要问:连函数参数和返回值都不知道,直接链接然后调用,会不会出现问题。答案是:不会,至少当时不会。因为当时的C只有一种数据类型,即“字长”(同时代的大多数语言也一样)。
我们考虑这样一个函数调用:
n=add(1,2,3,4);
首先,add函数的调用者,将4个参数自右向左压入栈,即是说压栈完成后1在栈顶,4在栈底;然后,add被调用,对于被调用者(也就是add)而言,栈长度是不可知的,但第一个参数在栈顶,往下一个字长就是第二个参数,以此类推,所以栈长度不可知并不会带来问题;add处理完成后,将返回值放入数据寄存器,并返回;调用者弹栈,因为压栈操作是调用者实施的,故而栈长度、压栈前栈顶位置等信息调用者是可知的,可以调用者有能力保持栈平衡。
这里说一个题外话:倘若调用者压栈的参数不够,那会如何?答案是被调用者会在栈上读到垃圾数据;又问:倘若被调用者没有返回值,那会如何?答案是调用者会在寄存器得到垃圾数据;再问:如此在代码维护上不会有问题吗?答案是从后来的实践上看,问题不大,其实可以对比下如今python、lua等弱类型语言。
通过上面的论述,我们得知C语言设计之初是没有头文件的,调用某个函数也不需要提前声明。
不过好景不长,后来出现了不同的数据类型。例如出于可移植性和内存节省的考虑,出现了short int、long int;为了加强对块处理的IO设备的支持,出现了char。如此就带来了一个问题,即函数的调用者不知道压栈的长度。例如有函数调用:
add(x,y);
调用者知道add是一个函数,也知道需要将x、y压栈,但应该是先压2个字节、再压4个字节喃,还是先压4个字节,再压2个字节喃;还是连续压2个4字节喃?
这里需要说明一下,在上世纪80年代intel8084系的处理器普及以前,并没有公认的“字节(byte)”概念,以上只是我举例方便。
紧接着结构体等特性陆续引入,问题变得更复杂。在这种情况下,函数调用需要提前声明,以便让调用者得知函数的参数与返回值尺寸(结构体使用也需要提前声明,以便让调用者知道其成员、尺寸、内存对其规则等,这里不赘述了)。
这里有人可能就会问了:为什么在编译一个源文件时,不去其它源文件查找声明,就如后世的Java、C#一样。主要原因上文已经说过:C源文件在编译时不与其它源产生关系,因为其它源可能根本就不是C;此外使用include将声明插入到源文件中,技术实现毕竟很简单,也可以说是一种技术惯性。
又后来出现了C++,由于函数重载、模板等特性,当编译器识别到一个函数,不仅是参数与返回值尺寸,连调用哪一个函数都无法从函数名辨别了(即上文的“倘若alpha,beta是C++源文件,编译无法通过,这个后文会做解释”一语)。函数与数据结构需要提前声明才能使用更是不可或缺。
对于函数声明,一个函数还好对付,声明起来也就一句话。但是,如果函数多了,比如是一大堆的数学函数,有好几百个,那怎么办?能保证每个程序员都可以完完全全地把所有函数的形式都准确地记下来并写出来吗?
很显然,答案是不可能。但是有一个很简单地办法,可以帮助程序员们省去记住那么多函数原型的麻烦:我们可以把那几百个函数的声明语句全都先写好,放在一个文件里,等到程序员需要它们的时候,就把这些东西全部 copy 进他的源代码中。
这个方法固然可行,但还是太麻烦,而且还显得很笨拙。于是,头文件便可以发挥它的作用了。所谓的头文件,其实它的内容跟 .cpp 文件中的内容是一样的,都是 C++ 的源代码。但头文件不用被编译。我们把所有的函数声明全部放进一个头文件中,当某一个 .cpp 源文件需要它们时,它们就可以通过一个宏命令 \”#include\” 包含进这个 .cpp 文件中,从而把它们的内容合并到 .cpp 文件中去。当 .cpp 文件被编译时,这些被包含进去的 .h 文件的作用便发挥了。
举一个例子吧,假设所有的数学函数只有两个:f1 和 f2,那么我们把它们的定义放在 math.cpp 里:
并把\”这些\”函数的声明放在一个头文件 math.h 中:
在另一个文件main.cpp中,我要调用这两个函数,那么就只需要把头文件包含进来:
这样,便是一个完整的程序了。需要注意的是,.h 文件不用写在编译器的命令之后,但它必须要在编译器找得到的地方(比如跟 main.cpp 在一个目录下)main.cpp 和 math.cpp 都可以分别通过编译,生成 main.o 和 math.o,然后再把这两个目标文件进行链接,程序就可以运行了。
#include 是一个来自 C 语言的宏命令,它在编译器进行编译之前,即在预编译的时候就会起作用。#include 的作用是把它后面所写的那个文件的内容,完完整整地、一字不改地包含到当前的文件中来。值得一提的是,它本身是没有其它任何作用与副功能的,它的作用就是把每一个它出现的地方,替换成它后面所写的那个文件的内容。简单的文本替换,别无其他。因此,main.cpp 文件中的第一句(#include\”math.h\”),在编译之前就会被替换成 math.h 文件的内容。即在编译过程将要开始的时候,main.cpp 的内容已经发生了改变:
不多不少,刚刚好。同理可知,如果我们除了 main.cpp 以外,还有其他的很多 .cpp 文件也用到了 f1 和 f2 函数的话,那么它们也通通只需要在使用这两个函数前写上一句 #include \”math.h\” 就行了。
系统自带的头文件用尖括号括起来,这样编译器会在系统文件目录下查找。
用户自定义的文件用双引号括起来,编译器首先会在用户目录下查找,然后在到 C++ 安装目录(比如 VC 中可以指定和修改库文件查找路径,Unix 和 Linux 中可以通过环境变量来设定)中查找,最后在系统文件中查找。
这个问题实际上是说,已知头文件 \”a.h\” 声明了一系列函数,\”b.cpp\” 中实现了这些函数,那么如果我想在 \”c.cpp\” 中使用 \”a.h\” 中声明的这些在 \”b.cpp\”中实现的函数,通常都是在 \”c.cpp\” 中使用 #include \”a.h\”,那么 c.cpp 是怎样找到 b.cpp 中的实现呢?
其实 .cpp 和 .h 文件名称没有任何直接关系,很多编译器都可以接受其他扩展名。如cpp 文件用 .cc 扩展名。
在 Turbo C 中,采用命令行方式进行编译,命令行参数为文件的名称,默认的是 .cpp 和 .h,但是也可以自定义为 .xxx 等等。
编译器预处理时,要对 #include 命令进行\”文件包含处理\”,这也正说明了,为什么很多编译器并不 care 到底这个文件的后缀名是什么—-因为 #include 预处理就是完成了一个\”复制并插入代码\”的工作。
编译的时候,并不会去找 b.cpp 文件中的函数实现,只有在 link 的时候才进行这个工作。我们在 b.cpp 或 c.cpp 中用 #include \”a.h\” 实际上是引入相关声明,使得编译可以通过,程序并不关心实现是在哪里,是怎么实现的。源文件编译后成生了目标文件(.o 或 .obj 文件),目标文件中,这些函数和变量就视作一个个符号。在 link 的时候,需要在 makefile 里面说明需要连接哪个 .o 或 .obj 文件(在这里是 b.cpp 生成的 .o 或 .obj 文件),此时,连接器会去这个 .o 或 .obj 文件中找在 b.cpp 中实现的函数,再把他们 build 到 makefile 中指定的那个可以执行文件中。
在 Unix下,甚至可以不在源文件中包括头文件,只需要在 makefile 中指名即可(不过这样大大降低了程序可读性,是个不好的习惯)。在 VC 中,一般情况下不需要自己写 makefile,只需要将需要的文件都包括在 project中,VC 会自动帮你把 makefile 写好。
通常,C++ 编译器会在每个 .o 或 .obj 文件中都去找一下所需要的符号,而不是只在某个文件中找或者说找到一个就不找了。因此,如果在几个不同文件中实现了同一个函数,或者定义了同一个全局变量,链接的时候就会提示 \”redefined\”。
函数的声明写在头文件中,实现放在源文件中,以及分开编译的机制,对于函数的使用者来说,只需通过头文件便可知道有哪些函数可供使用以及如何使用,而无需关注其实现的具体细节。对于函数的实现者来说,一方面可以隐藏函数的实现,另一方面,更新函数的实现也无须使用者修改其调用函数的代码,也就是说,只是保持头文件(接口)的稳定性,而具体实现可以随时更新,不会对函数使用者产生影响。
通过上面的讨论,我们可以了解到,头文件的作用就是被其他的 .cpp 包含进去的。它们本身并不参与编译,但实际上,它们的内容却在多个 .cpp 文件中得到了编译。通过\”定义只能有一次\”的规则,我们很容易可以得出,头文件中应该只放变量和函数的声明,而不能放它们的定义。因为一个头文件的内容实际上是会被引入到多个不同的 .cpp 文件中的,并且它们都会被编译。放声明当然没事,如果放了定义,那么也就相当于在多个文件中出现了对于一个符号(变量或函数)的定义,纵然这些定义都是相同的,但对于编译器来说,这样做不合法。
所以,应该记住的一点就是,.h头文件中,只能存在变量或者函数的声明,而不要放定义。即,只能在头文件中写形如:extern int a; 和 void f(); 的句子。这些才是声明。如果写上 int a;或者 void f() {} 这样的句子,那么一旦这个头文件被两个或两个以上的 .cpp 文件包含的话,编译器会立马报错。
但是,这个规则是有三个例外的:
6.1 头文件中可以写 const 对象的定义。因为全局的 const 对象默认是没有 extern 的声明的,所以它只在当前文件中有效。把这样的对象写进头文件中,即使它被包含到其他多个 .cpp 文件中,这个对象也都只在包含它的那个文件中有效,对其他文件来说是不可见的,所以便不会导致多重定义。同时,因为这些 .cpp 文件中的该对象都是从一个头文件中包含进去的,这样也就保证了这些 .cpp 文件中的这个 const 对象的值是相同的,可谓一举两得。同理,static 对象的定义也可以放进头文件。
6.2 头文件中可以写内联函数(inline)的定义。因为inline函数是需要编译器在遇到它的地方根据它的定义把它内联展开的,而并非是普通函数那样可以先声明再链接的(内联函数不会链接),所以编译器就需要在编译时看到内联函数的完整定义才行。如果内联函数像普通函数一样只能定义一次的话,这事儿就难办了。因为在一个文件中还好,我可以把内联函数的定义写在最开始,这样可以保证后面使用的时候都可以见到定义;但是,如果我在其他的文件中还使用到了这个函数那怎么办呢?这几乎没什么太好的解决办法,因此 C++ 规定,内联函数可以在程序中定义多次,只要内联函数在一个 .cpp 文件中只出现一次,并且在所有的 .cpp 文件中,这个内联函数的定义是一样的,就能通过编译。那么显然,把内联函数的定义放进一个头文件中是非常明智的做法。
6.3 头文件中可以写类(class)的定义。因为在程序中创建一个类的对象时,编译器只有在这个类的定义完全可见的情况下,才能知道这个类的对象应该如何布局,所以,关于类的定义的要求,跟内联函数是基本一样的。所以把类的定义放进头文件,在使用到这个类的 .cpp 文件中去包含这个头文件,是一个很好的做法。在这里,值得一提的是,类的定义中包含着数据成员和函数成员。数据成员是要等到具体的对象被创建时才会被定义(分配空间),但函数成员却是需要在一开始就被定义的,这也就是我们通常所说的类的实现。一般,我们的做法是,把类的定义放在头文件中,而把函数成员的实现代码放在一个 .cpp 文件中。这是可以的,也是很好的办法。不过,还有另一种办法。那就是直接把函数成员的实现代码也写进类定义里面。在 C++ 的类中,如果函数成员在类的定义体中被定义,那么编译器会视这个函数为内联的。因此,把函数成员的定义写进类定义体,一起放进头文件中,是合法的。注意一下,如果把函数成员的定义写在类定义的头文件中,而没有写进类定义中,这是不合法的,因为这个函数成员此时就不是内联的了。一旦头文件被两个或两个以上的 .cpp 文件包含,这个函数成员就被重定义了。
综上所述,.h文件可以包含:
函数的声明;
静态函数的定义;
结构体的声明;
类成员数据的声明,但不能赋值;
类静态数据成员的定义和赋值,但不建议,只是个声明就好;
类的成员函数的声明;
非类成员函数的声明;
常数的定义:如:constint a=5;
类的内联函数的定义;
不能包含:
所有非静态变量(不是类的数据成员)的声明(对于C来说,除了extern,声明就是定义);
默认命名空间声明不要放在头文件,using namespace std;等应放在.cpp中,在 .h 文件中使用 std::string;
考虑一下,如果头文件中只包含声明语句的话,它被同一个 .cpp 文件包含再多次都没问题——因为声明语句的出现是不受限制的。然而,上面讨论到的头文件中的三个例外也是头文件很常用的一个用处。那么,一旦一个头文件中出现了上面三个例外中的任何一个,它再被一个 .cpp 包含多次的话,问题就大了。因为这三个例外中的语法元素虽然\”可以定义在多个源文件中\”,但是\”在一个源文件中只能出现一次\”。设想一下,如果 a.h 中含有类 A 的定义,b.h 中含有类 B 的定义,由于类B的定义依赖了类 A,所以 b.h 中也 #include了a.h。现在有一个源文件,它同时用到了类A和类B,于是程序员在这个源文件中既把 a.h 包含进来了,也把 b.h 包含进来了。这时,问题就来了:类A的定义在这个源文件中出现了两次!于是整个程序就不能通过编译了。你也许会认为这是程序员的失误——他应该知道 b.h 包含了 a.h ——但事实上他不应该知道。
使用 \”#define\” 配合条件编译可以很好地解决这个问题。在一个头文件中,通过 #define 定义一个名字,并且通过条件编译 #ifndef…#endif 使得编译器可以根据这个名字是否被定义,再决定要不要继续编译该头文中后续的内容。这个方法虽然简单,但是写头文件时一定记得写进去。
-End-
本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com
文章为作者独立观点不代本网立场,未经允许不得转载。