1、第一范式:消除一个字段包含多个数据库值,消除一个记录包含重复的组(单独的一列包含多个项目),即可满足1NF。
2、第二范式:消除部分依赖性即可转化为2NF。部分依赖性表示一个记录中包括的字段只依赖于主键的一部分。解决部分依赖性的最简单方法是将复合主键分成两部分,每一部分表示一个单独的表。
3、第三范式:消除可传递依赖性即可满足3NF。可传递依赖性表示记录中至少一个值不依赖主键,而是依赖于这个记录中的另一个字段。
4、数据库规范化:
1NF:删除重复的组,并确定一个主键或复合主键。
2NF:确定表处于1NF状态,消除任何部分依赖性。
3NF:确定表处于2NF状态,消除任何可传递依赖性。
5、连接数据库中的表:大多数情况下,两个表之间的连接是通过一个公共字段建立的。公共字段是两个表中都存在的一个字段。许多情况下,公共字段是其中一个表的主键。外键一般出现在“多”端。
6、关系数据库中不能存在多对多关系。用来消除多对多关系的最常用方法是通过添加桥接表来创建两个一对多关系。
二、数据库设计相关 1.数据规范化 关系模式满足的约束条件称为范式。范式由低到高分为:1NF、2NF、3NF、BCNF、4NF、5NF。 规范化:就是指把一个低一级的关系模式分解为高一级关系模式的过程。 规范化的基本思想:逐步消除不合适的函数依赖,使数据库中的各个关系模式达到某种程度的分离。 函数依赖:通俗的说,就像自变量x确定之后,相应的函数值f(x)也就唯一的确定了一样。 码:给定一个码能完全决定一个元组。一个关系可能有多个码,选其中一个做为主码。包含在任一码中的属性称为主属性。不包含在任何码中的属性称为非主属性。 第一范式(1NF):如果关系中所有属性的值域都是简单域,其元素(属性)不可再分,是属性项不是属性组,那么关系模式属于第一范式。这一限制是关系的基本性质,所以任何关系都必须满足第一范式。 第二范式(2NF):如果一个范式属于1NF,且所有的非主属性都完全的依赖主属性,称为第二范式。可以用分解的方法消除部分依赖的情况,而使关系达到2NF的标准。方法是从现有关系中分解出新的关系表,使每个表中所有的非关键字都完全依赖于各自的主关键字。 (消除部分依赖) 第三范式(3NF):如果一个关系属于2NF,且每个非主属性不传递依赖于主属性,这种关系是3NF。从2NF中消除传递依赖,就是3NF。 (消除部分传递依赖) BC范式(BCNF): 无论2NF还是3NF都没有涉及主属性间的函数依赖,所以有时仍会引起一些问题。 定义:如果关系模式属于1NF,且每一个函数依赖关系中的决定因素都包含码,则关系满足BC范式。主属性对不含他的码完全函数依赖,没有属性完全函数依赖于一组非主属性。 多值依赖和4NF:第四范式是BC范式的推广。 定义:关系模式R属于1NF,若对任意多值依赖X??Y。X必包含R的主键,则称R是第四范式。 多值依赖:对列A中的一个值,不论列C取什么值,总有一组确定的列B的值。所以有A??B。如果A包含关系R的主键,则关系R满足4NF。可以采用分解法消除不满足4NF的多值依赖。 规范化设计带来的性能问题在实际应用中可能令人无法想象。如果出现这种情况,就要进行非规范化处理。由于非规范化必然导致冗余,占用更多的存储空间,因此需要对性能和空间的考虑进行平衡。常用方法有冗余属性,合并表等等。?
2.数据库设计
常用方法:
(1)基于3NF的数据库设计方法:
在需求分析的基础上,识别并确认数据库模式中的全部属性和属性间的依赖,将他们组织成一个单一的关系模式,然后再分析模式中不符合3NF的约束条件,用投影和连接的办法将其分解,使其达到3NF。
(2)LRA方法:逻辑记录存取法。
(3)基于实体联系(E-R)的数据库设计方法。
(4)基于视图概念的数据库设计方法。
(5)面向对象的关系数据库设计方法。
通常将数据库设计分为需求分析、概念结构设计、逻辑结构设计和数据库物理设计4个阶段。
?
概念结构设计常用的方法是实体分析法、属性综合法。
二元联系的类型与定义:二元联系指两个实体之间的联系。分为一对一、一对多、多对多3种。
(1)一对一联系:对于实体集A中的每一个实体,实体集B中至多有一个实体与之联系。
(2)一对多联系:对于实体集A中的每一个实体,实体集B有n个实体(n>=0)与之联系,反之对于实体集B中的每一个实体,实体集A至多只有一个实体与之联系。则实体集A与实体集B有一对多关系,记为1:n。
(3)多对多联系:若对于实体集A中的每一个实体,实体集B有n个实体(n>=0)与之联系。反过来,对于实体集B中的每一个实体,实体集A有m个实体(m>=0)与之联系。则实体集A与实体集B具有多对多联系,记为m:n。
消除冗余联系:若出现两个或两个以上的联系表示的是同一概念,则存在着冗余的联系,具有冗余联系的E-R模型转换为关系模型可能会得到非规范化的关系,因此必须予以消除。
?
警惕连接陷阱:
连接陷阱是一种存在语义缺陷的联系结构,分为扇形陷阱、断层陷阱、深层扇形陷阱3种信息。
扇形陷阱:指由一个实体引出的两种不同类型的扇形联系,形成双扇形结构。
3.数据库物理设计:
利用已确定的逻辑结构及DBMS提供的方法、技术。已较优的存储结构、数据存储路径、合理的数据存储位置及存储分配,设计一个高效可实现的物理数据库结构。
?
三、模式
数据库三级模式结构:这是数据库管理系统内部的系统结构。
1、概念模式:
只涉及行的描述,不涉及具体的值。概念模式的一个具体值称为模式的一个实例,同一模式可以有很多实例。概念模式反映的是数据库的结构及其联系,所以是相对稳定的。而实例反映的是数据库某一时刻的状态,所以是相对变动的。
概念模式不仅要描述记录类型,还要描述记录间的联系、操作、数据的完整性、安全性。但概念模式不涉及存储结构、访问技术等细节。
(注:可理解为系统表部分)
2、外模式:
也称用户模式或子模式。是用户与数据库系统的接口,是用户用到的那部分记录的描述。由若干外部记录组成,用户使用DML(数据操作语言)操作外模式的外部记录。
(注:可理解为用户表部分)
3、内模式:
也称存储模式,是数据库物理结构和存储方式的描述,是数据在数据库内部的表示方式。定义所有内部记录的类型、索引、文件的组织方式。记录的存储方式是顺序存储、B树存储、Hash方法存储等。
?
两级映像:模式/内模式映像、外模式/模式映像。
?
实体与记录:实体表示客观存在,能区别的事物。记录是字段的有序集合,一般一条记录描述一个实体。
属性与字段:属性描述实体某方面的特性,字段标记实体属性的命名单位。
码与记录码:码是唯一能区分实体的属性或属性集,记录码是唯一标识文件中的每条记录的字段或字段集。
实体集与文件:实体集是具有共同特性的实体的集合。文件是同一类记录的汇集。
实体型与记录型:实体型是属性的集合,记录型是记录的结构定义。
?
数据模型三要素:
数据库结构的基础是数据模型,是用来描述数据的一组概念和定义。
数据模型三要素是数据结构、数据操作、数据的约束条件。
?
E-R模型:是实体-联系模型的简称。所采用的3个主要概念是实体、联系、属性。
实体:现实世界中可以区别其它对象的物体或事件。
联系:实体的联系分为实体内部的联系和实体与实体之间的联系。
?
两个不同实体之间的联系:
(1)一对一:指实体集E1中的一个实体最多只与实体集E2中的一个实体相联系。(1:1)
(2)一对多:表示实体集E1中的一个实体可与实体集E2中的多个实体相联系。(1:N)
(3)多对多:表示实体集中E1中的多个实体可与实体集E2中的多个实体相联系。(M:N)
?
两个以上不同实体集的联系:
两个以上不同实体集之间存在1:1:1、1:1:N、1:M:N和R:M:N
?
同一实体集内的二元联系:
同一实体集内的各实体之间也存在1:1、1:N和M:N的联系。
?
属性是实体某方面的特性。
?
派生属性可以从其它属性得来,例如:参加工作时间和工作年限,工作年限可以从当前时间和参加工作时间得到,这里工作年限就是一个派生属性。
?
概念模型中最常用的方法是实体-联系法,简称E-R方法。
?
扩充的E-R模型:
弱实体:这种实体对另一些实体有着很强的依赖关系,即一个实体的存在必须以另一个实体为前提。例如职工与家属的关系。
特殊化:一个实体集可以按照某种特征区分为几个子实体。例如:学生实体集可以分为研究生、本科生、大专生。我们称这种过程为特殊化,反之叫普遍化。
?
层次模型:采用树形结构表示数据与数据之间的联系。
网状模型:采用网状结构表示数据与数据之间的联系。
?
关系模型:在关系模型中以表格结构表达实体集,以及实体集之间的联系。
?
关系代数:
笛卡尔积:D1={0,1}、D2={a,b}。D1*D2={0,a}{0,b}{1,a}{1,b}。
?
关系的3种类型:
基本关系:实际存在的表,是实际存储数据的逻辑表示。
查询表:查询结果对应的表。
视图表:由基本表或其它视图表导出的表,由于它本身不独立存储在数据库中。数据库只存放它的定义,所以常称为虚表。
?
完整性约束:
完整性规则提供了一种手段来保证授权用户对数据库操作修改时不会破坏数据的一致性。
?
关系的完整性分为3类:
(