一、数据库概要

    数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。

    在商业领域,信息就意味着商机,取得信息的一个非常重要的途径就是对数据进行分析处理,这就催生了各种专业的数据管理软件,数据库就是其中的一种。当然,数据库管理系统也不是一下子就建立起来,它也是经过了不断的丰富和发展,才有了今天的模样。

    1.发展历史

        1.1、人工处理阶段

            在20世纪50年代中期以前的计算机诞生初期,其处理能力很有限,只能够完成一些简单的运算,数据处理能力也很有限,这使得当时的计算机只能够用于科学和工程计算。计算机上没有专用的管理数据的软件,数据由计算机或处理它的程序自行携带。当数据的存储格式、读写路径或方法发生变化的时候,其处理程序也必须要做出相应的改变以保持程序的正确性。

        1.2、文件系统

            20世纪50年代后期到60年代中期,随着硬件和软件技术的发展,计算机不仅用于科学计算,还大量用于商业管理中。在这一时期,数据和程序在存储位置上已经完全分开,数据被单独组织成文件保存到外部存储设备上,这样数据文件就可以为多个不同的程序在不同的时间所使用。

虽然程序和数据在存储位置上分开了,而且操作系统也可以帮助我们对完成了数据的存储位置和存取路径的管理,但是程序设计仍然受到数据存储格式和方法的影响,不能够完全独立于数据,而且数据的冗余较大。

        1.3、数据库管理系统

            从20世纪70年代以来,计算机软硬件技术取得了飞跃式的发展,这一时期最主要的发展就是产生了真正意义上的数据库管理系统,它使得应用程序和数据之间真正的实现的接口统一、数据共享等,这样应用程序都可以按照统一的方式直接操作数据,也就是应用程序和数据都具有了高度的独立性。

    2、常见数据库技术品牌、服务与架构

         发展了这么多年市场上出现了许多的数据库系统,最强的个人认为是Oracle,但是体积也是最大的,当然还有许多如:DB2、Microsoft SQL Server、MySQL、SyBase等。

    3、数据库分类

        数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。

        而不同的数据库是按不同的数据结构来联系和组织的。

        而在当今的互联网中,最常见的数据库模型主要是两种,即关系型数据库和非关系型数据库。

        3.1、关系型数据库

            当前在成熟应用且服务与各种系统的主力数据库还是关系型数据库。

            代表:Oracle、SQL Server、MySQL

        3.2、非关系型数据库

            随着时代的进步与发展的需要,非关系型数据库应运而生。

            代表:Redis、Mongodb

            NoSQL数据库在存储速度与灵活性方面有优势,也常用于缓存。

    4、数据库规范化

        经过一系列的步骤,我们现在终于将客户的需求转换为数据表并确立这些表之间的关系,那么是否我们现在就可以在开发中使用呢?答案否定的,为什么呢!同一个项目,很多人参与了需求的分析,数据库的设计,不同的人具有不同的想法,不同的部门具有不同的业务需求,我们以此设计的数据库将不可避免的包含大量相同的数据,在结构上也有可能产生冲突,在开发中造成不便。

        4.1. 什么是范式

            要设计规范化的数据库,就要求我们根据数据库设计范式――也就是数据库设计的规范原则来做。范式可以指导我们更好地设计数据库的表结构,减少冗余的数据,借此可以提高数据库的存储效率,数据完整性和可扩展性。

            设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴德斯科范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多规范要求的称为第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。

        4.2. 三大范式

            第一范式(1NF)

                所谓第一范式(1NF)是指在关系模型中,对列添加的一个规范要求,所有的列都应该是原子性的,即数据库表的每一列都是不可分割的原子数据项,而不能是集合,数组,记录等非原子数据项。即实体中的某个属性有多个值时,必须拆分为不同的属性。在符合第一范式(1NF)表中的每个域值只能是实体的一个属性或一个属性的一部分。简而言之,第一范式就是无重复的域。

                例如:其中”地址”信息还可以细分为省份,城市等。在国外,更多的程序把”姓名”列也分成2列,即”姓”和“名”。

                虽然第一范式要求各列要保存原子性,不能再分,但是这种要求和我们的需求是相关联的,如果中我们对”地址”没有省份,城市这样方面的查询和应用需求,则不需拆分,”姓名”列也是同样如此。

            第二范式(2NF)

                在1NF的基础上,非Key属性必须完全依赖于主键。第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或记录必须可以被唯一地区分。选取一个能区分每个实体的属性或属性组,作为实体的唯一标识。

                第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。简而言之,第二范式就是在第一范式的基础上属性完全依赖于主键。

            第三范式(3NF)

                第三范式是在第二范式基础上,更进一层,第三范式的目标就是确保表中各列与主键列直接相关,而不是间接相关。即各列与主键列都是一种直接依赖关系,则满足第三范式。

                第三范式要求各列与主键列直接相关,我们可以这样理解,假设张三是李四的兵,王五则是张三的兵,这时王五是不是李四的兵呢?从这个关系中我们可以看出,王五也是李四的兵,因为王五依赖于张三,而张三是李四的兵,所以王五也是。这中间就存在一种间接依赖的关系而非我们第三范式中强调的直接依赖。

        4.3. 范式与效率

        在我们设计数据库时,设计人员、客户、开发人员通常对数据库的设计有一定的矛盾,客户更喜欢方便,清晰的结果,开发人员也希望数据库关系比较简单,降低开发难度,而设计人员则需要应用三大范式对数据库进行严格规范化,减少数据冗余,提高数据库可维护性和扩展性。由此可以看出,为了满足三大范式,我们数据库设计将会与客户、开发人员产生分歧,所以在实际的数据库设计中,我们不能一味的追求规范化,既要考虑三大范式,减少数据冗余和各种数据库操作异常,又要充分考虑到数据库的性能问题,允许适当的数据库冗余。

二、数据库名词

1、信息(Information)

    信息是可感知的、可存在的、可传递的自然属性;严格地讲,信息是指现实世界中的各种事物的特征及其联系等在人脑中的反映,是经过加工提炼,用于决定行为、计划,或具有一定语义的数据。

2、数据(Data)

    定义:数据是指存储在某一种媒体上,能够被计算机识别的物理符号。它是数据库中的基本对象。

    注意:数据是信息的具体表现形式,信息是数据的内涵,是对数据语义的解释。

3、数据库(Data Base,DB)

    是长期存储在计算机内有组织的、可共享的、统一管理的相关数据的集合,它可以使各种用户互不影响,具有最小冗余度和较高的数据独立性和易扩展性。

4、数据库管理系统(Data Base Management System,DBMS)

    是用于管理数据的计算机软件,主要研究如何利用计算机有效地组织数据、存储数据、获取和管理数据。

    具有以下功能:

    1)数据定义功能DDL

    2)数据控制功能

    3)数据操纵功能DML

    4)数据库的建立和维护功能

    5)数据字典

5、数据库系统(Data Base System,DBS)

    是实现有组织地、动态地存储大量关联数据,便于多用户访问的,由计算机硬件、软件和数据资源组成的系统,即它是采用数据库技术的计算机系统。一般在不引起混淆的情况下常常把数据库系统简称为数据库。

    数据库系统一般由4个部分组成:

     (1)数据库  

     (2)数据库管理系统 

     (3)数据库应用系统

     (4)数据库管理人员

6、数据库系统特点

    1)数据结构化

    2)数据冗余度小

    3)数据共享性好

    4)数据独立性高

    5)数据库保护-数据库管理系统具有对数据的统一管理和控制功能,主要包括数据的安全性、完整性、并发控制与故障恢复等,即数据库保护。

7、数据库逻辑模型(Database Logical model)

    分为三种:网状模型,层次模型,关系模型

8、表(Table)

    一个数据库表由一条或多条记录组成,没有记录的表称为空表。每个表中通常都有一个主关键字,用于惟一地确定一条记录。

9、列(Field)

    表中的列也称作字段或属性,表中每一列都有一个名称,成为字段名、属性名或列名,在同一表中,字段名必须唯一。

10、行(Row)

    表中的数据时按行存储的。表中的行也称为元组(Tuple)或记录(Record)。表中的一行即为一个元组。

11、关键字(key)

    关键字是表中能唯一确定一个元组的属性或属性组。关键字也称作码或主键。

12、候选键

    如果一个表中具有多个能够唯一表示一个元组的属性,则这些属性成为候选键。

13、外部关键字(Foreign Key)

    外部关键字也称作外键。如果表的一个字段不是本表的主键或候选键,而是另外一个表的主键或候选键,则该字段成为外键。

14、域(Domain)

    域表示属性的取值范围。

15、数据类型

    表中的每个列都有相应的数据类型,它限制或容许该列中存储的数据。

16、索引(Index)

    索引是根据指定的数据库表列建立起来的顺序。它提供了快速访问数据的途径,并且可监督表的数据,使其索引所指向的列中的数据不重复。

17、视图(View)

    一个虚拟的表,在数据库中并不实际存在。视图是由查询数据库表产生的,它限制了用户能看到和修改的数据。由此可见,视图可以用来控制用户对数据的访问,并能简化数据的显示,即通过视图只显示那些需要的数据信息。

18、关系图(Diagram)

    就是数据库表之间的关系示意图。利用它可以编辑表与表之间的关系。

19、默认值(Default)

    当在表中创建列或插入数据时,对没有指定其具体值的列或列数据项赋予事先设定好的值。

20、规则(Rule)

    规则是对数据库表中数据信息的限制。它限定的是表的列。

21、触发器(Trigger)

    触发器由事件来触发,可以查询其他表,而且可以包含复杂的SQL语句。它们主要用于强制服从复杂的业务规则或要求。

22、存储过程(Stored Procedure)

    存储过程是为完成特定的功能而汇集在一起的一组SQL 程序语句,经编译后存储在数据库中的SQL 程序。

23、用户(User)

    就是有权限访问数据库的人。

24、第一范式

    是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。

25、第二范式

    是数据库规范化中所使用的一种正规形式。它的规则是要求数据表里的所有数据都要和该数据表的主键有完全依赖关系;如果有哪些数据只和主键的一部份有关的话,它就不符合第二范式。同时可以得出:如果一个数据表的主键只有单一一个字段的话,它就一定符合第二范式(前提是该数据表符合第一范式)。

26、第三范式

    每个非关键字列都独立于其他非关键字列,并依赖于关键字,第三范式指数据库中不能存在传递函数依赖关系。

文章信息

创建时间
2023-12-11
作者
郭铭心
是否所有人可见
所有人可见
最后修改日期
2023-12-11
点击数
331
标签