If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

存储数据集

数字世界充满了数据。社交媒体应用收集有关我们的帖子和喜欢的数据。在线商店收集有关我们查看的产品的数据。广告代理商会收集有关点击内容的数据。
这些数据是如何存储的?它可以从计算机程序开始,其中变量将数据存储在存储器中,但最终需要以持久存储格式存储。程序停止运行后,数据需要可访问,理想情况下,还要易于分析。
让我们看一下存储数据的几个选项,从简单的文本文件到复杂的数据库。

文本文件

曾经在电脑上玩过游戏吗? 许多电脑游戏会记录您的高分,以帮助您衡量您的个人进步。
游戏可以将您的高分存储在计算机的文档中。
文件可能像这个“高分.txt”一样简单:
73
82
83
99
如果游戏还想存储高分的日期和达到的水平怎么办? 文件中的每一行都需要存储多条相关信息。 我们称之为“表格”数据,因为每一行都像一行表,每行有多列。
在文档文件中存储表格数据的共同格式是用逗号-分隔值 (CSV)。
这是可以存储在“高分.csv”中的内容:
date,level,score
01/11/2019,9,73
02/13/2019,10,82
02/14/2019,10,83
03/11/2019,11,99
文件中的第一行声明了“date”、“level”和“score”列。 后续行包含实际的数据行,首先是日期,然后是级别,然后是分数,所有行都用逗号分隔。
CSV文件是一种常见格式,因此有许多工具可以读写CSV文件。 其中一些工具面向用户,如电子表格应用程序(这里有 highscores.csv Google spreadsheet)。 对于开发人员来说,编程语言中有一些库可以从他们的应用程序中读取和写入CSV文件。
然而,CSV文件存在着明确的缺陷:
  • 它是单个文件,因此其大小受计算机硬盘空间和打开大文件所需的时间限制。
  • 它没有任何用于查询数据的内置工具,例如按列排序或计算列的顶部值。 要分析数据,我们需要在电子表格应用程序中打开CSV或编写迭代数据的程序。

数据库

大多数应用程序将数据存储在数据库中,所谓数据库,是一种以易于访问,更新,查询和删除的方式在计算机上存储数据的系统。
在幕后,数据库还将数据存储在文本文件中。但是,数据库管理系统会为我们处理所有细节,例如将数据拆分为适当大小的文件并记住每个文件中存储的数据。
为了与数据库交互,作为程序员或数据分析师,我们经常使用查询语言。 最流行的查询语言是SQL(结构化查询语言)。
我们将在这里介绍一些SQL,让您了解如何在数据库中存储和分析数据。 如果您希望自己能够编写SQL,可以在Khan Academy的 SQL介绍课程 课程中学习。
以下SQL示例创建一个数据库表来存储高分。左侧包含SQL,而右侧显示数据库模式和表中的所有行:
如您所见,查询语言类似于编程语言。 我们通过调用命令来实现,比如CREATEINSERTSELECT,我们使用有关我们想要创建,插入和选择的内容的其他详细信息来自定义这些命令。
数据库通常包含多个表,用于存储不同类型的收集数据。
例如,在线游戏需要为其用户配置文件存储表格 用于所有用户的高分数的表格。
此SQL示例创建两个表,一个用于用户,一个用于高分,并显示每个表中的行:
现在数据库正在将收集的数据存储在表中,我们可以分析数据以获得有用的见解。 这就是我们接下来要深入研究的内容。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.