如果我的数据集不在 Hub 上怎么办?
你已经知道如何使用 Hugging Face Hub 中的数据集,但你往往会发现自己需要处理在自己的笔记本电脑或者网络上的数据集。在本节中,我们将展示如何使用🤗 Datasets 加载不在 Hugging Face Hub 中的数据集。
使用本地和远程数据集
🤗 Datasets 提供了加载本地和远程数据集的方法。它支持几种常见的数据格式,例如:
数据格式 | 类型参数 | 加载的指令 |
---|---|---|
CSV & TSV | csv | load_dataset("csv", data_files="my_file.csv") |
Text files | text | load_dataset("text", data_files="my_file.txt") |
JSON & JSON Lines | json | load_dataset("json", data_files="my_file.jsonl") |
Pickled DataFrames | pandas | load_dataset("pandas", data_files="my_dataframe.pkl") |
如表所示,对于每种数据格式,我们只需要在 load_dataset()
函数中指定数据的类型,并使用 data_files
指定一个或多个文件的路径的参数。首先,我们从加载本地文件的数据集开始;稍后,我们将看到如何使用远程文件做同样的事情。
加载本地数据集
在这个例子中,我们将使用 SQuAD-it 数据集 ,这是一个用于意大利语问答的大规模数据集。
训练集和测试集都托管在 GitHub 上,因此我们可以通过 wget
命令非常轻易地下载它们:
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz !wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz
这将下载两个名为 SQuAD_it-train.json.gz
和 SQuAD_it-test.json.gz
的压缩文件,我们可以用 Linux 的 gzip
命令解压他们:
!gzip -dkv SQuAD_it-*.json.gz
SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json
我们可以看到压缩文件已经被替换为 SQuAD_it-train.json
和 SQuAD_it-test.json
,并且数据以 JSON 格式存储。
✏️ 如果你想知道为什么上面的 shell 命令中有一个 !
,那是因为我们现在是在 Jupyter notebook 中运行它们。如果你想在命令行中下载和解压缩数据集,只需删除前缀 !
即可。
当我们使用 load_dataset()
函数来加载 JSON 文件时,我们需要知道我们是在处理普通的 JSON(类似于嵌套字典)还是 JSON Lines(每一行都是一个 JSON)。像许多问答数据集一样,SQuAD-it 使用的是嵌套字典,所有文本都存储在 data
字段中。这意味着我们可以通过使用参数 field
来加载数据集,如下所示:
from datasets import load_dataset
squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data")
默认情况下,加载本地文件会创建一个带有 train
标签的 DatasetDict
对象。我们可以在这里查看一下 squad_it_dataset
对象:
squad_it_dataset
DatasetDict({
train: Dataset({
features: ['title', 'paragraphs'],
num_rows: 442
})
})
输出了与训练集的行数和列名。我们可以使用 train
标签来查看数据集中的一个示例,如下所示:
squad_it_dataset["train"][0]
{
"title": "Terremoto del Sichuan del 2008",
"paragraphs": [
{
"context": "Il terremoto del Sichuan del 2008 o il terremoto...",
"qas": [
{
"answers": [{"answer_start": 29, "text": "2008"}],
"id": "56cdca7862d2951400fa6826",
"question": "In quale anno si è verificato il terremoto nel Sichuan?",
},
...
],
},
...
],
}
很好,我们已经加载了我们的第一个本地数据集!但是,也仅仅加载了训练集,我们真正想要的是包含 train
和 test
的 DatasetDict
对象。这样的话就可以使用 Dataset.map()
函数同时处理训练集和测试集。为此,我们向 data_files
参数输入一个字典,将数据集的标签名映射到相关联的文件:
data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset
DatasetDict({
train: Dataset({
features: ['title', 'paragraphs'],
num_rows: 442
})
test: Dataset({
features: ['title', 'paragraphs'],
num_rows: 48
})
})
这正是我们想要的。现在,我们可以使用各种预处理技术来清洗数据、tokenize 评论等等。
load_dataset()
函数的 data_files
参数非常灵活:可以是单个文件路径、文件路径列表或者是标签映射到文件路径的字典。你还可以根据 Unix shell 的规则,对符合指定模式的文件进行批量匹配(例如,你可以通过设置 data_files="*.JSON"
匹配目录中所有的 JSON 文件)。有关load_dataset()
更多详细信息,请参阅 🤗Datasets 文档 。
🤗 Datasets 实际上支持自动解压输入文件,所以我们可以跳过使用 gzip
,直接将 data_files
参数设置为压缩文件:
data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
如果你不想手动解压缩许多 GZIP 文件,这会很有用。自动解压也支持于其他常见格式,如 ZIP 和 TAR,因此你只需将 data_files
设置为压缩文件所在的路径,接下来就交给🤗 Datasets 吧!
现在你知道如何在笔记本电脑或台式机上加载本地文件,让我们来看看如何加载远程文件。
加载远程数据集
如果你在公司担任数据研究员或编程员,那么你要分析的数据集很有可能存储在某个远程服务器上。幸运的是,加载远程文件就像加载本地文件一样简单!我们只需要将 load_dataset()
的 data_files
参数指向存储远程文件的一个或多个 URL。例如,对于托管在 GitHub 上的 SQuAD-it 数据集,我们可以将 data_files
设置为指向 SQuAD_it-*.json.gz
的网址,如下所示:
url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
"train": url + "SQuAD_it-train.json.gz",
"test": url + "SQuAD_it-test.json.gz",
}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
这将返回和上面的本地例子相同的 DatasetDict
对象,但省去了我们手动下载和解压 SQuAD_it-*.json.gz
文件的步骤。这是我们对加载未托管在 Hugging Face Hub 的数据集的各种方法的总结。既然我们已经有了一个可以使用的数据集,让我们开始大展身手吧!
✏️ 试试看! 选择托管在 GitHub 或 UCI 机器学习仓库 上的另一个数据集并尝试使用上述技术在本地和远程加载它。另外,可以尝试加载 CSV 或者文本格式存储的数据集(有关这些格式的更多信息,请参阅 文档 )。