章末小测试
本章涵盖了很多方面!如果你没有掌握所有细节,不用担心;接下来的章节将继续帮助你了解🤗 Datasets 内在运作机制。
不过,在继续下一章之前,让我们测试一下你在本章学到的内容。
1.🤗 Datasets 中的 load_dataset () 函数允许你从下列哪个位置加载数据集?
2.假设你按照以下方式加载了一个 GLUE 任务:
from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")
以下哪个命令可以从 dataset
中生成 50 个元素的随机样本?
3.假设你有一个关于家庭宠物的数据集 pets_dataset ,它有一个 name 列表示每个宠物的名字。以下哪种方法可以筛选出所有名字以 “L” 开头的宠物数据?
4.什么是内存映射?
5.下列哪一项是内存映射的主要好处?
6.为什么下面的代码是错误的?
from datasets import load_dataset
dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]