# 数据管理

数据管理模块是对标注平台的数据进行集中管理的场所。该模块可以方便的在线管理数据集。对数据集上传、导入、预览等操作。数据管理模块包括数据集、数据处理、进度三个子菜单(子模块)

# 数据集

数据集按照结构可以分为:数据集 —> 目录 —> 文件。一个数据集下可以包含多个目录,一个目录下包含多个文件。
支持对数据集的数据批次追加和批次管理的功能。
※批次概念:数据集下的第一级目录通常称为批次。数据集下第一级有几个目录,就代表该数据集有几个批次。批次是进行任务标注时数据划分的最小单元。

# 新建数据集

通过管理平台的左侧菜单“数据”,先点击数据集菜单,再点击“导入”按钮,可以新建数据集。
新建数据集

# 导入数据集

导入数据集

# 数据集类型

数据集按照导入原始数据的类型不同,划分如以下几种类型:

一、图片:标注数据为图片类型,且分辨率在10000*10000像素以下,通常使用图片类模板进行标注;

二、语音:标注数据为语音类型,通常为wav格式,使用语音类模板进行标注;

三、文本:标注数据为文本类型,使用文本类模板进行标注;

四、视频:标注数据为视频类型,使用视频类模板进行标注;

五、点云:标注数据为点云或点云与2D图片融合类型,使用点云类模板进行标注;

六、图片-大图:通常用于较大分辨率的遥感影像类型。

# 上传方式

标注平台的数据集支持三种上传和导入方式:一、从本地上传;二、导入外部索引;三、FTP上传

一、从本地上传:
数据从本地电脑上传到标注平台,待标注数据最终存储在标注平台。

  1. 图片数据集:支持上传文件类型有 .png .jpg .jpeg .gif .bmp .tif .tiff .json .zip

  2. 语音数据集:支持上传文件类型有 .wav .mp3 .aac .json .zip

  3. 文本数据集:支持上传文件类型为 .csv .txt .zip
    文本通用csv样例,适用模板:实体、实体关系、阅读理解、交互意图、文本属性、文档属性:文本类导入CSV模板.csv
    文本问答对csv样例:问答对数据模板.csv
    文本全链路csv样例:全链路模板.csv

  4. 视频数据集:支持上传文件类型为 .ogg .ogv .webm .mp4 .zip

  5. 点云数据集:支持上传文件类型为 .pcd .jpg .png .jepg .bmp .gif .json .csv .zip

  6. 图片-大图数据集:支持上传文件类型有 .png .jpg .jpeg .gif .bmp .json .tif .tiff .zip

二、导入外部索引:
数据存储在外部平台,将数据访问链接(http地址)通过.csv文件方式上传到标注平台,平台模板加载时直接加载外部索引链接进行标注。该种方式数据最终保存在外部平台,标注平台不保存数据副本。

使用该种方式需要满足如下两点:

  1. 索引文件中的每条数据均支持通过HTTP协议访问;
  2. 标注平台 - 数据存储平台 - 标注终端 三者之间均需要打通网络数据访问权限;

所有类型的数据集都支持外部索引方式上传数据。索引文件示例:

  1. 语音类外部索引样例:语音类外部索引模板.csv
  2. 图片类外部索引样例:图片类外部索引模板.csv
  3. 点云类外部索引样例:点云类外部索引模板.csv
  4. 图片-大图类外部索引样例:图片-大图类外部索引模板.csv

三、FTP上传:
使用FTP上传数据,需要提前在标注平台NACOS中设置好FTP服务器的地址、端口、用户名和密码信息,并打通标注平台到FTP服务器之间网络访问权限。
该种方式原始数据存储在外部平台,通过FTP协议将数据从外部平台导入到标注平台,最终标注数据存储在标注平台。

FTP上传

使用FTP方式导入数据,需要指定FTP服务器下的数据路径。点击“导入数据”后,平台会自动拉取远程FTP服务器该路径下的所有数据,并保持原目录结构导入成标注平台的数据集。

注意事项:

  1. 默认使用UTF-8编码格式进行数据传输,其他编码格式可能出现包含中文路径的数据和中文名称数据无法导入的情况;

  2. FTP目录下不能包含zip包;

  3. 请勿导入FTP根目录或过大数据量的目录。建议一次性导入量:文件数量 < 5000条,数据大小 < 5 GB。数据集过于庞大不利于标注任务拆解,远程FTP数据目录过大时请考虑目录拆分导入方案;

  4. FTP导入时,服务器下的数据格式与本地上传的要求格式略有区别。FTP可导入数据格式如下:

① 图片数据集:支持上传文件类型有 .png .jpg .jpeg .gif .bmp .tif .tiff .json

② 语音数据集:支持上传文件类型有 .wav .mp3 .aac .json

③ 文本数据集:支持上传文件类型为 .txt

④ 视频数据集:支持上传文件类型为 .ogg .ogv .webm .mp4

⑤ 点云数据集:支持上传文件类型为 .pcd .jpg .png .jepg .bmp .gif .json .csv

⑥ 图片-大图数据集:支持上传文件类型有 .png .jpg .jpeg .gif .bmp .json .tif .tiff

# 是否去重

从本地上传时,支持通过MD5对数据进行校验去重;外部索引和FTP导入的方式不支持MD5去重。

# 上传步骤:

  1. 基本信息填写:数据集名称、数据集类型、数据集相关标签。

  2. 本地上传:选择上传的数据,包含二种上传数据的方式:
    (1) 本地电脑选择需上传的文件,可以同时上传一个或者多个文件或者选择文件的zip包,点击【打开】,将其添加到待上传列表。
    (2) 通过鼠标在本地电脑上选中文件夹或者多个文件夹或者文件夹的压缩成的zip包,将其拖动至上传页面的上传控件完成添加到待上传列表。
    待上传的文件可以通过点击缩略图右上方的“回收站”图标进行删除,点击“继续添加”按钮,可以向待上传列表中添加上传数据,

  3. 导入外部索引:与“从本地上传”操作相同,只不过上传的是csv索引文件;

  4. FTP上传:在“数据存放路径”中填入FTP服务器中的数据存储路径即可;

  5. 点击“导入数据”按钮进行导入。数据集本地上传为断点续传,对于上传中途发生断网等异常情况,待恢复后可以继续上传。

# 注意事项:

  • 数据集名称必须唯一,否则无法上传。
  • 数据名称及长度限制:文件名称允许由汉字、英文、数字和字符组成,最大允许200个字符(1汉字=2字符)。
  • 如果上传的图片中包含exif信息,不同版本的chorme浏览器处理旋转不一样,建议提前去掉exif中旋转信息。
  • 支持上传数据集的预识别文件,格式为.json格式,需要将json文件和原文件保持同名,且放置于同一目录下。
  • 数据集下同一目录同一层级下,不允许出现同名文件,例如“1.jpg”和“1.png”视为同名文件,同名文件会导致标注结果和预识别json文件无法匹配问题。
  • 当同时上传较多数据时,或上传的数据带有多层目录的情况下,请压缩成zip包后再上传,不要使用原文件的形式上传。
  • 数据集支持的数据类型,通常的表示方式是通过数据的“后缀名”,但是,适用该条件的数据一定是正常获取的数据,不能通过非正常手段修改数据后缀名称,否则可能导致标注模板无法正常加载。
  • 图片-大图支持最大分辨率为10亿像素,超过该像素的影像平台无法处理,请切分到该范围内后上传标注。

# 追加数据集批次

在现有数据集里追加数据时,首先在数据集一览中找到要追加的数据集(支持查询操作),系统可通过如下方式进行追加。

  1. 点击数据集缩略图下面的三个点,在弹出的菜单中选择“上传数据”进行追加数据,将数据追加到该数据集下,如果没有目录,则系统生成一个新的默认目录名称;
    数据三点追加
  2. 双击进入数据集,点击数据集最后面的上传图标,在该数据集下进行追加数据。如果没有目录,则系统生成一个新的默认目录名称;
    数据集追加新批次

追加数据时需要和数据集上传时使用的方式一致。例如,使用FTP方式导入的数据集,在该数据集下追加数据需要同样保持FTP导入,不支持修改。

# 数据集一览

数据集一览可以让管理员看到系统中存在的所有数据集。系统管理员可以查看平台上所有的数据集,机构管理员只能查看本机构下的数据集。
数据集一览以块状缩略图形式展示了数据集。数据集类型可分为:原文件、结果文件和外部索引三种类型。
数据集文件类型可以分为:图片、语音、文本、视频、3D点云和图片-大图。
数据集支持通过数据集类型、文件类型筛选,支持按照数据集创建日期、名称和大小正序和倒序排列。支持按照数据集的名称和标签模糊查询。

# 数据预览

对于导入到平台的数据集支持进行预览。数据集支持双击进入,双击后进入数据集下展示目录一览。同样,对目录双击后展示目录下数据的一览。对数据进行双击操作后,即对数据进行预览:图片支持放大查看大图,文本支持浏览文本内容,语音支持通过播放器播放语音,视频支持通过播放器播放视频。
数据预览 同时如果数据集下存在预识别json,则对json也支持预览操作。如果json文件大小超过5M时,考虑到系统加载速度和性能,不支持在线预览,支持下载到本地进行查看。 数据集json预览 对于外部索引文件数据,双击该数据集后,支持查看该索引数据集的索引列表。

# 其他功能

系统支持对数据集进行基本信息编辑、标签编辑、数据下载(源文件+标注结果 和 仅标注结果两种方式)、数据集删除等。
如果数据集已经关联了任务,则不支持对数据集进行基本信息编辑、标签编辑、上传数据、删除等操作。