# 数据处理

数据处理是标注平台的一个特色功能。可以通过上传docker image(tar包)的形式,将数据处理能力上传到平台并执行。通过docker image插件的方式,可以灵活的扩充平台数据处理功能。

点击查看:插件镜像规范,遵循该镜像规范,用户可以创建一个自己的数据处理能力。

数据处理的输入是数据集,输入可以是一个全新的数据集,也可以向一个已存在的数据集中输出。

数据处理-使用Docker image进行数据处理

数据处理按照处理的业务逻辑,可以分为:数据预处理、数据预识别和数据后处理三种。无论哪一种,平台都是使用的Docker Image插件的方式进行管理。

  • 数据预处理: 是指在标注任务进行前,对原始数据进行处理,并形成待标注数据的数据处理方式。例如:数据清洗处理等。
  • 数据预识别: 是指在标注任务进行前,对原始数据进行人工智能预识别处理,将待标注数据进行预识别并形成预标注结果(json格式的数据)的数据处理方式。例如:语音转写预识别,图片目标预识别等。
  • 数据后处理: 是指在标注任务结束后,对标注后的数据和标注结果进行处理,并形成品数据集的数据处理方式。例如:数据格式转换等。

# 数据处理列表

  1. 平台已有的数据处理以列表形式展示;
  2. 列表中展示应用信息:数据处理名称、应用描述、镜像名、添加时间和操作;

# 上传

  1. 上传操作需要超级管理员权限,机构管理员无上传权限;
  2. 支持数据处理应用(Docker镜像)以.tar包的形式上传到平台;
  3. 上传中需要输入数据处理应用信息如下:①应用名称;②处理类型;③处理数据集类型;④简述(非必须);⑤参数;⑥参数说明;⑦标签;
  4. 上传处理完成后,页面跳转到应用一览页; tar上传界面

# 编辑

1) 编辑操作需要超级管理员权限,机构管理员无编辑权限; 2) 编辑支持通过列表右侧的三个点操作的“编辑”选项进入一个应用的基本信息编辑页; 3) 鼠标滑动到列表应用的描述项上,展示一个编辑图标,亦可点击编辑图标进入编辑页; 4) 编辑项目和上传时的新建项目相同,只是带入了编辑信息,.tar包文件不支持编辑;

# 删除

1) 删除操作需要超级管理员权限,机构管理员无删除权限; 2) 支持选中列表中多个应用批量删除,也可以只删除其中一个; 3) 删除需要弹窗确认,删除操作只是移动到回收站; 4) 在回收站中可以撤销删除操作,也可以彻底删除; 5) 编辑操作需要超级管理员权限,机构管理员无编辑权限;

# 查询

  1. 数据处理应用的关键信息支持查询筛选操作;
  2. 输入关键字后,支持的查询范围包括:①数据处理应用名称;②镜像名称;③标签;

# 运行

超级管理员和机构管理员均具有运行权限。

支持两种场景。

场景一: 在操作一览列表中,点击“运行”按钮执行一个数据处理操作:
1、运行时需要选择指定待处理的数据集,点击按钮弹出窗口选择,支持选择多个数据集,支持选择到数据集的目录级别;
2、输出数据集有两种方式,一是输出全新的数据集,需要输入输出的数据集名称,二是追加到一个现在已经存在的数据集,支持点击选择的方式;
3、运行时,请正确设置Docker Image需要的参数。

场景二: 在数据集或者目录中,可以选择“数据处理”弹出一个数据处理窗口运行一个数据处理操作:
1、在弹出的窗口中首先需要选择具体使用的数据处理操作;
2、输出数据集有两种方式,一是输出全新的数据集,需要输入输出的数据集名称,二是追加到一个现在已经存在的数据集,支持点击选择的方式;
3、运行时,请正确设置Docker Image需要的参数。