您的位置:主页 > 重庆在线 > 重庆资讯 > 正文
欢迎光临《重庆在线》

走进EasyDL的数据管理指挥部

重庆在线 2019-09-05 来源:未知 可分享

百度大脑EasyDL是一款零基础深度学习定制化训练和服务平台;其中,数据是深度学习的基础,因此自发布以来,EasyDL团队在数据管理功能上进行了大量的打磨。EasyDL以数据集作为基础单元管理数据集合,提供可视化管理和数据标注的工具,提升用户工作效率。目前,EasyDL数据管理支持图片、文本、语音、视频多种数据类型存储,支持图像分类、物体检测、图像分割、声音分类、文本分类、视频分类、商品检测等AI场景的数据标注。接下来本文会深度解读EasyDL数据管理的实现形式

数据导入/存储

用户要用EasyDL可视化的管理和标注数据,第一步要做的就是将数据导入EasyDL平台。平台为用户提供了5种方式完成标注和未标注数据的导入:

1.通过页面导入离散数据:例如,用户通过页面上传一些未标注的图片。这种是最基础的导入方式,适合增加少量未标注数据。

2.通过页面导入打包数据:用户将数据按平台要求的形式,在本地进行整理打包,并通过页面进行上传。这种导入方式适合数据格式相对不多,易于整理的场景。

3.通过API导入:对于数据量非常多,并且有一定编码能力的用户,EasyDL还提供了API接口的形式,让用户批量导入数据。

4.数据迁移导入:对于数据类型相同的AI场景,比如图片分类和物体检测,我们还提供了两个数据集之间数据复制。

5.云服务调用导入:具体信息会在数据闭环环节介绍,此处作赘述

以上5种形式,满足了95%以上用户的数据导入需求,后续我们还将进一步打通用户的数据采集渠道,延伸更多数据管理的功能。

EasyDL支持存储的数据类型多,标注场景各不同,因此,我们对各种场景进行了抽象总结:

EasyDL的数据存储按以下3种实体进行组织:

1.Entity数据对象:具体的多媒体数据,比如图片、音频、视频等;数据对象均加密存储,且有鉴权保护,只有数据上传者和共享人员才可以查看数据内容。

2.Label标注:为训练需要使用的知识,是AI训练的基础。Label唯一属于一个数据集。

3.Dataset数据集:用户管理数据的集合,包括不同的Entity索引和不同的Label;单个数据集最多可存储100000条Entity,满足99%以上的应用场景。

 

 

上图展示了EasyDL中存储实体之间的关系。平台以数据集(图中Dataset1和Dataset2)管理数据集合,数据集中维护着Entity索引和Label。而Entity索引和Label之间关系,根据不同的场景会有不同。所有Entity存放在对象数据存储集群中。

数据标注

数据标注是一项重人力的工作,常常一个项目中,一大半的时间都耗在数据标注上。因此,为了提升用户标注效率,EasyDL平台提供了多人标注和交互式标注两大亮点功能:多人标注比较好理解,用户可以将自己的数据集通过共享密钥的形式,指定分享给其他用户,让其他用户一起参与标注过程中。同时,如果觉得不妥,随时可以将其他用户的访问权限回收。交互式标注,则是自动标注的一种形式。用户只标注少量数据,EasyDL平台就可以将剩余的数据自动标注完,待用户确认后,最终完成标注。

数据版本控制

EasyDL平台,每次模型训练后,都会存储训练使用的数据集快照,实现数据版本的控制,我们称之为训练集。同时,EasyDL每次训练都可以跨多个数据集来选择不同的Label进行训练,减少冗余数据的存储。

 

 

上图中,用户选择了两个数据集Dataset1和Dataset2进行模型训练,DataSet1选择了LabelA,Dataset2选择了LabelD。和数据集中的Entity索引一样,训练集中的Entity也都是索引,实际多媒体内容存储在对象存储集群中。训练完成后,会生成Trainset1。

数据闭环

用户初期发布的模由于训练数据量少,效果往往需要进一步优化。为了解决这个问题,EasyDL平台打通了接口调用渠道和模型训练数据:用户可以将日常通过接口调用数据补充进训练数据。调用数据通过接口标注后,重新加入到模型训练中,达到不断优化模型效果的目的EasyDL团队将这个功能称之为AI_Loop“数据闭环用户可以自主选择是否需要开启AI_Loop功能。开启该功能后,平台会随机筛选接口请求回包进行存储,并保存3个月时间。同时,用户可以根据回包中的一些信息EasyDL数据管理界面中筛选需要展现的调用数据,比如设定置信度,Label等。

 

 

 

感谢您阅读: 走进EasyDL的数据管理指挥部
如有违反您的权益或有争意的文章请联系管理员删除
[责任编辑:无 ]