山西天测科技有限公司

数据标注概论

发表时间:2019-11-21 00:00

一.数据标注的起源与发展

    由于数据标注与人工智能相伴相生,在研究数据标注的同时,首先需要对人工智能有所了解。人工智能的概念是最早由约翰麦卡锡于1956年在达特茅斯会议上提出的,意指让机器人有像人一般的智能行为。

    在人工智能概念提出的60度年里也是大起大落,这次人工智能我们迎来了第三次人工智能浪潮,而第一次浪潮是在会议之后的20年里,当时对于此次人工智能的兴起,专家学者尤为看好,甚至指出,未来十年机器人就能超越人类,然而,就在大家期盼人工智能春天之际,在20世纪70年代后期,人们却逐渐发现过去的理论与模型智能用于解决一些简单的问题,同时运算能力不足,人工智能的第一次浪潮偃旗息鼓,迎来了突如其来的冬天。

    此后,经过短暂的消沉后,随着20世纪80年代两层神经元网络(BP网络)的兴起,人工智能开始焕发出新的生机,迎来了第二次发展的浪潮,期间,语音识别、语音翻译以及感知机模式成了典型代表。然而,这些现在看来在寻常不过的应用,彼时离人们的实际生活仍较为遥远,人工智能也随之进入了第二次寒冬。

    而第三次浪潮开始于Deep Blue(IBM深蓝)的出现,在1997年战胜了国际象棋冠军,而2006年“神经网络之父”Geoffrey Hinton提出的深度学习技术进一步助推人工智能的发展,该技术于2010年大货,直接带动了第三次浪潮的爆发.

纵观人工智能的发展脉络,在前两次发展浪潮中,人工智能发展起起伏伏,却从未真正走入人们的生活,因此,当时由于量级比较小,为人工智能提供数据的数据标注工作有研究的工程师完成,并不能成为独立的职业。但是随之第三次浪潮的到来,数据标注需求非常多,2011年数据标注的外包市场开启,2017年进入爆发阶段,数据标注才开始慢慢进入人们的视野。

二.涉及到的几个概念

    1.数据标注(data annotation)

        对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生产满足机器学习训练要求 的机器可读数据编码。

    2.标签(label)

        标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码间的联系。

    3.标注任务(annotation task)

        按照数据标注规范对数据集进行标注的过程。

    4.数据标注员(data labeler)

        负责对文本、图像、音频、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作人员。

    5.标注工具(annotation tool)

        数据标注员完成标注任务产生标注结果所需的工具和软件。标注工具按照自动化程度分手动、半自动和自动三种。

三.数据标注分类    

    1.图像标注

      图片标注的场景目前应用还是非常广的,主要的标注方法有,点标、框标、区域标注、3D标注、分类标注等等,应用场景如安防、教育、自动驾驶等等也非常多,目前落地比较成熟的要数人脸识别了,不管是在做一些身份识别验证还是出门做地铁、高铁都有可能用到。

    2.语音标注

        语音应答交互也是目前重要的分支,所以在此类语音虚拟助理的研发中,基于语音识别、声纹识别、语音合成等建模与测试需要,需要对数据进行发音人角色标注、环境场景标注、多语种标注、ToBBI(Tones and Break Indices)韵律标注、体系标注、情感标注、噪声标注等。

    3.文本标注

      自然语音处理是人工智能的分支科学,为了满足自然语音处理不同层次的需求,对于文本数据进行标注处理是关键环节。具体而言,通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字字符标注等,可提供高准确率的文本预料。

四.数据标注流程概述


640.png

    1.数据采集

    数据采集与获取整个数据标注流程的首要环节。目前对于数据标注众包平台而言,其数据主要来源于提出标注需求的人工智能公司。对于这些人工智能公司,他们的数据又是从哪来的呢?比较常见的是通过互联网获取公开的数据集与专业数据集。公开数据集是政府、科研机构等对外开放的资源,获取比较简单,而专业数据往往更耗费人力物力,有时需要通过人工采集、购买所得,或者通过拍摄、录制等自主手段所得。

    2.数据清洗

    在获取数据后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环境。

    在数据清洗中,应对所采集的数据进行筛检,去掉重复的、无关的数据,对于异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性,将数据统一成合适于标注且与主题密切相关的标注格式,以帮助训练更为精确的数据模型和算法。

    3.数据标注

    数据经过清洗,即可进入数据标注的核心环节。

    4.数据质检

    无论是数据采集、数据清洗,还是数据标注,通过人工处理数据的方式并不能保证完全准确。为了提高数据输出的准确率,数据质检成为重要的环境,而最终通过质检环节的数据才算是真正的过关。  


分享到: