每天可审数亿张图片 AI解放人工鉴黄师

  • 第一财经日报
  • ShiDianNet.Com
  • 2018-08-22 01:42

每天可审数亿张图片 AI解放人工鉴黄师

随着AI(人工智能)的发展,人工鉴黄师逐渐从鉴黄行业里被“解放”出来。

“AI鉴黄师每天可审核数亿张图片,识别准确率高于99.5%。”阿里安全部高级算法专家威视向第一财经记者举例称,如果一天要审核4亿张图片,单纯由人工来审,一人一天审1万张,需要4万人,而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一道,只需要20人即可。

传统的人工鉴黄师通过一双肉眼鉴别色情图片和视频。听起来像是“福利”,但实际上并不轻松。如今,伴随着互联网上社交媒体、直播、短视频的发展,每天光上传的图片就超过10亿张,发文数量超过5亿条,不少色情、暴力等内容充斥其中。

2015年10月,阿里巴巴“绿网”上线,用人工智能识别网络上包括色情、暴力在内的违规信息,阿里AI鉴黄师应运而生。通过人工智能、深度学习和大数据样本等技术,阿里巴巴的AI鉴黄师训练识别千万张正常图片与色情图片,最终生成一个智能鉴黄模型。

第一财经记者了解到,阿里的鉴黄AI做的色情图片检测,从原理上来说,就是一个典型的图像分类问题。当前的解决方案是标注样本后,使用深度学习技术训练一个人工神经网络。具体步骤包括明确分类标准→收集样本→样本打标→模型训练,四个步骤。其中前三个步骤主要由人工完成。

“我们要做的就是拿图片去‘喂养’它,让它不断学习,变得越来越聪明。”威视表示,最初在获取样本时,阿里筛选了近2000个网站、6000多万张色情图片,经过去重,标注1300多万张高质量的色情图片。之所以严格把握样本打标的过程,是因为深度学习,对高质量的标注数据有很高的要求。数据标志质量越高,最后模型的精度就会越高。

由人类经过千挑万选建立起来的高质量“色情图片”数据库,最后交由模型训练。威视表示,GPU机器单机单卡的情况下训练时间要近一个月,后来阿里团队更换了网络结构并实现了多机多卡训练,将千万级别样本的训练时间控制在一周左右。

不仅仅在识图领域,威视告诉记者,AI鉴黄还覆盖到了语音、视频等多媒体领域,目前已经可以识别中文、英文、日文、俄文等语言,还可以识别中国多省份方言,无语义的呻吟声也能识别。

这离不开阿里在AI领域的布局。

2017年底,阿里云总裁胡晓明首次全面揭幕了阿里产业AI布局和生态:以阿里云为基础,从家居、零售、出行、金融和智能城市、智能工业六大方面展开的产业布局,以及从视觉、语音、算法到芯片构建的立体合作伙伴生态。

在学术和开发者方面,在阿里的体系中,已经有2所大数据国家工程实验室,天池平台聚集了11万+数据开发者,AUCP(阿里云大学合作计划)计划让大数据、AI相关课程部署到了307所中国大学。

第一财经记者了解到,在时间分配上,阿里很多科学家都是三三制,跟业务的紧密沟通占到三分之一的工作时间,还有三分之一是用来带领团队,另外三分之一用来跟踪全球最新、最前沿的技术发展趋势,为团队规划研发方向。

    版权声明:

    来源为“视点网”均为本站原创内容,转载请注明!部分内容来自网络,版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如作品内容有误,或对版权等其它有异议,请联系我们更正或删除!

    相关阅读

    女子表白领导被拒后每天在公司摸鱼

    女子表白领导被拒后每天在公司摸鱼

    • 资讯
    • 2023-01-07 13:11:52
    • 44325
    • 佚名

    1月5日,江苏,一女子分享自己姐妹找领导表白,被拒绝了,这也引起了网友的围观。女子称:被拒绝的2个...

    微信支持一次发99张图片了

    微信支持一次发99张图片了

    • 科技
    • 2022-08-24 21:53:40
    • 33500
    • 佚名

    8月24日消息,有网友发现,微信支持一次发送99张图片了 。上个月,微信灰度测试了聊天图片可发送...

    英雄是青年不懈奋斗“坐标”

    • 百家
    • 2022-08-19 11:12:25
    • 45685
    • 曼玲

    英雄是民族最闪亮的坐标。党的十八大以来,习近平总书记高度重视褒奖英雄模范、弘扬英雄精神,踏...

    铭记“八一”,坚守初心

    • 百家
    • 2022-07-28 12:09:15
    • 4748
    • 清溪

    在庆祝中国人民解放军建军95周年之际,中央军委27日在京隆重举行颁授“八一勋章”和荣誉称号仪...