百度网盘是如何识别出色情电影的?

by , at 18 July 2020, tags : 色情 百度 视频 Md5 鉴黄 点击纠错 点击删除
使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

知乎用户 熊辰炎​ 发表

这个只看重召回率(宁可错杀一万不要放过一个)的话,图像识别的技术已经可以做到不错了。根据每一帧里面的图像抽取特征,然后跑个分类器就好了。
Porn 这种模式单一,重点突出,机位固定,然后人体各个部位 pattern 又那么明显,相信只要有足够的训练数据,并不是一个特别难的机器学习问题。
当然你硬要拍两个奥特曼高达穿着盔甲干啥啥,估计不太好识别 = = 但是人观众也是为了简单的刺激,你硬搞这么深奥的想必市场不怎么样吧?
误杀一般都是加菲猫之类的…. 毕竟全身都是黄的。

具体百度网盘是怎么做的,我猜是机器学习 + MD5 识别。如果我来干这个的话,先按照经典的方法做一个模型出来,特征就是视频图像识别的特征 + 文件名文本特征 + 文件格式,大小等特征。模型拿个常见分类器就行了。
估计音频特征也可以,porn 的音频特点也很明确(日语 or 英语那些词太明显了),一抓一个准。

继续丧心病狂的话就加视频特征。连续多帧里面人数量的变化啦(人数量相对固定,大都是一到两个,三四个也有,再多就不是那么常见了);人物移动的 pattern 啦(很少大范围的移动,而更多是小范围的往复运动);发生的场景啦(大都是室内小空间,并连续很多分钟都是一个场景啦,偶尔有一些外景)。

不过我觉得完全不需要这么复杂就可以做到很高的准确率了……

有模型之后,每隔一天或者几天,具体根据模型效率和机器的负载来决定,在网盘的图片和视频数据上跑一遍,把不该有的东西干掉,然后记录下 MD5 码。
这些 MD5 码就是黑名单了,往后每次用户新上传的时候就用这个 MD5 码做一次判断,不该有的就不让你传了。就是一次哈希查找,效率很快,根据百度网盘本身极速上传功能推断,百度已经有了很成熟的 MD5 操作的模块了。

这两个加起来就既满足了效果(靠机器学习模型每隔一段时间的精确判断),也满足了效率(MD5 实时校验)。
所以呢,你们不要以为改了 MD5 码就可以逃得过去了,过一段时间人家重跑自动识别算法时还是会被干掉的… 这种内容我党管的那么严,搞不好部门领导就要被喊去喝茶的,不可能不好好做的…

-————————————– 闲扯的分割线 ——————————–

色情内容识别是一个很认真的研究领域好咩。不过…
干这个确实需要大量的训练数据。当年中科院计算所有一个组在做这方面的国家项目,黄色 + 反动内容识别。人家都是带着条子和公款去国外采购影片和轮子的东东回来做训练数据的……

我不懂事的时候有个女朋友花钱太厉害,逼的没办法去一家前著名论坛网站打零工做过类似项目,不过是自动识别黄色 / 反动的文本……
他们有积累了很久的人工识别的数据。招了不少人做类似鉴黄师的工作,三班倒每班连干八小时,拿一个简单的搜索引擎对用户发布的内容不停地用各种关键词搜,看到不该看的就删帖 + 搜集起来。然后这些人工识别的数据拿来给我们训练自动识别模型。

当时为了提高识别效果我被迫看了好多训练数据。。。。。。
我只能说…… 太刺激了…. 太暴力了…. 太有想象力了……
我原先只知道有黄色的,有反动的,没想到还有黄色 + 反动的……..
你能想象拿四人帮做主角的 XX 小说么…….. 看起来真是一种复杂的感受…. 类似比利时啤酒,无数种强烈风味的混合,造成了独特的饮用体验…

总之,这对于纯洁的我实在是太下流了….
一张白纸的我就这么被污染了…
再也回不去了……

喂,你们不要误会,我那个工作是做模型自动识别来着,不是人工看好么。。。
而且也只是那半年工作很小的一部分。。。大部分时间还是在给他们做站内搜索和开发公司自己的基础 C++ 库来着。

人工谁要干啊,估计时薪只有十块钱,还要看那么多好恶心的东西… 黄瓜茄子一看就会想呕怎么办……

知乎用户 Phillip King 发表

没错,就是根据 md5 值,因为我改掉 md5 值之后还没有一部被温馨提示。
改完 md5 值后上传的视频不会温馨提示,具体方法看这个链接。
http://zhidao.baidu.com/link?url=jzCNVa5LT-DzxIIxn5wOZNLAXGze_vEGlVcAvIz9rqFObZ_9U2ZzT93fOCGQ_DqbiLvDvI60yoEYyvAcrQjwXVf_wuTzOK3LcZ3Rpn7hE83
直接把要修改的文件拖到下载的批处理文件上就行。

评论里有好多问各种问题的,其实我也是外行。
如果已经温馨提示了,那应该就没救了。我用软件打开看过,除了那 8 秒温馨提示,其他部分的二进制数据基本都是 0 了,也就是说真的没东西了(刚开始和谐的时候,温馨提示的文件里内容还在,现在真没了)。这个问题我觉得没法解决了,要是有办法大神可以教我。
修改 md5 值之后上传肯定不能秒传,目前我还没发现被和谐,以后不好说,但是应该不会太严重。
评论还有说转格式的、压缩文件,应该都是可以的,因为 md5 也变了;单纯改后缀应该不行。

貌似说了多余的话,被建议修改了。
所以求分享的你们别闹了,我这么纯洁,根本听不懂你们在说啥。。

知乎用户 宋一松 发表

如何识别色情内容是一个国际性知名问题,而且根据产品形态的不同有不同的变种。像百度云这种储存静态资源的算是问题的简单版本,毕竟可以对文件做翻来覆去的算法分析,实在不行人工复核下。

那问题的困难版本是啥?

直播

直播发车,猝不及防。且 UGC(用户生产内容) 比 PGC(专业生产内容) 的内容多样性高出不止两个维度,想要通过对视频内容提取特征来鉴别比较困难。更别说对实时性的要求,总不能直播都结束两小时了你模型才出结果说人家发车了吧,黄瓜菜都凉了。

那怎么办?

我在 Facebook 听说过一个邪路:点赞 / 评论比

正常来说一个直播,点赞数和评论数是正相关的,且大体成一个固定比例。好内容点赞和评论都多,差内容两者都少。

**色情内容是一个特例,点赞 / 评论比异常的高。**靠这个实时抓出色情直播,十拿九稳。

不过,为什么色情直播的点赞 / 评论比会超乎寻常得高呢?

可能对那时候看直播的人来说,单手点赞比双手打字要方便得多吧。

知乎用户 柯良 发表

Md5 是必杀技,但是对于百度这家广告公司来说,行为统计分析才是拿手好戏,下载量时间分布,在线播放快进频率,文件命名规则,跳转到网盘之前的搜索行为,再对接网友举报,av 数据库,离线下载来源分析,根本就不需要人工审核,可疑概率小于一定值的百度直接放过。(乱猜的)

知乎用户 maomaobear 发表

呵呵,这个问题有意思,我稍稍研究了一下。

看了几个回答,有说是 MD5 检测的,有说是视频帧抽取,然后检测图片的,还有把怎么检测图片的算法说明的,什么皮肤比例多少,皮肤在什么位置。

百度现在对色情电影的识别不是什么皮肤面积,而是人工智能深度学习以后对影像和音频的识别。百度现在有现成的人工智能产品,百度云官网对怎么识别说的很清楚。(参考官网:

https://cloud.baidu.com/product/imagecensoring/antiporn

黄反识别:

https://cloud.baidu.com/doc/ANTIPORN/Antiporn-API/24.5C.E8.89.B2.E6.83.85.E8.AF.86.E5.88.AB.html

我说一下我的理解。色情内容识别是典型的人工智能应用场景,也是用途相当大的一块,核心是图像识别。

百度的图像识别,人脸识别技术在国际上都可以算一流水准。

在色情图片的识别上,它对图片的暴露程度和色情情况进行分类,基本上分为色情、性感、正常 3 个置信度分值。

如果是简单的什么皮肤面积识别,那么婴儿图片都是黄图,部位识别也不靠谱,维纳斯雕塑的照片和《自由引导人民》的油画被识别成色情图片就搞笑了。

百度的色情、性感、正常置信度是通过大量的图片训练,通过神经网络深度学习出来的

百度甚至把色情图片的内容分了类型。 男,女,SM,卡通,特殊,色情,一般色情,性玩具都有专门的分类,估计这是针对不同的内容,进行深度学习出来的。

百度的人工智能在色情图像识别中有优势,一是深度学习算法领先,百度以前自己搞过深度学习的函数,百度开源了的 Warp-CTC 的代码,可以把机器深度学习的运算量降低数倍,速度提升数倍,一样的算力,百度深度学习计算的效率更高,同样时间内审核的水平就更高。

二是算力的优势,百度硬件上早在数年前就搞了 GPU 异构计算的超级计算机,百度也是国内第一个搭建深度神经网络的。百度的超级计算机相当于两个天河一号,数据处理技术更是业界顶尖。

三是数据量和神经网络层数的优势,神经网络的感知机的隐含层层数多少,对最终的输出结果有决定性影响(层数多也有层数多的问题,还需要消除局部最优解,这个属于算法。)同时,深度学习学习的数据量越大,学习的效果越好,而百度是做搜索引擎的,掌握的数据本来就是海量。

综合下来,百度的人工智能做色情图片的识别准确率就很高,而且响应速度很快,是毫秒级响应。

至于色情视频,这个图像色情识别做基础,视频先解码再取里面的帧(应该不是全部帧)判别色情视频,只有截取的帧里面有色情内容,那么这个视频的色情鉴别的轻而易举了。

而且,百度的视频识别,还不止是截图,百度同时对音频分离,也进行检测。百度语音识别都到了同声传译的水平,检测视频里面几句 “雅蠛碟”、” 一库”,做个关键识别也好,深度学习样本判别色情相关的语音内容也好,都没有任何压力。

其他回答里面说到 MD5 码,这个应该也是有的,而且不止 MD5 码,百度有视频指纹,有黑库,而且这个库是动态的,人工智能深度学习识别出来的违规文件信息直接记录到数据库中,一次人工智能深度识别,之后这个文件就不用再算了。

大数据用上,违禁视频第一步就灭了,连解码所需的人工智能计算都省了,这样速度更快,更加节省计算资源,更省电。

百度人工智能识别违禁不仅是色情的问题,恐怖暴力,政治敏感,广告,违禁品都可以识别。原理相同,只是深度学习的内容不同罢了。

这个技术也是对外开放的,就是开头提到的那个网址,你可以上传图片或者网址当场验证,给你分类是正常还是色情,哪一类色情,非常准。

百度云的人工智能审核,其实用来检测文件有些大材小用,因为文件可以不以图片或者视频的方式放上去。百度云的这个检测,更适合信息流的违禁检测。

百度有全套的文本、图片、视频检测,而且对外出售服务,直接报价检测一张多少钱,检测一个视频多少钱,速度快,效果好,可以节约大量人工劳动。

最近很多短视频平台都出现了低俗、色情之类的内容问题,本质上考验的还是内容审核的能力。招募人工审核员确有必要,但其实机器审核的能力还远远没有充分释放。

扎克伯格前几天在国会听证上也再三提人工智能是未来内容审核的主力,但他认为要未来 5-10 年才能让 AI 比较有效地识别有害言论,这种预测放在中国可能就太保守了。近几年的速度,国内可能每半年技术、产品、行业格局都会洗牌。

知乎用户 姓名保密 发表

黄反识别 - 百度云

百度网盘使用的是这个技术

知乎用户 匿名用户 发表

快进次数和每次播放时长吧

知乎用户 周美玲 发表

我猜测是爬各大色情网站或种子网站里 porn 分类里 A 片的磁力链接,然后保存 hash 值到一个数据库。

知乎用户 祝踏岚 发表

索尼锁区,武媚娘等事件告诉我们,一定有些人看过之后就举报

知乎用户 王华 发表

md5

知乎用户 匿名用户 发表

我倒是觉得这是从视频文件本身入手的,例如,我网盘里的视频,MP4 格式的基本都挂了,rmvb 小半挂了,rm 文件没有挂,mov 挂了,mpg 没挂,flv 没挂~~~~泥蒙懂的,就算你点赞我也不会给你们的!请勿私信!

知乎用户 Nemo 发表

机器学习当然理论上是可行的,但这个代价也太大了吧?
对上传的每部电影 sampling 一下,再跑个分类器,我都替百度心疼电费。

我还是觉得 MD5 方法 + 文件名关键字匹配最靠谱。
如果 MD5 是上传的文件自动生成的话,找个视频修改工具,只需要改一点点例如删一帧之类的,MD5 就彻底改变了。

不就是扫个黄么,百度用不着那么拼吧。

知乎用户 [已重置] 发表

其实,经常被识别,肯定是名字没弄好!像我的,就存得很久!

套路:就是把名字改一下,最好是以种子的方式存。

当然了,常在河边走,哪有不湿鞋。

只能不断找,不断补了,没办法。

知乎用户 诸神之黄昏 发表

其实我觉得是百度导入了日本片商和欧美片商的列表,比如带有 IPZ、SOD、X-ART、BABES 之类的,就都干掉……

知乎用户 又拍云​ 发表

百度具体是如何做的不大清楚,但现在主要的鉴黄手段无非就是机器鉴黄 + 人工鉴黄。

而视频鉴黄主要利用视频截图、图像识别、语音审核、关键词提取等方式识别色情内容。这边主要讲一下机器鉴黄中一些小知识。

图片区分标准

△ 图片区分标准

色情:裸露敏感部位,包含露骨镜头,描述性交行为和色情场景的图片。

  • 性感:衣着暴露但没有裸露敏感部位。
  • 正常:非色情,非性感图片。

色情与性感的鉴定

色情与艺术的鉴定标准是人定的,理论上是可以通过刻意训练、调整阈值等手段让机器更符合自己的标准,色情图片数量越多,风格和场景越多样化,机器学习结果越准确。

色情图片最明显的特点就是画面中人体皮肤颜色所占比例较大,当机器识别图片中有类似人体肤色区域后,需要进一步确认区域的来源,看他们是没有穿衣服的女主角还是正常物体。假设两块黄色区域分别是两条腿或者两只胳膊,另一块区域是人的身体,这些区域的长度值、宽度值符合人体大小比例,且彼此位置满足一定的几何关系,则有很大可能是色情图片,如果这些区域之间大小和位置不像是人的身体,则可以排除色情图片的嫌疑。

△ 计算肤色区域的几何关系

机器学习

△ 传统神经网络与深度神经网络

机器学习是人工智能的核心,简单来讲它就是:运用一套通用的算法——泛型算法,建立起数据逻辑,利用模仿人脑的机制来解释数据,让机器自动学习良好的特征,从而减少人工审核的过程。

最后说下如何进行直播鉴黄

通常情况下,视频直播鉴黄服务利用视频截图、图像识别、语音审核、弹幕监控、关键词提取等方式识别色情内容。

其中视频直播的鉴黄可按照以下步骤:识别图像中是否存在人物体征并统计人数;识别图像中人物的性别、年龄区间;识别人物的肤色、肢体器官暴露程度;识别人物的肢体轮廓,分析动作行为;提取音频信息关键词,判断是否存在敏感信息;实时分析弹幕文本内容,判断当前视频是否存在违规行为。每分钟视频采集关键帧的频率可由客户自主设定,从 1 秒到几十秒均可,例如可以默认 5 秒采集一次关键帧用于识别。

原文阅读:性感与色情有多远——你不知道的图片鉴黄那些事儿

内容识别 - 基于人工智能的图片识别​www.upyun.com

知乎用户 匿名用户 发表

上面各位说的其实都挺对,但是—————————————————————
不是他们不能,而是不想!
他们用了最原始的方法,什么抽样,对比,MD5 值,最后人工。对于一家小公司来说,这也许是唯一能选择的办法,但这些东西效率非常低,相当于大学生做数学只用加减法一样,如果非要搞,比如百度,完全可以用大数据秒杀。好好的视频跳着看的有几个?大数据几乎可以一巴掌拍死这些东西,甚至网站,但是相信我,他们不会搞的,要知道,游戏、色情、赌博是互联网的支柱产业,为什么要花钱投资对自己不利的东西呢?上头要搞,配合搞搞嘛,何必真刀真枪!国民党让我党剿匪,我党就真的拼家底去剿匪?不,换身衣服你就是八路!

知乎用户 世界尽头 发表

很奇怪技术帝为什么总把问题弄复杂,其实根本不用从技术上面去想,做生意要考虑最低成本,而不是自己只是道听途说的技术可能性
很简单,总有人不小心,先用关键词,文件名,或是 BT 中的文件名中有大量的线索,字串,大家懂的,什么是什么,确定关联之后记下相关的 MD5
然后就用 MD5 了,你的没认出来,因为还没人漏了马脚,只要 MD5 一入档,就万事 OK。
你可以说这是大数据好不好?
关键词和黑名单结合建数据库,成本低,见效快,居家旅行必备,还可以完全自动化,不用发工资主,还可以避免玩忽职守。
你可以试试,用个关键词建个无意义的文件,看看会不会入库(黑名单库)
技术帝们,切记,成本!

知乎用户 王小狼 发表

感觉也有关键字和被人举报的因素在里面吧。
最近发现连美剧《蛇蝎美人》都被河蟹了,这应该是有人举报的吧。。
举报人祝你丁丁每天短一厘米。

知乎用户 M3 小蘑菇 发表

百度云我不知道,不过我知道另外某个网盘,有秒传功能,上传资源如果发现之前已有人上传到网盘了,可以直接复制一份到你的网盘里

于是要封禁起来也容易,只要封禁其中一个,其他的也可以封掉

百度云我也知道了,应该也有类似功能……

知乎用户 小胖鱼 发表

我就想知道百度这么直接把用户数据干掉,合法吗?

知乎用户 灰羽 发表

忘记在哪里看到的了。
据说是根据来源的地址
又或者是 md5 这类的文件指纹来比对的。

知乎用户 匿名用户 发表

目前有一套技术方案,可以对视频的某些时间段通过图像识别技术来判断是否属于成人内容。图像识别这方面应该是有相应的成熟的算法,可能会误判,但具体的就不清楚了(当然也不排除直接逐帧进行判断,不过这样可能会增加负荷)。

这个技术我给你通俗解释一下,就是用程序把视频的一些片段截取成图片,然后通过程序来判断这些图片的内容是否符合程序的判断规则。再通俗一点儿,就是把原来给鉴黄师干的活儿给自动化、系统化了。

当然以上都是我的猜测,具体的实现方法我不清楚…… 而且我很怀疑百度是否是使用的这一套方案…… 所以暂且存疑吧。。。

当然据我的观察,其实这个方案有很大的漏洞,而且你们在实际使用过程中应该也会发现,有一部分 A 片不会被干掉,原因就是这些视频没有识别出来。

PS. 据说这套方案貌似是清华大学还是那儿的知名大学的开发组开发的…… 具体不清楚,建议去一些相对权威的资料网站查查,我也是从公开资料中看到的…… 出处忘了……

知乎用户 元吉吉 发表

你们意淫半天了 MD5、HASH 值、机器学习模式识别的能解释一下,为什么我上传的单片机相关视频被干掉了吗,说是毛片改名的请看下载的文件大小。买 51 时赠送的开发视频,上传了就这样了,40 + 的视频,被干掉了 1/4。
做的简直傻逼。。。

知乎用户 毛肚居士 发表

题主你知道有个一个平台叫 “百度众测平台” 吗?
作为曾经的测友一员,表示当了无数次的人工鉴黄师啊。。。
那段时间都不敢在公司开众测平台,一开全 TM 是这种题,还不得不得做啊。。。
领导就在你身后啊。。。。
同事就在你身后啊。。。。
你暗恋的那个 TA 就在你身后啊。。。。
一不小心就会身败名裂啊。。。。
那种感觉。。。。
还蛮刺激的勒~
还蛮刺激的勒~
还蛮刺激的勒~

好吧我承认,我这种途径只是百度审核云盘里 AV 的众多途径之一。

知乎用户 凤怒 发表

谁告诉你百度能识别 AV 的,不过是胡七乱八一顿杀,多少无辜视频受到牵连!

知乎用户 小野左右 发表

我也不知道我也很茫然啊,曾经我把 Xart 的片子加了飞天小女警的片头再传到百度云盘上就能多活好几天,应该有人工审片的机制吧。(说到飞天小女警应该不少人看过)毕竟我看浏览量有 1W3.

现在云盘分享无异于天方夜谭。迅雷链接多方便

知乎用户 封禁让我戒乎 发表

1、网盘里的文件,很多相同的,只需要上传、保存一次(其他人就是秒传了),所以,一旦发现有问题,也是 全部秒删
2、根据 下载量 和 搜索量 发现 每日的热点文件,主要核查这些文件,就能把关 80% 了

知乎用户 席琴女 发表

不是单纯的某种识别方法
MD5 + 文件名判断 + 内容识别

知乎用户 拉便便的西瓜 发表

o(*////▽////*)q
我感觉是不是检测标题名称啊?
我备份旧电脑的片片…… 只有文件名 “123” 那个没被禁。讨厌 òᆺó 又要人家找别的备份方法

知乎用户 立烟 发表

我做了个尝试,把片片的头和尾各加上一段红歌的 MTV,结果还是被河蟹了,用手机打开看,尼玛,前面一段红歌在,“FBI” 以后的内容就成了八秒视频,并且片子被分段了,所以我估计片子会被自动截取成小段来识别

知乎用户 陈袜子 发表

通过 MD5 也可以识别

知乎用户 者野 发表

哪些东西是色情的?哪些东西不是色情的?这是要看情况的,因为不同的人对同一个东西的反应也可能会不同。对于同一个的东西,对有些人来说是色情的,而对另一些人来说却不是色情的。这要从色情机制说起。

大家都知道人会沉迷于色情。凡是沉迷,都是恶性循环所致的,沉迷于色情也不例外。色情有一套恶性循环机制。你知道 “喜新厌旧” 吗?如果你总是和同一个人进行 XX,到后来你就会对 XX 冷淡了,除非换一个 XX 对象。这就是喜新厌旧。

因此,如果你经常接触同样的色情的东西,你同样会对它们冷淡,除非有新的东西出现,或者接触更久,才会唤起你的性欲。你会发现原来你对它没有反应的东西,到后来你也对它有了反应了。因此,我们可以说,那些东西对以前的你不是色情的东西,对后来的你就是色情的东西了。而对于原来你对它有反应的东西,到后来你需要对它更久才会有反应。

你的兴趣出现了 “贫富分化”,其差距逐渐拉大,你对色情变得非常敏感,你只会专注于那色情的部分,而对其他部分没有了兴趣了。

▲这看上去似乎和主题没什么关系,但真的是这样的吗?

当然,不同的地方会根据自己的需要来规定哪些东西是色情的,哪些东西不是色情的。

所以,百度云是如何识别出色情电影的?了解了以上机制之后,你就知道只要有电影识别技术就行了。

知乎用户 安玌童 发表

鉴别不出来的,绝命毒师都说是那个

知乎用户 一条固执的鱼 发表

一部一个半小时的电影。。你只看了三分钟。。

知乎用户 深深 发表

百度有这项开放 api 的。

图片智能色情识别服务,依托百度业界领先的图像识别算法,基于大数据深度学习技术,提供一般色情识别和卡通色情识别。

色情定义

百度 IDL 图像色情识别服务,主要面向图片和视频产品线,帮助解决色情图片识别问题。本服务对色情的具体定义为:男士或者女士暴露身体关键部位(女士露三点,男士露下体);以及过分暴露,色情倾向极强。服务适用于自然场景、卡通场景,对应自然色情置信度和卡通色情置信度。

使用策略

每张图片都会返回 5 个分数,分别是 “自然色情,自然正常,卡通色情,卡通正常,其他”,建议色情度取自然色情和卡通色情两者中的较大者,即色情度 = max(自然色情,卡通色情)。

目前百度图片智能色情识别服务已广泛应用于百度云,图片搜索,百度贴吧等产品线。其中,在百度个人云产品线上,随机流量测试:识别色情视频准确率为 99.56% 时,召回达到 65%。

知乎用户 lwangls 老王老师 发表

盲杀吧,我保存的纯软件文件也遭殃了,打不开。上传百度云的东西必须先打包。

知乎用户 Mark Knopfler 发表

图片鉴黄服务市场容量巨大,作为移动互联网行业最为热门的创业领域,移动社交类 App 每天生产大量图片,并有无数色情图片混杂其中,所以高效准确地鉴别和剔除淫秽色情信息成为一项十分艰巨的任务。

此外,移动直播的大热也导致图片鉴黄需求大增,尤其对于中小开发团队而言,直播平台很可能因为人力监管问题而在涉黄审核方面出现风险。而自主研发鉴黄功能或增加审核人员又会增加产品和服务外的支出,给前期开发造成额外压力。利用人工智能图像识别技术进行高效准确的自动化鉴黄服务,能降低企业使用鉴黄服务的技术门槛,帮助企业有效减少相关人力成本的投入。

如何界定性感与色情

△ 传统神经网络与深度神经网络

机器学习是人工智能的核心,简单来讲它就是:运用一套通用的算法——泛型算法,建立起数据逻辑,利用模仿人脑的机制来解释数据,让机器自动学习良好的特征,从而减少人工审核的过程。

举例来说,想要教会机器去识别色情图像,需利用成千上万的图片样本去 “训练” 它,提取色情图片特征并不断记忆。每张图片中的任何一个点都包括亮度值、色相值、饱和度值,通过设置这三个值的大小范围,机器能识别出“肉色”,进而猜测出图片里裸露的人体皮肤区域。

色情图片最明显的特点就是画面中人体皮肤颜色所占比例较大,当机器识别图片中有类似人体肤色区域后,需要进一步确认区域的来源,看他们是没有穿衣服的女主角还是正常物体。假设两块黄色区域分别是两条腿或者两只胳膊,另一块区域是人的身体,这些区域的长度值、宽度值符合人体大小比例,且彼此位置满足一定的几何关系,则有很大可能是色情图片,如果这些区域之间大小和位置不像是人的身体,则可以排除色情图片的嫌疑。

△ 计算肤色区域的几何关系

△ 图片区分标准

  • 色情:裸露敏感部位,包含露骨镜头,描述性交行为和色情场景的图片。
  • 性感:衣着暴露但没有裸露敏感部位。
  • 正常:非色情,非性感图片。

色情与艺术的鉴定标准是人定的,理论上讲可以通过刻意训练、调整阈值等手段让机器更符合自己的标准,色情图片数量越多,风格和场景越多样化,机器学习结果越准确。

机器学习的一个主要优势在于可以利用大数据样本,在学习的过程中不断提高识别精度。得益于今年来计算机速度的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,机器学习可以被广泛运用,大大提升鉴黄效率。

人工智能图片鉴黄:机器学习与人工审核相结合

△ 智能鉴黄工作流程

“智能鉴黄” 功能将自动对直播、视频、图片等内容进行鉴别。目前在一张图片鉴黄的完整过程是将它拿到鉴黄中心鉴别,完毕后,再把结果发送至图片审核平台进行最终确认。对于疑是色情图片将由人工审核确认,而这部分将会随着训练次数的增加而不断减少,帮助运营团队节省人工审核成本。

如何进行直播鉴黄

通常情况下,视频直播鉴黄服务利用视频截图、图像识别、语音审核、弹幕监控、关键词提取等方式识别色情内容。

其中视频直播的鉴黄可按照以下步骤:识别图像中是否存在人物体征并统计人数;识别图像中人物的性别、年龄区间;识别人物的肤色、肢体器官暴露程度;识别人物的肢体轮廓,分析动作行为;提取音频信息关键词,判断是否存在敏感信息;实时分析弹幕文本内容,判断当前视频是否存在违规行为。每分钟视频采集关键帧的频率可由客户自主设定,从 1 秒到几十秒均可,例如可以默认 5 秒采集一次关键帧用于识别。

关注更多金彩内容,欢迎大家点击 http://t.cn/RqvetIU ,点击计入我博客观看,更希望大家能多多和我交流。

知乎用户 匿名用户 发表

要理解怎么鉴别,首先要理解百度云是怎么运作的, 百度的上传流程是这样的:
首先读取文件的 MD5 信息, Hash 信息,还有个信息(忘了),上传到服务器中。
当服务器有文件与你上传的三个信息相同,即认定为同一个文件。
把服务器中的文件 id 跟你账户关联。同时通知你上传成功。
另外一种情况,三个信息匹配失败,上传。
明白怎么上传才知道怎么防止这种情况的产生

我是不会告诉你上传文件要先改名,特别是视频类文件,要取个和谐的,宣扬爱国主义精神的符合青少年五官的名称。(虽然不一定有作用)
我也不会告诉你上传文件要先压缩,.rar 、.zip 其他乱七八糟的后缀名。名字一定要和谐… 和谐 …
到了这一步你还被封了。那一定是我落伍了 。
…………………………….. 不,一定是打开的方式不对

知乎用户 李题刚 发表

欲先扫黄,必先涉黄!

知乎用户 匿名用户 发表

http://www.qcloud.com/event/pd
看看这个链接你就明白了。

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

如何看待 4 月 8 日百度 APP 被要求整改?

知乎用户 东云研究所的猫 发表 text\_format = """ {2}是怎么回事呢?{0}相信大家都很熟悉, 但是{2}是怎么回事呢?下面就让小编带大家一起了解吧。 {2},其实就是{2}了。那么{0}为 …

有人在百度地图的街景里看到过自己吗?

知乎用户 凉宫春日 发表 没有看到自己,但看到了在院子门口和路人聊天的,已经去世两年多的爷爷。 晚上怎么都睡不着,开始在百度地图里搜自己呆过的一些地方,想重拾一些过去的回忆。百度全景有一个功能叫做时光机,点击一下可以看到几年前的街景,我找到 …

百度行过哪些善?

知乎用户 西北旺小明 发表 ECharts 和 百度前端技术学院 算吗? 知乎用户 林彼方 发表 大概是贡献了滑稽这个表情吧…… 知乎用户 匿名用户 发表 2019 年 1 月 18 日更新 很久不玩知乎了。晚上睡不着突然想登一下看看,被自 …