最新公告
  • 欢迎您光临【壹流源码】,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 用“斗渣男”的方法,与低质内容做斗争


    编辑导读:对于内容产品来说,内容审核是必不可少的环节之一,特别是针对低质内容的筛选和删改更是劳心劳神。如何快速有效识别低质内容,营造平台良好生态?本文作者以“斗渣男”的例子,对此展开了分析说明,一起来看看~

    直击灵魂一问:你遇到过渣男吗?

    直击灵魂二问:你被渣过吗?

    直击灵魂三问:你被渣过后,怎样反击?

    要是没有,这篇文章就到这儿结束了?

    不!结束不了!

    现在没遇到,可以看看渣男的套路,防患于未然。

    反渣男套路四部曲:

    • 第一步:发现—透过蛛丝马迹,发现存疑迹象
    • 第二步:分析—寻找证据,证明他的身份
    • 第三步:识别—利用确凿证据,坐实渣男身份
    • 第四步:反击—多种手段齐上阵,绝地反击

    净化生态,打击低质内容,同样适用四部曲:

    • 第一步:发现—透过蛛丝马迹,发现疑似低质
    • 第二步:分析—寻找证据,证明它是低质内容
    • 第三步:识别—利用模型、人工,精准识别低质
    • 第四步:反击—降权、过滤等手段齐上阵,绝地反击

    一、透过蛛丝马迹,寻找证据,揪住低质内容

    我们都知道,世上渣男千千万,普遍性中都带有独特性,先来看看常见的有哪些?那些不常见的,可以通过什么方法来发现?

    用“斗渣男”的方法,与低质内容做斗争

    最常见的就是徒有外表,没有内涵,利用精致外表来迷惑人心,让你放下戒备,彻底沦陷。

    另外就是花言巧语,利用人性的弱点,让你放下戒备,彻底沦陷。

    看到这里,也许你会反问!

    • 只要外表光鲜,就是渣男吗?
    • 只要花言巧语,就是渣男吗?
    • ……

    其实不然,这些只是列举的存疑迹象,当出现这些迹象后,我们需要小心啦,进一步搜集证据,进行综合分析。

    1. 试探他对你的各种表达,是否忽冷忽热?是否行为异常?
    2. 看他是否向你坦白过往的历史,日常所做的事,是否有所隐瞒?
    3. 看他是否会把你介绍他的朋友,是否允许你进入他的世界,承认你的存在?
    4. 走访他的周边朋友,听最“真实的反馈”

    当然,要是有最直接的证据,就不用费力去做这些了。

    比如《三十而已》中,顾佳似乎已经通过许幻山的异常行为发现了端倪,始终没有直接证据。直到通过林有有身上的饰品,以及闺蜜拍的照片等直接证据,才坐实了许幻山出轨的事实。

    ……

    当把这些渣男特征投射到内容上,分别对应着标题党与低俗色情内容等,这类内容利用各类吸引眼球的关键字,夸大其词,刺激用户点击欲望。利用人性的弱点,刺激荷尔蒙分泌,刺激用户点击的欲望。

    低质内容特征除了这些之外,还有很多很多,随着自媒体的发展,自媒体创作者发挥着无穷无尽的“聪明才智”获取流量

    对于可枚举低质内容,按照不同内容体裁可有以下枚举值:

    用“斗渣男”的方法,与低质内容做斗争

    对于不可枚举低质内容,没法通过模型或者人工立马将其干掉,但可通过一些蛛丝马迹,将其揪出重点监控与分析。

    1. 用户反馈-最真实的声音

    内容类产品都有设置用户反馈渠道,除了固定反馈选项,用户也可主动填写意见建议,那么应该怎样用好这些资源?

    A)搭建数据监控报表,针对每一类负反馈选项,整体负反馈投诉等,监测小时级、天级的用户反馈趋势变化,定期进行分析。建立报警机制,当某类投诉超出一定阈值(比如xx小时内投诉内容猛增xxx+),发出报警信息,重点排查监控。

    B)定期分析用户主动填写的意见反馈,除了人工一条条查阅总结,也可通过python切词进行词频分析,统计用户负向反馈集中于哪些方向。笔者拉出了所在公司一定时间周期内用户负反馈数据,用python切词处理得到如下结果:

    用“斗渣男”的方法,与低质内容做斗争

    通过词频统计发现,用户反馈比较高频的词语基本没什么实际意义,但也不乏“胡说八道”“狗屁”“废话”等反应用户情绪的词语,再联系情景语境与被反馈的文章内容,也可总结出一批低质内容特征(慢工出细活,这里需要很强的总结归纳能力)。

    附上python切词代码,墙裂推荐超好用的一款工具-VS code。

    import jieba

    txt=open(“d:负反馈内容.txt”,”r”,encoding=’utf-8′).read()

    words=jieba.lcut(txt)

    counts={}

    forwordinwords:

    iflen(word)==1:

    continue

    else:

    counts[word]=counts.get(word,0)+1

    items=list(counts.items())

    items.sort(key=lambdax:x[1],reverse=True)

    foriinrange(1000):

    word,count=items[i]

    print(“{0:<5}{1:>5}”.format(word,count))

    2. 审核当好把门关

    随着自媒体时代到来,人人都是发声者,每日海量内容涌入各大平台,内容安全变得越来越重要。机器模型无法做到100%准确识别,人工的力量变的愈发重要。

    众所周知,审核同学会在审核时为内容打标(主要针对既有的枚举低质内容标签),业界常规做法是利用机器模型辅助人审,提升审核效率。

    无法枚举的低质内容,该怎样发现,监控爆发增长趋势?

    此刻,搭建一套监控机制体系显得尤为重要!

    用“斗渣男”的方法,与低质内容做斗争

    第一步:审核工具增加“疑似低质”tag选项,标识没有被既有低质标签覆盖的内容。

    注意点:加强审核人员培训,包括内容审核标准培训(了解实际工作,提升专业能力)、业务培训(拓展知识边界,加深业务理解)等,只有审核同学更了解业务,才能在审核打标时理解更透彻。

    第二步:建立监控报表,针对每一类既有低质内容,疑似低质内容等,监测这些标签内容在不同类目、不同时段的数量变化趋势,对于一定周期内爆发式增长、某个类目爆发式增长的低质内容,重点监控与排查分析。

    第三步:定期分析疑似低质内容,从中总结归纳新的低质内容,建立模型标准,推进样本标注与模型训练,输出满足上线要求的内容质量模型,辅助人审或者应用线上。

    二、精准识别低质内容,绝地反击

    我们透过蛛丝马迹,发现了渣男的可疑迹象,通过各种方法搜集到证据,怎样让他现出原形?

    • 当面对质
    • 将他说的假话念给他听
    • 将隐瞒的种种事实说给他听
    • 将朋友的真实反馈说给他听
    • 将最直接的证据扔他脸上
    • ……

    如果

    渣男,鉴定无疑,怎么处理?

    当然,一脚把它踢滚蛋呀!

    那么,通过模型、人审精准识别的低质内容,应该怎样处理?

    想要回答这个问题,首先我们来看看推荐系统怎样运转。

    推荐系统大致分为5个环节:推荐内容候选池(正排)→召回→粗排→精排→机制策略

    用“斗渣男”的方法,与低质内容做斗争

    1. 推荐内容候选池:从内容库中通过一定过滤条件,筛选可用内容。
    2. 召回:从推荐内容候选池中,通过一定规则(内容特征特征、模型、功能等)找到对应内容。
    3. 粗排:针对各路召回内容,利用用户特征、内容特征、环境特征、交叉特征等进行粗粒度排序。
    4. 精排:再次利用精细化特征信息,利用cyr预估等模型,为内容打分排序,产生一个用户的待推荐内容列表。
    5. 机制策略:使用各种机制策略(打散、去重、提权、过滤等)得到用户最终推荐内容列表。

    由此来看,处理低质内容可作用于召回、机制策略等环节。

    1. 作用于召回-召回过滤

    适用范围:严重影响用户阅读体验的强低质内容,比如视频无声音、模糊、音画不同步等。

    实现形式:直接将命中的tag内容过滤掉,不会进入排序环节。

    2. 作用于机制策略-推荐降权

    适用范围:不严重影响用户阅读体验,比如标题党、低俗等内容。

    实现形式:

    1)机制策略侧加上降权逻辑,降低此类内容在推荐列表排序,从而减小曝光量。

    注意点:对于标题党、低俗等内容打压,势必会对大盘数据造成影响,因此需要AB实验验证打压策略的实际效果。

    1. AB实验随机分桶,进行小流量实验
    2. 关注核心数据指标:人均人均点击、人均阅读时长、次日留存、3日留存等。
    3. 若实验收益负向,观察核心指标浮动区间是否稳定,找到平衡点,再上报领导层,对于实验的负向收益区间是否可接受。若可接受,可分阶段扩大流量上线。若不可接受,需要调整策略(建立低质内容分档分级,由严重到一般分级打压,给用户适应周期)。

    2)搭建一套生态净化平台工具,灵活管控内容生态

    生态净化工具可大致分为三个模块:模型内容特征参数配置→净化过滤任务配置→生效范围配置

    1. 模型内容特征参数配置:可实现对不同模型内容特征设定阈值,卡档分级,根据模型迭代优化效果,灵活调整参数配置。可支持随时增添新模型内容特征配置。
    2. 净化过滤任务配置:针对图文/视频/小视频等不同体裁分别配置过滤任务,可从一二级分类、标题关键字、内容属性特征(模型特征+人审标签)等维度进行配置。可支持随时添加新模型特征与人审标签。
    3. 生效范围配置:针对配置好的净化过滤任务,再次配置生效范围,可从用户性别与年龄,地域、手机型号与系统、bucket(流量分桶)等进行生效用户圈定。可支持随时添加新的特征字段。

    用“斗渣男”的方法,与低质内容做斗争

    通过生态净化工具,灵活管控,在重大节日、特殊时期等节点,可实现快速、灵活响应。

    渣男千千万,永远斗不完。

    低质内容万万种,永远打不完。

    对待渣男,要擦亮双眼,不要沉迷!

    对待低质内容,要擦亮双眼,不放过一个!

    这场战役,将是场持久战!

     

    本文由 @珂然 原创发布于人人都是产品经理,未经许可,禁止转载

    题图来自 Unsplash,基于 CC0 协议

    壹流源码,分享互联网优质资源,常用破解版软件、开源源码、技术教程等装机必备工具,以及各种行业应用、媒体处理、编程开发、Mac应用系统工具。
    壹流源码 » 用“斗渣男”的方法,与低质内容做斗争

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    壹流源码
    一个高级程序员模板开发平台

    Leave a Reply

    • 608会员总数(位)
    • 5450资源总数(个)
    • 58本周发布(个)
    • 22 今日发布(个)
    • 412稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情