设为首页收藏本站心情墙手机版 今天是: 2024-07-27    美好的一天,从现在开始
天气与日历 切换到宽版

 找回密码
 立即注册
搜索
查看: 1767|回复: 0

[算法相关] seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

[复制链接]
  • 打卡等级:LV7

459

主题

31

回帖

24万

积分

管理员

积分
247438

突出贡献荣誉管理论坛元老本科学士学位劳力士欧米茄奔驰宝马

QQ

皮卡丘 Lv:40
发表于 2022-8-5 16:54:21 | 显示全部楼层 |阅读模式 IP:天津
本篇内容主针对seo,同样适用于短视频、自媒体技术运营,主要讲解:内容相似度算法(Jaccard,Simhash)、内容推荐算法、协同过滤的推荐算法、用户行为推荐算法、超链接有关算法(PageRank、Hilltop、HITS)、站点信任表现算法(TrustRank)。

其实很多算法在搜索引擎、自媒体、短视频等平台都是通用的,理解算法不论是做搜索还是转行自媒体都是有帮助的。
很多算法高等数学,看不懂啊,用通俗的方式来讲解!比如Jaccard相似度算法完全看不懂如下:

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任


现在还有很多AI算法分析语义向量,情感分析,相关性、特征样本分析此类算法不是很懂不讲解!有些算法并不适合海量数据,可能部分站长使用过ai有关工具,单机单次数据处理,处理时间是秒级别时间,碰到海量数据肯定不适用!

内容相似度算法
主要讲两个算法(Jaccard,Simhash),其实相似度算法很多,但是支持海量数据去重的只有Simhash算法。
Jaccard相似度:
首先要提取标题或者内容特征作为相似性判断,要通过标题分词或者TF-IDF进行提取特征。
原理A文章与B文章中交集的字数除以并集的字数。

以标题分词为例:
A文章:电脑 蓝屏 怎么 解决
B文章:电脑 蓝屏 原因 什么

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任


结果0.66这个系数则是A文章与B文章的相似度,越接近1证明内容相似度越高。
此算法海量数据下,比对性能下降严重,我自己测试三千万数据单机每次比对0.05秒。

Simhash:
内容去重最常用的算法,基本大厂都是用,占用小速度快,支持海量数据,10亿内容占用内存才100MB。
首先整个内容,通过分词提取特征(特征提取一般是几句话或topK),将特征词进行运算为64字节二进制,每个特征词分配不同权重,再将全部特征词的64字节二进制合并降维,通过汉明距离进行两个64字节比对,小于等于3则是重复内容。

弊端也是很严重的,比如准确率80%,所以会出现漏网之鱼,但是性能高速度快,应对每日增量很好用。

内容推荐算法
不知道算法名称,但是知道原理,这并不是某某公司原创的。
不论是图片、文字、视频机器并不知道有用户需求,因此就需要把内容推荐给一部分少量的用户群体,来检测用户是否点击、观看完整、跳出、收藏评论等等,进行判断内容是否有需求,有需求则认为内容是有质量的给予更多曝光,进入下一阶段推送流量池。
不论是搜索引擎或短视频自媒体平台都有这类算法。

以搜索引擎为例:
1、 当内容秒收录后,给予一段时间排名,过一段时间消失就是进行这类算法分析。
2、 资源平台的“流量与关键词”经常看到,有展现和点击,但是自己搜索不到,也是如此。

以百家号/自媒体/短视频为例:
1、 将内容或视频第一轮推送给200人进行分析,符合一定系数,进行第二轮推送推送给1000人,以此类推,推送第N轮不符合系数停止推送。
2、 如果视频内容每次推荐几十或几百,就要考虑自己的内容质量了,很多人高兴转型自媒体,每天小有播放量,其实这个播放量算法给的

协同过滤的推荐算法
其实协同过滤用途很多,比如百家号自媒体推荐。记录用户的经常访问的内容,作为喜欢这类内容的特征,通过以下方式来推荐喜欢和可能喜欢的内容。

A用户:喜欢橘子、西瓜、芒果 不喜欢菠萝、榴莲。
B用户:喜欢西瓜、橘子、苹果 不喜欢荔枝、菠萝。

通过算法协同算法可以得出

A用户可能喜欢苹果,不喜欢荔枝。
B用户可能喜欢芒果,不喜欢榴莲。
通常文字内容通过标题内容提取特征,视频择通过标签标题来提取特征推荐。更复杂的系统使用年龄段,性别,学历等等推荐,这就是大家常说的大数据。

用户行为推荐算法
根据用户搜索行为与点击行为对用户进行分析,当用户点击某个搜索结果时候,这篇内容对用户有需求,解决了用户的问题,没有跳出点击其他搜索结果页其他站点,搜索则会认为内容是优质的有需求的

超链接有关算法
以前搜索引擎无法知道内容用户是否喜欢,因此通过超链接来分析,不过这类算法都被淘汰了,容易作弊,通过友链外链堆砌即可,某些产业来讲十分容易。
不论百度还是其他搜索引擎已经都没有与外链友链有关的工具。
2015年7月3日发布的《超链算法升级,外链拒绝功能下线》 提到“站点进行外链建设可满足被搜索引擎蜘蛛发现收录的需求,和超链权重计算的需求。但目前百度仅信任非常小范围内的优质重要外链,站点只要获得一些重要的、基本内容相关站点的超链即可满足需求。在这一点上,PC端与移动端是相互贯通的。百度站长平台在此呼吁各位站点,不要再为外链浪费时间与金钱了。”
其中“信任非常小范围内的优质重要外链”可能就是几个大平台站带,内容可控,作弊几率小
公告地址:https://ziyuan.baidu.com/wiki/407

PageRank算法:
多个URL链接指向自己页面,来表明此页面拥有大量用户分享是优质页面!

Hilltop算法:
Hilltop是PageRank的升级版,因为多个指向URL链接可能不相关,所以增加了一层分析页面是否相关,来判断页面是否是优质页面!

HITS算法:
是页面重要性分析算法,适用于内、外链接算法!
“其他页面指向此网页链接”和“此网页指向其他链接”,会给此网页分配“内容权重”和“链接权重”,通过页面与页面之间的相互连接,相互传递来分析内容权威度和质量,页面被其他页面引用越多,质量越高。

站点信任表现算法
TrustRank算法:
主要观察内容类型,内容独特性,内容原创,内容更新频率,站点稳定,站点40X/50X错误数量,站点历史等等来提高网站权威性,会增加收录和排名。
急躁,是因为经历不够,轻浮,是因为磨练不够,烦乱,是因为思路不清,压力,是因为格局不够,恐惧,是因为假想太多,在这个薄凉的世界,自己不强大,一切都是浮云 ...
懒得打字嘛,点击右侧快捷回复 【乱回复纯数字纯字母将禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|社区规范|绵羊优创 ( 京ICP备19037745号-2 )|网站地图

公安备案京公网安备11011502037529号

GMT+8, 2024-7-27 15:11 , Processed in 1.481022 second(s), 20 queries , MemCache On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表