前几天朋友问我同义词怎么处理,要不要做成不同页面来获取排名,给了这2个词: personalized mug 和 custom mug 。
我截图做了标注给他,回复:Google 现在已经能识别这些同义词。所以当搜索 personalized mug 和 custom mug 时,搜索结果的重复度很高(准确来讲,网页召回阶段是相同,排名阶段有少量差异)。而且上图看见,搜索 personalized 时, custom 也会飘红,所以建议是做一个页面就好了(即 2 个同义词用一个页面来获取排名)。
Query 处理简介
以上的情况主要是在搜索引擎的 Query 处理阶段。这是用户输入关键词后的第一个阶段。Google 拿到用户的 Query 词(即搜索词)之后,并不是直接去索引库中查找,而是对 Query 词做了一些处理,比如规范化、分词、扩展和分析等,可以让搜索引擎去除干扰,更理解用户的查询,尽可能地准确地找到用户所需的信息。
主要有以下几个部分:
标点符号处理。去除无关字符,比如特殊符号,标点符号
大小写处理。将大写都改为小写
去掉停用词。比如 the、of、a,这些太常见,且不包含信息的单词
单复数处理。将复数统一为单数,如 phones 改为 phone
时态处理。都时态统一为基本时态,如 runs 改为 run
错别字处理。纠正拼写错误,如 gogle 改为 google
另外为了找到更全面的信息,还会做一些扩展,比如:
同义词扩展。将查询中的某些词替换为它们的同义词,以捕获用户可能使用的不同表述
查询扩展。基于词汇的共现,用户的搜索历史,或者其他信息源来扩展或修改查询
以上环节完成之后,就会形成一个清晰又丰富的词组,可以去索引库中找到更多更准确的网页了。
在 AI 时期,Query 处理对搜索引擎会更重要,因为 Query 更长,更需要了解用户的意图。
文章为作者独立观点,不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有,如需转载,请联系作者 )
网站运营至今,离不开小伙伴们的支持。 为了给小伙伴们提供一个互相交流的平台和资源的对接,特地开通了独立站交流群。
群里有不少运营大神,不时会分享一些运营技巧,更有一些资源收藏爱好者不时分享一些优质的学习资料。
现在可以扫码进群,备注【加群】。 ( 群完全免费,不广告不卖课!)
发表评论 取消回复