什么是TF?什么是IDF?这些对于网站seo优化都有哪些感化?

 许久之前就有存眷到TF-IDF的相干介绍,大年夜部分的讲解都是环绕概念来讲,很多人把TF-IDF称作“算法”,笔者通读了很多文章,甚至在本身的网站进行了应用。鉴于很多同伙说涉及到太多公式,不轻易懂得,本文用简单的实例解释,谈谈我对TF-IDF的一些看法,不讲复杂的公式,欲望能赞助到各位!

  起首,TF词频的概念与seo建议

  TF是指词频,查询的关键词在文档中出现的次数统计。相干文档是如许介绍的,假设查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做seo若何应用这个常识点呢?
  假设有一篇文章的标题是:“seo办事外包”,从字面上懂得,文章主如果以seo办事为核心,“外包”为拓展词。假设文章内容里seo办事出现20次,办事出现25次,外包出现10次,按照TF词频的规矩,那么seo办事是文章主题,这个很好懂得。

  实际上有些时刻写文章时,在意思很明白的情况下,会省略主词。比如seo办事外包价格、seo办事外包流程、seo办事外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。如许会导致外包出现的次数大年夜于办事,TF词频则会认为外包是主题,出现缺点的断定。

  那既然是如许,做seo关键词构造的时刻,应当要恰当推敲主关键词的出现频率大年夜于副词。当然搜索引擎断定网页主题有很多维度,这里只是单从TF词频的角度推敲,小我认为如许做会缩短搜索引擎断定网页主题的时光,对seo来说是有利的。

  第二、若何快速懂得“IDF逆文档频率”

  这个概念假如看文档的话有点难解得,当初笔者看百度百科好几回才明白。涉及到复杂的公式在这里就不讲,结合TF一路来懂得,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的材料库中包含该关键词文档数越少,则解释这个关键词越能代表此网页的主题。


  举个例子来解释,假设有一篇文章,有两个关键词:“seo优化”和“seo办事”,在文章中,这两个关键词出现的材料都是20次,然则在百度的材料库中,包含seo优化的文档总共有一切切个,包含seo办事的文档有五百万个,那么则解释,seo办事越能代表这文章的意思。或者搜索引擎材料库中包含关键词的文档数量一样,文章中出现次数越多的关键词越能代表网页主题。

  从seo的层面讲,IDF这个值是客不雅存在的,不必去深究,只要明白不合关键词之间的文档数若干就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相干成果约XXX个”的如许句子,里面的数值可以作为文档数参考。每个搜索引擎的包含关键词的文档数可能不一样,然则整体的比拟较例值应当是差不多的。并且跟着时光的推移,文档数也会赓续产生改变。