当前位置:首页 > SEO文章转载 > 什么是TF-IDF算法,在SEO优化中TF-IDF算法怎么用

什么是TF-IDF算法,在SEO优化中TF-IDF算法怎么用

2
  TF-idf算法是一种用户信息检索和常用的加权信息挖掘技术,经常SEOER应用于,很多人可能不知道,事实上,最直观的理解是“网站关键字密度”。

直接点,TF-idf算法最终是如何计算:

公式:

TF:词频

IDF:逆文档频率指数

TF-IDF=TF*IDF

我们说明,TF词义,指的是《纽约时报》一个单词出现在页面,如果单词的总数在200年的一篇文章,“网站优化”这个词出现了4次,然后这个词TF=4/200,是0。02。

IDF文档频率,指N出现在很多页面的字数,文件数米,然后IDF=lg(M/N)。假设“网站优化”出现在2000页,文件的总数是100000000,然后IDF的文档频率=lg(100000000/2000)=4。69897,然后计算最后TF-IDF=0。02*4。69897=4。69897。

这是一个判断页面的相关问题,在SEO网站优化,不仅决定TF-IDF点的值,我们需要一个高度识别词的页面。例如:搜索引擎包含一万亿页,应该说,每个页面都有“,,,”等等,这些高频词也称为噪声词或停止的话,搜索引擎会删除这些话,所以额外的重量这些话应该是0。公式:TF-IDF日志(1美元/一万亿)==log1=0。

事实上,搜索引擎检索、重量计算,根据每个单词分割来计算,例如:“SEO网站优化技术”这个词。

假设:SEO页面检索数字20000000,网站优化搜索号码是10000000,检索技能的数量500000000

搜索引擎索引号被认为是10000000000。

SEO在这个网站www。ruihess。com页面(页面总共400字)出现8次,网站优化技术出现10次,16倍。

所以他们的频率

特遣部队(SEO)=8/400=0。02,

特遣部队(网站优化)=10/400=0。025

特遣部队(=20/400=0。04技术)

特遣部队(年代)=上面已经提到的,属于停止词的高频,重量是0。

做一个搜索“SEO网站优化技术”这个页面的相关性:TF(总)=0。02+0。025+0。025=0。095。

IDF(SEO)=日志(10000000000/20000000)=2。69897

IDF(网站优化)日志(10000000000/10000000)=3=

IDF(技能)=日志(10000000000/100000000)=1。69897

这么算下来,每个单词搜索“SEO网站优化技术”页面权重和相对贡献值分别为:

Tf-idf(SEO)=0。02*2。69897=2。69897

Tf-dif(网站优化)=0。025*3=0。075

Tf-idf(=0。04*1。69897=0。04技术)

因此,可以看到,尽管技术出现更频繁,但承认不是搜索引擎优化和网站优化,所以页面的贡献并不太大的重量。

预测能力一个单词的识别度较高,那么多字的重量,而更小,看到“网站优化”可能你已经有了一个基本的了解这个页面说什么,但看到技能,您可能还不太了解的主题页面。

当然,这支持点搜索引擎算法,我们结合标记实现举重,如H标记,和周围的关键词词将被传递,这指的是如一个标签:SEO网站优化技术主要是一些搜索引擎优化的想法

杭州seo猜您喜欢

  • «
  • »
  • 作者:
    除非注明,本文原创:杭州SEO,欢迎转载!转载请以链接形式注明本文地址,谢谢。
    原文链接:http://www.xiaoshanseo.com/87.html

    发表评论