TF-IDF算法原理介绍、计算方法及运用
||TF-IDF介绍:TF-IDF是一种用于信息检索和文本挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,值越高重要程度越高。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
注意:TF-IDF值只能用于评估一个词在特定文档或语料库中的重要程度,而不是用于判断某个词是否“重要”。
||TF-IDF名词解释:
TF-IDF实际上是:TF * IDF
TF(Term Frequency,词频)
如果某个词在单个文档中出现的频率越高,那么他的TF值就会越大,表示该词在此文章中重要程度高。
IDF(Inverse Document Frequency,逆向文件频率)
如果某个词在语料库中的大部分文档都出现,那么它的IDF值会很小,表示该词对文档的重要度低。
||TF-IDF的计算方法:
TF(t) = 词出现次数(t) / 总次数
(其中,次数(t)表示词t在文档中出现的次数,总次数表示文档中所有词的出现次数之和)
IDF(t) = log(文档总数 / 包含词t的文档数)
(其中,文档总数是指语料库中的总文档数,包含该词的文档数是指包含该词的文档数量)
TF-IDF(t) = TF(t)*IDF(t)
||TF-IDF的计算方法过程举例:
(单篇文档中某个词的重要程度)
假设有1个语料库中有4个文档ABCD
A:总词数260,苹果词0,红富士3
B:总词数120,苹果词5,红富士0
C:总词数330,苹果词7,红富士0
D:总词数500,苹果词5,红富士4
计算“苹果”在D文档中的TF-IDF值:
D文档中“苹果”出现了5次,总词数为500
TF(苹果) = 5(苹果) / 500 = 0.01
IDF(苹果) = log(4 / 3) = log(1.33) = 0.125(四舍五入)
TF-IDF(苹果) = TF(0.01)*IDF(0.125)= 0.00125
计算“红富士”在D文档中的TF-IDF值:
D文档中“苹果”出现了4次,总词数为500
TF(红富士) = 4(红富士) / 500 = 0.008
IDF(红富士) = log(4 / 2) = log(2) = 0.3(四舍五入)
TF-IDF(红富士) = TF(0.008)*IDF(0.3)= 0.0024
||分析:
最终根据结果可以看到,在D文档中红富士词的重要程度大于苹果词,是因为D文档中的苹果词在其他文档中的出现频率过高分散了权重,但这并不代表苹果这个词不重要。
||调整:
我们可以通过以下4种方式提升苹果词的重要程度:
1、增加本文档苹果词出现频率
2、降低本文档红富士词出现频率
3、增加其他文档的红富士词出现频率
4、降低其他文档的苹果词出现频率
(具体调整的方式和力度需要根据整个语料库及单篇文档不同的情况一对一分析计算,整改前务必准确计算出现有tf-idf值及计划调整后的tf-idf值,不可盲目按自己表层理解进行修改)
页:
[1]