python中有TfidfVectorizer可以实现tf-idf值的计算,
我想要获取的特征词已经整理好了,例如下面这样
This_is_bookThis_is_apple
我想要计算的是This_is_book和This_is_apple的tf-idf值,
可是用TfidfVectorizer的话,它就自动帮我把词汇拆分成This,is,book,apple这4个词了。
用TfidfVectorizer后的输出结果:
This This的tf-idf值isis的tf-idf值book book的tf-idf值apple apple的tf-idf值
想要的输出结果:
This_is_bookThis_is_book的tf-idf值This_is_apple This_is_apple的tf-idf值
请问TfidfVectorizer中设置什么参数可以让它不要自动拆分词汇呢?
或者如何自己写tf-idf的计算程序?