1.通过os.listdir()函数获取指定目录下的文件名list
2.对文件使用jieba进行分词并提取topK作为关键词
3.使用sklearn计算每一个文本中所有关键词的权重(文本中没有的词权重为0)
4.参考链接:
http://blog.csdn.net/zhzhl202/article/details/819710
http://www.it165.net/pro/html/201407/17648.html