TopicModel-List

返回目录

主题模型资料索引

朴素贝叶斯可以胜任许多文本的分类问题,但是无法解决语料中一词多义和多词一义的问题,它更像是词法分析,而不是语义分析。而如果使用词向量作为文档的特征,可以较好地解决了一词多义和多词一义的问题,但是就好像过拟合一样,会造成计算文档间相似度的不准确性。而通过添加主题这个隐藏变量,一个词可能被映射到多个主题,而多个主题也可能被映射到一个词中,从而解决一定程度上的语义问题。

主题模型经历从基于SVD的简单的LSA(隐含语义分析),到基于概率模型与EM的pLSA,再到基于Dirichlet分布的LDA。目前,经典的主题模型一般都会基于BOW(Bag-of-Words)假设。

LDA

Lda2Vec

Topic Model Evaluation