(Python gensim+Word2Vec)实现文本相似度计算

# -*-encoding=utf-8-*-
import jieba
from gensim.models.word2vec import Word2Vec
# jieba分词返回列表
def jieba_cut(sent):sent1 = jieba.lcut(sent)return sent1
# gensim-Word2Vec模型训练
def word2vec1(sent1,sent2):sent1 = jieba_cut(sent1)sent2 = jieba_cut(sent2)sentences = [];sentences.append(sent1);sentences.append(sent2)model = Word2Vec(sentences, min_count=1)return model
# 输入需要分析的文本
def model1():sent1 = jieba_cut(input())sent2 = jieba_cut(input())return sent1,sent2
# 输出特定词在文本中的相似性比较
def sim(mo,sent1,sent2):for i in mo.wv.most_similar(sent1,sent2,topn=5):print(i[0],i[1])# print(mo.wv.most_similar(sent1,sent2,topn=5)
mo = word2vec1(input(),input())
yo = model1()
xo = mo.wv.n_similarity(yo[0],yo[1])
print('文本相似度:%f'%xo)
sim(mo,["互联网","信息"],["个人隐私"])
# 输出全文本词向量
print(mo.wv.vectors)
# 来自网络社交、直播、游戏、电商、金融、物流、交通、社区服务等多个应用领域运营主体的相关负责人现场签署了《深圳市APP个人信息保护自律承诺书》,向社会公开作出“不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳市委网信办主要负责同志表示,深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。头部企业要带头落实主体责任,做到“言必信、行必果”,把承诺落实在实际行动上,建立严格的个人信息保护合规制度体系,确保用户放心下载、放心使用,为全市广大APP运营企业发挥表率作用。网信部门将以开展党史学习教育“我为群众办实事”实践活动为契机,切实履行监管责任,汇聚各部门和社会各方力量,把群众急难愁盼的事抓实抓好抓到位。
# 不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。

待测文本未去除停用词

 敬请指正!


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部