cs224u 向量空间模型之降维(LSA)

cs224u 向量空间模型之降维(Vector-space models: dimensionality reduction)

降维的目的是消掉VSM中的相关性,捕获高阶共现,从而改善整体空间。例如,gnarly和wicked是俚语的经常出现的形容词,我们希望它们有一个良好的VSM相似性。然而,gnary是加州人常用的,wicked是波士顿人常用的,它们不太可能经常出现在同一个文本中,之前的方法将无法对它们的相似性进行建模。然而,降维技术能够捕获这样的语义相似性(并且有缩小数据结构大小的额外优势)。

from mittens import GloVe
import numpy as np
import os
import pandas as pd
import scipy.stats
from torch_autoencoder import TorchAutoencoder
import utils
import vsm

DATA_HOME = os.path.join('data', 'vsmdata')
imdb5 = pd.read_csv(os.path.join(DATA_HOME, 'imdb_window5-scaled.csv.gz'), index_col=0)imdb20 = pd.read_csv(os.path.join(DATA_HOME, 'imdb_window20-flat.csv.gz'), index_col=0)giga5 = pd.read_csv(os.path.join(DATA_HOME, 'giga_window5-scaled.csv.gz'), index_col=0)giga20 = pd.read_csv(os.path.join(D


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部