假设与字符串列表的列表如下生成稀疏矩阵给出列表与字符串列表
docs = [["hello", "world", "hello"], ["goodbye", "cruel"]]
一个人如何去创建一个稀疏矩阵,其中每一行代表上述列表中的子列表和每列代表一个像子列表中的“残忍”的标记字符串。
我看着scipy文档here和一些其他的stackoverflow帖子,但是,这一个是不清楚给我。
row_idx = 0
col_idx = 0
rows = []
cols = []
vals = []
for doc in tokens_list:
col_idx = 0
for token in doc:
rows.append(row_idx)
cols.append(col_idx)
col_idx = col_idx + 1
vals.append(1)
row_idx = row_idx + 1
X = csr_matrix((vals, (rows, cols)))
我想是这样,但上面我有一种感觉,这是不对的,我不能涉及到SciPy的文档中的例子。
预期产量是多少? – Divakar
你需要使用列表来完成吗?这是非常好的,简单,直接与字典! – agaidis
@Divakar实际的输入是[['isn','t','this','movie','great'],['horrible','horrible','movie']]为[[1,0,1,1,1,1],[0,2,0,1,0,0]]。 – Sanchayan