数据表示 一般来说字符串数据分为四种: 分类数据 可以在语义上映射维类别的自由字符串 结构化字符串数据 文本数据 词袋表示 这种表示舍弃了输入文本中的大部分结构,如段落、章节、句子和格式,只计算每个单词在每个文本中的出现频次。 计算词袋有以下步骤: 分词(tokenization):将每个文档划分为出现在其中的单词,按空格和标点划分。 构建词表(vocabulary building):收集词表,包含出现在任意文档的所有词。 编码(encoding):对于每个文档,计算每个单词在文档中的出现频次。(稀疏矩阵存储) CountVectorizer 简单使用 from sklearn.feature_extraction.text import CountVectorizer vect = CountVectorizer() vect.fit(bard_words) # train len(vect.vocabulary_) vect.vocabulary_ bag_of_words = vect.transform(bard_words) # 词袋表示使用稀疏矩阵存储 ba
JJJYmmm
Updating as per fate.