fasttext相关内容

进程以退出代码 -1073740791 (0xC0000409) pycharm 错误完成

我正在尝试将 fastText 与 PyCharm 一起使用.每当我运行以下代码时: 导入fastText模型=fastText.train_unsupervised(“data_parsed.txt")model.save_model("模型") 进程退出并出现此错误: 进程以退出代码 -1073740791 (0xC0000409) 结束 是什么导致了这个错误,可以做些什么来避免它? ..
发布时间:2022-01-08 09:26:07 Python

单词 ngrams 的最大长度与上下文窗口大小之间的差异

在python的fasttext库的描述中https://github.com/facebookresearch/fastText/tree/master/python 用于训练监督模型有不同的论据,其中包括: ws:上下文窗口的大小 wordNgrams:词 ngram 的最大长度. 如果我理解正确的话,这两个词都有责任考虑单词周围的词,但是它们之间有什么明显的区别? 解决方 ..
发布时间:2022-01-02 17:57:11 Python

Gensim Fasttext 预训练模型如何获取词汇表外单词的向量?

我正在使用 gensim 加载预训练的 fasttext 模型.我从 fasttext 网站下载了英语维基百科训练模型. 这是我编写的加载预训练模型的代码: from gensim.models import FastText as ft模型=ft.load_fasttext_format("wiki.en.bin") 我尝试检查人声中是否存在以下短语(这种情况很少见,因为这些是预训练的 ..
发布时间:2022-01-02 17:48:23 Python

Fasttext .vec 和 .bin 文件的区别

我最近下载了用于英语的 fasttext 预训练模型.我有两个文件: wiki.en.vec wiki.en.bin 我不确定这两个文件有什么区别? 解决方案 .vec 文件仅包含纯文本形式的聚合词向量..bin 文件另外包含模型参数,最重要的是,包含所有 n-gram 的向量. 因此,如果您想使用那些 n-gram(FastText 著名的“子词信息")对未训练过的单 ..
发布时间:2021-12-27 17:01:47 Python

为什么 FastText 不处理查找多词短语?

FastText 预训练模型非常适合查找相似词: from pyfasttext import FastText模型 = FastText('cc.en.300.bin')model.nearest_neighbors('狗', k=2000)[('狗',0.8463464975357056),('小狗', 0.7873005270957947),('小狗', 0.769223749637603 ..
发布时间:2021-06-07 20:40:56 其他开发

为 OOV 词添加新向量的正确方法

我正在使用一些特定领域的语言,其中包含大量 OOV 词和一些拼写错误.我注意到 Spacy 只会为这些 OOV 词分配一个全零向量,所以我想知道处理这个问题的正确方法是什么.如果可能的话,我感谢您对所有这些要点进行澄清: pre-train 命令究竟有什么作用?老实说,我似乎无法正确解析网站上的解释: 使用近似的语言建模目标对管道组件的“令牌到向量"(tok2vec) 层进行预训练.具 ..
发布时间:2021-06-07 20:36:52 Python

如何使用 FastText 查找相似的单词?

我正在玩 FastText,https://pypi.python.org/pypi/fasttext,与 Word2Vec 非常相似.由于它似乎是一个相当新的库,还没有多少内置函数,我想知道如何提取形态相似的词. 例如:model.similar_word("dog") -> 狗.但是没有内置函数. 如果我输入model["dog"] 我只得到了可能用于比较余弦相似度的向量.m ..
发布时间:2021-06-07 20:34:32 Python

快速文本中多标签的标签的正确格式是什么?

目前,我正在使用Fasttext进行文本分类的堆栈溢出标记预测中. 我想知道标签多类时标签的正确格式是什么. 1.)__label__毒性__label__种族主义者__label__侮辱2.)__标签__有毒,__标签__种族主义者,__标签__侮辱3.)__标签__有毒__标签__种族主义者__标签__侮辱4.)有毒标签,种族主义标签,侮辱标签 所以有人可以告诉我哪个是真的. ..
发布时间:2021-05-31 18:41:46 AI人工智能

Fasttext .vec和.bin文件之间的区别

我最近下载了英语的Fasttext预训练模型.我有两个文件: wiki.en.vec wiki.en.bin 我不确定两个文件有什么区别? 解决方案 .vec 文件仅包含明文形式的聚合词向量. .bin 文件 还包含模型参数,并且至关重要的是,还包含所有n-gram的向量. 因此,如果您想使用这些n-gram(FastText著名的“子词信息")对您没有训练过的单词进行 ..
发布时间:2021-04-29 20:46:11 Python

在Windows上安装pyfasttext

我尝试按照此处的说明在python 3.6的Windows 10上安装pyfasttext. 我有来自mingw的g ++,clang LLVM 7.0.1,并将它们都放在环境变量上. 我设置USE_CYSIGNALS=0是因为我在Windows上. 但是当我运行命令时: python setup.py install 我遇到以下错误: File "setup.py", line ..
发布时间:2020-06-14 19:14:28 其他开发

Gensim:是否有机会获得Word2Vec格式的单词频率?

我正在使用Fasttext预训练模型进行研究,并且我需要词频来做进一步分析. fasttext网站上提供的.vec或.bin文件是否包含单词频率信息?如果是,我如何获得? 我正在使用load_word2vec_format加载使用model.wv.vocab [word] .count尝试的模型,该模型只会为您提供单词频率排名,而不是原始单词频率. 解决方案 我不认为这些格式包含任何 ..
发布时间:2020-06-14 19:14:26 其他开发

使用Python API的快速文本无监督模型丢失

在使用Python API和Fast Text进行模型的无监督训练时,有什么方法可以使模型丢失吗?目前,我正在使用C ++模型进行培训,并使用Python API进行加载. 例如,我首先运行以下代码来调整超级参数 ./fasttext skipgram \ -input /data/cleaned.txt \ -output /models/cleaned-model \ -epoch ..
发布时间:2020-06-14 19:14:14 Python