huggingface-transformers相关内容
使用PyTorch转换器培训BERT模型(遵循教程here)。 本教程中的以下语句 loss = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels) 指向 TypeError: forward() got an unexpected keyword argu
..
我需要使用来自HuggingFace和TensorFlow的预先训练好的BERT模型('dbmdz/bert-base-italian-xxl-cased')(位于this链接)。 在网站上看到这篇文章后 目前只有与PyTorch-Transformers兼容的权重可用。如果您需要访问TensorFlow检查点,请提出问题! 我提出了这个问题,很快就给了我一个指向包含以下文件的档案的
..
我正在尝试重新加载经过微调的DistilBertForTokenClass模型。我使用的是Translers 3.4.0和pytorch版本1.6.0+cu101。在使用训练器训练了下载的模型之后,我用traine.saveModel()保存了模型,在排除故障时,我通过模型保存到了一个不同的目录。我正在使用Google Colab,并将模型保存到我的Google Drive中。在测试了模型之后,我
..
def split_data(path): df = pd.read_csv(path) return train_test_split(df , test_size=0.1, random_state=100) train, test = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(),
..
我正在尝试从转换器库中导入BertTokenizer,如下所示: import transformers from transformers import BertTokenizer from transformers.modeling_bert import BertModel, BertForMaskedLM 但是,我收到以下错误: 我使用的是转换器3.5.1版,因为我在更新版
..
我尝试了不同的方法来句子相似度,即: 空间模型:en_core_web_md和en_core_web_lg。 变形金刚:使用包sentence-similarity和sentence-transformers,我尝试了distilbert-base-uncased、bert-base-uncased或sentence-transformers/all-mpnet-base-v2等模型。
..
我是初学者..我和伯特一起工作。但是,出于公司网络的安全考虑,以下代码不会直接接收BERT模型。 tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False) model = BertForSequenceClassification.from_pretrained
..
我正在尝试在 Colab 云 GPU 上使用 HuggingFace 转换器库训练一个 NER 模型,对其进行腌制并将模型加载到我自己的 CPU 上以进行预测. 代码 模型如下: from Transformers import BertForTokenClassification模型 = BertForTokenClassification.from_pretrained(“基于
..
我使用 Huggingface Transformer 在 Pytorch 中微调了一个预训练的 BERT 模型.所有训练/验证均在云端 GPU 上完成. 在训练结束时,我保存模型和分词器,如下所示: best_model.save_pretrained('./saved_model/')tokenizer.save_pretrained('./saved_model/') 这会在 sa
..
我对 PyTorch 和 Huggingface-transformers 比较陌生,并在这个 Kaggle 上试验了 DistillBertForSequenceClassification-数据集. from Transformers import DistilBertForSequenceClassification导入 torch.optim 作为 optim将 torch.nn 导入为
..
我想用 BertForMaskedLM 或 BertModel 来计算句子的困惑度,所以我写了这样的代码: 将 numpy 导入为 np进口火炬将 torch.nn 导入为 nn从变压器进口 BertTokenizer,BertForMaskedLM# 加载预训练模型(权重)使用 torch.no_grad():模型 = BertForMaskedLM.from_pretrained('hfl/
..
参考 Huggingface 的超棒变形金刚库的文档,我遇到了add_tokens 函数. tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')模型 = BertModel.from_pretrained('bert-base-uncased')num_ added_toks = tokenizer.add_tokens([
..
我使用pytorch来训练huggingface-transformers模型,但是每一个epoch,总是输出警告: 当前进程刚刚被分叉.禁用并行性以避免死锁...要禁用此警告,请明确设置 TOKENIZERS_PARALLELISM=(true | false) 如何禁用此警告? 解决方案 设置环境变量为字符串"false" 要么通过 TOKENIZERS_PARALLELI
..
我一直在寻找将 Hugging Face 的管道用于 NER(命名实体识别).但是,它以内-外-开始 (IOB) 格式返回实体标签,但 没有 IOB 标签.所以我无法将管道的输出映射回我的原始文本.此外,输出以 BERT 标记化格式进行屏蔽(默认模型为 BERT-large). 例如: 来自转换器导入管道nlp_bert_lg = 管道('ner')print(nlp_bert_lg('H
..
我正在尝试使用 HuggingFace 库使用我自己的数据集从头开始训练 BERT 模型.我想以一种具有原始 BERT 模型的确切架构的方式来训练模型. 在原始论文中,它指出:“BERT 接受了两项任务的训练:预测随机掩码标记 (MLM) 和预测两个句子是否紧跟 (NSP).SCIBERT 遵循与 BERT 相同的架构,但在科学文本上进行了预训练." 我试图了解如何在上述两个任务上训练
..
对不起,我的幼稚问题,但我正在尝试保存我的 keras 模型 (),其中我使用 TFBertModel() 函数作为隐藏层.为此,我使用了 tf.keras 包提供的 save() 函数. 但是我收到了这个错误: --------------------------------------------------------------------------NotImplementedE
..
(我正在关注 this pytorch 教程关于 BERT 词嵌入,在教程中作者是访问 BERT 模型的中间层.) 我想要的是使用 HuggingFace 的 Transformers 库访问 TensorFlow2 中 BERT 模型的单个输入令牌的最后一层,比如说,最后 4 层.因为每一层输出一个长度为 768 的向量,所以最后 4 层的形状将是 4*768=3072(对于每个 toke
..
我正在尝试将 HuggingFace 的转换器模型中的 Pegasus 新闻编辑室转换为 ONNX 格式.我跟着 这份指南由 Huggingface 出版.安装先决条件后,我运行了以下代码: !rm -rf onnx/从 pathlib 导入路径从transformers.convert_graph_to_onnx 导入转换转换(框架=“pt",模型=“google/pegasus-newsro
..
我有这个代码: 导入火炬将张量流导入为 tf将 numpy 导入为 np从转换器导入 AutoTokenizer,AutoModel模型 = 'bert-base-uncased'tokenizer = AutoTokenizer.from_pretrained(model)模型 = AutoModel.from_pretrained(model)Sentence_vectorList = []
..
这是transformers pytorch library文档中给出的例子 from Transformers import BertTokenizer, BertForTokenClassification进口火炬tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')模型 = BertForTokenClassificat
..