使用transformers和tensorflow2.0跑bert模型_bert tensorflow2.0实现-程序员宅基地

技术标签： sentiment tensorflow python transformers kaggle 深度学习

文章目录

1.前言
2. 使用tensorflow2.0 版本跑 bert模型和roberta模型

1.前言

前面两篇文章其实已经详细介绍了bert在kaggle比赛tweet_sentiment_extraction的作用，但是该比赛是基于tensorflow2.0版本的，因此需要把代码进行转换。前面的两篇文章如下链接：

2. 使用tensorflow2.0 版本跑 bert模型和roberta模型

在kaggle中使用notebook参加比赛，是基于tensorflow2.0版本的，虽然不太想换版本跑，但是为了能够用它上面的GPU
还是借鉴了kaggle论坛上面的代码。其中要特别感谢大佬：

@Abhishek Thakur，其代码启发了我使用并行化加速训练模型，能够以更短的时间内训练5-fold模型。

要在tensorflow2.0上跑bert和roberta模型，需要安装transformers:

pip install transformers

2.1 加载transformers中的分词包

因为要构建bert模型的输入，因此加载词典，同时把输入句子转换成下面三个部分：

input_ids: 把每个token转换为对应的id
attention_mask：记录哪些词语需要mask
input_type_ids：区分两个句子，前一句子标记为0，后一句子标记为1

例如：

*** Example ***
tokens: happy b ##day !
input_ids: 101 3407 1038 10259 999 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
segment_ids: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
selected_text: happy bday!

导入分词器工具：

# set some global variables
PATH = "../input/huggingfacetransformermodels/model_classes/roberta/roberta-large-tf2-model/"
MAX_SEQUENCE_LENGTH = 128
TOKENIZER = BertWordPieceTokenizer(f"../input/my-data/vocab.txt", lowercase=True, add_special_tokens=False)

其中TOKENIZER可以直接实现分词，转换id等操作：

enc = TOKENIZER.encode(tweet)
input_ids_orig, offsets = enc.ids, enc.offsets

2.2 自定义bert模型层

这里需要输出bert的全部12层，然后取最后两层作为输出。最后一层预测开始的位置start_logits，倒数第二层预测结束为止end_logits

class BertQAModel(TFBertPreTrainedModel):
    
    DROPOUT_RATE = 0.1
    NUM_HIDDEN_STATES = 2
    
    def __init__(self, config, *inputs, **kwargs):
        super().__init__(config, *inputs, **kwargs)
        
        self.bert = TFBertMainLayer(config, name="bert")
        self.concat = L.Concatenate()
        self.dropout = L.Dropout(self.DROPOUT_RATE)
        self.qa_outputs = L.Dense(
            config.num_labels, 
            kernel_initializer=TruncatedNormal(stddev=config.initializer_range),
            dtype='float32',
            name="qa_outputs")
        
    @tf.function
    def call(self, inputs, **kwargs):
        # outputs: Tuple[sequence, pooled, hidden_states]
        _, _, hidden_states = self.bert(inputs, **kwargs)
        
        hidden_states = self.concat([
            hidden_states[-i] for i in range(1, self.NUM_HIDDEN_STATES+1)
        ])
        
        hidden_states = self.dropout(hidden_states, training=kwargs.get("training", False))
        logits = self.qa_outputs(hidden_states)
        start_logits, end_logits = tf.split(logits, 2, axis=-1)
        start_logits = tf.squeeze(start_logits, axis=-1)
        end_logits = tf.squeeze(end_logits, axis=-1)
        
        return start_logits, end_logits

2.3 预加载模型

利用transformers，可以快速实现预加载模型，同时transformers这个库中已经集成了多种模型.

在加载模型之前，需要导入模型的基本设置：

config = RobertaConfig.from_json_file(os.path.join(PATH, "config.json"))
config.output_hidden_states = True
config.num_labels = 2

接下来加载模型：

model = RoBertQAModel.from_pretrained(PATH, config=config)

2.4 并行化处理（使用多线程）

本来训练一次模型需要1100s，如果训练两个模型，则需要1100*2s的时间。使用多线程后，在训练两个模型的时候，可以把时间缩短到
1100s左右。

通过使用joblib包，来实现多线程，从而压缩训练时间，它的使用方法也很简单，仅仅只需要几行代码就可以实现：

from joblib import Parallel, delayed
test_result = Parallel(n_jobs=num_folds, backend="threading")(delayed(run)(i) for i in range(num_folds))

run()函数是我们自己实现的函数，里面主要实现了模型的训练和预测过程
n_jobs：用来定义共有多少个线程可以实现。

实验结果可以看出，5-fold可以缩短1000s:
joblib

本文链接：https://blog.csdn.net/qq_30232405/article/details/105837341

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

C#连接OPC C#上位机链接PLC程序源码 1.该程序是通讯方式是CSharp通过OPC方式连接PLC_c#opc通信-程序员宅基地

文章浏览阅读565次。本文主要介绍如何使用C#通过OPC方式连接PLC，并提供了相应的程序和学习资料，以便读者学习和使用。OPC服务器是一种软件，可以将PLC的数据转换为标准的OPC格式，允许其他软件通过标准接口读取或控制PLC的数据。此外，本文还提供了一些学习资料，包括OPC和PLC的基础知识，C#编程语言的教程和实例代码。这些资料可以帮助读者更好地理解和应用本文介绍的程序。1.该程序是通讯方式是CSharp通过OPC方式连接PLC，用这种方式连PLC不用考虑什么种类PLC，只要OPC服务器里有的PLC都可以连。_c#opc通信

Hyper-V内的虚拟机复制粘贴_win10 hyper-v ubuntu18.04 文件拷贝-程序员宅基地

文章浏览阅读1.6w次，点赞3次，收藏10次。实践环境物理机：Windows10教育版，操作系统版本 17763.914虚拟机：Ubuntu18.04.3桌面版在Hyper-V中的刚安装好Ubuntu虚拟机之后，会发现鼠标滑动很不顺畅，也不能向虚拟机中拖拽文件或者复制内容。在VMware中，可以通过安装VMware tools来使物理机和虚拟机之间达到更好的交互。在Hyper-V中，也有这样的工具。这款工具可以完成更好的鼠标交互，我的..._win10 hyper-v ubuntu18.04 文件拷贝

java静态变量初始化多线程，持续更新中_类初始化一个静态属性为线程池-程序员宅基地

文章浏览阅读156次。前言互联网时代，瞬息万变。一个小小的走错，就有可能落后于别人。我们没办法去预测任何行业、任何职业未来十年会怎么样，因为未来谁都不能确定。只能说只要有互联网存在，程序员依然是个高薪热门行业。只要跟随着时代的脚步，学习新的知识。程序员是不可能会消失的，或者说不可能会没钱赚的。我们经常可以听到很多人说，程序员是一个吃青春饭的行当。因为大多数人认为这是一个需要高强度脑力劳动的工种，而30岁、40岁，甚至50岁的程序员身体机能逐渐弱化，家庭琐事缠身，已经不能再进行这样高强度的工作了。那么，这样的说法是对的么？_类初始化一个静态属性为线程池

idea 配置maven，其实不用单独下载Maven的。以及设置新项目配置，省略每次创建新项目都要配置一次Maven_安装idea后是不是不需要安装maven了?-程序员宅基地

文章浏览阅读1w次，点赞13次，收藏43次。说来也是惭愧，一直以来，在装环境的时候都会从官网下载Maven。然后再在idea里配置Maven。以为从官网下载的Maven是必须的步骤，直到今天才得知，idea有捆绑的 Maven 我们只需要搞一个配置文件就行了无需再官网下载Maven包以后再在新电脑装环境的时候，只需要下载idea ，网上找一个Maven的配置文件放到默认的包下面就可以了！也省得每次创建项目都要重新配一次Maven了。如果不想每次新建项目都要重新配置Maven，一种方法就是使用默认的配置，另一种方法就是配置 .._安装idea后是不是不需要安装maven了?

奶爸奶妈必看给宝宝摄影大全-程序员宅基地

文章浏览阅读45次。家是我们一生中最重要的地方,小时候,我们在这里哭、在这里笑、在这里学习走路,在这里有我们最真实的时光,用相机把它记下吧。　　很多家庭在拍摄孩子时有一个看法,认为儿童摄影团购必须是在风景秀丽的户外,即便是室内那也是像大酒店一样...

构建Docker镜像指南，含实战案例_rocker/r-base镜像-程序员宅基地

文章浏览阅读429次。Dockerfile介绍Dockerfile是构建镜像的指令文件，由一组指令组成，文件中每条指令对应linux中一条命令，在执行构建Docker镜像时，将读取Dockerfile中的指令，根据指令来操作生成指定Docker镜像。Dockerfile结构：主要由基础镜像信息、维护者信息、镜像操作指令、容器启动时执行指令。每行支持一条指令，每条指令可以携带多个参数。注释可以使用#开头。指令说明FROM 镜像：指定新的镜像所基于的镜像MAINTAINER 名字：说明新镜像的维护（制作）人，留下_rocker/r-base镜像

随便推点

毕设基于微信小程序的小区管理系统的设计ssm毕业设计_ssm基于微信小程序的公寓生活管理系统-程序员宅基地

文章浏览阅读223次。该系统将提供便捷的信息发布、物业报修、社区互动等功能，为小区居民提供更加便利、高效的服务。引言：随着城市化进程的加速，小区管理成为一个日益重要的任务。因此，设计一个基于微信小程序的小区管理系统成为了一项具有挑战性和重要性的毕设课题。本文将介绍该小区管理系统的设计思路和功能，以期为小区提供更便捷、高效的管理手段。四、总结与展望：通过本次毕设项目，我们实现了一个基于微信小程序的小区管理系统，为小区居民提供了更加便捷、高效的服务。通过该系统的设计与实现，能够提高小区管理水平，提供更好的居住环境和服务。_ssm基于微信小程序的公寓生活管理系统

如何正确的使用Ubuntu以及安装常用的渗透工具集.-程序员宅基地

文章浏览阅读635次。文章来源i春秋入坑Ubuntu半年多了记得一开始学的时候基本一星期重装三四次=-= 尴尬了觉得自己差不多可以的时候就吧Windows10干掉了 c盘装Ubuntu 专心学习. 这里主要来说一下使用Ubuntu的正确姿势Ubuntu（友帮拓、优般图、乌班图）是一个以桌面应用为主的开源GNU/Linux操作系统，Ubuntu 是基于DebianGNU/Linux，支..._ubuntu安装攻击工具包

JNI参数传递引用_jni引用byte[]-程序员宅基地

文章浏览阅读335次。需求：C++中将BYTE型数组传递给Java中，考虑到内存释放问题，未采用通过返回值进行数据传递。public class demoClass{public native boolean getData(byte[] tempData);}JNIEXPORT jboolean JNICALL Java_com_core_getData(JNIEnv *env, jobject thisObj, jbyteArray tempData){ //resultsize为s..._jni引用byte[]

三维重建工具——pclpy教程之点云分割_pclpy.pcl.pointcloud.pointxyzi转为numpy-程序员宅基地

文章浏览阅读2.1k次，点赞5次，收藏30次。本教程代码开源：GitHub 欢迎star文章目录一、平面模型分割1. 代码2. 说明3. 运行二、圆柱模型分割1. 代码2. 说明3. 运行三、欧几里得聚类提取1. 代码2. 说明3. 运行四、区域生长分割1. 代码2. 说明3. 运行五、基于最小切割的分割1. 代码2. 说明3. 运行六、使用 ProgressiveMorphologicalFilter 分割地面1. 代码2. 说明3. 运行一、平面模型分割在本教程中，我们将学习如何对一组点进行简单的平面分割，即找到支持平面模型的点云中的所有._pclpy.pcl.pointcloud.pointxyzi转为numpy

以NFS启动方式构建arm-linux仿真运行环境-程序员宅基地

文章浏览阅读141次。一其实在 skyeye 上移植 arm-linux 并非难事,网上也有不少资料, 只是大都遗漏细节, 以致细微之处卡壳，所以本文力求详实清析, 希望能对大家有点用处。本文旨在将 arm-linux 在 skyeye 上搭建起来，并在 arm-linux 上能成功 mount NFS 为目标, 最终我们能在 arm-linux 里运行我们自己的应用程序. 二安装 Sky..._nfs启动 arm

攻防世界 Pwn 进阶第二页_pwn snprintf-程序员宅基地

文章浏览阅读598次，点赞2次，收藏5次。00为了形成一个体系，想将前面学过的一些东西都拉来放在一起总结总结，方便学习，方便记忆。攻防世界 Pwn 新手攻防世界 Pwn 进阶第一页01 4-ReeHY-main-100超详细的wp1超详细的wp203 format2栈迁移的两种作用之一：栈溢出太小，进行栈迁移从而能够写入更多shellcode，进行更多操作。栈迁移一篇搞定有个陌生的函数。C 库函数 void *memcpy(void *str1, const void *str2, size_t n) 从存储区 str2 _pwn snprintf