欢迎来到我的博客(*^▽^*)
Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor Learning Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor Learning
Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor LearningContributions 作者引入了STRUC
What is verbose? What is verbose?
z在Deep Learning的编程中,总是会遇到verbose这个概念,我一直理解这个单词就是控制程序打印信息的意思,但是具体是怎么控制打印信息,我一直没理解,查阅资料之后发现,这个参数在Keras中常见,stackoverflow关于它
2021-04-16
Everything You Need To Know About Saving Weights In PyTorch Everything You Need To Know About Saving Weights In PyTorch
在使用huggingface transformers时经常需要用到保存model,或者说是保存model的parameters。看了一篇medium上的blog,感觉很有用,解决了我很多的困扰,下面是blog里面的精髓: Applyin
2021-04-11
What is Gradient Clipping What is Gradient Clipping
为什么需要gradient clipping?在DL的项目中常常会看到gradient clipping的身影,命令行传入参数grad_clip,然后再调用clip_grad_norm_()函数,如下: parser.add_argumen
2021-04-11
Few-Shot Learning Few-Shot Learning
基本概念Few-Shot Learning与传统监督学习的不同Few-Shot Learning的数据集一般包括:training set,support set和query。 Few-Shot Learning的目标是让模型能够在一个很大
2021-04-06
深度学习中的logits是什么? 深度学习中的logits是什么?
在深度学习编码的过程中,常常会遇见一些变量名叫做logits,这个logits到底指代了一个什么东西呢?查阅资料之后,我在Google的machine learning文档中找到了定义: LogitsThe vector of raw (
2021-04-02
Pytorch里的CrossEntropyLoss详解 Pytorch里的CrossEntropyLoss详解
在使用Pytorch时经常碰见这些函数cross_entropy,CrossEntropyLoss, log_softmax, LogSoftmax。看得我头大,所以整理本文以备日后查阅。 首先要知道上面提到的这些函数一部分是来自于to
2021-04-02
Focal Loss——从直觉到实现 Focal Loss——从直觉到实现
Focal Loss——从直觉到实现问题(Why?)做机器学习分类问题,难免遇到Biased-Data-Problem,例如 CV的目标检测问题: 绝大多数检测框里都是 backgroud NLP的异常文本检测: 绝大多数文本都是 nor
2021-03-29
l1和l2正则化的区别 l1和l2正则化的区别
L1正则化和L2正则化是控制模型复杂度和限制过拟合的常用方法。L1正则化和L2正则化之间有一些有趣的比较。我发现这些视觉上的对比和它们的解释很容易理解。 1. 为什么需要正则化?首先,让我们以线性回归为例。假设Y和一大堆其他Factor之间
2021-03-22
Animated RNN, LSTM and GRU Animated RNN, LSTM and GRU
RNN是 Vanilla RNN $t$——time step $X$——input $h$——hidden state length of $X$ —size/dimension of input length of $h$ — no
2021-03-22
预训练模型超全知识点梳理与面试必备高频FAQ 预训练模型超全知识点梳理与面试必备高频FAQ
原文章地址——预训练模型超全知识点梳理与面试必备高频FAQ 预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trai
2021-02-14
CRF Layer on the Top of BiLSTM(BiLSTM-CRF) CRF Layer on the Top of BiLSTM(BiLSTM-CRF)
简单概述BiLSTM-CRF中的CRF层的作用
2021-01-24
1 / 2