分类: 深度学习 | 杨程的博客

文章分类
PaddlePaddle 2 NLP 32 GNN 22 论文笔记 2 深度学习 13 PyTorch 4 深度学习 6 论文阅读笔记 2 论文笔记 3 LeetCode 1 NumPy 1 PyCharm 1 深度学习tricks 3 Python学习笔记 2 Python 2 NLP 1 Linux 1 GPU 1 学习方法 1 转载 1 实验室 1 比赛 1 机器学习 2 学习笔记 1 就业 1 李宏毅-深度学习 1 信息抽取 2 计划 1
                            
                            Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor Learning
                        
                                Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor LearningContributions
作者引入了STRUC
                            
                                2021-04-17
                            
                                    深度学习
                                
                                    NLP
                                
                            论文笔记
                        
                            What is verbose?
                        
                                z在Deep Learning的编程中，总是会遇到verbose这个概念，我一直理解这个单词就是控制程序打印信息的意思，但是具体是怎么控制打印信息，我一直没理解，查阅资料之后发现，这个参数在Keras中常见，stackoverflow关于它
                            
                                2021-04-16
                            
                                    深度学习
                                
                            Everything You Need To Know About Saving Weights In PyTorch
                        
                                在使用huggingface transformers时经常需要用到保存model，或者说是保存model的parameters。看了一篇medium上的blog，感觉很有用，解决了我很多的困扰，下面是blog里面的精髓：

Applyin
                            
                                2021-04-11
                            
                                    深度学习
                                
                            PyTorch
                        
                            What is Gradient Clipping
                        
                                为什么需要gradient clipping？在DL的项目中常常会看到gradient clipping的身影，命令行传入参数grad_clip，然后再调用clip_grad_norm_()函数，如下：
parser.add_argumen
                            
                                2021-04-11
                            
                                    深度学习
                                
                            PyTorch
                        
                            梯度裁剪
                        
                            Few-Shot Learning
                        
                                基本概念Few-Shot Learning与传统监督学习的不同Few-Shot Learning的数据集一般包括：training set，support set和query。
Few-Shot Learning的目标是让模型能够在一个很大
                            
                                2021-04-06
                            
                                    深度学习
                                
                            Few-Shot Learning
                        
                            课程笔记
                        
                            深度学习中的logits是什么？
                        
                                在深度学习编码的过程中，常常会遇见一些变量名叫做logits，这个logits到底指代了一个什么东西呢？查阅资料之后，我在Google的machine learning文档中找到了定义：

LogitsThe vector of raw (
                            
                                2021-04-02
                            
                                    深度学习
                                
                            PyTorch
                        
                            Pytorch里的CrossEntropyLoss详解
                        
在使用Pytorch时经常碰见这些函数cross_entropy，CrossEntropyLoss, log_softmax, LogSoftmax。看得我头大，所以整理本文以备日后查阅。

首先要知道上面提到的这些函数一部分是来自于to
                            
                                2021-04-02
                            
                                    深度学习
                                
                            PyTorch
                        
                            Focal Loss——从直觉到实现
                        
                                Focal Loss——从直觉到实现问题（Why？）做机器学习分类问题，难免遇到Biased-Data-Problem，例如

CV的目标检测问题: 绝大多数检测框里都是 backgroud
NLP的异常文本检测: 绝大多数文本都是 nor
                            
                                2021-03-29
                            
                                    深度学习
                                
                            转载
                        
                            损失函数
                        
                            l1和l2正则化的区别
                        
                                L1正则化和L2正则化是控制模型复杂度和限制过拟合的常用方法。L1正则化和L2正则化之间有一些有趣的比较。我发现这些视觉上的对比和它们的解释很容易理解。
1. 为什么需要正则化？首先，让我们以线性回归为例。假设Y和一大堆其他Factor之间
                            
                                2021-03-22
                            
                                    深度学习
                                
                            面试
                        
                            正则化
                        
                            Animated RNN, LSTM and GRU
                        
                                RNN是

Vanilla RNN

$t$——time step
$X$——input
$h$——hidden state
length of $X$ —size/dimension of input
length of $h$ — no
                            
                                2021-03-22
                            
                                    深度学习
                                
                            面试
                        
                            LSTM
                        
                            RNN
                        
                            GRU
                        
                            预训练模型超全知识点梳理与面试必备高频FAQ
                        
原文章地址——预训练模型超全知识点梳理与面试必备高频FAQ

预训练模型（Pre-trained Models,PTMs）的出现将NLP带入了一个全新时代。2020年3月18日，邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trai
                            
                                2021-02-14
                            
                                    深度学习
                                
                            转载
                        
                            CRF Layer on the Top of BiLSTM(BiLSTM-CRF)
                        
                                简单概述BiLSTM-CRF中的CRF层的作用
                            
                                2021-01-24
                            
                                    深度学习
                                
                            BiLSTM-CRF