深度学习在文本分类中的应用之fasttext

发表于 2017-06-19 |

1 背景说明

文本分类的方法有很多，从传统的线性模型到现在大热的深度学习模型，都有其应用之地。但是，就我目前所知，自从FB开源了fasttext之后，国内各大厂基本上都投入了其怀抱！目前包括百度的信息流部门、达观数据、搜狐、新浪等，都在不同的业务线上使用了fasttext。究其原因，个人认为不外乎以下几点：（1）快：是相当的快，私底下训练相同规模的数据集，word2vector花了5个小时，fasttext只用了30几分钟；（2）精度高：fasttext分类的性能能够与深度学习相媲美，但是在训练时间上要比深度学习快上几个数量级。

阅读全文 »

深度学习在文本分类中的应用之CNN

发表于 2017-06-07 |

1 背景说明

1.1 行文缘由

最近因为工作上的原因，接触到较多的文本分类相关的领域：比如在信息流广告或者搜索广告中，对关键词、广告创意进行行业分类等。于是，对传统的文本分类方法和目前比较流行的用深度学习进行文本分类做了一个归纳总结，这篇文章就是讲CNN在文本分类中的应用，也是行业中的一篇非常经典的文章。

阅读全文 »

深度学习在CTR预估中的应用之DeepFM

发表于 2017-05-15 |

1 背景说明

对于一个基于CTR预估的推荐系统，最重要的是学习到用户点击行为背后隐含的特征组合。在不同的推荐场景中，低阶组合特征或者高阶组合特征可能都会对最终的CTR产生影响。

阅读全文 »

深度学习中的Batch Normalization

发表于 2017-04-13 |

1 背景说明

本文是同组中一位同学的组内技术分享，觉得很有意思，就暂且拿过来总结一下。涉及到的可能并不止Batch Normalization（下文简称BN），而是以BN为代表的深度学习中的网络标准化方法。

阅读全文 »

深度学习调参总结（持续更新中）

发表于 2017-03-25 |

1 说明

调参基本上是每个深度学习从业者的日常之一，就是吃饭一样，甚至有些时候每天的工作就只是改动一两个参数然后等着分析结果（这让我想起了研二时候，每周就只是改动几个参数，竟然也能整好几页ppt给老板汇报）。

这篇文章在自己工作的基础上，再结合同事以及网上一些牛人的经验，汇总成一篇调参总结，以供自己后续查阅。

阅读全文 »

AUC及其理解

发表于 2017-03-04 |

1 背景说明

在互联网精准广告中，可以从多个角度来评估一个CTR模型的性能，但通常以AUC作为模型评估的最直接指标，直观上讲，AUC是从排序能力的角度来对模型进行评估。下面将详细解释AUC的含义及其计算方式，

阅读全文 »

梯度下降法及其理解

发表于 2017-02-13 |

1 背景说明

在求解机器学习和深度学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，其他的常用的方法是最小二乘法、牛顿法和拟牛顿法。这里就对梯度下降法做一个完整的总结。

2 梯度的概念

2.1 什么是梯度

在微积分里面，对多元函数的参数求$\Phi$偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数$f(x,y)$, 分别对$(x,y)$求偏导数，求得的梯度向量就是$(∂f/∂x, ∂f/∂y)^T$,简称$gradf(x,y)$或者$▽f(x,y)$。对于在点$(x_0,y_0)$的具体梯度向量就是$(∂f/∂x_0,∂f/∂y_0)^T$或者$▽f(x_0,y_0)$，如果是3个参数的向量梯度，就是$(∂f/∂x, ∂f/∂y，∂f/∂z)^T$，以此类推。

阅读全文 »

CTR预估算法之FM/FFM

发表于 2017-01-23 |

1 背景说明

1.1 实际应用场景说明

FM最早是在2010年提出，目的是解决大规模稀疏数据下的特征组合问题。关于数据稀疏的问题，在计算广告或者推荐系统等应用场景下，是常见的。

以移动端广告推荐为例，在日志系统中，每条pv日志和点击日志中，均包含有用户侧的信息（比如年龄，性别，国籍，手机上安装的app列表）、广告侧的信息（广告id，广告出价，广告标题，广告图片url，app包名，app允许在哪些国家展示）、上下文侧信息（包括用户手机浏览器speeddial个数，bookmark列表，最长访问的网站等，手机操作系统，渠道id），对于那些categorical类型的特征，比如国籍，安装的app列表，广告id等等，这种类型特征的取值仅仅是一个标识，本身并没有实际意义，更不能用来取值比较大。

阅读全文 »