1 背景说明
文本分类的方法有很多,从传统的线性模型到现在大热的深度学习模型,都有其应用之地。但是,就我目前所知,自从FB开源了fasttext之后,国内各大厂基本上都投入了其怀抱!目前包括百度的信息流部门、达观数据、搜狐、新浪等,都在不同的业务线上使用了fasttext。究其原因,个人认为不外乎以下几点:(1)快:是相当的快,私底下训练相同规模的数据集,word2vector花了5个小时,fasttext只用了30几分钟;(2)精度高:fasttext分类的性能能够与深度学习相媲美,但是在训练时间上要比深度学习快上几个数量级。