机器分类原理解析

2018-08-27 发表在 编程语言 1155

自动分类对于采集领域来说,是一个神器。

百度的知道等问答网站,都有对问题进行自动分类,还有今日头条的文章 也是机器分类

本博客下一阶段的目标就是深度的整合机器学习相关技术,把文章进行自动分类,评论进行情感分析等。


接下来我们开始进行机器学习

假设有一篇文章,如下:

 实施乡村振兴战略,是以习近平同志为核心的党中央着眼党和国家事业全局、顺应亿万农民对美好生活的向往,对“三农”工作作出的重大决策部署,是决胜全面建成小康社会、全面建设社会主义现代化国家的重大历史任务,是新时代做好“三农”工作的总抓手。党的十九大以来,党中央、国务院采取一系列重大举措加快推进乡村振兴。最近,习近平同志又专门作出重要指示,强调要把实施乡村振兴战略摆在优先位置,坚持五级书记抓乡村振兴,让乡村振兴成为全党全社会的共同行动,为做好乡村振兴各项工作进一步指明了方向、提供了遵循。

在人工的判断下,应该是政治分类。理由是,人物、和事件都是政治类

当然有的人也觉得这是三农、民生、等分类。

这时候大家僵持不下,就把政治、三农、民生分类拿出来,大家一起投个票,

总共有10个人在场,一人只可以投票一次,投票结果如下:

政治=6票

三农=3票

民生=1票

最后“政治”分类胜出。



判别一篇文章属于某个分类,主要是取决于训练的模型,例如我们内置了3个分类,“政治”、“三农”、“民生”

我们先人为选取对应的文章进行学习,找10篇政治领域的文章,找10篇三农、找10篇民生

最后模型所对应的词库为:

政治=习近平,同志,党中央,党和国家,重大,决策,部署,建成,小康社会,建设,社会主义,现代化,国家

三农=村,振兴,农民,乡村,振兴,生活,小康社会,举措,加快,推进

民生=美好生活,工作,向往,住房


最后把文章进行分词,分词结果:

实施,乡村,振兴,战略,,,是,以,习近平,同志,为,核心,的,党中央,着眼,党和国家,事业,全局,、,顺应,亿万,农民,对,美好生活,的,向往,,,对,“,三农,”,工作,作出,的,重大,决策,部署,,,是,决胜,全面,建成,小康社会,、,全面,建设,社会主义,现代化,国家,的,重大,历史,任务,,,是,新,时代,做好,“,三农,”,工作,的,总,抓手,。,党,的,十九,大,以来,,,党中央,、,国务院,采取,一系列,重大,举措,加快,推进,乡村,振兴,。,最近,,,习近平,同志,又,专门,作出,重要,指示,,,强调,要,把,实施,乡村,振兴,战略,摆在,优先,位置,,,坚持,五级,书记,抓,乡村,振兴,,,让,乡村,振兴,成为,全党,全,社会,的,共同行动,,,为,做好,乡村,振兴,各项,工作,进一步,指明,了,方向,、,提供,了,遵循,。

把结果拿去匹配每个分类,最后得出一个命中得分

比如:

政治得分3.8分

三农得分2.1分

民生得分1.1分

最后对分数进行排序,取第一个就是稍微准确的分类

要想结果精确 就多找些文章来训练模型,只要有个强大的模型,分类就会比较精准。


之前写的一个自动选课的算法,原理和这个有点类似。

https://github.com/newpanjing/group

都是按照规则进行打分,最后排序,取最高分者。


作者:贝塔博客
本站使用「署名 4.0 国际」创作共享协议,转载请在文章明显位置注明作者及出处。
评论
登录以后才可以发布评论哦, 点击登录 发布评论
评论列表 0人参与,0条评论
暂时还没有人评论,快来一条神回复吧!