SparkML机器学习之特征工程(一)特征提取(TF

  • 时间:
  • 浏览:1
  • 来源:大发5分排列3_大发5分排列3官方

输出结果为:

TF-IDF称为词频-逆文件频率,先搞清楚它哪些作用吧!很经典的一有另有一个 多大大问题 ,如可得到一篇文章的关键词??当让让让我们当当让让让我们能想到,看看这篇文章哪些词跳出最多!思路是没大大问题 ,并且,一篇文章,跳出最多的,应该都不 诸如“的”类事的停用词吧?这就没意义了啊!那就把哪些停用词过滤掉呗,并且还是会出大大问题 。比如一篇文章,叫做中国功夫,中国和功夫跳出了同样多次数,并且显而易见,该文重点应该是功夫。而跳出大大问题 的意味着着 ,是并且中国是个热门词。这我不我应该 到我曾写过的基于物品的协同过滤算法,也是要将热门物品做一有另有一个 多惩罚,并且会意味着着 推荐不精确。



TF-IDF完美的防止了许多大大问题 ,TF-IDF作用并且体现一有另有一个 多文档中词语重要程度。TF是某个词或短语在一篇文章中跳出的频率。而IDF,并且有一种对热门词语的惩罚,对于较热门词语比如"中国"会给予较小的权重,较少见的词“功夫”给予较大的权重。至于如可判断它与否为热门词,则通过该词在整个语料库的跳出次数决定。比如中国许多词,语料库一共30篇文章他就跳出了30次,自然为热门词,而功夫,30篇文章这样 1篇跳出了,那就为冷门词了。



并且计算机是这样 识别单词的,全都有当让让让我们当让让让我们要把它转为向量。Countvectorizer和Countvectorizermodel旨在通过计数来将一有另有一个 多文档转换为向量。

从原始数据中提取特征

word2vec是用一有另有一个 多向量去表示一有另有一个 多对象(并且计算机是无法识别对象实体的),对象能与否单词,说说,文章,用户等等。并且基于向量类事度去计算对象的类事度,找到相关的对象,发现相关关系,也能用来做分类、聚类、也也能做词的类事度计算。应用非常广泛,比如:相关词(搜索乔布斯会出来苹果67手机机),补全说说中缺失的单词,推荐系统,分析用户关系等等。

输出结果为:

当让让让我们当当让让让我们知道特征工程在机器学习中是一阵一阵要的,然而特征工程到底是哪些?缘何样通俗的理解它呢?打个比方,即使你有再好的渔具,并且我应该 一片这样 鱼的池塘,那也是白费力气的。而特征工程并且找有鱼的那片水域。全都有当让让让我们当让让让我们也能这样 理解,特征是数据中抽取出来的对结果预测有用的信息(水域),而特征工程并且使用专业知识来防止数据,筛选出具有价值的特征(从30个水域中选则出鱼最多最好的水域)。全都有有句话是这样 说的:算法再牛逼,其上限也是由特征工程决定的,就像你渔具再好,捕鱼哪哪几个也是由水域许多特征决定的。

在SparkML中、对于特征工程的操作主要分为特征提取,特征转化、特征选则

输出结果为:

并且china在有另有一个 多文档中都跳出了,全都有TF-IDF=0.0,而kungfu只在第一有另有一个 多文档跳出(说明是冷门词),却是第一有另有一个 多文档中跳出次数最多的,并且计算出来的TF-IDF=1.3862943611198906也是最高的