代码视界

记录分享前后端、大数据和人工智能等相关技术,微信公众号:代码视界

中文分词Python库介绍

在前面的文章《中文分词》一文中,我们简单介绍了中文分词及其常用的分词方法,本文将介绍几个比较有代表性的支持中文分词的python库。本文所有实例均基于python3.6环境运行。 jieba结巴分词:使用较为广泛的一款python分词...

推荐系统介绍

一、背景随着互联网的快速发展,我们进入一个信息爆炸的时代。互联网的发展,为我们提供了越来越多的服务平台,比如购物平台、视频播放网站、音乐播放器、社交网婚恋网等等,提供的物品种类也越来越多样。如何更好地满足客户的需求,成了企业的难题。 ...

中文分词

中文分词(Chinese Word Segmentation):是指将一个汉字序列切分为一个个单独的词。中文分词是中文自然语言处理的一个最基本的环节。中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的...

文本挖掘预处理之TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,是一种统计方法,用于评估一...

K-近邻(KNN)算法

K-近邻(KNN,K-Nearest Neighbor)算法是一种基本分类与回归方法,在机器学习分类算法中占有相当大的地位,既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。 我们本篇文章只讨...