文章生成自动摘要的算法原理

转载 类别:python 作者:唠吧小站 发表时间:2015-08-20 23:25:09
我简直太爱这这篇文章的作者(阮一峰)了, 分享了这么多我最想了解的知识,向知识致敬,分享万岁。 文章原文: 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今......

文章相似度的算法分享

转载 类别:python 作者:唠吧小站 发表时间:2015-08-20 23:15:43
上篇中我们分享了TF-IDF算法自动提取文章中的关键词。我们在学习一下文章相似度的算法原理。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 计算文章的相似度需要用到"余弦相似性"(cosine similiarity)。 用例子来说明怎么用"余弦相似性"计算文章的相似度......

TF-IDF与余弦相似性:自动提取文章关键词的算法原理

转载 类别:python 作者:唠吧小站 发表时间:2015-08-20 23:02:32
转载这篇文章除了学习之外只要是希望对搜索引擎工作机制有所了解,搜索引擎收录并提取关键词给网页一个怎样的排名应该是万变不离其宗,利用TF-IDF与余弦相似性的算法来自动提取文章关键词。 假如现在有一篇很长的文章,我要用要程序自动提取它的关键词(Automatic Keyphrase extracti......

python把 scel 词库转成txt 格式

转载 类别:python 作者:唠吧小站 发表时间:2015-08-13 10:31:56
搜狗输入法提供了词库下载但是下载下来的是scel格式的,如果要把下载的scel的词库导入其它数据库中可以先用 python把 scel 词库转成txt 格式 , 然后再导入就可以了。 搜狗输入法词库下载连接:http://pinyin.sogou.com/dict/ #!/us......

Python 的多线程的缺陷

原创 类别:python 作者:唠吧小站 发表时间:2015-08-11 23:45:03
目前支持多线程的解释型语言(perl 的多线程是残疾,Python的多线程是有compromise的,在任意时间只有一个Python解释器在解释Python bytecode。 如果你的代码是CPU密集型,多个线程的代码很有可能是线性执行的。这种情况下python的多线程是鸡肋,效率可能还不如单线......

php curl 抓取https网页内容

原创 类别:python 作者:唠吧小站 发表时间:2015-07-29 17:13:17
php curl抓取https网页内容的方法: curl_setopt($conn[$i], CURLOPT_SSL_VERIFYPEER, 0); // 跳过证书检查   curl_setopt($conn[$i], CURLOPT_SSL_VERIFYHOST, 0);  ......

python 不是内部或外部命令的解决方法

原创 类别:python 作者:唠吧小站 发表时间:2015-07-08 14:12:31
python 不是内部或外部命令的解决方法 当我们在官方下载好python并安装好之后在命令行里输入python的时候会有下面的错误提示: 解决方法: 1、在“我的电脑”图标上右键“属性” 高级系统设置/环境变量 选择“path”-》“编辑” 在变量值前面再加上一个值:c:\Python27; ......

python raw_input出错的原因

原创 类别:python 作者:唠吧小站 发表时间:2015-06-28 00:12:22
python 3.2以上取消了raw_input函数统一用input来输入,如果版本不对会出现错误提示。 在 Python 3 内,将 raw_input() 重命名为 input(),这样一来,无须导入也能从标准输入获得数据了。如果您需要保留版本 2.x 的 input() 功能,可以使用 ev......

python入门教程第一日

原创 类别:python 作者:唠吧小站 发表时间:2015-06-27 01:16:10
python 官方下载地址:https://www.python.org/downloads/ 根据系统的不同安装包也不同,但是开发的程序兼容各个操作系统,这点是python能吃得开的原因之一。 python 2.7.x以下版本是兼容以前的版本,如果要想到老一点的公司去一般要求用2.7以下的版本,......

一个比较完整的linux升级python的教程

转载 类别:python 作者:老修--走失的镜头盖 发表时间:2014-08-26 22:50:21
首先下载源tar包 可利用linux自带下载工具wget到官方下载最新的python,下载命令如下: wget https://www.python.org/ftp/python/3.4.1/Python-3.4.1.tar.xz 下载完成后到下载目录下,解压 tar -xvfPytho......

Python的lambda函数

原创 类别:python 作者:老修--走失的镜头盖 发表时间:2014-08-25 10:13:29
Python的lambda函数也叫匿名函数,Python中的lambda的优点:lambda可以省去定义函数,让代码更加精简更容易理解。lambda语句中,冒号前是参数,冒号右边的返回值...

raw_input 中文的输出方法

原创 类别:python 作者:老修--走失的镜头盖 发表时间:2014-08-20 00:56:23
raw_input 中文的输出方法 methoda = raw_input('python输出中文: '.decode('utf-8').encode('gbk')) python 3.x以下输出中文就是这么麻烦. 要不想麻烦用3.x以上的版本吧. ......

站内搜索

分门别类