程序员人生 网站导航

Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬取所需python包

栏目:互联网时间:2014-11-15 01:30:33

最近由于《信息检索》第2个project,需要爬取微博数据,然后再处理。师兄给了代码,让渐渐爬,但是在ubuntu下,少了很多python软件包。需要安装。

1.首先运行时,说少了python,BeautifulSoup包,用来解析html文件奇异,这么重要的包怎样能缺少呢,百度ubuntu python BeautifulSoup后,看博客后找到方法:

先安装easy_install工具:

 再用easy_install安装:

easy_install BeautifulSoup

若是还没有安装easy_install,在ubuntu下,会自动提示按怎样的命令去安装。

2.继续运行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装1些通过pip按张rsa。运行:

pip install -r requirements.txt #不行,需要在root权限,换 sudo pip install -r requirements.txt


安装成功,履行源代码,可行。

3.另外的话,缺少display的话,用来展现验证码的。通过以下命令安装:

sudo apt-get install imagemagick

若是不能安装display的话,注释掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()

#proc = subprocess.Popen(['display', filename]) #第178行 self.loginpostdata['pcid'] = pcid self.loginpostdata['door'] = raw_input(u'请输入验证码:') os.remove(filename) #proc.kill() #第182行


但与之相对的,在运行时,需要在文件夹里打开抓取的验证码图片,在终端手动输入验证码。

有1点挺疑惑的是,队友直接没有安装display,直接使用

python main.py display

连验证码都没有输入,直接能够进入爬取部份,而且能够爬取出数据,吓尿。

4.有的时候在抓取文件,但是没有下载,坑爹,没想到这问题,还没解析代码就那末运行着,还以为已在抓取呢。在自己的笔记本centos6.5下抓取的时候甚是麻烦而且没成功。换了实验室里ubuntu14.04.1LTS版本,改好了1下参数终究在怕去数据了,下1步要分析数据,进行后续任务了。

5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。不过可以改crawler/config.py参数

begin_time="2012⑴1⑴ 00:00:00" end_time="2014⑴1⑴ 00:00:00"

把用户数据降将为1年,但是相应的,在后续分析用户数据时,少了的话,固然也是有1定的影响了。而已爬取的部份不会再爬取。

转载请认证:http://blog.csdn.net/u010454729/article/details/40656087

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐