用Python获取维基百科文章

我尝试使用Python的urllib获取维基百科文章:

f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")           
s = f.read()
f.close()

但是,而不是HTML页面,我得到以下回应:错误 - 维基媒体基金会:

Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT 

维基百科似乎阻止不是来自标准浏览器的请求。

任何人都知道如何解决这个问题?


您需要使用替代python std库中的urllib的urllib2才能更改用户代理。

直接从例子

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
page = infile.read()

这不是解决具体问题的方法。 但是,您可能需要使用mwclient库(http://botwiki.sno.cc/wiki/Python:Mwclient)。 那会容易得多。 特别是因为你会直接得到文章内容,而不需要你解析html。

我自己为两个项目使用了它,它工作得很好。


而不是试图欺骗维基百科,你应该考虑使用他们的高级API。

链接地址: http://www.djcxy.com/p/62839.html

上一篇: Fetch a Wikipedia article with Python

下一篇: AFNetworking Upload image from iOS to API