开始卖了.今天卸了不少下去.# Stock
o*g
1 楼
要用python web crawling 搜狗微信。http://weixin.sogou.com 这个网站。
对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个
filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn
前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是
keyword里不加date得到的html 不是乱码,但是没有结果。
具体的代码如下:
searchcontent=keyword
searchcontent=quote(searchcontent)
time_total=[]
sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip='
if sogou_search_url is not None:
pages = requests.get(sogou_search_url, headers = cc_headers1, proxies=
urllib.request.getproxies(),)
soup = BeautifulSoup(pages.text, 'html.parser')
我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎
么改吗?
多谢。
对于某个关键词,想找到某一定时间段,如一天内提到的文章。后来发现网站上有一个
filter, 可以限制时间段。现实在url 里是一个tsn 的参数,可以等于1,2,3,4.
但是发现如果在python 里直接用这个url crawl 往往结果是一堆乱码。如果去掉tsn
前面的"&"并且在搜索keyword里加上一个date,就会有结果。如果不加"&", 但是
keyword里不加date得到的html 不是乱码,但是没有结果。
具体的代码如下:
searchcontent=keyword
searchcontent=quote(searchcontent)
time_total=[]
sogou_search_url='http://weixin.sogou.com/weixin?type=2&ie=utf8&query='+searchcontent+'tsn='+str(timeframe)+'&ft=&et=&interation=&wxid=&usip='
if sogou_search_url is not None:
pages = requests.get(sogou_search_url, headers = cc_headers1, proxies=
urllib.request.getproxies(),)
soup = BeautifulSoup(pages.text, 'html.parser')
我用beautifulsoup 想爬虫那个web的html. python 3.6. 感觉是url有问题。谁知道怎
么改吗?
多谢。