博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫简单的demo
阅读量:5452 次
发布时间:2019-06-15

本文共 1221 字,大约阅读时间需要 4 分钟。

'''@author :Eric-chen@contact:809512722@qq.com@time   :2018/1/3 17:55@desc   :通过爬取http://movie.douban.com/top250/得到豆瓣Top 250的电影,并输出到文件movies.txt'''import codecsimport requestsfrom bs4 import BeautifulSoupDOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):    return requests.get(url).contentdef parse_html(html):    soup = BeautifulSoup(html,"lxml")    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})    movie_name_list = []    for movie_li in movie_list_soup.find_all('li'):        detail = movie_li.find('div', attrs={'class': 'hd'})        movie_name = detail.find('span', attrs={'class': 'title'}).getText()        movie_name_list.append(movie_name)    next_page = soup.find('span', attrs={'class': 'next'}).find('a')    if next_page:        return movie_name_list, DOWNLOAD_URL + next_page['href']    return movie_name_list, Nonedef main():    url = DOWNLOAD_URL    with codecs.open('movies.txt', 'wb', encoding='utf-8') as fp:        while url:            html = download_page(url)            movies, url = parse_html(html)            fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':    main()

  

转载于:https://www.cnblogs.com/jycjy/p/8184995.html

你可能感兴趣的文章
Could not find or load main class
查看>>
VC 预定义宏
查看>>
indexOf()
查看>>
dom4j对xml读取操作
查看>>
Yii2.0实现微信公众号后台开发
查看>>
Shell 传递参数
查看>>
Ibatis 泛型化dao模版
查看>>
hrbust 1133 (kruskal)
查看>>
vue 接口统一管理
查看>>
margin 相关 bug 系列
查看>>
模拟+贪心 SCU 4445 Right turn
查看>>
2012 Multi-University #7
查看>>
第五章 循环结构反思
查看>>
WebConfig配置文件有哪些不为人知的秘密?
查看>>
自动控制原理的三不管地带之——开闭环函数特征方程原理
查看>>
HDU 2001 计算亮点间的距离
查看>>
spring学习笔记--quartz和定时任务执行
查看>>
ASP.NET页面刷新样式改变解决方法
查看>>
Redis- 简单操作命令
查看>>
洛谷 P2827 蚯蚓 解题报告
查看>>