博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫抓取表格中的数据
阅读量:4698 次
发布时间:2019-06-09

本文共 878 字,大约阅读时间需要 2 分钟。

有时候因为某些需求需要爬取某个网页中某个表格里的数据,这时候如果这个页面只有这一个表格的时候,那么抓取就比较容易了,但是当这个页面中有大量的表格的时候,再使用之前的方法,就会发现虽然也能抓取到要的数据,但是还有一大堆冗余。

这时候,就可以使用下面这种方法

就以里的表格为例

#coding:utf-8import reimport urllib2url='http://58921.com/'header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}request=urllib2.Request(url,headers=header)page_code=urllib2.urlopen(request).read()# 从网页源码中找到你要抓取表格的下列信息# 表格开头start_code='
'# 表格结尾end_code=''# 表格中要抓取的数据find_code='
'# 这里通过 start和end指定在整个页面中你所寻找的表格start=page_code.find(start_code)end=page_code.find(end_code)find=page_code[start:end]final_find=re.findall(find_code,find)for x in final_find: print ','.join(x)print 'finish'
(.*?) (.*?) (.*?) (.*?) (.*?)

 

转载于:https://www.cnblogs.com/HapyyHao1314/p/7391213.html

你可能感兴趣的文章
java8-2-Lambda表达式
查看>>
Excel-DNA开发包:ExcelDna-0.34.6.zip下载
查看>>
postgresql-int,bigint,numeric效率测试
查看>>
PHP 实现定时任务的几种方法
查看>>
poj 3630 Phone List trie树
查看>>
mongo 主从数据不同步
查看>>
nodejs之async异步编程
查看>>
caffe的运行create_data.sh前对VOC2007图片格式的更改
查看>>
train_val.prototxt文件和deploy.prototxt文件开头的区别
查看>>
部署 dashboard 插件
查看>>
hdu 2191 (多重背包二进制优化)
查看>>
C#中,当从数据库中查询到数据,以DataTable类型返回后,如果需要对DataTable中的数据进行筛选,可以选择下面的方式...
查看>>
19_01访问权限修饰符
查看>>
HDU1506
查看>>
Linq中常用的方法
查看>>
翻译:TRUNCATE TABLE(已提交到MariaDB官方手册)
查看>>
ASP.NET MVC 5 自动生成的代码框架
查看>>
在ASP.NET Core 2.2 中创建 Web API并结合Swagger
查看>>
新装Windows 2003 + IIS 6.0的问题
查看>>
http基础
查看>>