本篇文章小编给大家分享一下Scrapy元素选择器Xpath用法代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。
1. 元素的多级定位与跳级定位
多级定位:依靠html中的多级元素逐步缩小范围
response.xpath('//table/tbody/tr/td') //如果知道元素所属的下标可以用下标选择 response.xpath('//table/tbody/tr[1]/td')
跳级定位:符号“//”表示跳级定位,即对当前元素的所有层数的子元素(不仅是第一层子元素)进行查找,一般xpath的开头都是跳级定位
response.xpath('//span//table')
2. 依靠元素的属性定位
每个html元素都有很多属性,如id、class、title、href、text(href和text往往可以配合正则表达式)等,这些属性往往具有很强的特殊性,结合元素多级定位或跳级定位会更准确高效,下面举几个典型的例子,其他的举一反三
利用class定位
response.xpath('//td[@class="mc_content"]')
利用href配合正则表达式定位
response.xpath('//a[re:test(@href,"^/index.php?m=News&a=details&id=1&NewsId=d{1,4}")]')
利用text结合正则表达式定位
a=response.xpath('//a[re:test(text(),"w{4}")]')
此外,xpath还有对于html元素操作的两个实用的函数(可以用正则表达式代替)——starts-with和contains;
a=response.xpath('//a[starts-with(@title,"注册时间")]') a=response.xpath('//a[contains(text(),"闻")]')
3. 提取元素或元素的属性值
首先是最基本的extract()函数,提取被定为的元素对象
a=response.xpath('//a[contains(text(),"闻")]').extract() //如果被定为的元素对象有多个,可以有用下标指定 a=response.xpath('//a[contains(text(),"闻")]').extract()[1]
提取元素的属性
//提取text a=response.xpath('//a[contains(text(),"闻")]/text()').extract() //获取href a=response.xpath('//a[contains(text(),"闻")]/@href').extract() //获取name a=response.xpath('//a[contains(text(),"闻")]/@name').extract()
此时我们的正则表达式又闲不住了(scrapy自带的函数),可以对提取的元素进行选择
//对href中的部分字符串进行选择 response.xpath('//a[@name="_l_p_n"]/@href').re('/s.*?list.htm')
在这里关于xpath的所有用法基本总结完毕,只是由于xpath是对静态元素进行匹配选择,对于javascript往往束手无策,这时不得不用一个自动化测试工具——selenium,可以实现各种动态事件和静态元素的选择,只是selenium往往比较吃内存,响应时间也比较慢,对于大型的爬虫任务尽量不要使用,毕竟有一些javascript元素是内嵌在网页代码中的,这时候结合万能的正则表达式,xpath往往能够实现。如下:
link = re.search("javascript:goToPage('(.*?)'", value) //value为包含该段的字符串
茶杯头甜蜜终章dlc 官方手机版v1.0.0.3
下载火柴人传说暗影格斗内置菜单 最新版v3.0.1
下载荒野乱斗测试服 安卓版v61.10.3
下载荒野乱斗彩虹服 安卓版v61.10.3
下载寒霜启示录 安卓版v1.25.10
寒霜启示录是一款生存模拟游戏,不少玩家可能对于末日都有着自己
末日城堡免广告版 安卓最新版v0.7.1
末日城堡免广告版是一款非常好玩的模拟经营类游戏,内部可以不看
甜蜜人生模拟器 最新版v1.4.5
甜蜜人生模拟器是一款非常好玩的模拟恋爱手游,玩家在这里能够对
武器锻造师内置功能菜单 v10.4
武器锻造师内置菜单版是游戏的破解版本,在该版本中为玩家提供了
开放空间overfield 安卓版v1.0.5
开放空间Overfield是一款箱庭养成经营手游,让你在广阔