自学爬虫——老马惹不起,简书谢谢你(爬虫怎么自学)-凯发体育官方app

这个爬虫是个通用爬虫,去用心的了解scrapy框架,你就能轻松驾驭

https://github.com/a371057600/python-pachong-

这里是我的不专业的github,不逼逼直接搬来用吧,不推荐重复造轮子,对着代码多读几次就好,除非练手,不然不推荐重新敲,当然,能优化,改到你想要的功能是最好的.

把轮子用到了爬头条上面

我觉得,在头条上面教大家爬头条好像不是太好(虽然,头条也是爬别人的新闻)

头条的反爬方法基本跟微博也是一样,但是不推荐爬微博,因为微博大量的账号和原创内容,估计不登录也不能爬,登陆了就会废号.

本来,计划是爬淘宝的,但是无论怎么爬都会重定向到登录页面,用selemui也没用(实际有用,你只要在爬取的时候登录成为操作就好,但是这就类麻烦了.毕竟淘宝账号很重要的…)所以,最后折中爬了简书,谢谢简书爸爸的教导.

图片描述(最多50字)

from scrapy import signals

from selenium import webdriver

import time

from scrapy.http.response.html import htmlresponse

class seleniumdownloadmiddleware(object):

def init(self):

self.driver = webdriver.chrome(executable_path=r\”c:workpythonchromedriver.exe\”)

def process_request(self,request,spider):

self.driver.get(request.url)

time.sleep(1)

try:

while true:

showmore = self.driver.find_element_by_class_name(\’show-more\’)

showmore.click()

time.sleep(0.3)

if not showmore:

break

except:

pass

source = self.driver.page_source

response = htmlresponse(url=self.driver.current_url,body=source,request=request,encoding=\’utf-8\’)

return responsege

大的门户网站你可以爬,爬了之后记得告诉我

获取ajax数据的方式:

直接分析ajax调用的接口。然后通过代码请求这个接口。

使用selenium chromedriver模拟浏览器行为获取数据。

方式优点缺点分析接口直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫。

图片描述(最多50字)

selenium直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。代码量多。性能低。

ps:本人全部自学,发送到头条也只是作为学习经历,顺便分享经验,没有炫耀和装大佬的意向,反而有互相学习寻求帮助的想法.

医生对病人说,你们有选择不痛苦的权利.但是,各位自学的哥们,我们没有选择的权利,学习的过程必然是艰辛痛苦的,程序猿996不是为了谁,真的是因为喜欢,真的是想要进步所以才会996.死在自己喜欢的工作上何尝不是钟享受呢.

不求认同,但是不希望喷子进来,这只是个笔记.

凯发体育官方app的版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年1月2日 上午8:41
下一篇 2024年1月2日 上午8:53

相关推荐

  • 中国同声传译培训项目国家资金申请报告 【出版机构】:中赢信合研究网 【内容部分有删减·详细可参中赢信合研究网出版完整信息!】 报告目录 一、总沦    (一)项目背景    (二)…

    科研百科 2024年4月17日
    39
  •   国宇到井冈山开展红色文化学习。   国宇荣获“全市先进基层党组织”称号。   国宇定期召开党工团联席会议。   国宇开展党员大谈心活动,关怀党员成长。   厦门国宇健康管理中心…

    科研百科 2023年9月15日
    105
  • 甘肃民勤培养壮大特色产业、优势产业——“一业多品”兴百业

      初秋,甘肃省民勤县东湖镇万亩茴香花竞相开放。在阳光照耀下,远远望去,犹如一幅淡绿的水墨画,丛丛茴香花儿随着秋风轻轻地摇曳,散发着阵阵清香,洋溢着丰收的喜悦。soa牛农宝   &…

    科研百科 2022年5月12日
    348
  • 大家好: 今天是2021年9月11日,考试时间是2021年11月6日。距离考试只有不到2个月的时间了,相信打算这次考试的朋友基本上都已经开始了。现在我们来对后期的学习做个简单的建议…

    科研百科 2022年10月8日
    244
  • 合同管理指导意见 随着市场经济的发展和合同管理的不断完善,合同管理已经成为企业管理中不可或缺的一部分。合同管理不仅仅是合同的起草、审查、签署和履行,还包括合同的变更、解除、终止、结…

    科研百科 2024年5月25日
    37
  • 全面推进非公企业和社会组织“两个覆盖”(非公企业和社会组织,两个覆盖是什么)

    通化日报讯(张巍王春芳报道)辉南县在开展两新组织(新经济组织和新社会组织)党建工作\”百日攻坚\”行动中,坚持聚焦重点任务,围绕打好党组织组建攻坚战,从\&…

    科研百科 2023年11月13日
    112
  • 协同管理软件安装(a8v5协同管理软件)

    标题:a8v5协同管理软件:高效协作的利器 随着数字化时代的到来,企业之间的协作变得越来越重要。为了更好地实现协作,企业需要一款高效的协同管理软件。a8v5协同管理软件是一款功能强…

    科研百科 2024年6月4日
    26
  •    为了切实加强夏季动物疫病防控工作,通江县动物疫病预防控制中心专业技术人员积极对全县养殖户进行宣传和指导,督促养殖户把好“夏防”关。39b  …

    科研百科 2022年5月26日
    245
  • 市中城管铁军队伍(刘高君 摄)今年是中国共产党成立 100周年,是实施“十四五”规划、开启全面建设社会主义现代化国家新征程、向着第二个百年奋斗目标迈进的第一年。市中区城市管理局(综…

    科研百科 2023年11月14日
    82
  •    食品安全优秀品牌企业展播–山东银香伟业:hyu   中国食品报网 (杜长永) 农业部部长韩长赋指出,要通过选建一批现代农业示范区,有条件地区要率先实现农…

    2022年5月26日
    372
网站地图