最新资讯
2021-01-27
爬虫代理报错情况有哪些?怎么处理?
在数据采集过程中会出现各种各样的问题,使用代理IP可以很有效的帮助工作,今天整理了使用代理中出现的几种错误代码一、407 Proxy Authentication Required代理认证信息错误,该代理需要用户认证,需要带上正确的用户认证头。二、429 Too Many Requests返回这个状态码有两种可能:1.请求过快,需要降低请求速率2.目标网站有反爬机制,限制了爬虫的请求。三、403 服务器拒绝请求可能由目标网站的防护措施导致,建议升级爬虫策略,或者更换优质的HTTP代理,运营商授权自建机房,低延迟高可用率。四、504 Proxy Gateway TimeoutLink返回504有两种情况:1.代理正在切换IP,休息一段时间再试即可;2.目标网站不可达。
2021-01-27
动态IP和静态IP什么区别?怎么用?
代理IP根据IP的存活时间可以分为动态代理IP和静态代理IP,动态代理IP的存活时间一般是几分钟到几十分钟不等,静态代理IP一般是几天不等。选择代理IP主要是看业务需求,没有最好的代理IP,只有更适合的代理IP。假如是用来做爬虫业务,那么动态代理IP会更好,因为一个代理IP用久了会触发反爬虫策略;假如是用来养号,那么静态代理IP会更好,因为IP经常变动的话,会被视为不安全行为,进而封号或限制登录。动态代理IP一般适用于需要IP数量大但时效短的业务场景,比如:网络投票、数据挖掘、效果补量,网络推广等。静态代理IP一般适用于需要IP数量少但时效长的业务场景,比如:挂机养号,还有一些需要固定IP不变的业务。单纯的来比较,动态代理IP和静态代理IP不存在哪个比哪个更好,需要根据业务场景的需求来比较,IPIDEA建议大家在选择代理IP时,一定要清晰的了解自身的业务需求。
2021-01-27
常见的爬虫构架有哪些?
目前实现爬虫的变成有很多种,Java、Python、C++等都可以用来写爬虫,但是很多人会选择Python来写爬虫,因为Python确实很适合爬虫,第三方库丰富强大,几行简单的代码就能实现你想要的功能。更重要的是Python也是数据挖掘和分析的好能手。常见的Python爬虫构架:1、ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架,可以满足简单的页面爬取,比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。它的特性有:HTML, XML源数据选择及提取的内置支持;提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。2、Beautiful Soup名气大,整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。3、selenium这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。Selenium是自动化测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox等主流界面式浏览器,如果在这些浏览器里面安装一个 Selenium 的插件,可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发,比如 Java,C,Ruby等等,PhantomJS 用来渲染解析JS,Selenium 用来驱动以及与Python的对接,Python进行后期的处理。4、Portia 是一个开源可视化爬虫工具,可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲,它是基于scrapy内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。5、cola是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。项目整体设计有点糟,模块间耦合度较高。6、PySpider一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。Python脚本控制,可以用任何你喜欢的html解析包。
2021-01-26
独享IP池应用常见问题处理
一、终端IP授权没有绑定终端IP购买开通后,直接生成API提取链接,然后调用API后并没有获取到IP,这种情况是因为当前授权模式为“终端IP授权”,但没有绑定使用代理IP的终端的公网IP。解决方法有两个:1. 是绑定使用代理的终端的公网IP;2. 是切换当前授权模式为“用户名+密码”授权,这种模式在使用的时候需求帐密验证。二、当前条件下没有任何IP授权是正常的情况下,调用API没有获得IP这种情况有三种可能:1. 没有添加服务器:独享IP池不同于其他共享IP池,需要先添加服务器。2. 服务器正在重拨中:已经添加了服务器,但还是提示这个信息,那么有可能是1服务器的套餐,这1个服务器正在重拨中,那么这时候是获取不到IP的,等重拨好了就可以获取到IP了。 3. 筛选的地区没有添加:添加好了服务器,重拨也完成了,但还是提示这个信息,那么有可能是在生成提取链接的时候,设置了地区,但又没有添加这个地区的服务器,那么就会出现这种结果。三、获取到的IP不可用1. IP失效了独享IP池默认的重拨周期(IP有效期),如果提取该IP时,该IP的剩余存活时间只剩几秒了,那么当您设置好代理IP后,可能会连不通。这种情况可以根据自己的需要,去设置重拨周期,也可以获取该IP的剩余存活时间。       2. 授权错误1) “终端IP授权”模式,没有绑定使用代理的终端的公网IP,或者绑定的IP发生了改变,授权会失败,使用也会失败。2) “用户名+密码“授权模式,使用代理IP时没有进行帐密验证,或者账号密码输入错误。3. 端口错误独享IP池同时指出http/https和socks5协议,但端口不一样,使用的时候需要注意不要搞混了。以上就是使用独享IP池经常会遇到的几种情况,希望对大家有所帮助。
2021-01-26
品易HTTP购买问题说明
购买问题在哪里购买?我想先测试一下怎么办?在http://proxy.py.cn/pay/网站右上角注册账号并登录。新用户免费提供500流量,联系客户帮您领取试用。支付问题线上提供支付宝、微信支付二维码扫码支付,若是微信、支付宝都不可以使用,您还可以转账支付,支持银行卡转账、支付宝和微信扫码转账。请联系在线客服,获取转账的银行帐号或二维码。什么是流量充值?流量只做扣费作用,提取IP不收费,使用收费。产生多少流量消耗多少流量,不产生多余费用。
2021-01-26
品易HTTP扣费方式说明
品易云扣费方式说明按照请求使用所消耗的流量进行计费,目前有按量购买付费方式:按量购买(有时效):购买一定数量的流量,在有效期内进行使用。流量续费:购买新的流量,账户所有流量直接顺延至新套餐过期时间。温馨提示1、一次最多提取500个IP,不限制API最快调用频率;2、不限制单次提取量,不限制并发请求数量;3、支持HTTP/HTTPS和SOCK5协议,去重可自定义配置;4、千万IP池覆盖190+全球地区,海量高匿IP任你使用。
2021-01-26
品易HTTP开发问题解答
问:使用隧道代理动态版发现没有更换IP答:出现问题的现象为使用隧道代理动态版请求发现个人中心隧道代理使用统计请求次数很少,与真实请求次数严重不符,并且使用隧道代理动态版出现没有更换IP的情况。原因是隧道发送请求复用了之前建立的连接。需要在header中添加Connection: close。目前发现Python的Scrapy和C#的HttpWebRequest可能出现此类现象。 问:API提取频率为1s10次不够我使用怎么办答:我们发现少量用户在使用Python Scrapy等框架情况下每次请求都会获取一个代理IP来发送请求,这样不仅会增加耗时请求,如果频率太快还会被API服务器封禁IP。建议用户在本地程序中或者使用Redis维护一个代理IP池,避免API的高频调用。 问:隧道代理不使用域名直接使用IP可以吗答:非常不建议用户直接使用隧道代理域名解析出来的IP,隧道代理域名对应的服务器是会动态调整的,调整期间用户是无感知的。直接使用IP可能会出现隧道代理无法访问的风险。
挂件 关闭
客服
二维码
客服二维码

加微信 领流量

大客户经理二维码

售前咨询,企业定制

专属客服竭诚为您服务