更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】pyautogui出现“SyntaxError: 'return' with argument inside generator”异常(如图所示)的解决:卸载pyscreeze,安装pyscreeze 0.1.19版本即可。

    sudo pip uninstall pyscreeze   
    sudo pip install pyscreeze==0.1.19 ​​​​
    发布时间:2019-03-27 11:51:05
  • 【经验分享】使用 Chrome DevTools Protocol 协议,在Network.responseReceived时调用Network.getResponseBody获取应答正文有时会出现“No resource with given identifier”异常,是什么原因?
    解答:当浏览器接收到HTTP应答头之后Network.responseReceived被调用,但此时HTTP应答正文(ResponseBody)可能还没到位,应当在Network.loadingFinished时再调用Network.getResponseBody。
    发布时间:2019-03-25 16:42:04
  • 【经验分享】使用Fiddler时如何屏蔽Chrome的证书警告:"Your connection is not private"/"您的连接不是私密连接"(如图1所示)?
    启动chrome的时候加上--ignore-certificate-errors命令行参数(如图2所示)即可。
    测试效果如图3所示。 ​​​​
    发布时间:2019-03-21 17:30:46
  • 【经验分享】Ubuntu server下google-chrome启动出现"[5430:5430:0321/124708.367027:ERROR:browser_dm_token_storage_linux.cc(101)] Error: /etc/machine-id contains 0 characters (32 were expected)."问题的解决:

    sudo cp /var/lib/dbus/machine-id /etc/machine-id

    参考:https://unix.stackexchange.com/questions/477180/error-etc-machine-id-contains-32-characters-32-were-expected ​​​​
    发布时间:2019-03-21 12:57:06
  • 【经验分享】requests库使用py2exe打包之后出现"Could not find a suitable TLS CA certificate bundle"问题的解决:
    原因是打包之后按默认路径无法找到cacert.pem文件。将cacert.pem复制到exe同目录下,然后在程序里设置REQUESTS_CA_BUNDLE环境变量,如下:
    os.environ['REQUESTS_CA_BUNDLE'] =  os.path.join(os.path.dirname(sys.argv[0]), 'cacert.pem')
    重新打包,问题消失。

    参考:https://stackoverflow.com/questions/10667960/python-requests-throwing-sslerror
    发布时间:2019-03-20 13:11:35
  • 【经验分享】Ubuntu上添加可信任根证书
    1. 如果是pem格式的根证书,先重命名为 .crt格式,例如( mitmproxy-ca-cert.crt)。
    2. sudo cp  mitmproxy-ca-cert.crt  /usr/local/share/ca-certificates。
    3. sudo update-ca-certificates

    update-ca-certificates命令将PEM格式的根证书内容附加到/etc/ssl/certs/ca-certificates.crt ,而/etc/ssl/certs/ca-certificates.crt 包含了系统自带的各种可信根证书.
    发布时间:2019-03-18 11:03:48
  • 【经验分享】Python urllib2连接HTTPS网站出现“SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure”问题(如图1所示)的解决。从这里github.com/pytorch/pytorch/issues/3193得知,Python2.7.9之前的版本连接某些HTTPS网站会有这个问题,之后的版本没有问题。于是测了下别的服务器上的Python2.7.12版本,果然没有问题(如图2所示)。

    似乎也是跟SNI有关,去年我们曾写过一篇文章《SNI导致Python 2.7建立TLS连接出现104错误问题的解决》 ,也是升级到最新版本的Python之后问题解决,详细过程见这里 :http://t.cn/EZSeTBn

    附:测试连接 https://jobs.51job.com/beijing-hdq/111488127.html?s=01&t=0
    发布时间:2019-03-14 15:41:19
  • 【经验分享】远程GeckoDriver的使用 - 鲲之鹏的技术人员在本文向您介绍如何远程使用GeckoDriver调用多台服务器上的Firefox浏览器进行数据抓取。  >>> http://www.site-digger.com/html/articles/20190313/716.html ​​​​
    发布时间:2019-03-14 15:26:50
  • 【经验分享】PDF表格抽取Python库 Camelot - https://github.com/socialcopsdev/camelot
    Camelot is a Python library that makes it easy for anyone to extract tables from PDF files!

    依赖的库有点多,不过效果超赞!

    实测效果:
    图1为PDF原始文件截图;
    图2为抽取为CSV后截图; ​​​​
    发布时间:2019-02-20 12:00:43
  • 【经验分享】“永辉生活微信小程序”不响应KEYCODE_PAGE_UP(92) 怎么破?
    测试发现可以响应KEYCODE_DPAD_DOWN(20),不过KEYCODE_DPAD_DOWN一次只能滚动很小的幅度。怎么提升效率? 一次发送多个CODE即可。
    例如,一次发送10个KEYCODE_DPAD_DOWN操作:
    adb shell input keyevent 20 20 20 20 20 20 20 20 20 20
    发布时间:2019-02-15 19:14:57
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-03-12 19:50:16
    【一个cron计划任务引发的血案】近日某Ubuntu14.04服务器上mongodb老自动挂掉,观察一段发现系统内存严重不足,swap都快被用完了,如图一所示,mongodb在内存耗尽的时候就挂掉了。很奇怪,到底是什么进程占用了这么多内存呢?

    参考这篇文章里的方法 Linux: Find Out What Process Are Using Swap Space > http://t.cn/RinTwWY

    执行如下命令,查看哪些进程使用了swap,并按使用量大小排列:
    for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | less

    这一看不打紧,发现里面有大量的python进程。
    再用ps aux |grep python一看,一身冷汗,有3899个python进程!如图二所示。

    可以断定内存就是被这些进程给吃完了!
    PS:这是一个每分钟启动一次的计划任务,功能是实现一个动态域名解析客户端。应该是脚本用的访问网络的操作卡住了(系统默认无限等待)造成进程无法退出,久而久之累积出来了几千个后台进程...

    杀掉这些进程,修复Bug。现在内存使用看起来正常了,如图三所示。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-10 22:26:15
    MySQL抓包工具 - MySQL Sniffer: MySQL Sniffer 是一个基于 MySQL 协议的抓包工具,实时抓取 MySQLServer 端的请求,并格式化输出。>>>  详细介绍http://t.cn/RiQAESc
    Ubuntu14.04下试了一下,效果很赞(如下截图)。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-22 14:07:44
    如何避免SSH时出现“Write failed: Broken pipe”?
    ssh -o ServerAliveInterval=60 user@host
    更多方法 >>> http://t.cn/zYc5wR1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-18 16:24:05
    PPPOE拨号引发“Couldn't allocate pseudo-tty”问题,表现:
    1)SSH连接卡主(无法正常建立连接),提示:“request failed on channel 0”。
    2)日志出现大量:“Couldn't allocate pseudo-tty”。
    谷歌得知原因:pseudo-terminals数量超过系统最大限制。
    临时处理方法:增加pseudo-terminals最大数量,具体步骤>>> http://t.cn/RJnUJxD

    1. 如何查看系统当前pseudo-terminals数量:
    ls /dev/pts|wc -l
    参考文章:http://t.cn/RJnUJxk

    2. 查看当前系统允许的最大pseudo-terminals数量:
    cat /proc/sys/kernel/pty/max

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-16 12:34:53
    【专治疑难杂症】Selenium + IEDriver出现“Internet Explorer has stopped working”或"Internet Explorer 已停止工作"对话框如何解决? >>> http://t.cn/RJjndCS

    Turn Off The Error Dialog Via The Registry

    Although editing the registry manually is not recommended for average users, sometimes there isn’t a choice because something like the Group policy Editor might not be available in your version of Windows or the group policy method itself doesn’t work. This works on Windows Vista and above.

    Open the Registry Editor by typing regedit into the Start search box or the Win+R Run dialog.
    Navigate to the following registry key:
    HKEY_CURRENT_USER\Software\Microsoft\Windows\Windows Error Reporting

    Double click the DontShowUI entry on the right and change its value to 1, then close the registry editor.

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:44:38
    【经验分享】如何使用SPSS查看大CSV文件(超过100万行)? >>> http://t.cn/RJb48R1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:05:12
    【专治疑难杂症】pyautogui在Windows下鼠标左键按下动作pyautogui.mouseDown()引发“WindowsError: [Error 5] 拒绝访问。/ WindowsError: [Error 5] Access is denied.” 异常解决方法:注释掉_pyautogui_win.py文件L479-L480行。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-26 11:40:16
    Google Maps Geocoding API使用限制: 2,500 free requests per day。
    >>> http://t.cn/RxVL66t
    使用稳定高匿名HTTP代理可以绕过该限制,例如200个IP就可以达到50万每天的查询速度。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-23 11:43:20
    【备忘】Chrome查看页面源码快捷键 Ctrl + U;Chrome进入隐私模式快捷键 Ctrl + Shift + N ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-20 20:55:19
    完善Python版的pppoe-status,实测比原版可靠(修复rp-pppoe-3.12中的pppoe-status误判失败的问题) >>> http://t.cn/RMsiLHd ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-16 09:46:59
    【纯干货】鲲之鹏微信小程序数据抓取示例 >>> http://t.cn/RMYalt4 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-12 12:36:58
    Ubuntu下7z压缩、解压文件:
    sudo  apt-get install p7zip-full

    【压缩文件】:
    7z a -t7z -r manager.7z /home/manager/*
    解释:
    a 代表添加文件/文件夹到压缩包;
    -t 是指定压缩类型 一般我们定为7z;
    -r 表示递归所有的子文件夹;

    【解压文件】
    7z x manager.7z -r -o/home/xx
    解释如下:
    x 代表解压缩文件,并且是按原始目录解压(还有个参数 e 也是解压缩文件,但其会将所有文件都解压到根下,而不是自己原有的文件夹下)manager.7z 是压缩文件,这里大家要换成自己的。如果不在当前目录下要带上完整的目录;
    -r 表示递归所有的子文件夹;
    -o 是指定解压到的目录,这里大家要注意-o后是没有空格的直接接目录;

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-09 17:33:07
    最近某机器上的Squid服务老是自动挂掉,日志也没看出问题...
    只能先临时曲线救国:通过计划任务定时检测squid进程是否存在,如果不存在执行sudo service squid start来启动服务。检测脚本我是用Python写的(Shell不熟悉),分享在这里:http://t.cn/RMM2N8v
    PS:我本来用supervisor实现的,结果老是提示squid进程异常退出,就放弃了。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-06 15:14:04
    【SecureCRT自动SSH跳转配置】友商设备限制了只允许我们的特定的IP能访问,每次都要先SSH到该IP,然后再SSH跳转到目标机器。每次都要输入一遍ssh user@host 和 密码,非常麻烦。利用SecureCRT Logon Actions(登录动作)里的Automate logon(自动登录)可以自动化完成该操作(输入ssh user@host 和 密码),这里有篇图文并茂的文章介绍。 >>> OSecureCRT的logon action登录跳转设置

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-04 00:14:19
    修复Webscraping库Download类使用proxy重大Bug。由于之前加入了防止重复添加ProxyHandler的处理(这个处理逻辑存在Bug),导致产生如下2个Bug(均发生在带opener时。):
    1)变更代理无效。原因:后面的代理不会加入对应的ProxyHandler。
    2)变更协议丢失代理。原因:后续请求如果和第一个请求采用不同的协议会导致后续代理没有对应协议的ProxyHandler。
    修复方案:
    在每次加入ProxyHandler时先移除掉之前的ProxyHandler。

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。