更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • Selenium disable Image loading in different browsers >>> http://tarunlalwani.com/post/selenium-disable-image-loading-different-browsers/ ​​​​
    发布时间:2018-07-11 18:21:10
  • chromedriver 镜像 - ChromeDriver Mirror >>> http://npm.taobao.org/mirrors/chromedriver/ ​​​​
    发布时间:2018-07-11 18:20:49
  • "全国POI信息数据库" 上线:涵盖美食、休闲娱乐、酒店、丽人等15大分类,覆盖全国350多个城市,数据量超过4700万条 >>> 点击前往:http://www.poilist.cn/ ​​​​
    发布时间:2018-07-11 15:28:47
  • 【最新发布】国内知名本地生活信息平台4794万商户POI数据2018年06月份更新 >>> http://www.site-digger.com/html/articles/20180702/647.html ​​​​
    发布时间:2018-07-02 11:25:13
  • 【CSV转Excel(XLSX格式)脚本分享】
    背景:大多数情况下CSV转Excel可以使用Openoffice或者Excel实现,但是偶尔也会遇到一些BT的情况,比如转换后Excel打开显示文件异常的(如图2所示)。于是乎利用xlsxwriter这个库写了个小脚本,用法如下:
    python csv2xlsx.py path-of-csv-file  file-encoding(default is utf-8)
    运行效果如图1所示。csv2xlsx.py源码链接分享 >>>https://bitbucket.org/snippets/qi/Xerx67
    发布时间:2018-06-21 18:57:26
  • 全国各类POI(美食、休闲娱乐、丽人、酒店、生活服务等等)用户评论数据7.09亿条,更新至2018年6月15日。点击查看示例数据 >>> http://t.cn/Rrv3RpO ​​​​
    发布时间:2018-06-21 10:21:20
  • 【经验分享】如何让Squid Web隧道支持SSH协议?
    默认Web隧道下连接22端口是不被允许的,会返回403错误。
    编辑/etc/squid3/squid.conf,加入如下配置行
    acl SSL_ports port 22
    acl Safe_ports port 22
    然后重启Squid即可。 ​​​​
    发布时间:2018-05-16 11:41:42
  • 当当网有多少图书,你知道吗?>>> http://t.cn/R3h6hiH ​​​​
    发布时间:2018-05-08 13:53:19
  • 【经验分享】Ubuntu下如何识别无线网卡?
    以普联的TL-WDN6200为例,使用的是rtl8812au(https://github.com/else05/rtl8812au这个驱动):
    wget http://t.cn/RuR1DrP
    unzip master.zip
    cd rtl8812au-master
    make
    sudo install
    然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测)。
    发布时间:2018-05-03 19:10:52
  • 【经验分享】DeleGate跑了3天日志吃了18G硬盘,如何关掉日志呢?
    查文档(ftp://www.delegate.org/pub/DeleGate/Manual.htm#LOGDIR),找到了方法,加上参数LOGFILE=""即可,原文:
    You can stop logging by specifying null file name like LOGFILE="" or PROTOLOG="". ​​​​
    发布时间:2018-04-28 18:08:15
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-04-16 18:38:18
    【问题概述】www.momondo.com.cn这个网站用了一个简单但有效的策略来检测客户端是否是真实的浏览器。虽然花了我不少时间,但还是赞一个。
    【问题描述】你可以试一下直接curl Omomondo - 全球机票酒店搜索,会发现始终得不到网站的响应;可以再试下用Python的urllib2库,一样获取不到内容。但是在浏览器内访问却始终正常。是不是很奇怪?看来它可以有效判断出是否是真实的浏览器。
    【解决方案】经过抓包对比,最终找出了它的方法。它主要检测了如下三点:
    1)User-Agent不能为空,也不能使用众所周知的非浏览器UA,例如"curl/7.27.0"。要伪装成一个真实的浏览器UA。
    2)不能为HTTP短连接,也就是必须要指定“Connection: keep-alive”(伪造这个头即可,不需要真正支持长连接)。
    3)Accept-Encoding不能为空,可以随便指定一个客户端支持的编码。
    最后这样测试,你会发现成功通过了网站的检测:
    curl -v -H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36" -H "Connection: keep-alive" -H "Accept-Encoding: nothing" Omomondo - 全球机票酒店搜索(如截图所示)

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-18 21:06:55
    【一款大家都说好用的命令行带宽测速工具】
    >>> http://t.cn/zRjecv4
    PS:经过我在多地服务器上测试,结果还是挺准确的,特别是上传测速。speedtest.net全球众多的测速节点功不可没。

    只需要两步:
    1)下载这个工具
    wget http://t.cn/RiU1R0b
    2)启动
    python speedtest.py

    具体效果见下面附图。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-16 14:18:45
    【腾讯这是要放弃SmartQQ的节奏吗?】
    如图所示。消息丢失率很高,抓包可见poll2请求大量504(timeout)错误。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-15 12:58:18
    【pssh实在太酷了】
    图一:我通过pssh了解20台Linux服务器的负载情况,cool!
    图二:我通过pssh结合pslurp完成了20台Linux服务器重要数据文件的“批量打包、批量取回、批量删除远程备份”的操作,cool!

    参考资料:
    http://t.cn/RidpWFN
    http://t.cn/RidpWFp ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-14 17:32:29
    【域名NS记录查询】
    Windows:
    nslookup –qt=NS 目标域名

    Linux:
    host -t NS 目标域名

    参考文章:http://t.cn/zQJFraU http://t.cn/RGIQcyC ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-12 19:50:16
    【一个cron计划任务引发的血案】近日某Ubuntu14.04服务器上mongodb老自动挂掉,观察一段发现系统内存严重不足,swap都快被用完了,如图一所示,mongodb在内存耗尽的时候就挂掉了。很奇怪,到底是什么进程占用了这么多内存呢?

    参考这篇文章里的方法 Linux: Find Out What Process Are Using Swap Space > http://t.cn/RinTwWY

    执行如下命令,查看哪些进程使用了swap,并按使用量大小排列:
    for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | less

    这一看不打紧,发现里面有大量的python进程。
    再用ps aux |grep python一看,一身冷汗,有3899个python进程!如图二所示。

    可以断定内存就是被这些进程给吃完了!
    PS:这是一个每分钟启动一次的计划任务,功能是实现一个动态域名解析客户端。应该是脚本用的访问网络的操作卡住了(系统默认无限等待)造成进程无法退出,久而久之累积出来了几千个后台进程...

    杀掉这些进程,修复Bug。现在内存使用看起来正常了,如图三所示。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-10 22:26:15
    MySQL抓包工具 - MySQL Sniffer: MySQL Sniffer 是一个基于 MySQL 协议的抓包工具,实时抓取 MySQLServer 端的请求,并格式化输出。>>>  详细介绍http://t.cn/RiQAESc
    Ubuntu14.04下试了一下,效果很赞(如下截图)。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-22 14:07:44
    如何避免SSH时出现“Write failed: Broken pipe”?
    ssh -o ServerAliveInterval=60 user@host
    更多方法 >>> http://t.cn/zYc5wR1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-18 16:24:05
    PPPOE拨号引发“Couldn't allocate pseudo-tty”问题,表现:
    1)SSH连接卡主(无法正常建立连接),提示:“request failed on channel 0”。
    2)日志出现大量:“Couldn't allocate pseudo-tty”。
    谷歌得知原因:pseudo-terminals数量超过系统最大限制。
    临时处理方法:增加pseudo-terminals最大数量,具体步骤>>> http://t.cn/RJnUJxD

    1. 如何查看系统当前pseudo-terminals数量:
    ls /dev/pts|wc -l
    参考文章:http://t.cn/RJnUJxk

    2. 查看当前系统允许的最大pseudo-terminals数量:
    cat /proc/sys/kernel/pty/max

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-16 12:34:53
    【专治疑难杂症】Selenium + IEDriver出现“Internet Explorer has stopped working”或"Internet Explorer 已停止工作"对话框如何解决? >>> http://t.cn/RJjndCS

    Turn Off The Error Dialog Via The Registry

    Although editing the registry manually is not recommended for average users, sometimes there isn’t a choice because something like the Group policy Editor might not be available in your version of Windows or the group policy method itself doesn’t work. This works on Windows Vista and above.

    Open the Registry Editor by typing regedit into the Start search box or the Win+R Run dialog.
    Navigate to the following registry key:
    HKEY_CURRENT_USER\Software\Microsoft\Windows\Windows Error Reporting

    Double click the DontShowUI entry on the right and change its value to 1, then close the registry editor.

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:44:38
    【经验分享】如何使用SPSS查看大CSV文件(超过100万行)? >>> http://t.cn/RJb48R1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:05:12
    【专治疑难杂症】pyautogui在Windows下鼠标左键按下动作pyautogui.mouseDown()引发“WindowsError: [Error 5] 拒绝访问。/ WindowsError: [Error 5] Access is denied.” 异常解决方法:注释掉_pyautogui_win.py文件L479-L480行。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-26 11:40:16
    Google Maps Geocoding API使用限制: 2,500 free requests per day。
    >>> http://t.cn/RxVL66t
    使用稳定高匿名HTTP代理可以绕过该限制,例如200个IP就可以达到50万每天的查询速度。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-23 11:43:20
    【备忘】Chrome查看页面源码快捷键 Ctrl + U;Chrome进入隐私模式快捷键 Ctrl + Shift + N ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-20 20:55:19
    完善Python版的pppoe-status,实测比原版可靠(修复rp-pppoe-3.12中的pppoe-status误判失败的问题) >>> http://t.cn/RMsiLHd ​​​​

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。