更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】代理服务器出现大量TIME_WAIT怎么破?爬虫客户端用什么库更高效?在本文我们将通过实验给你解答 “与TIME_WAIT相关的一些实验” >>>  http://www.site-digger.com/html/articles/20181109/683.html ​​​​
    发布时间:2018-11-09 16:58:07
  • 【备忘】mitmproxy v0.18.2版本Python script示例  
    归纳了一下公司近期常用的mitmproxy Python script编写示例,通过本示例你将学会在mitmproxy中如何通过外挂Python脚本修改请求和应答数据, >>> http://www.site-digger.com/html/articles/20181109/682.html ​​​​
    发布时间:2018-11-09 16:56:27
  • 【经验分享】自己gcc编译出来的squid可执行程序体积比官方rpm包里的体积大9倍(官方的6MB,自己编译出来的59MB)!使用strip --strip-unneeded file-path 处理之后,体积也变成6MB了!(running strip is a good way to get the size down after you have a binary and the binary is in ELF format. strip just removes debug and unreferenced symbols after the binary has been created.) >>> 参考:http://www.cplusplus.com/forum/unices/123451/
    发布时间:2018-11-07 14:02:55
  • 【干货干货】整整花了2天时间搞的。 iptables DNAT Web流量截取实验 >>> http://www.site-digger.com/html/articles/20181105/681.html ​​​​
    发布时间:2018-11-05 13:09:48
  • 【经验分享-纯干货】SNI导致Python 2.7建立TLS连接出现104错误问题的解决 >>> http://www.site-digger.com/html/articles/20181026/680.html ​​​​
    发布时间:2018-10-26 18:05:14
  • 【经验分享】使用openssl模拟与HTTPS网站的交互 >>> http://www.site-digger.com/html/articles/20181026/679.html ​​​​
    发布时间:2018-10-26 18:01:45
  • 美团外卖北京/上海/广州/杭州/成都五城市商户数据2018年10月份采集更新

    详细字段说明:
    “province” – 省份
    “city” – 城市
    “shop_name” – 店铺名称
    “address” – 店铺地址
    “category” – 大分类
    “third_category” – 小分类
    “phones” – 电话号码
    “score” – 店铺评分
    “min_price” – 起送价
    “month_sales” – 月售
    “shipping_fee” – 配送费
    “per_cost” – 人均消费
    “delivery_time” – 配送时间
    “delivery_tip” – 配送服务信息
    “pic_url” – 店铺图片
    “qualification” – 营业执照
    “shiping_time” – 营业时间
    “lat” – 纬度
    “lng” – 经度
    “comment_num” – 评论数

    >>> http://www.data-shop.net/2018/10/%E7%BE%8E%E5%9B%A2%E5%A4%96%E5%8D%96%E5%8C%97%E4%BA%AC%E4%B8%8A%E6%B5%B7%E5%B9%BF%E5%B7%9E%E6%9D%AD%E5%B7%9E%E6%88%90%E9%83%BD%E4%BA%94%E5%9F%8E%E5%B8%82%E5%95%86%E6%88%B7%E6%95%B0%E6%8D%AE2018/
    发布时间:2018-10-25 17:47:47
  • Selenium+Chrome淘宝正常登录方案演示:
    1. 不做特殊处理情况下,Selenium无法正常登录淘宝,会出验无法完成的验证码;
    2. 经过特殊处理后,成功突破淘宝对Selenium的检测,完美登录成功(连验证码都不会出现)。
    点击链接查看演示视频: >>> http://t.cn/EzdwqSY ​​​​
    发布时间:2018-10-22 16:55:09
  • 【经验分享】如何根据淘宝/天猫的分类ID(categoryId值)获取对应的分类名称?

    (1) 如图1所示,先从商品源码获取"categoryId"参数值,例如1512;
    (2)如图2所示,查表可知对应分类名称为"手机";

    点击这里购买该分类映射表(2018年10月份采集更新):
    http://t.cn/EzwnBs1 ​​​​
    发布时间:2018-10-17 11:46:05
  • FontEditor Online 赞! >>> http://t.cn/RKDTzTV ​​​​
    发布时间:2018-10-11 14:14:20
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-03-16 14:18:45
    【腾讯这是要放弃SmartQQ的节奏吗?】
    如图所示。消息丢失率很高,抓包可见poll2请求大量504(timeout)错误。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-15 12:58:18
    【pssh实在太酷了】
    图一:我通过pssh了解20台Linux服务器的负载情况,cool!
    图二:我通过pssh结合pslurp完成了20台Linux服务器重要数据文件的“批量打包、批量取回、批量删除远程备份”的操作,cool!

    参考资料:
    http://t.cn/RidpWFN
    http://t.cn/RidpWFp ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-14 17:32:29
    【域名NS记录查询】
    Windows:
    nslookup –qt=NS 目标域名

    Linux:
    host -t NS 目标域名

    参考文章:http://t.cn/zQJFraU http://t.cn/RGIQcyC ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-12 19:50:16
    【一个cron计划任务引发的血案】近日某Ubuntu14.04服务器上mongodb老自动挂掉,观察一段发现系统内存严重不足,swap都快被用完了,如图一所示,mongodb在内存耗尽的时候就挂掉了。很奇怪,到底是什么进程占用了这么多内存呢?

    参考这篇文章里的方法 Linux: Find Out What Process Are Using Swap Space > http://t.cn/RinTwWY

    执行如下命令,查看哪些进程使用了swap,并按使用量大小排列:
    for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | less

    这一看不打紧,发现里面有大量的python进程。
    再用ps aux |grep python一看,一身冷汗,有3899个python进程!如图二所示。

    可以断定内存就是被这些进程给吃完了!
    PS:这是一个每分钟启动一次的计划任务,功能是实现一个动态域名解析客户端。应该是脚本用的访问网络的操作卡住了(系统默认无限等待)造成进程无法退出,久而久之累积出来了几千个后台进程...

    杀掉这些进程,修复Bug。现在内存使用看起来正常了,如图三所示。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-10 22:26:15
    MySQL抓包工具 - MySQL Sniffer: MySQL Sniffer 是一个基于 MySQL 协议的抓包工具,实时抓取 MySQLServer 端的请求,并格式化输出。>>>  详细介绍http://t.cn/RiQAESc
    Ubuntu14.04下试了一下,效果很赞(如下截图)。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-22 14:07:44
    如何避免SSH时出现“Write failed: Broken pipe”?
    ssh -o ServerAliveInterval=60 user@host
    更多方法 >>> http://t.cn/zYc5wR1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-18 16:24:05
    PPPOE拨号引发“Couldn't allocate pseudo-tty”问题,表现:
    1)SSH连接卡主(无法正常建立连接),提示:“request failed on channel 0”。
    2)日志出现大量:“Couldn't allocate pseudo-tty”。
    谷歌得知原因:pseudo-terminals数量超过系统最大限制。
    临时处理方法:增加pseudo-terminals最大数量,具体步骤>>> http://t.cn/RJnUJxD

    1. 如何查看系统当前pseudo-terminals数量:
    ls /dev/pts|wc -l
    参考文章:http://t.cn/RJnUJxk

    2. 查看当前系统允许的最大pseudo-terminals数量:
    cat /proc/sys/kernel/pty/max

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-16 12:34:53
    【专治疑难杂症】Selenium + IEDriver出现“Internet Explorer has stopped working”或"Internet Explorer 已停止工作"对话框如何解决? >>> http://t.cn/RJjndCS

    Turn Off The Error Dialog Via The Registry

    Although editing the registry manually is not recommended for average users, sometimes there isn’t a choice because something like the Group policy Editor might not be available in your version of Windows or the group policy method itself doesn’t work. This works on Windows Vista and above.

    Open the Registry Editor by typing regedit into the Start search box or the Win+R Run dialog.
    Navigate to the following registry key:
    HKEY_CURRENT_USER\Software\Microsoft\Windows\Windows Error Reporting

    Double click the DontShowUI entry on the right and change its value to 1, then close the registry editor.

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:44:38
    【经验分享】如何使用SPSS查看大CSV文件(超过100万行)? >>> http://t.cn/RJb48R1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:05:12
    【专治疑难杂症】pyautogui在Windows下鼠标左键按下动作pyautogui.mouseDown()引发“WindowsError: [Error 5] 拒绝访问。/ WindowsError: [Error 5] Access is denied.” 异常解决方法:注释掉_pyautogui_win.py文件L479-L480行。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-26 11:40:16
    Google Maps Geocoding API使用限制: 2,500 free requests per day。
    >>> http://t.cn/RxVL66t
    使用稳定高匿名HTTP代理可以绕过该限制,例如200个IP就可以达到50万每天的查询速度。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-23 11:43:20
    【备忘】Chrome查看页面源码快捷键 Ctrl + U;Chrome进入隐私模式快捷键 Ctrl + Shift + N ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-20 20:55:19
    完善Python版的pppoe-status,实测比原版可靠(修复rp-pppoe-3.12中的pppoe-status误判失败的问题) >>> http://t.cn/RMsiLHd ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-16 09:46:59
    【纯干货】鲲之鹏微信小程序数据抓取示例 >>> http://t.cn/RMYalt4 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-12 12:36:58
    Ubuntu下7z压缩、解压文件:
    sudo  apt-get install p7zip-full

    【压缩文件】:
    7z a -t7z -r manager.7z /home/manager/*
    解释:
    a 代表添加文件/文件夹到压缩包;
    -t 是指定压缩类型 一般我们定为7z;
    -r 表示递归所有的子文件夹;

    【解压文件】
    7z x manager.7z -r -o/home/xx
    解释如下:
    x 代表解压缩文件,并且是按原始目录解压(还有个参数 e 也是解压缩文件,但其会将所有文件都解压到根下,而不是自己原有的文件夹下)manager.7z 是压缩文件,这里大家要换成自己的。如果不在当前目录下要带上完整的目录;
    -r 表示递归所有的子文件夹;
    -o 是指定解压到的目录,这里大家要注意-o后是没有空格的直接接目录;

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。