更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】代理服务器出现大量TIME_WAIT怎么破?爬虫客户端用什么库更高效?在本文我们将通过实验给你解答 “与TIME_WAIT相关的一些实验” >>>  http://www.site-digger.com/html/articles/20181109/683.html ​​​​
    发布时间:2018-11-09 16:58:07
  • 【备忘】mitmproxy v0.18.2版本Python script示例  
    归纳了一下公司近期常用的mitmproxy Python script编写示例,通过本示例你将学会在mitmproxy中如何通过外挂Python脚本修改请求和应答数据, >>> http://www.site-digger.com/html/articles/20181109/682.html ​​​​
    发布时间:2018-11-09 16:56:27
  • 【经验分享】自己gcc编译出来的squid可执行程序体积比官方rpm包里的体积大9倍(官方的6MB,自己编译出来的59MB)!使用strip --strip-unneeded file-path 处理之后,体积也变成6MB了!(running strip is a good way to get the size down after you have a binary and the binary is in ELF format. strip just removes debug and unreferenced symbols after the binary has been created.) >>> 参考:http://www.cplusplus.com/forum/unices/123451/
    发布时间:2018-11-07 14:02:55
  • 【干货干货】整整花了2天时间搞的。 iptables DNAT Web流量截取实验 >>> http://www.site-digger.com/html/articles/20181105/681.html ​​​​
    发布时间:2018-11-05 13:09:48
  • 【经验分享-纯干货】SNI导致Python 2.7建立TLS连接出现104错误问题的解决 >>> http://www.site-digger.com/html/articles/20181026/680.html ​​​​
    发布时间:2018-10-26 18:05:14
  • 【经验分享】使用openssl模拟与HTTPS网站的交互 >>> http://www.site-digger.com/html/articles/20181026/679.html ​​​​
    发布时间:2018-10-26 18:01:45
  • 美团外卖北京/上海/广州/杭州/成都五城市商户数据2018年10月份采集更新

    详细字段说明:
    “province” – 省份
    “city” – 城市
    “shop_name” – 店铺名称
    “address” – 店铺地址
    “category” – 大分类
    “third_category” – 小分类
    “phones” – 电话号码
    “score” – 店铺评分
    “min_price” – 起送价
    “month_sales” – 月售
    “shipping_fee” – 配送费
    “per_cost” – 人均消费
    “delivery_time” – 配送时间
    “delivery_tip” – 配送服务信息
    “pic_url” – 店铺图片
    “qualification” – 营业执照
    “shiping_time” – 营业时间
    “lat” – 纬度
    “lng” – 经度
    “comment_num” – 评论数

    >>> http://www.data-shop.net/2018/10/%E7%BE%8E%E5%9B%A2%E5%A4%96%E5%8D%96%E5%8C%97%E4%BA%AC%E4%B8%8A%E6%B5%B7%E5%B9%BF%E5%B7%9E%E6%9D%AD%E5%B7%9E%E6%88%90%E9%83%BD%E4%BA%94%E5%9F%8E%E5%B8%82%E5%95%86%E6%88%B7%E6%95%B0%E6%8D%AE2018/
    发布时间:2018-10-25 17:47:47
  • Selenium+Chrome淘宝正常登录方案演示:
    1. 不做特殊处理情况下,Selenium无法正常登录淘宝,会出验无法完成的验证码;
    2. 经过特殊处理后,成功突破淘宝对Selenium的检测,完美登录成功(连验证码都不会出现)。
    点击链接查看演示视频: >>> http://t.cn/EzdwqSY ​​​​
    发布时间:2018-10-22 16:55:09
  • 【经验分享】如何根据淘宝/天猫的分类ID(categoryId值)获取对应的分类名称?

    (1) 如图1所示,先从商品源码获取"categoryId"参数值,例如1512;
    (2)如图2所示,查表可知对应分类名称为"手机";

    点击这里购买该分类映射表(2018年10月份采集更新):
    http://t.cn/EzwnBs1 ​​​​
    发布时间:2018-10-17 11:46:05
  • FontEditor Online 赞! >>> http://t.cn/RKDTzTV ​​​​
    发布时间:2018-10-11 14:14:20
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-11-21 10:36:35
    4TB移动硬盘,Ubuntu下fdisk -l看不到,换用 parted -l解决。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:24:06
    基于Ubuntu 14.04版本的鲲鹏拨号服务器定期会死机,syslog日志如截图所示,不得不计划任务定期reboot。16.04版本测试了几个月还没出现死机的情况,后面计划不再使用14.04版本。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-11-03 15:24:37
    【经验分享】“selenium + phantomjs”如何正确退出phantomjs进程?
    背景:程序用使用diver.quit()或driver.close()方法退出phantomjs进程偶尔会失败,出现“OSError: Bad file descriptor”异常。经测如下方法可以有效解决问题:

    import signal

    driver.service.process.send_signal(signal.SIGTERM) # kill the specific phantomjs child proc
    driver.quit()      

    感谢Stackoverflow上的无私分享者 >>> http://t.cn/RlbPiCb http://t.cn/RlbPiCU
    PS:如何在selinum里获取phantomjs进程的ID: driver.service.process.pid
    参见 >>> http://t.cn/RlbPiC4

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-30 22:11:01
    谷歌DNS 8.8.8.8现在貌似故障了,在美国无法解析安居客域名,换用114.114.114.114可以:
    dig @8.8.8.8 www.anjuke.com 查询不到(图1);
    dig @114.114.114.114 www.anjuke.com 能查询到(图2); ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-29 17:49:53
    【实践出真知】山东和苏州两地总结出来的经验:pppd持续出现“No response to 3 echo-requests, Serial link appears to be disconnected"可能是宽带接入设备(Modem)负载太大了! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-28 21:48:39
    【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
    点击查看详情 >>> http://t.cn/R0WMsU2

    国家和IP数量如下表:
    Country IP Count
    Turkey 256
    Canada 512
    Madagascar 2560
    Italy 512
    Czech Republic 256
    Iran (Islamic Republic of) 256
    Hungary 512
    Qatar 256
    Luxembourg 256
    France 256
    Slovakia 256
    Ireland 768
    Hong Kong 256
    Nigeria 768
    Bolivia 2816
    Norway 512
    Bangladesh 256
    Israel 512
    Australia 256
    Indonesia 256
    Jordan 256
    Germany 18688
    Nicaragua 2560
    Belgium 512
    China 512
    Iraq 256
    Philippines 256
    Taiwan 256
    Spain 512
    Ukraine 256
    Netherlands 512
    Denmark 512
    Poland 256
    Finland 768
    Saudi Arabia 256
    United States 83712
    Sweden 768
    Vietnam 256
    Kenya 256
    Switzerland 768
    New Zealand 256
    Russia 768
    Brazil 512
    Bulgaria 256
    Romania 512
    Portugal 512
    Mexico 256
    United Arab Emirates 256
    India 50688
    United Kingdom 6144
    Malaysia 256
    Austria 768
    Congo 2560
    Greece 512
    Japan 512
    South Korea 256
    Cyprus 256

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:56:59
    淘宝外卖(口碑外卖)全国所有城市商户数据2017年9月底更新(62.8万家)。2017年9月底更新。含店招、营业执照和餐饮服务许可证图片文件。 >>> http://t.cn/R0oybU9 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:55:35
    是谁把我的7777端口占用了? lsof  -i:7777 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 21:32:57
    成功绕过淘宝(口碑)外卖签名机制,顺利拿到Ajax返回数据。
    PS:常规模拟浏览器方法无效,需结合抓包。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 11:34:07
    Firefox历史版本下载地址:http://t.cn/Rbu2y44
    PS:slimerjs支持Firefox from 38.0 to 52.0. ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 10:06:04
    【无关技术】更多的时候是做一个运维,看着爬虫输出的信息越快越开心 L西安鲲之鹏的微博视频 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-20 17:23:31
    【经验分享】Chrome V55以后不支持设置页面编码了(不信你试试看)。不过,这货(Set Character Encoding插件)可以帮你实现。 http://t.cn/RaIDInW ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-14 15:10:39
    【经验分享】由于项目需要在Linux Server下将近千万个word文档(*.doc)转换为文本格式(html或txt),经测试效果最好的方法是使用LibreOffice的命令行工具。

    安装:
    sudo apt-get purge libreoffice-core
    sudo add-apt-repository -y ppa:libreoffice/ppa
    sudo apt-get update
    sudo apt-get install libreoffice

    doc转txt示例:
    soffice --headless --convert-to txt test.doc

    doc转html示例:
    soffice --headless --convert-to html test.doc

    关于convert-to参数的更多说明见这里 >>> http://t.cn/RVGwrbi

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-17 09:55:51
    搜房网(房天下)全国新房楼盘+二手房小区数据2017年07月份更新(“小区名称”,”城市”,”小区地址”,”项目特色”,”所属区域”,”邮编”,”产权描述”,”物业类别”,”竣工时间”,”开发商”,”建筑结构”,”建筑类别”,”建筑面积”,”占地面积”,”当期户数”,”总户数”,”绿化率”,”容积率”,”物业费”,”停车位”,”开盘时间”,”交房时间”,”小区简介”,”交通状况”,”周边信息”,”经度”,”纬度”,”物业公司”,”价格”,”页面链接”,”地图链接”,”区县”,”商 圈”,”装修情况”,”物业地址”,”入住时间”,”物业类型”,”环比上月”,”详情页链接”,”新房/二手房”,”newcode”) >>> 示例数据:http://t.cn/RCZcOAe

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-10 16:03:33
    【经验分享】利用Fiddler2的Custom Rules自动抓取App的TOKEN并记录到文件 >>> http://t.cn/R9RdWc3 ​​​​

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。