更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】如何让Squid Web隧道支持SSH协议?
    默认Web隧道下连接22端口是不被允许的,会返回403错误。
    编辑/etc/squid3/squid.conf,加入如下配置行
    acl SSL_ports port 22
    acl Safe_ports port 22
    然后重启Squid即可。 ​​​​
    发布时间:2018-05-16 11:41:42
  • 当当网有多少图书,你知道吗?>>> http://t.cn/R3h6hiH ​​​​
    发布时间:2018-05-08 13:53:19
  • 【经验分享】Ubuntu下如何识别无线网卡?
    以普联的TL-WDN6200为例,使用的是rtl8812au(http://t.cn/RuR1Drh这个驱动):
    wget http://t.cn/RuR1DrP
    unzip master.zip
    cd rtl8812au-master
    make
    sudo install
    然后重启系统,运气好的话你就能看到Wifi图标和热点列表了,如下图所示(Ubuntu14.04下亲测)。
    发布时间:2018-05-03 19:10:52
  • 【经验分享】DeleGate跑了3天日志吃了18G硬盘,如何关掉日志呢?
    查文档(ftp://www.delegate.org/pub/DeleGate/Manual.htm#LOGDIR),找到了方法,加上参数LOGFILE=""即可,原文:
    You can stop logging by specifying null file name like LOGFILE="" or PROTOLOG="". ​​​​
    发布时间:2018-04-28 18:08:15
  • 【经验分享】命令下如何优雅地展示JSON数据?
    jq is a lightweight and flexible command-line JSON processor. >>> http://t.cn/Ry7MrH2
    示例:curl http://t.cn/Rui9UFI |jq '.'
    效果如附图所示。 ​​​​
    发布时间:2018-04-27 17:15:06
  • 最常见浏览器User Agent列表(Most Common User Agents)  >>> http://t.cn/R5ZC20T
    PS:隐约感觉某网站开始通过随机UA检测爬虫了。 ​​​​
    发布时间:2018-04-27 13:08:00
  • 【经验分享】在多网络接口(IP)环境下Squid,Tinyproxy和DeleGate如何指定出口(IP) >>> http://t.cn/RucmfQu ​​​​
    发布时间:2018-04-25 18:16:40
  • 【经验分享】Linux网络接口名称最大允许长度为15字符 >>> http://t.cn/RuG4k0R ​​​​
    发布时间:2018-04-24 11:05:16
  • 【经验分享】抓取Web of Science经验分享 >>> http://t.cn/RmlDirP ​​​​
    发布时间:2018-04-15 14:03:24
  • 【最新】百度指数最新采集方案演示(视频),有点如下:
    1. 受限账号仍可继续采集(不会提示访问太频繁);
    2. 一次可以获取近90天的数据(理论上还可以更多); L西安鲲之鹏的秒拍视频 ​​​​
    发布时间:2018-04-13 14:15:02
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2016-12-27 17:04:09
    curl如何访问使用TLS1.0网站(且不支持TLS重新协商修正)?
    curl --tlsv1.0 "http://t.cn/RbsY6wb"
    如果不加--tlsv1.0参数,会返回“curl: (35) Unknown SSL protocol error in connection to ”错误。
    PS:前面发过类似的内容,主要说明如何在Python中访问使用TLS1.0的网站。
    [链接] http://t.cn/RUE5b39

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-25 17:25:05
    【省钱技巧】vultr.com上部署Windows示例每月需要多付16刀。测试发现使用Cusom ISO方式,安装自己上传的Windows ISO镜像就可以省掉这个16刀。[坏笑]
    附网友共享的“集成VirtIO驱动Windows 8.1, 8, 7, XP, Server 2012, 2008, 2003的ISO镜像”: http://t.cn/RIj5Exh ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-17 23:12:51
    【pip指定代理】
    pip install --proxy=https://proxy_user:proxy_password@proxy_url:proxy_port package
    PS: 从国内服务器用pip安装一个库老是timeout,指定一个香港代理后瞬间完成。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-15 16:56:15
    一块4TB的硬盘,在Ubuntu Server下使用fdisk只分一个区挂载后发现只有2TB大小。
    原来“fdisk创建的传统MBR分区最大只支持2TB的分区,要想支持4TB的分区,得用GPT格式的分区”。
    使用parted命令可以创建GPT格式的分区,如下:

    分区:
    sudo parted /dev/sdb
    (parted) mklabel gpt
    (parted) unit TB
    (parted) mkpart primary 0.00TB 4.00TB
    (parted) print
    (parted) quit

    格式化:
    sudo mkfs.ext4 /dev/sdb1

    挂载:
    1)自动挂载:
    编辑/etc/fstab加入:
    /dev/sdb1       /home/qi/data   ext4    defaults        1       1

    2)或临时挂载:
    sudo mount /dev/sdb1 /home/qi/data

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-15 16:42:32
    Ubuntu Server下如何查看磁盘的品牌和型号?例如,我想查看/dev/sdb这块硬盘的信息,命令如下:
    sudo apt-get install smartmontools
    sudo smartctl --all /dev/sdb
    输出信息如下:
    === START OF INFORMATION SECTION ===
    Model Family:     Seagate Constellation ES.3
    Device Model:     ST4000NM0033-9ZM170
    Serial Number:    S1Z2NARX
    LU WWN Device Id: 5 000c50 08ceeca07
    Firmware Version: SN06
    User Capacity:    4,000,787,030,016 bytes [4.00 TB]
    Sector Size:      512 bytes logical/physical
    Rotation Rate:    7200 rpm
    ...

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-13 11:47:08
    VMWare Workstation 10 & Win 7,如何移动部分vmdk文件到其它分区?
    场景:vmdk快把D盘空间耗尽了,所以想迁移部分vmdk文件到其它空间较多的分区下(C盘)。
    网上有人说可以通过修改vmdk描述文件中的路径来实现,测试发现修改后无法启动。
    最后还是符号链接解决的问题,Win7下用mklink(注意mklink的目标和源的位置刚好和linux下的ln命令是反的)。详见stackoverflow,自问自答 >>> http://t.cn/RIUzH9Q

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-11 19:48:15
    Ubuntu server如何列出机器的所有网卡?
    sudo lshw -C network
    如下图所示,我测试的机器有两块网卡em1和em2,其中em2没有插网线。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-06 08:56:03
    【吐槽下阿里云】 系统强制要求迁移到香港B区,自动迁移后系统无法启动... ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-05 10:06:39
    Linux CPU温度监测命令:watch sensors ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-12-02 11:01:58
    【EOF occurred in violation of protocol问题解决】Python2.7环境下用urllib2访问一个URL:”
    http://t.cn/aopOIt
    会抛出异常:“urllib2.URLError: <urlopen error [Errno 8] _ssl.c:510: EOF occurred in violation of protocol>”(如下附图)
    原因:“http://t.cn/a81ks4”这个网站使用了TLS 1.0(如下附图),而Python 2.6, 2.7的urllib2默认不支持TLS1.0。
    解决方法:在urllib2建立SSL连接时强制使用PROTOCOL_TLSv1,示例代码 >>> http://t.cn/RfmxGUS

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-11-18 21:08:51
    【tor测试】(1)速度还可以,在可接受范围内。
    (2)“选择最快”原则导致实际能切换到的IP量很少,测了3天,最多640多个IP。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-11-16 10:23:29
    【如何避免使用MySQL缓存?】SELECT的时候加入SQL_NO_CACHE选项即可,例如: SELECT SQL_NO_CACHE id, name FROM customer;
    [1]The MySQL Query Cache:http://t.cn/RftBuFm
    [2]Query Cache SELECT Options: http://t.cn/RftBuFu ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-11-15 14:48:31
    【经验分享】爬虫模拟某系统Ajax请求,Accept头使用爬虫框架默认的“text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8”网站返回数据乱码(如下图示),修改为“application/json, text/javascript, */*; q=0.01”后返回数据正常(如下图示)。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-11-13 19:10:15
    【实测】JuiceSSH是安卓平台上远程SSH管理的一个超赞的工具!秒杀我之前试过的ConnectBot。是运维人员居家旅行不可或缺的神器!!!
    PS:本来还考虑买个Win10平板,出门的时候可以用SecureCRT管理服务器,现在完全没必要了。
    附下载地址:http://t.cn/RfbEoeK ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-11-11 08:10:51
    【数据超市】安居客(anjuke.com)全国数据(新房楼盘+二手房小区)2016年11月份数据更新 >>> http://t.cn/RfLDYzj

    二手房小区:
    “城市”,”小区名”,”本月均价”,”价格变动”,”所在版块”,”地址”,”总户数”,”建造年代”,”物业类型”,”物业费用”,”开发商”,”总建面”,”容积率”,”出租率”,”停车位”,”绿化率”,”经度”,”纬度”,”简介”,”URL”

    新房楼盘:
    “城市”,”楼盘名称”,”楼盘单价”,”特色”,”区域位置”,”楼盘地址”,”规划总数”,”工程进度”,”开盘时间”,”交房时间”,”经度”,”纬度”,”URL”

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。