更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】使用Frida脚本强制给okhttp3.OkHttpClient设置代理。
    背景:某些应用使用Proxy.NO_PROXY跳过系统代理设置(例如附图),导致代理模式无法抓到HTTPS流量。

    脚本如下:
    Java.perform(function(){
    // OkHttpClient强制设置代理
    var OkHttpClient = Java.use("okhttp3.OkHttpClient");
    var OkHttpBuilder = Java.use("okhttp3.OkHttpClient$Builder");
    var Proxy = Java.use("java.net.Proxy");
    var ProxyType = Java.use("java.net.Proxy$Type");
    var InetSocketAddress = Java.use("java.net.InetSocketAddress");
    // 要设置的代理
    var proxy = Proxy.$new(ProxyType.SOCKS.value, InetSocketAddress.createUnresolved("IP", int_port));

    OkHttpClient.newBuilder.overload().implementation = function() {
    return OkHttpBuilder.$new();
    }
    OkHttpBuilder.build.overload().implementation = function() {
    console.log('[+] Installing proxy');
    this.proxy(proxy);
    return this.build();
    }
    OkHttpBuilder.proxy.overload("java.net.Proxy").implementation = function(input_proxy) {
    console.log('[+] Changing proxy');
    return this.proxy(proxy);
    }
    });

    function lookup_okhttpclient(){
    // 查看内存中的okhttp3.OkHttpClient实例的代理
    Java.perform(function(){
    Java.choose('okhttp3.OkHttpClient',
    {
    onMatch: function (instance){
    console.log('Found instance: ' + instance + ', Current proxy: ' + instance.proxy());
    },
    onComplete: function ()
    {
    }
    });
    });
    }

    另外,通过调用lookup_okhttpclient()可以动态查看内存中okhttp3.OkHttpClient实例的代理设置情况。
    发布时间:2022-11-09 20:33:36
  • 【经验分享】系统日期不正确可能会导致出现证书错误。
    给Nexus 6P刷机后,发现在浏览器内不管访问什么网站都提示证书错误(如附图1所示),在Termux里更新源也是证书错误(如附图2所示)。折腾了很长时间才发现原来是系统日期设置的不正确,如附图3所示。系统日期异常导致证书未生效过着已过期。 ​​​
    发布时间:2022-11-05 12:17:51
  • 【经验分享】apache mod_proxy实现url转发时如何避免后端域名的DNS缓存

    方法如下示例,加项disablereuse=On配置项即可:
    ProxyPass / http://后端域名/ retry=0 disablereuse=On

    关于disablereuse参数mod_proxy文档(https://httpd.apache.org/docs/2.4/mod/mod_proxy.html)有说明:
    This parameter should be used when you want to force mod_proxy to immediately close a connection to the backend after being used, and thus, disable its persistent connection and pool for that backend. This helps in various situations where a firewall between Apache httpd and the backend server (regardless of protocol) tends to silently drop connections or when backends themselves may be under round- robin DNS. When connection reuse is enabled each backend domain is resolved (with a DNS query) only once per child process and cached for all further connections until the child is recycled. To disable connection reuse, set this property value to On.
    发布时间:2022-11-02 11:14:38
  • 【经验分享】ttyd - Share your terminal over the web
    ttyd是一款能将Linux/Andorid/Windows终端以Web形式展现的命令行工具,用法简单但功能强大。项目主页是:github.com/tsl0922/ttyd。
    releases里有编译好的二进制程序,直接下载系统对应版本即可使用,无需安装。

    用法举例:
    Linux:执行"ttyd login"即可,支持系统账号登录认证。更高级的用法可以参考这里github.com/tsl0922/ttyd/wiki/Example-Usage。效果如附图1所示。
    Andorid:执行"ttyd bash"即可。效果如附图2所示。
    Windows:执行"ttyd cmd"即可。效果如附图3所示。

    在Linux上如何ttyd配置为服务?
    参见:github.com/tsl0922/ttyd/wiki/Systemd-service#systemd-service-on-linux
    发布时间:2022-11-01 21:16:59
  • 【经验分享】推荐一个支持语法高亮的cat命令行工具 - bat
    项目主页是:github.com/sharkdp/bat/,bat支持对大部分编程语言和标记语言提供语法高亮显示。可以作为cat命令的高级替代品。采用Rust语言编写。
    效果如附图所示。 ​​​
    发布时间:2022-10-30 16:01:32
  • 【经验分享】proxychains Windows版
    借助proxychains可以让不支持代理的程序强制走代理,proxychains-windows是其Windows版本,项目主页:github.com/shunf4/proxychains-windows。
    其原理是Hook方式实现:通过劫持connect, WSAConnect, ConnectEx, GetAddrInfoW等函数调用。

    直接从releases里下载编译好的二进制版本,修改配置文件后即可使用。
    配置文件放置于:%USERPROFILE%\.proxychains\proxychains.conf。

    用法示例:
    proxychains curl http://httpbin.org/ip
    proxychains "C:\Program Files\Mozilla Firefox\firefox.exe"
    发布时间:2022-10-29 12:48:45
  • 【经验分享】推荐两个Python实现的adb客户端库

    原理如附图所示,直接通过socket和"adb server"进行交互来实现功能,而非调用adb二进制客户端程序实现。也就是adb.exe的Python实现。
    第一个是:adbutils,项目主页是github.com//openatx/adbutils。
    第二个是:pure-python-adb,项目主页是github.com//Swind/pure-python-adb。

    PS:uiautomator2中使用了adbutils。
    发布时间:2022-10-29 09:11:53
  • 【经验分享】如何adb连接远程的安卓设备?

    方法一:直接远程连接。
    (1)在安卓设备上开启网络ADB(即adb over TCP/IP)。可以使用"ADB Manager"这个APP,如附图1所示。adbd默认监听设备上的5555端口。
    (2)然后通过路由器端口映射或者frp内网穿透,将设备的5555端口暴露出来。
    (3)最后在本地使用“adb connect 远程IP:远程端口”即可连接。
    这个方法的缺点是不安全,任何人都能连接。

    方法二:通过ssh隧道中转连接。
    将安卓设备连接在一台Linux机器上,然后本地通过ssh隧道安全地和设备建立连接。
    首先看一下adb的工作原理,如附图2所示,"adb server"位于主控端(PC),“adbd后台进程”位于安卓设备上。"adb server"和“adbd"通过USB或者TCP通信。"adb server"监听TCP 5037端口,"adb客户端"通过该端口与其进行数据交互:执行命令、获取命令执行结果。
    知道原理后实现起来就不难了:对于"adb客户端"来说,它默认是通过TCP://127.0.0.1:5037来连接"adb server",我们只要把远程的5037端口映射到本地,本地的"adb客户端"就能连接上远程的"adb server"(就和连接本机的"adb server"一样)。

    具体实现思路如下:
    (1)将所有需要访问的安卓设备连接到一台Linux机器上,这台机器可以被远程ssh访问。确保在Linux上"adb devices"能够正常看到设备。
    (2)使用ssh本地端口映射,将Linux机器的5037映射到本地,例如
    ssh -L 5037:127.0.0.1:5037 user@host
    (3)然后在本地执行"adb devices"就能看到和远程Linux上一样的设备列表,如附图3所示。注意:本地的adb版本要和远程Linux上的adb server版本一致,否则会出错。之后的操作就和使用本地的adb连接一样了。
    (4)这种模式下,如何使用scrcpy远程控制设备呢?
    通过上面操作我们已经成功建立了adb远程连接,但是使用scrcpy的时候会发现无法显示出设备图像,提示“connect: No error”错误。这是因为scrcpy在工作的时候需要用到27183端口(scrcpy-server会监听该端口,scrcpy客户端通过这个端口和服务端进行通信),我们还需要将这个端口也从远程映射到本地来(详见scrcpy的官方文档),命令如下:
    ssh -L 27183:127.0.0.1:27183 user@host
    如此scrcpy就能正常工作了,如附图4所示。
    发布时间:2022-10-29 09:05:44
  • 【经验分享】编译Haproxy时加入Lua支持。
    Lua是一种嵌入式编程语言,HAProxy支持通过Lua脚本实现更过强大的功能。按如下步骤操作,可以给Haproxy加入Lua支持。

    (1)先编译Lua。
    从官方下载Lua源码(https://www.lua.org/start.html),进入src目录,make linux即可。将编译生成lua可执行文件lua和luac。记下lua可执行文件所在路径,例如/home/qi/haproxy_backconnect_proxies/lua-5.3.6/src 。
    编译时如果出现"lua.c:82:31: fatal error: readline/readline.h: 没有那个文件或目录"问题,请先安装"sudo apt-get install -y libreadline-dev”(Ubuntu下)。

    (2)编译Haproxy。
    从官方下载源码,编译时加入USE_LUA=1选项,并制定lua可执行文件所在路径,完整如下:
    make TARGET=generic USE_DL=1 USE_CRYPT_H=1 USE_LUA=1 LUA_INC=/home/qi/haproxy_backconnect_proxies/lua-5.3.6/src LUA_LIB=/home/qi/haproxy_backconnect_proxies/lua-5.3.6/src

    另外Lua默认会从/usr/local/share/lua/5.3/下寻找库文件,如果从网上下载的第三方库库例如json.lua,将放置于该目录下。
    发布时间:2022-08-27 13:06:25
  • 【经验分享】如何让Linux系统预留指定端口,防止被自动分配机制拿走(占用)。
    背景:系统上开启了很多网络服务,重启某个业务时经常出现端口被占用的情况。

    解决方法:
    以Ubuntu 16.04为例,编辑 /etc/sysctl.conf,加入如下配置行:
    net.ipv4.ip_local_reserved_ports=6666,7777,8888,9999,54001-54100
    保存,然后执行sudo sysctl -p生效。

    这里的"6666,7777,8888,9999,54001-54100"为预留端口。经过这样设置后,这些端口就不会被系统自动分配给connect()和bind() 端口0的程序。
    发布时间:2022-08-27 10:31:21
当前位置: 首页 > 收费政策

我们的收费政策如下:

项目的费用是根据抓取的页面数、页面结构、数据输出格式、网站限制等因素综合收取。

影响价格的因素主要有网站复杂度,抽取数据的数量,数据要求的特定格式,jpg、 pdf等非文本数据文件的数量等。

 定制采集,甲方需支付30%的预付款,并且中途不得要求取消项目。数据销售,先付款后发数据下载链接,付多少款,发多少比例的数据。

由于我方原因造成项目最终未能完成或质量达不到要求,将无条件退还预付款。

项目完成后先交付部分示例数据,余款结清后交付全部数据。如需提供采集程序,费用另计(加收60%的费用)。

后期变更、维护需要另外收取费用。

量大、长期合作者可作适当优惠。

项目的具体收费需要根据具体情况而定。 欢迎咨询 联系我们

查看业务流程

提交项目

查看示例数据

我们支持多种支付途径:

1)支付宝(推荐):

支付宝账户:hello@site-digger.com 支付宝名称:西安鲲之鹏网络信息技术有限公司 

二维码链接:支付宝扫描付款

2)银行转账:

银行名称 卡号 开户行 户名

交通银行(对公)
6113 0103 1018 1700 11457 西安长乐西路支行 西安鲲之鹏网络信息技术有限公司

浙江网商银行
8888 8888 3691 1048 浙江网商银行 西安鲲之鹏网络信息技术有限公司

招商银行
6214 8629 0286 0818 西安小寨支行 齐鹏

交通银行
601428 4581 7208904 西安光华路支行 齐鹏

发票开具:

项目/数据/代理IP报价均是不含税价格。我们可以开具增值税发票(内容:技术服务费),开票需要追加5%的税点。