更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】playwright/selenium绕过反自动化/爬虫检测最新方案
    原理:是通过在页面加载之前注入js脚本,抹去navigator.webdriver等浏览器自动化特征。
    使用的这个js脚本(stealth.min.js)来源于Github上的puppeteer-extra-plugin-stealth项目(A plugin for puppeteer-extra and playwright-extra to prevent detection.)。

    playwright的示例:
    context.add_init_script(path='stealth.min.js')
    page = context.new_page()
    page.goto("https://bot.sannysoft.com/")

    selenium的示例:
    driver = webdriver.Chrome()
    with open('stealth.min.js', 'r') as f:
    js = f.read()
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': js})

    效果检验:
    1. 第一个检验标准,是看是否还会爆出navigator.webdriver等特征,可以直接在控制台查看,也可以通过访问https://bot.sannysoft.com/来查看。例如附图1是未做绕过处理时的截图。
    2. 第二个检验标准,是尝试登录淘宝,看能否成功。如果未做绕过处理,会出现滑块验证码,而且是无法正常处理的那种,无法登录成功。如附图2所示。

    经过测试,上述两项检验标准均通过:即没有爆出navigator.webdriver等特征,也可以成功登录淘宝,不出现滑块验证码。

    另附stealth.min.js的下载地址:
    http://www.site-digger.com/uploads/stealth.min.js
    发布时间:2022-08-10 11:05:15
  • 【经验分享】miller以XTAB格式查看字段内容较多或者字段较多的CSV文件
    示例:mlr --icsv --oxtab --from mouser_products_202208.csv head -n 3
    官方文档:https://miller.readthedocs.io/en/latest/file-formats/#xtab-vertical-tabular

    效果如附图所示。 ​​​
    发布时间:2022-08-10 10:26:30
  • 【分享】"CZ88纯真IP库20220420版" - MySQL版(52万条)免费下载

    数据说明:
    基于”QQ纯真IP库20220420版”转换的MySQL版本,共计529,985条。添加的数字格式的IP段起始和终止字段,可以通过该数据快速查询出某IP的归属国家、位置信息。

    字段说明:
    `ip_start_num` – 起始IP,数字类型(根据ip_start转换)
    `ip_end_num` – 终止IP,数字类型(根据ip_end转换)
    `ip_start` – 起始IP,字符串类型
    `ip_end` – 终止IP,字符串类型
    `country` – 所属国家
    `location` – 所在位置

    用法举例:
    (1)先将待查询IP转为数字类型。例如:
    ip_num = struct.unpack(‘!I’, socket.inet_aton(ip))[0]
    (2)查询”ip_start_num <= ip_num and ip_end_num >= ip_num”的记录,例如SQL语句:
    sql = ‘SELECT country FROM ips WHERE ip_start_num <= %s AND ip_end_num >= %s;’.format(ip_num, ip_num)

    示例数据:
    http://db.site-digger.com/csv/637a38385f6970735f32303232303432305f73616d706c65/

    下载链接:
    http://www.data-shop.net/2014/08/cz88-free-ips-database-20220420-mysql-version-52w/

    应用举例:
    如附图2所示,是使用该数据实现的IP地址归属地查询API。
    发布时间:2022-08-02 12:34:26
  • 【经验分享】一例Squid http认证异常问题的排查
    背景:
    (1)Squid配置的HTTP代理。使用external_acl_type自定义acl脚本进行ip和用户名密码认证,acl通过的放行,否则deny。
    (2)Playwright设置带用户名密码认证的http代理(上述Squid)代理。

    问题:
    curl命令或者requests库测试均工作正常,但是Playwright始终报 NS_ERROR_PROXY_FORBIDDEN错误。

    排查:
    用curl -v命令测试用户名密码不对或者为空情况下squid的返回,如下图所示,返回的是403状态码。意识到问题的所在了,对于浏览器来说,只有当服务端返回407状态码时,才会启用HTTP Proxy Basic Auth认证。此时返回403直接中断了后续认证流程。

    解决:
    自定义的external_acl_type之后,在http_access deny all之前,加入acl auth_user,让其在external_acl_type的ACL匹配失败的情况下能够返回407状态码。

    延伸:
    如何让“浏览器一开始就带上Proxy-Authorization头,这样就能直接通过认证,减少一次407的返回,提高效率。就像request库一样”? 经过测试发现使用一些代理插件,例如SwitchyOmega,可以实现。
    发布时间:2022-06-23 10:58:25
  • 【经验分享】利用HAProxy Runtime API的"set server"命令可以动态修改Haproxy的Backend server。
    例如 将Backend "backendout"的 Server "server1"的地址修改为115.209.110.181,端口修改为32603,执行如下命令即可。
    echo "set server backendout/server1 addr 115.209.110.181 port 32603" | socat stdio tcp4-connect:127.0.0.1:9999

    有两个前提:
    (1)HAproxy 2.0以后的版本才支持 Runtime API。
    (2)在配置文件里要开始 Runtime API的端口。如下配置示例,在9999端口开启Runtime API。
    global
    stats socket ipv4@127.0.0.1:9999 level admin

    详细用法可以参见官方博客里的示例,链接为https://www.haproxy.com/blog/dynamic-configuration-haproxy-runtime-api/
    发布时间:2022-05-22 16:22:21
  • 【经验分享】linux下如何检测某个网口下有ADSL拨号设备信号?
    用途:检测拨号设备是否工作正常,或者网口与拨号设备的连接是否正常。
    方法:可以使用"pppoe-discovery -I eth1"命令,eth1修改为具体要检测的网口。如果对应网口和拨号设备连接正常,将会返回BAS的名称和IP。
    文档连接:https://www.systutorials.com/docs/linux/man/8-pppoe-discovery/

    如附图所示,为分别在连云港联通、南京电信、南昌电信拨号环境下做的测试。
    发布时间:2022-05-10 19:10:47
  • 【经验分享】如何查看客户通过web隧道访问了什么网站?
    Web隧道内传输的数据通常是经过ssl加密的,如何通过抓包查看客户访问了什么网站呢?我们知道Web隧道的建立离不开HTTP的CONNECT方法,因为只要我们过滤CONNECT关键词就能拿到客户连接的目标网址。
    例如,我们通过ngrep进行包过滤,锁定Web隧道服务的端口(本例为65002)
    sudo ngrep -d ens3 -W byline -N -t -q CONNECT port 65002
    PS:ens3 是网口。结果如附图所示。
    发布时间:2022-05-10 16:58:59
  • 【经验分享】如何计算阿里系Ajax请求中的sign签名?
    有过阿里系采集经验的开发者都应该知道,某宝(天猫)H5版、1688、某宝司法拍卖H5版等阿里系网站,在Ajax请求中都会有一个sign签名参数(如下图1、2、3所示),要是值不正确将无法获取到有效的数据(例如返回“非法请求”提示)。如果我们无法构造出有效的sign,就只能通过“模拟浏览器操作”的方式来绕过签名验证,再结合"mitmproxy动态抓包脚本"来提取返回数据,这种方案效率太低,而且很不灵活。本文将介绍如何计算这个sign值以及给出对应的Python实现,这样就能实现通过直接HTTP交互抓取数据。点击链接查看详情>>> http://www.site-digger.com/html/articles/20211018/851.html

    •  
    发布时间:2021-10-18 14:59:23
  • 【经验分享】接上一篇:Android APP内置WebView如何获取当前加载的URL(方法二)?
    这次是直接HOOK android.webkit.WebView类的loadUrl()方法,可以直接得到加载的URL。同时也可以再loadUrl()内调用setWebContentsDebuggingEnabled(true)开启远程调试。效果如附图所示,这是某宝APP内嵌的H5页面,成功获取到了URL并且在inspect中能看到对应的WebView窗口(开启该WebView的远程调试成功)。

    // 查看WebView加载的URLs并启动远程调试
    Java.use("android.webkit.WebView").loadUrl.overload("java.lang.String").implementation = function (s) {
    console.log('WebView.loadUrl():' + s);
    console.log('Set webview DebuggingEnabled!');
    this.setWebContentsDebuggingEnabled(true);
    this.loadUrl.overload("java.lang.String").call(this, s);
    };
    发布时间:2022-05-06 13:31:47
  • 【经验分享】Android APP内置WebView如何获取当前加载的URL?
    (1)使用Firida强制其开启WebView的远程调试,以某司法拍卖APP为例,执行如下代码后。
    Java.perform(function() {
    var WebView = Java.use("com.uc.webview.export.WebView");
    WebView.setWebContentsDebuggingEnabled(true);
    }
    );
    (2)通过adb forward命令把WebView的Unix域套接字映射为本地端口,详细步骤可参见我们的这篇文章http://www.site-digger.com/html/articles/20220414/860.html
    (3)通过WebView的远程调试接口即可看到当前Tab的JSON数据,如附图所示,其中就有URL信息。
    发布时间:2022-05-06 13:04:25
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2020-01-31 14:32:18
    【经验分享】利用QEMU Monitor实现程序对Qemu虚拟机的控制
    背景:公司用“Qemu + Android X86”跑了大量安卓APP的爬虫,但是偶尔会出现安卓虚拟机卡死的情况,需要人工干预处理(重启对应的Qemu虚拟机)。有没有什么自动化的实现方案呢?

    经过查询得知QEMU提供了Monitor机制,可以通过Monitor提供的接口对虚拟机进行控制,比如重启、修改VNC密码、状态查询等等。

    (1)启动Monitor。如下示例,启动虚拟机时指定127.0.0.1:40001为monitor接口:
    qemu-system-x86_64 -enable-kvm -m 4096 -smp 4 -vnc :5 -monitor tcp:127.0.0.1:40001,server,nowait -net nic,model=virtio,macaddr=00:16:3E:51:CC:88 -net bridge,br=br0   bliss.img

    (2)向Monitor发送控制命令。
    如下示例,利用Python socket向monitor发送虚拟机重启命令:
    client = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    client.connect(('127.0.0.1', 40001))
    client.send('system_reset\n')
    client.close()
    这样,我们就能让程序自主完成虚拟机的重启,无需人工介入。
    如附图所示,是通过nc远程连接monitor接口进行的一些列操作。

    PS: 'system_reset'是系统重置命令,更多的命令详见QEMU Monitor Commands文档 >>> https://qemu.weilnetz.de/doc/qemu-doc.html#pcsys_005fmonitor

    除了支持TCP接口作为控制端外,QEMU Monitor还支持“标准输入输出设备”, “UnixSocket”,详见这篇文章:http://t.cn/A6PKRRNa

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-19 19:35:14
    【经验分享】PC通过使用“远程ADB”(ADB over network)时连接设备时出现“unauthorized”,且设备不出现授权对话框问题的解决方法:
    (1)ADB客户端和服务端(安卓设备的adbd服务)之间的权鉴是通过公钥私钥对比进行的;
    (2)如果安卓设备保存有ADB客户端的公钥(Linux:  ~/.android/adbkey.pub, Windows: C:\Users\Administrator\.android\adbkey.pub),则直接通过验证。
    (3)如果安卓设备没有ADB客户端的公钥,则弹出"Allow USB debugging?对话框",如果选择同意,则授权通过并自动保存客户端公钥到指定位置(保存于/data/misc/adb/adb_keys文件内)。
    (4)"Allow USB debugging?对话框"只在通过USB连接设备的时候才会出现,“远程ADB”(ADB over network)模式不会出现,这样就无法像USB连接模式那样进行授权。
    (5)只要我们事先把ADB客户端的公钥文件adbkey.pub复制到设备的/data/misc/adb/adb_keys文件内,重启ADB客户端,重连设备,将会自动通过验证。

    上述步骤笔者在Bliss OS X86 系统下进行过多次实测。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-17 14:05:28
    【经验分享】Bliss OS X86系统如何开启自动开始“远程ADB”(ADB over network)?
    在开发者选项中可以手动开启“ADB over network”,但是重启后会自动关闭(This setting is reset on reboot)。
    解决方法:
    在/etc/init.sh中加入
    setprop service.adb.tcp.port 5555
    stop adbd
    start adbd

    重启后“ADB over network”将会自动启动!

    PS:原生的Android X86系统默认情况下开机“ADB over network”就是开启的,不需要像Bliss OS这样的额外设置。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-15 12:59:26
    【经验分享】Android X86模拟器如何修改屏幕分辨率大小?
    目的:设置屏幕分辨率为 1080x1920
    方法:
    (1) Alt + F1,切换到终端模式;
    (2) su,获取root权限;]
    (3)执行wm size 1080x1920,再按Alt + F7返回图形界面即可;

    如果想要在启动的时候自动设置,可以把上述命令添加到/etc/init.sh中,Bliss OS中亲测有效。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-13 10:59:56
    【经验分享】“KVM(QEMU) + Bliss OS X86 + MockLocation APP"打造支持虚拟定位的Android模拟器,用于APP数据采集小试牛刀: 采集某外卖平台数据。
    MockLocation APP是什么?  详见我这篇文章 >>> http://www.site-digger.com/html/articles/20200110/777.html ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-12 10:50:54
    【经验分享】推荐一款开源Android x86系统Bliss OS (x86),项目主页是https://blissroms-x86.github.io/

    经过实测我觉得Bliss有如下优点:
    (1) 比原生的Android x86(https://www.android-x86.org/)稳定,特别是应用兼容性较好,好多在原生Android x86下闪退的App,在Bliss下都能稳定运行。如图3和4所示,美团APP可以稳定运行,而在原生Android x86下会不停崩溃,无法正常工作。因此Bliss更适合作为安卓模拟器。
    (2) 支持平板模式和桌面UI两种模式,可以在设置里自由切换。这点比Phoenix OS要好,Phoenix OS貌似只有桌面模式,不适合作为安卓模拟器。
    (3) 无内置广告。吐槽一下Phoenix OS,刚开始没有广告,用一段时间就会提示让你购买会员,否则就会出现关不掉的广告。

    Bliss的缺点:
    (1) 启动比较慢,实测约50秒。
    (2) 不要升级内置的SuperSU,我试了多次,一升级重启后就卡在系统Logo界面,无法正常进入系统。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-12 10:05:12
    【经验分享】qemu-system-x86_64使用网桥出现
    failed to parse default acl file `/etc/qemu/bridge.conf`
    qemu-system-x86_64: -net bridge,br=br0: bridge helper failed
    问题(如附图1所示)的解决方法:

    原因是缺少/etc/qemu/bridge.conf文件。

    (1) mkdir /etc/qemu
    (2) echo 'allow br0' > /etc/qemu/bridge.conf

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-10 15:15:48
    【开源分享】发布一款Android X86虚拟定位的App,支持命令行设置经纬度参数,无需UI操作,专为安卓App自动化模拟操作设计。

    用法举例:

    # 切换定位到"秦始皇陵"(34.384225, 109.254423)  
    adb shell am start -n cn.webscraping.qi.mocklocation/cn.webscraping.qi.mocklocation.MainActivity --es lat 34.384225 --es lng 109.254423  

    详细介绍见 >>> http://t.cn/AisHGPoY

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-01-02 15:20:22
    【经验分享】Chrome + Remote Debugging模式(注意:不是Selenium + Chromedriver模式)登录淘宝出现“验证码爆错”(如附图所示)。原因Chrome V79版本在Remote Debugging模式时会爆出navigator.webdriver属性,从而被风控。换用V72或V73版本可以顺利登录!(前一条微博也说得是这个事儿) ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-31 18:03:03
    【经验分享】不经意见发现Chrome v73版本在Remote Debugging模式下(注意:不是Selenium + Chromedriver模式)不会暴露出navigator.webdriver!如附图1所示。

    作为对比,我又测试了其它的版本:
    (1)如图2所示,是Chrome V63版本,在Remote Debugging模式下会暴露出navigator.webdriver;
    (2)如图3所示,是Chrome V79版本,在Remote Debugging模式下也会暴露出navigator.webdriver;

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-31 11:11:58
    【Mark收藏】MurmurHash3.js - A javascript implementation of MurmurHash3's hashing algorithms.    >>>  http://t.cn/z8Yont3

    Usage
    // Return a 32bit hash as a unsigned int:
    > murmurHash3.x86.hash32("I will not buy this record, it is scratched.")
      2832214938

    // Return a 128bit hash as a unsigned hex:
    > murmurHash3.x86.hash128("I will not buy this tobacconist's, it is scratched.")
      "9b5b7ba2ef3f7866889adeaf00f3f98e"
    > murmurHash3.x64.hash128("I will not buy this tobacconist's, it is scratched.")
      "d30654abbd8227e367d73523f0079673"

    // Specify a seed (defaults to 0):
    > murmurHash3.x86.hash32("My hovercraft is full of eels.", 25)
      2520298415

    // Rebind murmurHash3:
    > somethingCompletelyDifferent = murmurHash3.noConflict()
    > murmurHash3
      undefined
    > somethingCompletelyDifferent.version
      "2.1.2"

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-31 09:55:51
    "浏览器指纹"之 "HTML5 Canvas指纹"

    【原理】
    在HTML5中可以使用JS + Canvas标签生成图片,利用"canvas.toDataURL()"可以获取到图片的Base64码。
    同样的JS Canvas绘图代码,在同一个浏览器下生成的图片是相同的(字节码相同)。
    但是由于系统的差别、渲染引擎的不同,同样的JS Canvas绘图代码,在不同的浏览器下得到的图片也是不同的(字节码不同。注意:也有相同的可能,但是概率较小)。
    利用上述原理,同一段JS Canvas绘图代码,返回生成图片的HASH值作为“HTML5 Canvas指纹”。

    【在线测试工具】
    http://t.cn/R3259jj
    如附图1所示,我的谷歌浏览器的“HTML5 Canvas指纹”在49w个相同UA的浏览器中,仅有1456个相同的,唯一性高达99.71%。

    【"HTML5 Canvas指纹算法"示例代码】
    // 计算字符串的hash值
    // 摘自http://t.cn/AiFHoZGI
    function hashstr(s){
    var hash = 0;
    if (s.length == 0) return hash;
    for (i = 0; i < s.length; i++) {
      char = s.charCodeAt(i);
      hash = ((hash<<5)-hash)+char;
      hash = hash & hash; // Convert to 32bit integer
    }
    return hash;
    }

    // 使用canvas绘图,并返回图片的Base64码对应的hash值
    // 摘自http://t.cn/AiFHoZGV
    function getCanvasFp() {
        var result = "";
        // Very simple now, need to make it more complex (geo shapes etc)
        var canvas = document.createElement('canvas');
        canvas.width = 2000;
        canvas.height = 200;
        canvas.style.display = 'inline';
        var ctx = canvas.getContext('2d');
        // detect browser support of canvas winding
        // http://t.cn/R7wzrRy
        // http://t.cn/AiFHoZG5
        ctx.rect(0, 0, 10, 10);
        ctx.rect(2, 2, 6, 6);
        result += 'canvas winding:' + ((ctx.isPointInPath(5, 5, 'evenodd') === false) ? 'yes' : 'no');

        ctx.textBaseline = 'alphabetic';
        ctx.fillStyle = '#f60';
        ctx.fillRect(125, 1, 62, 20);
        ctx.fillStyle = '#
    069';
        // http://t.cn/AiFHoZGx
        ctx.font = '11pt no-real-font-123';

        ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 2, 15);
        ctx.fillStyle = 'rgba(102, 204, 0, 0.2)';
        ctx.font = '18pt Arial';
        ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 4, 45);

        // canvas blending
        // http://t.cn/AiFHoZGt
        // http://t.cn/AiFHoZGM
        ctx.globalCompositeOperation = 'multiply';
        ctx.fillStyle = 'rgb(255,0,255)';
        ctx.beginPath();
        ctx.arc(50, 50, 50, 0, Math.PI * 2, true);
        ctx.closePath();
        ctx.fill();
        ctx.fillStyle = 'rgb(0,255,255)';
        ctx.beginPath();
        ctx.arc(100, 50, 50, 0, Math.PI * 2, true);
        ctx.closePath();
        ctx.fill();
        ctx.fillStyle = 'rgb(255,255,0)';
        ctx.beginPath();
        ctx.arc(75, 100, 50, 0, Math.PI * 2, true);
        ctx.closePath();
        ctx.fill();
        ctx.fillStyle = 'rgb(255,0,255)';
        // canvas winding
        // http://t.cn/R7wzrRy
        // http://t.cn/AiFHoZGf
        ctx.arc(75, 75, 75, 0, Math.PI * 2, true);
        ctx.arc(75, 75, 25, 0, Math.PI * 2, true);
        ctx.fill('evenodd');

        if (canvas.toDataURL) {
            result += ';canvas fp:' + canvas.toDataURL();
        }
        return hashstr(result);
      }

    在同一个机器上不同的Chrome和Firefox窗口测试上述代码,结果如附图2所示:
    (1)Chrome窗口1、Chrome窗口2内getCanvasFp()返回的值相同;
    (2)Firefox窗口getCanvasFp()返回的值不同;

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-17 11:13:52
    Tmall APP searching result data scraping screenshots. ​​​​

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-12 12:46:58
    【经验分享】Android-x86 4.4和5.1版本安装的时候卡在GRUB安装,问题解决方法:
    The  fix is that you should manually create partitions: create a small (100m) first primary partition for grub, and a 2nd extended partition for the rest, and install android on the 2nd, the grub will go automatically to the 1st...
    >>> http://t.cn/AiDw9VwW  http://t.cn/AiDw9VwC

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2019-12-06 12:35:57
    【经验分享】昨天发的Android x86模拟器设置静态IP的方法,今天在另外一个环境下测试发现有问题。原来是静态IP被DHCP给覆盖掉了,DHCP执行得比/etc/init.sh要晚。查了半天也没找到禁用默认HDCP的方法,最后试着将/system/bin/dhcpcd和/system/bin/dhcptool两个文件重命名,重启,问题竟然解决了 ​​​​

    阅读全文 + 去微博评论 +