更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】playwright/selenium绕过反自动化/爬虫检测最新方案
    原理:是通过在页面加载之前注入js脚本,抹去navigator.webdriver等浏览器自动化特征。
    使用的这个js脚本(stealth.min.js)来源于Github上的puppeteer-extra-plugin-stealth项目(A plugin for puppeteer-extra and playwright-extra to prevent detection.)。

    playwright的示例:
    context.add_init_script(path='stealth.min.js')
    page = context.new_page()
    page.goto("https://bot.sannysoft.com/")

    selenium的示例:
    driver = webdriver.Chrome()
    with open('stealth.min.js', 'r') as f:
    js = f.read()
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': js})

    效果检验:
    1. 第一个检验标准,是看是否还会爆出navigator.webdriver等特征,可以直接在控制台查看,也可以通过访问https://bot.sannysoft.com/来查看。例如附图1是未做绕过处理时的截图。
    2. 第二个检验标准,是尝试登录淘宝,看能否成功。如果未做绕过处理,会出现滑块验证码,而且是无法正常处理的那种,无法登录成功。如附图2所示。

    经过测试,上述两项检验标准均通过:即没有爆出navigator.webdriver等特征,也可以成功登录淘宝,不出现滑块验证码。

    另附stealth.min.js的下载地址:
    http://www.site-digger.com/uploads/stealth.min.js
    发布时间:2022-08-10 11:05:15
  • 【经验分享】miller以XTAB格式查看字段内容较多或者字段较多的CSV文件
    示例:mlr --icsv --oxtab --from mouser_products_202208.csv head -n 3
    官方文档:https://miller.readthedocs.io/en/latest/file-formats/#xtab-vertical-tabular

    效果如附图所示。 ​​​
    发布时间:2022-08-10 10:26:30
  • 【分享】"CZ88纯真IP库20220420版" - MySQL版(52万条)免费下载

    数据说明:
    基于”QQ纯真IP库20220420版”转换的MySQL版本,共计529,985条。添加的数字格式的IP段起始和终止字段,可以通过该数据快速查询出某IP的归属国家、位置信息。

    字段说明:
    `ip_start_num` – 起始IP,数字类型(根据ip_start转换)
    `ip_end_num` – 终止IP,数字类型(根据ip_end转换)
    `ip_start` – 起始IP,字符串类型
    `ip_end` – 终止IP,字符串类型
    `country` – 所属国家
    `location` – 所在位置

    用法举例:
    (1)先将待查询IP转为数字类型。例如:
    ip_num = struct.unpack(‘!I’, socket.inet_aton(ip))[0]
    (2)查询”ip_start_num <= ip_num and ip_end_num >= ip_num”的记录,例如SQL语句:
    sql = ‘SELECT country FROM ips WHERE ip_start_num <= %s AND ip_end_num >= %s;’.format(ip_num, ip_num)

    示例数据:
    http://db.site-digger.com/csv/637a38385f6970735f32303232303432305f73616d706c65/

    下载链接:
    http://www.data-shop.net/2014/08/cz88-free-ips-database-20220420-mysql-version-52w/

    应用举例:
    如附图2所示,是使用该数据实现的IP地址归属地查询API。
    发布时间:2022-08-02 12:34:26
  • 【经验分享】一例Squid http认证异常问题的排查
    背景:
    (1)Squid配置的HTTP代理。使用external_acl_type自定义acl脚本进行ip和用户名密码认证,acl通过的放行,否则deny。
    (2)Playwright设置带用户名密码认证的http代理(上述Squid)代理。

    问题:
    curl命令或者requests库测试均工作正常,但是Playwright始终报 NS_ERROR_PROXY_FORBIDDEN错误。

    排查:
    用curl -v命令测试用户名密码不对或者为空情况下squid的返回,如下图所示,返回的是403状态码。意识到问题的所在了,对于浏览器来说,只有当服务端返回407状态码时,才会启用HTTP Proxy Basic Auth认证。此时返回403直接中断了后续认证流程。

    解决:
    自定义的external_acl_type之后,在http_access deny all之前,加入acl auth_user,让其在external_acl_type的ACL匹配失败的情况下能够返回407状态码。

    延伸:
    如何让“浏览器一开始就带上Proxy-Authorization头,这样就能直接通过认证,减少一次407的返回,提高效率。就像request库一样”? 经过测试发现使用一些代理插件,例如SwitchyOmega,可以实现。
    发布时间:2022-06-23 10:58:25
  • 【经验分享】利用HAProxy Runtime API的"set server"命令可以动态修改Haproxy的Backend server。
    例如 将Backend "backendout"的 Server "server1"的地址修改为115.209.110.181,端口修改为32603,执行如下命令即可。
    echo "set server backendout/server1 addr 115.209.110.181 port 32603" | socat stdio tcp4-connect:127.0.0.1:9999

    有两个前提:
    (1)HAproxy 2.0以后的版本才支持 Runtime API。
    (2)在配置文件里要开始 Runtime API的端口。如下配置示例,在9999端口开启Runtime API。
    global
    stats socket ipv4@127.0.0.1:9999 level admin

    详细用法可以参见官方博客里的示例,链接为https://www.haproxy.com/blog/dynamic-configuration-haproxy-runtime-api/
    发布时间:2022-05-22 16:22:21
  • 【经验分享】linux下如何检测某个网口下有ADSL拨号设备信号?
    用途:检测拨号设备是否工作正常,或者网口与拨号设备的连接是否正常。
    方法:可以使用"pppoe-discovery -I eth1"命令,eth1修改为具体要检测的网口。如果对应网口和拨号设备连接正常,将会返回BAS的名称和IP。
    文档连接:https://www.systutorials.com/docs/linux/man/8-pppoe-discovery/

    如附图所示,为分别在连云港联通、南京电信、南昌电信拨号环境下做的测试。
    发布时间:2022-05-10 19:10:47
  • 【经验分享】如何查看客户通过web隧道访问了什么网站?
    Web隧道内传输的数据通常是经过ssl加密的,如何通过抓包查看客户访问了什么网站呢?我们知道Web隧道的建立离不开HTTP的CONNECT方法,因为只要我们过滤CONNECT关键词就能拿到客户连接的目标网址。
    例如,我们通过ngrep进行包过滤,锁定Web隧道服务的端口(本例为65002)
    sudo ngrep -d ens3 -W byline -N -t -q CONNECT port 65002
    PS:ens3 是网口。结果如附图所示。
    发布时间:2022-05-10 16:58:59
  • 【经验分享】如何计算阿里系Ajax请求中的sign签名?
    有过阿里系采集经验的开发者都应该知道,某宝(天猫)H5版、1688、某宝司法拍卖H5版等阿里系网站,在Ajax请求中都会有一个sign签名参数(如下图1、2、3所示),要是值不正确将无法获取到有效的数据(例如返回“非法请求”提示)。如果我们无法构造出有效的sign,就只能通过“模拟浏览器操作”的方式来绕过签名验证,再结合"mitmproxy动态抓包脚本"来提取返回数据,这种方案效率太低,而且很不灵活。本文将介绍如何计算这个sign值以及给出对应的Python实现,这样就能实现通过直接HTTP交互抓取数据。点击链接查看详情>>> http://www.site-digger.com/html/articles/20211018/851.html

    •  
    发布时间:2021-10-18 14:59:23
  • 【经验分享】接上一篇:Android APP内置WebView如何获取当前加载的URL(方法二)?
    这次是直接HOOK android.webkit.WebView类的loadUrl()方法,可以直接得到加载的URL。同时也可以再loadUrl()内调用setWebContentsDebuggingEnabled(true)开启远程调试。效果如附图所示,这是某宝APP内嵌的H5页面,成功获取到了URL并且在inspect中能看到对应的WebView窗口(开启该WebView的远程调试成功)。

    // 查看WebView加载的URLs并启动远程调试
    Java.use("android.webkit.WebView").loadUrl.overload("java.lang.String").implementation = function (s) {
    console.log('WebView.loadUrl():' + s);
    console.log('Set webview DebuggingEnabled!');
    this.setWebContentsDebuggingEnabled(true);
    this.loadUrl.overload("java.lang.String").call(this, s);
    };
    发布时间:2022-05-06 13:31:47
  • 【经验分享】Android APP内置WebView如何获取当前加载的URL?
    (1)使用Firida强制其开启WebView的远程调试,以某司法拍卖APP为例,执行如下代码后。
    Java.perform(function() {
    var WebView = Java.use("com.uc.webview.export.WebView");
    WebView.setWebContentsDebuggingEnabled(true);
    }
    );
    (2)通过adb forward命令把WebView的Unix域套接字映射为本地端口,详细步骤可参见我们的这篇文章http://www.site-digger.com/html/articles/20220414/860.html
    (3)通过WebView的远程调试接口即可看到当前Tab的JSON数据,如附图所示,其中就有URL信息。
    发布时间:2022-05-06 13:04:25
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2020-06-23 10:37:14
    【经验分享】接上篇。发现一款名为ADB Manager的APP能够实现开机自动启动“ADB网络调试”,不需要像上篇那么复杂了。

    ADB Manager (adbm)的项目主页:https://github.com/ilijamt/android-adbm,上面附有apk文件的下载地址。注意:使用该APP的前提是你的设备先要ROOT。

    安装后点击“扳手”图标进入设置,勾选“Start on boot”(开机自启动),“ADB Auto Start”(自动启动"ADB远程调试",这个必须要勾选上,否则没有都得手动点击“Start Network ADB”按钮才会启动),在“WiFi Autostart List”中选择在哪些热点名称下才自启动"ADB远程调试"。

    另外,它还有个“Keep screen on”(保持屏幕常量)的功能也非常实用。

    安卓7.1下实测,经过上述设置后,开机在通知栏可以看到提示“ADBservice is running”,说明"ADB远程调试"已经启动起来了如图1所示。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-06-20 16:46:38
    【经验分享】如何让安卓设备(非模拟器)开机自动开启“网络ADB调试”(或叫做ADB over network/ADB over WIFI)?

    前面曾介绍过对于Bliss OS X86系统,可以通过修改/etc/init.sh文件,加入如下命令实现:
    setprop service.adb.tcp.port 5555
    stop adbd
    start adbd
    原理是adbd服务在启动的时候会先检查系统是否设置了service.adb.tcp.port属性,如果设置了就开启“网络ADB调试”。详见这篇文章:http://ytydyd.blog.sohu.com/146260552.html

    但对于真机设备的ROM,如何实现在开机的时候执行上述命令呢?

    以下方法均无效。
    (1)没有类似Bliss OS的/etc/init.sh文件。
    (2)stackoverflow上有人说可以通过在/etc/init.d/目录添加可执行脚本,试了也无效。
    (3)也有人说可以通过添加/data/local/userinit.sh脚本来实现(详见https://android.stackexchange.com/questions/6558/how-can-i-run-a-script-on-boot),试了也无效。

    最后在XDA论坛上看到一个叫做“Boot Shell”的App解决了问题。它能实现在设备系统启动之后执行事先添加好的命令或指定的脚本。
    (1)“Boot Shell”的详细介绍和下载地址见http://t.cn/A6LoSJdb,确保你的设备已经ROOT,否则无法使用。
    (2)安装后启动软件,点击左侧菜单“Add command”,输入一个名称,然后在Command栏填入要执行的命令:“setprop service.adb.tcp.port 5555;stop adbd;start adbd”。如图1所示。
    (3)重启设备,Boot Shell首次自启动,会提示ROOT授权,允许即可。
    试下"adb connect 手机ip:5555",不出意外的话就能直接连接了。
    需要注意的是,开发者选项里“网络ADB调试”此时状态可能依旧是未开启(如图2所示),但实际上我们已经通过后台命令启动了。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-06-20 15:15:37
    【经验分享】Ubuntu 下 Squid 基于 MySQL的用户认证配置步骤

    进行如下操作之前,确保已经正确安装和配置好了Squid和MySQL。
    (1)安装Perl的MySQL操作库libdbd-mysql-perl,后面Squid的认证脚本basic_db_auth中将会用到。
    sudo apt-get install libdbd-mysql-perl

    (2)在MySQL中创建Squid用户认证表,例如:
    CREATE TABLE `passwd` (
      `user` varchar(32) NOT NULL default '',
      `password` varchar(35) NOT NULL default '',
      `enabled` tinyint(1) NOT NULL default '1',
      `fullname` varchar(60) default NULL,
      `comment` varchar(60) default NULL,
      PRIMARY KEY  (`user`)
    );
    说明:Squid的代理认证协议是HTTP Basic Proxy Authentication。
      这里的`user` 为代理认证使用的用户名,  `password`为对应的密码, `enabled` 为1的账户才会被认为可用。

    (3)编辑/etc/squid/squid.conf,在http_access deny all之前加入:
    auth_param basic program /usr/lib/squid/basic_db_auth --dsn "DBI:mysql:host=MYSQL数据库IP;port=3306;database=MYSQL数据库名" --table passwd  --user MYSQL用户名 --password MYSQL密码 --plaintext --persist
    # 设置用户名和密码的缓存时间,减少数据库查询
    auth_param basic credentialsttl 2 hours

    保存并重启Squid。

    (4)配置完毕。通过对passwd表的增改删操作,就能实现对Squid代理用户的权限控制。

    参考:https://wiki.squid-cache.org/ConfigExamples/Authenticate/Mysql

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-06-18 09:45:05
    【经验分享】接上篇“毒(得物)APP数据采集”。上篇提到了这个APP对HTTP请求做了"手脚"无法直接抓到包。这里分析一下,它到底做的什么"手脚",以及怎么绕过。

    1. 在com.shizhuang.duapp.common.helper.net.RestClient类中可要找到如下代码:
    writeTimeout.proxy(Proxy.NO_PROXY);(详见图1)
    这里 writeTimeout是一个OkHttpClient实例,OkHttpClient.proxy(Proxy.NO_PROXY),意思就是不使用(绕过)系统代理。
    绕过这个的方法有两个:
    (1) 让DuConfig.f277505a的值为true,这样就能避免执行“writeTimeout.proxy(Proxy.NO_PROXY);”,从而使用系统代理。
    而DuConfig.f277505a = applicationInfo.metaData.getBoolean("debug");(详见图2)
    因此我们可以通过Hook Bundle.getBoolean()让其返回true,另外一个思路是HookOkHttpClient.proxy,让其失效。
    (2)使用Proxifier让安卓模拟器进程的流量(例如夜神的NoxVMHandle.exe)强制转发给Fiddler。这种方法比较通用。

    2. 另外APP里还加了证书固定机制,通过代理后会报网络异常。
    通过如下代码可以绕过:
    var OkHostnameVerifier = Java.use('okhttp3.internal.tls.OkHostnameVerifier');
            OkHostnameVerifier.verify.overload('java.lang.String', 'java.security.cert.X509Certificate').implementation = function(arg1, arg2){
               console.log("OkHostnameVerifier.verify('java.lang.String', 'java.security.cert.X509Certificate') called.");
               console.log(arg1);
               console.log(arg2);
               return true;    
            }
            
            OkHostnameVerifier.verify.overload('java.lang.String', 'javax.net.ssl.SSLSession').implementation = function(arg1, arg2){
                console.log("OkHostnameVerifier.verify('java.lang.String', 'javax.net.ssl.SSLSession') called.");
                console.log(arg1);
                console.log(arg2);
                return true;    
             }
             
             var CertificatePinner = Java.use('okhttp3.CertificatePinner');
             CertificatePinner.check.overload('java.lang.String', 'java.util.List').implementation = function (arg1, arg2) {
                 console.log('CertificatePinner.check() called. ');
                 console.log(arg1);
                 console.log(arg2);
             }
        
        var OpenSSLSocketImpl = Java.use('com.android.org.conscrypt.OpenSSLSocketImpl');
             OpenSSLSocketImpl.verifyCertificateChain.implementation = function (arg1, arg2) {
                 console.log('OpenSSLSocketImpl.verifyCertificateChain() called.');
                 console.log(arg1);
                 console.log(arg2);
            }
    PS:上述代码和之前我们发的“58同城APP证书固定机制绕过(ssl unpinning)方法”中的一样。

    经过上述两步之后,就能顺利抓到HTTP(s)流量,如图3所示。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-06-14 19:04:23
    【经验分享】毒(得物)APP签名算法解决

    (1)HTTP请求做了"手脚"无法直接抓到包。
    (2)分析代码后发现可以通过HOOK "com.shizhuang.duapp.common.helper.net.interceptor.HttpRequestInterceptor.intercept()"调用或者"okhttp3.internal.http.RealInterceptorChain.proceed()"调用拿到HTTP请求和应答数据(如图1所示)。
    (3)分析发现不关是GET请求,还是POST请求,都有一个签名参数newSign。签名算法位于com.shizhuang.duapp.common.utils.RequestUtils中,签名算法原理是对QueryString或Request Body中的参数以及一些特定的Headers排序后进行加密(具体加密算法是在native层实现的,位于libJNIEncrypt.so中),然后对加密结果进行MD5计算(如图2)。
    (4)分析出来原理后,思路就清晰了:自己构造HTTP请求,通过HOOK + RPC形式直接调用RequestUtils中的签名算法,产生有效的签名值,这样就能直接拿到接口返回的数据。如图3、4所示为最终采集到的数据。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-06-04 10:20:59
    【经验分享】58同城APP证书固定机制绕过(ssl unpinning)方法

    1. 直接抓包,APP提示网络错误(图1),logcat显示有okhtt3 connectTls相关函数异常(图2)。

    2.反编译APK,根据异常提示定位到证书锁定相关代码。

    3. 使用Frida Hook绕过相关证书验证代码。具体frida脚本如下:

    Java.perform(function() {
        
        console.log("##### com.wuba SSL UNPINNING #####");
        var OkHostnameVerifier = Java.use('okhttp3.internal.tls.OkHostnameVerifier');
        OkHostnameVerifier.verify.overload('java.lang.String', 'java.security.cert.X509Certificate').implementation = function(arg1, arg2){
           console.log("OkHostnameVerifier.verify('java.lang.String', 'java.security.cert.X509Certificate') called.");
           console.log(arg1);
           console.log(arg2);
           return true;    
        }
        
        OkHostnameVerifier.verify.overload('java.lang.String', 'javax.net.ssl.SSLSession').implementation = function(arg1, arg2){
            console.log("OkHostnameVerifier.verify('java.lang.String', 'javax.net.ssl.SSLSession') called.");
            console.log(arg1);
            console.log(arg2);
            return true;    
         }
         
         var CertificatePinner = Java.use('okhttp3.CertificatePinner');
         CertificatePinner.check.overload('java.lang.String', 'java.util.List').implementation = function (arg1, arg2) {
             console.log('CertificatePinner.check() called. ');
             console.log(arg1);
             console.log(arg2);
         }

    var OpenSSLSocketImpl = Java.use('com.android.org.conscrypt.OpenSSLSocketImpl');
         OpenSSLSocketImpl.verifyCertificateChain.implementation = function (arg1, arg2) {
             console.log('OpenSSLSocketImpl.verifyCertificateChain() called.');
             console.log(arg1);
             console.log(arg2);
        }
    }};
    '''
    4. 成功抓到相关HTTPS数据包(图3)。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-05-26 17:33:42
    【经验分享】VMware Workstation开机免登录自启动设置方法
    近日某拨号服务器出现故障,不定期会自动重启。每次重启之后都要手动去启动VMware虚拟机,非常麻烦。如何实现开机自启动指定的VMware虚拟机呢?

    (1)通过"vmrun.exe start 虚拟机vmx文件路径"命令可以启动指定的虚拟机。
    如果有多个虚拟机可以创建一个如下批处理:
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-1\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-2\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-3\Ubuntu 64 位.vmx"
    ...

    (2)将上述批处理文件添加到开机启动计划任务里。
    * 触发器,新建触发器,开启任务选择“启动时"。
    * 常规选项卡,安全选项选择“不管用户是否登录都要运行”。这一步很重要。

    为什么不直接放到“启动文件夹”中,而要使用计划任务呢?
    因为放到启动文件夹中必须要用户登录之后才能被执行。这样就达不到免登录自启动的效果了。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-05-11 09:38:32
    【经验分享】Pandas日期范围查询
    目的:查询CSV中某列值大于某个日期的记录。

    (1)使用Pandas的to_datetime()方法,将列类型从object转为datetime64。
    df[u'合同签订日期'] = pd.to_datetime(df[u'合同签订日期'], format=u'%Y年%m月%d日')
    注意要设置format参数,指定原始数据的时间日期格式。转换完成后可以查看dtypes属性确认,如附图1所示。参考:https://stackoverflow.com/questions/36848514/how-to-define-format-when-use-pandas-to-datetime
    (2)查询日期大于2018年1月1日的记录。
    df[df[u'合同签订日期'] >= pd.Timestamp(2018, 1, 1)]
    结果如附图2所示,参考:https://stackoverflow.com/questions/36104500/pandas-filtering-and-comparing-dates

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-05-08 21:05:47
    【经验分享】Python的hash()函数产生hash碰撞的概率有这么高吗?

    昨天同事"随手"给我发了两组他在项目中遇到的例子,很是受"惊吓",HashDict用了快10年了,竟然没注意到这个Bug。

    Python 2.7.8.10 on Windows 64

    例一:
    hash(u'赤峰_1513781081_http://t.cn/A6Al6TDu)
    901186270
    hash(u'北京_1010215433_http://t.cn/A6Al6TDn)
    901186270

    例二:
    hash('B033900G0Z')
    80468932
    hash('B021307H9T')
    80468932

    注意: Linux 64 下测试上述两组值并不相同,另外Linux下hash()产生的hash串长度要比Windows下长很多,产生hash碰撞的概率应该也会小很多。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-04-15 10:53:11
    【经验分享】"土地市场网-土地供应-出让公告"网页字体混淆反采集的解决

    (1)如附图1所示,下载的页面中有很多字符是乱码。左边是经过浏览器正确渲染的结果,右边是下载到的有乱码的数据。
    (2)经过分析发现,网站使用了自定义的字体文件:把常用的391个汉字做成了特殊字体,使用了自定义的unicode码。如附图2所示。这种字体混淆的反采集策略现在很常见了,之前曾在猫眼电影、汽车之家、58等网站都见到过。
    (3)经过深入分析发现,网站总共使用了10个自定义的字体文件(如图3所示),每个文件内的字符是一样的(都是那391个字符),但是相同的unicode码对应的字符是不一样的。如附图4所示,uni3075在3个字体文件中对应的字符分别是“悬”、“亲”和“田”。
    (4)突破这种策略的思路很简单,就是建立一个“unicode码->字符"的映射表,然后将HTML中的这些乱码(unicode码)替换成明文即可。但是本例中有10 * 391 = 3910个字符,工作量太大了。
    (5)于是想到一个“偷懒”的方法:由于每个文件内都是那391个字符,我只手动建立一个映射表,其余的通过图片匹配自动建立。
    我把这个脚本放到了gist上“将字体文件内各字体导出图片存储,并建立一个Excel索引”(http://t.cn/A6wxdZxl)。
    如附图5所示,是上述脚本输出的每个字符对应的图片。
    如附图6所示,这个Excel文件也是上述脚本生成的,然后人工填入每个图片对应的明文字符,这样就建立好了一个字体文件的字符映射表。把这个表当做特征库表。
    (6)将其他9个字体文件中的图片也使用上述脚本导出,然后挨个和特征库对比(这里我直接通过像素值二维数组进行对比,将一致率最高的视为匹配),建立匹配关系,如图7所示。
    最终生成其它10张字符映射表,如附图8所示。
    (7)有了这10张完备的字体映射表,还原明文就so easy了,最终还原后的提取结果如附图9所示。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-04-07 11:49:57
    【经验分享】我查查APP防护机制分析

    1. 最明显的是URL加密了,如附图1所示。
    反编译后分析源码可知,URL加密过程如附图2所示。
    主要通过WccBarcode.getInstance().enReq(bytes, bytes.length)实现。

    2.  enReq()是一个native方法,具体实现在libgcbarcode_k.so中,如附图3所示。
    例如,原始URL:
    /ggstudy/price?city_id=1&pkid=46893149&token=eff213b02959eae34935f83ff1216a27&mac=6C%3A62%3A6D%3A27%3A4E%3A42&his=1586159685.1586183377&newudid=73288dee8365b5a2e088c6d91c4c95ad&ptoken=a94e255b4c4d444a9c66a324160bb63b&noscan=1&connectnet=wifi&lng=105.56721418292932&os=Android&v=9.3.0&originprice=4&device_model=HUAWEI+MLA-AL10&device_brand=HUAWEI&udid=863064017108624&lat=33.99952368518388
    经过加密后变成:
    /zzE06D4C3D909AE1E6261070A7B491241430713222ECA16B97C2005E0CB490484AB8713F03F811CB0A04522B2BAC2126961E31190DA820061096034A0BDC410713BC623924CC90A3C69A01182D1890......

    3. 上面有一个ptoken要特别注意,这其实是一个签名参数,具体的实现过程在com.wochacha.datacenter.es.d()方法中,如附图4所示。
    思路是先将querystring的key按从大到小排序,然后拼接成一个串,计算MD5后,再前后拼接上一个常量串(加盐),再次计算MD5。

    4. 另外,根据输入条码查询商品时,输入的barcode也被做了特殊处理。如图5所示。这里也调用了libgcbarcode_k.so中的native方法,conv()。

    了解上述过程后,我们就能自己过程出有效的HTTP请求,拿到数据。对于so中的算法,直接还原有难度,可以通过Frida RPC间接调用。最终效果如附图6所示。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-03-30 15:49:15
    【经验分享】终于搞定了百度指数PC版(2020最新版)加密算法,不用再模拟浏览器采集了

    之前一直是使用"phantomjs + js脚本"模拟操作,从UI上获取百度指数值。
    今天有客户让评估新的需求,之前模拟浏览器的方式不太适合了,决定试着分析下它的解密算法。
    运气不错,没花多大功夫搞定了,以后可以直接通过HTTP交互采集了。

    简单介绍下步骤:
    1. 通过/api/SearchApi/index接口获取到密文数据,以及uniqid参数。如附图1所示。
    2. 通过/Interface/ptbk接口获取解密用的密码,这里要用的上一步返回的uniqid参数。如附图2所示。
    3. 调用解密算法decrypt(password, data),根据2中获取到的password,和1中获取到的密文data,成功解出明文,如附图3所示。
    解密算法这里就不公布了,感兴趣的可以在js里找一找。

    解出的明文和浏览器显示的结果对比一下,如附图4所示,吻合。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-03-29 16:29:58
    【经验分享】记录使用"静态分析+动态插桩"还原“永辉超市某版本APP的HTTP签名算法”过程

    背景:永辉超市某版本APP的HTTP请求使用了签名参数保护机制,下面是分析该签名算法的过程:

    1. Jadx反编译APK,通过Java代码可以定位到加密函数位于cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity类的signParamsNative()方法。如附图1所示。

    2. signParamsNative()是一个native方法,实现过程在libYHJni.so中。根据经验,直接还原算法可能有难度。通过Frida对HttpSecurity.signParams()动态插桩,插装代码如下:
    Java.perform(function() {
        var HttpSecurity = Java.use('cn.yonghui.hyd.lib.utils.http.httpmiddware.HttpSecurity');
        HttpSecurity.signParams.implementation = function(arg1){
            var md5 = this.signParams(arg1);
            console.log("#####  In HttpSecurity.signParams():  #####");
            console.log('Input param:');
            console.log(arg1)
            console.log('Sign result:');
            console.log(md5);
            console.log("#
    ##########################################");
            return md5;
        }
    }
    成功拦截到某次函数调用,输出如下:
    #
    ####  In HttpSecurity.signParams():  #####
    Input param:
    channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10
    Sign result:
    baec2be68929009758ed7de29c331fdf
    #
    ##########################################

    3. 如上输出。“channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10”参数串,经过某个算法之后得到一个的结果是一个32位的串"baec2be68929009758ed7de29c331fdf"。试了一下直接md5,结果不对。猜测可能是加salt了。

    4. 用IDA静态分析libYHJni.so,很容易找到Java_cn_yonghui_hyd_lib_utils_http_httpmiddware_HttpSecurity_signParamsNative()的实现,按F5将汇编代码转换为C语言语法。如附图2所示。从代码可以看出,计算输入串MD5值之前,先在前面加上了"YONGHUI601933",也就是md5("YONGHUI601933" + 输入串)。

    5. 知道算法了,我们来验证一下:
    >>>import hashlib
    >>>param = 'channelofficialdeviceidc7f00557-f9e8-4c59-8207-1da0909e9130distinctId66c626d274e42556isfirstopen0lat39.008006lng103.572384platformAndroidtimestamp1585469368166v5.28.0.10'
    >>>hashlib.md5('YONGHUI601933' + param).hexdigest()
    'baec2be68929009758ed7de29c331fdf'
    结果吻合。

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-03-27 23:09:52
    【经验分享】
    背景:
    ESXi搭建的Ubuntu16.04虚拟机,添加了5块虚拟网卡,不同的网口桥接的不同的Bas。

    问题是:
    每次启动后某些网卡的名称(eth号)是随机变化的。
    如图1和图2所示,同一块网卡"00:0c:29:b0:17:21",在第一张图中被命名为eth4,但重启后在第二张图中却被命名为eth3。
    而拨号系统内不同的ADSL账号绑定着固定的网卡名称,如果eth号老是跳,就会拨到错误的Bas里,导致拨号失败。

    解决方法:
    给特定的MAC地址设置固定的网卡名称。

    编辑/etc/udev/rules.d/70-persistent-net.rules文件:

    加入:
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:2b", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:35", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:3f", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:17", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"
    SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:b0:17:21", ATTR{type}=="1", KERNEL=="eth*", NAME="eth4"

    注意:Ubuntu 16.04默认不存在该配置文件,需要先创建。

    参考:https://serverfault.com/questions/610967/network-adapter-to-eth-number-mapping-for-vmware/611040

    阅读全文 + 去微博评论 +

  • 西安鲲之鹏

    发布时间:2020-03-18 18:48:46
    【经验分享】Nox(夜神模拟器)+ Android 4.4.2版本今天出现了一个很奇怪的问题,xposed-installer-2.6版本突然无法安装了(3月18日之前没有问题),提示信息如附图1所示(Xposed目前不兼容Android SDK版本19或者您的处理器架构)。更奇怪的是,我在其它6台机器上测试都是如此,绝不是个例。

    1. 首先想到的是,它偷偷更新了。于是尝试卸载重装Nox,但是问题依旧。看了下Nox安装目录下的文件和日志,也没见有更新的迹象。
    2. 会不会是在启动的时候通过网络动态加载了什么策略呢?于是尝试断掉网络,重建Nox 虚拟机,xposed-installer-2.6安装成功,在多台机器上做同样尝试,问题均解决。看来就是夜神模拟器做了手脚了。

    "断网"不是长久之计,于是决定深入分析下,用wireshark抓包,主要看DNS请求,发现Nox在启动的时候访问了如下的域名:

    api.bignox.com
    bi.yeshen.com
    app.yeshen.com
    launcher.yeshen.com
    res06.bignox.com
    res11.bignox.com
    res.yeshen.com.qingcdn.com
    res.yeshen.com
    pubstatus.sinaapp.com
    noxagile.bceapp.com
    dl.xposed.info

    PS:看来小动作可真不少啊。

    尝试使用dnsmasq劫持这些域名,返回127.0.0.1,果然有效。
    附dnsmasq address.conf文件内容(如下),直接使用泛域名干掉所有的子域名,防止过滤的不够彻底:
    address=/bignox.com/127.0.0.1
    address=/yeshen.com/127.0.0.1
    address=/qingcdn.com/127.0.0.1
    address=/duapp.com/127.0.0.1
    address=/sinaapp.com/127.0.0.1
    address=/bceapp.com/127.0.0.1
    address=/xposed.info/127.0.0.1
    address=/duba.net/127.0.0.1
    address=/bsgslb.cn/127.0.0.1
    address=/applinzi.com/127.0.0.1
    address=/bceapp.com/127.0.0.1
    PS:为什么不直接修改hosts文件呢?一方面是机器比较多,一一设置比较麻烦,直接通过dhcp分配自定义的dns更方便。另一方面一些防护软件可能会保护hosts,设置了不一定有效。

    今天时间都耗在这上面,问题总算解决了。
    不好做什么评论,毕竟人家产品是免费让你用的,而且做的真心不错,再说别人坏话就不地道了。

    阅读全文 + 去微博评论 +