更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】如何让安卓设备(非模拟器)开机自动开启“网络ADB调试”(或叫做ADB over network/ADB over WIFI)?

    前面曾介绍过对于Bliss OS X86系统,可以通过修改/etc/init.sh文件,加入如下命令实现:
    setprop service.adb.tcp.port 5555
    stop adbd
    start adbd
    原理是adbd服务在启动的时候会先检查系统是否设置了service.adb.tcp.port属性,如果设置了就开启“网络ADB调试”。详见这篇文章:http://ytydyd.blog.sohu.com/146260552.html

    但对于真机设备的ROM,如何实现在开机的时候执行上述命令呢?

    以下方法均无效。
    (1)没有类似Bliss OS的/etc/init.sh文件。
    (2)stackoverflow上有人说可以通过在/etc/init.d/目录添加可执行脚本,试了也无效。
    (3)也有人说可以通过添加/data/local/userinit.sh脚本来实现(详见https://android.stackexchange.com/questions/6558/how-can-i-run-a-script-on-boot),试了也无效。

    最后在XDA论坛上看到一个叫做“Boot Shell”的App解决了问题。它能实现在设备系统启动之后执行事先添加好的命令或指定的脚本。
    (1)“Boot Shell”的详细介绍和下载地址见http://t.cn/A6LoSJdb,确保你的设备已经ROOT,否则无法使用。
    (2)安装后启动软件,点击左侧菜单“Add command”,输入一个名称,然后在Command栏填入要执行的命令:“setprop service.adb.tcp.port 5555;stop adbd;start adbd”。如图1所示。
    (3)重启设备,Boot Shell首次自启动,会提示ROOT授权,允许即可。
    试下"adb connect 手机ip:5555",不出意外的话就能直接连接了。
    需要注意的是,开发者选项里“网络ADB调试”此时状态可能依旧是未开启(如图2所示),但实际上我们已经通过后台命令启动了。
    发布时间:2020-06-20 16:46:38
  • 【经验分享】Ubuntu 下 Squid 基于 MySQL的用户认证配置步骤

    进行如下操作之前,确保已经正确安装和配置好了Squid和MySQL。
    (1)安装Perl的MySQL操作库libdbd-mysql-perl,后面Squid的认证脚本basic_db_auth中将会用到。
    sudo apt-get install libdbd-mysql-perl

    (2)在MySQL中创建Squid用户认证表,例如:
    CREATE TABLE `passwd` (
      `user` varchar(32) NOT NULL default '',
      `password` varchar(35) NOT NULL default '',
      `enabled` tinyint(1) NOT NULL default '1',
      `fullname` varchar(60) default NULL,
      `comment` varchar(60) default NULL,
      PRIMARY KEY  (`user`)
    );
    说明:Squid的代理认证协议是HTTP Basic Proxy Authentication。
      这里的`user` 为代理认证使用的用户名,  `password`为对应的密码, `enabled` 为1的账户才会被认为可用。

    (3)编辑/etc/squid/squid.conf,在http_access deny all之前加入:
    auth_param basic program /usr/lib/squid/basic_db_auth --dsn "DBI:mysql:host=MYSQL数据库IP;port=3306;database=MYSQL数据库名" --table passwd  --user MYSQL用户名 --password MYSQL密码 --plaintext --persist
    # 设置用户名和密码的缓存时间,减少数据库查询
    auth_param basic credentialsttl 2 hours

    保存并重启Squid。

    (4)配置完毕。通过对passwd表的增改删操作,就能实现对Squid代理用户的权限控制。

    参考:https://wiki.squid-cache.org/ConfigExamples/Authenticate/Mysql
    发布时间:2020-06-20 15:15:37
  • 【经验分享】接上篇“毒(得物)APP数据采集”。上篇提到了这个APP对HTTP请求做了"手脚"无法直接抓到包。这里分析一下,它到底做的什么"手脚",以及怎么绕过。

    1. 在com.shizhuang.duapp.common.helper.net.RestClient类中可要找到如下代码:
    writeTimeout.proxy(Proxy.NO_PROXY);(详见图1)
    这里 writeTimeout是一个OkHttpClient实例,OkHttpClient.proxy(Proxy.NO_PROXY),意思就是不使用(绕过)系统代理。
    绕过这个的方法有两个:
    (1) 让DuConfig.f277505a的值为true,这样就能避免执行“writeTimeout.proxy(Proxy.NO_PROXY);”,从而使用系统代理。
    而DuConfig.f277505a = applicationInfo.metaData.getBoolean("debug");(详见图2)
    因此我们可以通过Hook Bundle.getBoolean()让其返回true,另外一个思路是HookOkHttpClient.proxy,让其失效。
    (2)使用Proxifier让安卓模拟器进程的流量(例如夜神的NoxVMHandle.exe)强制转发给Fiddler。这种方法比较通用。

    2. 另外APP里还加了证书固定机制,通过代理后会报网络异常。
    通过如下代码可以绕过:
    var OkHostnameVerifier = Java.use('okhttp3.internal.tls.OkHostnameVerifier');
            OkHostnameVerifier.verify.overload('java.lang.String', 'java.security.cert.X509Certificate').implementation = function(arg1, arg2){
               console.log("OkHostnameVerifier.verify('java.lang.String', 'java.security.cert.X509Certificate') called.");
               console.log(arg1);
               console.log(arg2);
               return true;    
            }
            
            OkHostnameVerifier.verify.overload('java.lang.String', 'javax.net.ssl.SSLSession').implementation = function(arg1, arg2){
                console.log("OkHostnameVerifier.verify('java.lang.String', 'javax.net.ssl.SSLSession') called.");
                console.log(arg1);
                console.log(arg2);
                return true;    
             }
             
             var CertificatePinner = Java.use('okhttp3.CertificatePinner');
             CertificatePinner.check.overload('java.lang.String', 'java.util.List').implementation = function (arg1, arg2) {
                 console.log('CertificatePinner.check() called. ');
                 console.log(arg1);
                 console.log(arg2);
             }
        
        var OpenSSLSocketImpl = Java.use('com.android.org.conscrypt.OpenSSLSocketImpl');
             OpenSSLSocketImpl.verifyCertificateChain.implementation = function (arg1, arg2) {
                 console.log('OpenSSLSocketImpl.verifyCertificateChain() called.');
                 console.log(arg1);
                 console.log(arg2);
            }
    PS:上述代码和之前我们发的“58同城APP证书固定机制绕过(ssl unpinning)方法”中的一样。

    经过上述两步之后,就能顺利抓到HTTP(s)流量,如图3所示。
    发布时间:2020-06-18 09:45:05
  • 【经验分享】毒(得物)APP签名算法解决

    (1)HTTP请求做了"手脚"无法直接抓到包。
    (2)分析代码后发现可以通过HOOK "com.shizhuang.duapp.common.helper.net.interceptor.HttpRequestInterceptor.intercept()"调用或者"okhttp3.internal.http.RealInterceptorChain.proceed()"调用拿到HTTP请求和应答数据(如图1所示)。
    (3)分析发现不关是GET请求,还是POST请求,都有一个签名参数newSign。签名算法位于com.shizhuang.duapp.common.utils.RequestUtils中,签名算法原理是对QueryString或Request Body中的参数以及一些特定的Headers排序后进行加密(具体加密算法是在native层实现的,位于libJNIEncrypt.so中),然后对加密结果进行MD5计算(如图2)。
    (4)分析出来原理后,思路就清晰了:自己构造HTTP请求,通过HOOK + RPC形式直接调用RequestUtils中的签名算法,产生有效的签名值,这样就能直接拿到接口返回的数据。如图3、4所示为最终采集到的数据。
    发布时间:2020-06-14 19:04:23
  • 【经验分享】58同城APP证书固定机制绕过(ssl unpinning)方法

    1. 直接抓包,APP提示网络错误(图1),logcat显示有okhtt3 connectTls相关函数异常(图2)。

    2.反编译APK,根据异常提示定位到证书锁定相关代码。

    3. 使用Frida Hook绕过相关证书验证代码。具体frida脚本如下:

    Java.perform(function() {
        
        console.log("##### com.wuba SSL UNPINNING #####");
        var OkHostnameVerifier = Java.use('okhttp3.internal.tls.OkHostnameVerifier');
        OkHostnameVerifier.verify.overload('java.lang.String', 'java.security.cert.X509Certificate').implementation = function(arg1, arg2){
           console.log("OkHostnameVerifier.verify('java.lang.String', 'java.security.cert.X509Certificate') called.");
           console.log(arg1);
           console.log(arg2);
           return true;    
        }
        
        OkHostnameVerifier.verify.overload('java.lang.String', 'javax.net.ssl.SSLSession').implementation = function(arg1, arg2){
            console.log("OkHostnameVerifier.verify('java.lang.String', 'javax.net.ssl.SSLSession') called.");
            console.log(arg1);
            console.log(arg2);
            return true;    
         }
         
         var CertificatePinner = Java.use('okhttp3.CertificatePinner');
         CertificatePinner.check.overload('java.lang.String', 'java.util.List').implementation = function (arg1, arg2) {
             console.log('CertificatePinner.check() called. ');
             console.log(arg1);
             console.log(arg2);
         }

    var OpenSSLSocketImpl = Java.use('com.android.org.conscrypt.OpenSSLSocketImpl');
         OpenSSLSocketImpl.verifyCertificateChain.implementation = function (arg1, arg2) {
             console.log('OpenSSLSocketImpl.verifyCertificateChain() called.');
             console.log(arg1);
             console.log(arg2);
        }
    }};
    '''
    4. 成功抓到相关HTTPS数据包(图3)。
    发布时间:2020-06-04 10:20:59
  • 【经验分享】VMware Workstation开机免登录自启动设置方法
    近日某拨号服务器出现故障,不定期会自动重启。每次重启之后都要手动去启动VMware虚拟机,非常麻烦。如何实现开机自启动指定的VMware虚拟机呢?

    (1)通过"vmrun.exe start 虚拟机vmx文件路径"命令可以启动指定的虚拟机。
    如果有多个虚拟机可以创建一个如下批处理:
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-1\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-2\Ubuntu 64 位.vmx"
    "C:\Program Files (x86)\VMware\VMware Workstation\vmrun.exe" start "E:\鲲之鹏\ubuntu16.04-adsl-proxies-server-3\Ubuntu 64 位.vmx"
    ...

    (2)将上述批处理文件添加到开机启动计划任务里。
    * 触发器,新建触发器,开启任务选择“启动时"。
    * 常规选项卡,安全选项选择“不管用户是否登录都要运行”。这一步很重要。

    为什么不直接放到“启动文件夹”中,而要使用计划任务呢?
    因为放到启动文件夹中必须要用户登录之后才能被执行。这样就达不到免登录自启动的效果了。
    发布时间:2020-05-26 17:33:42
  • 【经验分享】Pandas日期范围查询
    目的:查询CSV中某列值大于某个日期的记录。

    (1)使用Pandas的to_datetime()方法,将列类型从object转为datetime64。
    df[u'合同签订日期'] = pd.to_datetime(df[u'合同签订日期'], format=u'%Y年%m月%d日')
    注意要设置format参数,指定原始数据的时间日期格式。转换完成后可以查看dtypes属性确认,如附图1所示。参考:https://stackoverflow.com/questions/36848514/how-to-define-format-when-use-pandas-to-datetime
    (2)查询日期大于2018年1月1日的记录。
    df[df[u'合同签订日期'] >= pd.Timestamp(2018, 1, 1)]
    结果如附图2所示,参考:https://stackoverflow.com/questions/36104500/pandas-filtering-and-comparing-dates
    发布时间:2020-05-11 09:38:32
  • 【经验分享】Python的hash()函数产生hash碰撞的概率有这么高吗?

    昨天同事"随手"给我发了两组他在项目中遇到的例子,很是受"惊吓",HashDict用了快10年了,竟然没注意到这个Bug。

    Python 2.7.8.10 on Windows 64

    例一:
    hash(u'赤峰_1513781081_http://t.cn/A6Al6TDu)
    901186270
    hash(u'北京_1010215433_http://t.cn/A6Al6TDn)
    901186270

    例二:
    hash('B033900G0Z')
    80468932
    hash('B021307H9T')
    80468932

    注意: Linux 64 下测试上述两组值并不相同,另外Linux下hash()产生的hash串长度要比Windows下长很多,产生hash碰撞的概率应该也会小很多。
    发布时间:2020-05-08 21:05:47
  • 【经验分享】"土地市场网-土地供应-出让公告"网页字体混淆反采集的解决

    (1)如附图1所示,下载的页面中有很多字符是乱码。左边是经过浏览器正确渲染的结果,右边是下载到的有乱码的数据。
    (2)经过分析发现,网站使用了自定义的字体文件:把常用的391个汉字做成了特殊字体,使用了自定义的unicode码。如附图2所示。这种字体混淆的反采集策略现在很常见了,之前曾在猫眼电影、汽车之家、58等网站都见到过。
    (3)经过深入分析发现,网站总共使用了10个自定义的字体文件(如图3所示),每个文件内的字符是一样的(都是那391个字符),但是相同的unicode码对应的字符是不一样的。如附图4所示,uni3075在3个字体文件中对应的字符分别是“悬”、“亲”和“田”。
    (4)突破这种策略的思路很简单,就是建立一个“unicode码->字符"的映射表,然后将HTML中的这些乱码(unicode码)替换成明文即可。但是本例中有10 * 391 = 3910个字符,工作量太大了。
    (5)于是想到一个“偷懒”的方法:由于每个文件内都是那391个字符,我只手动建立一个映射表,其余的通过图片匹配自动建立。
    我把这个脚本放到了gist上“将字体文件内各字体导出图片存储,并建立一个Excel索引”(http://t.cn/A6wxdZxl)。
    如附图5所示,是上述脚本输出的每个字符对应的图片。
    如附图6所示,这个Excel文件也是上述脚本生成的,然后人工填入每个图片对应的明文字符,这样就建立好了一个字体文件的字符映射表。把这个表当做特征库表。
    (6)将其他9个字体文件中的图片也使用上述脚本导出,然后挨个和特征库对比(这里我直接通过像素值二维数组进行对比,将一致率最高的视为匹配),建立匹配关系,如图7所示。
    最终生成其它10张字符映射表,如附图8所示。
    (7)有了这10张完备的字体映射表,还原明文就so easy了,最终还原后的提取结果如附图9所示。
    发布时间:2020-04-15 10:53:11
  • 【经验分享】我查查APP防护机制分析

    1. 最明显的是URL加密了,如附图1所示。
    反编译后分析源码可知,URL加密过程如附图2所示。
    主要通过WccBarcode.getInstance().enReq(bytes, bytes.length)实现。

    2.  enReq()是一个native方法,具体实现在libgcbarcode_k.so中,如附图3所示。
    例如,原始URL:
    /ggstudy/price?city_id=1&pkid=46893149&token=eff213b02959eae34935f83ff1216a27&mac=6C%3A62%3A6D%3A27%3A4E%3A42&his=1586159685.1586183377&newudid=73288dee8365b5a2e088c6d91c4c95ad&ptoken=a94e255b4c4d444a9c66a324160bb63b&noscan=1&connectnet=wifi&lng=105.56721418292932&os=Android&v=9.3.0&originprice=4&device_model=HUAWEI+MLA-AL10&device_brand=HUAWEI&udid=863064017108624&lat=33.99952368518388
    经过加密后变成:
    /zzE06D4C3D909AE1E6261070A7B491241430713222ECA16B97C2005E0CB490484AB8713F03F811CB0A04522B2BAC2126961E31190DA820061096034A0BDC410713BC623924CC90A3C69A01182D1890......

    3. 上面有一个ptoken要特别注意,这其实是一个签名参数,具体的实现过程在com.wochacha.datacenter.es.d()方法中,如附图4所示。
    思路是先将querystring的key按从大到小排序,然后拼接成一个串,计算MD5后,再前后拼接上一个常量串(加盐),再次计算MD5。

    4. 另外,根据输入条码查询商品时,输入的barcode也被做了特殊处理。如图5所示。这里也调用了libgcbarcode_k.so中的native方法,conv()。

    了解上述过程后,我们就能自己过程出有效的HTTP请求,拿到数据。对于so中的算法,直接还原有难度,可以通过Frida RPC间接调用。最终效果如附图6所示。
    发布时间:2020-04-07 11:49:57
当前位置: 首页 > 技术文章 >
百度地图POI的边界GEOJSON数据采集
发布时间:2020-09-16

经过鲲之鹏技术人员数天的技术攻关,终于成功从百度地图APP采集到POI的边界数据,并成功进行了坐标数据还原和边界数据验证。下面详细介绍一下。

 
如下所示,是从百度地图APP采集到的某小区(uid为ba9b506a87e4f43cf32d8314)的基本信息和边界GEOJSON数据:
uid: ba9b506a87e4f43cf32d8314
name: 振业泊公馆
addr: 西安市灞桥区广安路800号
geo: Point [x=12139200, y=4046920]
cityId: 233
tel: (029)83531888
zip: null
nearby: null
geojson: 
{"dataset":[{"ud":"ba9b506a87e4f43cf32d8314","ty":33,"nst":60,"fst":0,"of":15,"in":0,"tx":"振业泊公馆","sgeo":{"bound":[12138948,4046770,12139454,4047084],"type":3,"elements":[{"points":[12139329,4047084,99,-203,26,-30,-3,-59,-459,-23,-30,16,-8,26,1,52,-7,131,56,19,4,17,3,53,318,2]}]}}]} 

该POI在百度地图APP中的边界截图如下:

振业泊公馆(ba9b506a87e4f43cf32d8314)小区边界

下面分析一下返回的GEOJSON数据的含义。

先看下POI的位置坐标参数,如下:

geo: Point [x=12139200, y=4046920]

以前我们曾介绍过,百度地图中使用的是墨卡托平面坐标,详见这里http://www.site-digger.com/html/articles/20150831/98.html

将[x=12139200, y=4046920]墨卡托坐标转换为经纬度坐标为(109.047102,34.315398),如下图所示。

将墨卡托平面坐标转换为经纬度坐标

可以通过坐标拾取系统的坐标反查功能验证一下,如下图所示,位置正确:

坐标拾取系统-坐标反查

再重点看GEOJSON的含义,为了便于查看,JSON数据格式化后如下图所示:

百度地图APP返回的POI边界GEOJSON原始数据

猜测边界信息位于"points"中。但是points数据看起来很奇怪,不是正常的经纬度组。

猜测1,按前后顺序每两个为一组经纬度。

前两个看起来是应该墨卡托坐标,后面的数字很小,而且有负数,很奇怪。

猜测2,从第二组数字起,值为相对于前一组数据的差值。例如第二组数据是(99, -203),真实值应该是(12139329 + 99, 4047084 - 203),即(12139428, 4046881)。

 

下面验证下上述猜测是否正确。按上述思路将points中的墨卡托坐标对进行修正:

# test.py

points = {'points': [12139329, 4047084, 99, -203, 26, -30, -3, -59, -459, -23, -30, 16, -8, 26, 1, 52, -7, 131, 56, 19, 4, 17, 3, 53, 318, 2]}

pre_x = None
pre_y = None
i = 0

while i <= len(points['points']) - 1:
    x = points['points'][i]
    y = points['points'][i+1]
    i += 2
    if pre_x is None:
        pre_x = x
        pre_y = y
        print (x, y)
    else:
        print (pre_x + x, pre_y + y)
        pre_x = pre_x + x
        pre_y = pre_y + y

修正后的13组墨卡托坐标对如下:

[(12139329, 4047084),
(12139428, 4046881),
(12139454, 4046851),
(12139451, 4046792),
(12138992, 4046769),
(12138962, 4046785),
(12138954, 4046811),
(12138955, 4046863),
(12138948, 4046994),
(12139004, 4047013),
(12139008, 4047030),
(12139011, 4047083),
(12139329, 4047085)]

再将其转为经纬度坐标对,如下:

[(109.04826126153179, 34.3166200411101),
(109.04915058398667, 34.315106883764116),
(109.04938414341926, 34.31488326211714),
(109.04935719425397, 34.31444347112423),
(109.04523397196317, 34.3142720265479),
(109.04496448031017, 34.31439129237754),
(109.04489261586937, 34.31458509898596),
(109.04490159892448, 34.31497271084807),
(109.04483871753878, 34.315949186570386),
(109.04534176862437, 34.31609081186824),
(109.04537770084477, 34.3162175290356),
(109.04540465001007, 34.316612587200495),
(109.04826126153179, 34.316627495019034)]

使用百度地图API标注(在线测试http://lbsyun.baidu.com/jsdemo.htm#c2_9),代码如下:

    // 百度地图API多边形区域标注
    // http://lbsyun.baidu.com/jsdemo.htm#c2_9
    var map = new BMap.Map("allmap");
    map.centerAndZoom(new BMap.Point(109.047102,34.315398), 15);
    map.enableScrollWheelZoom();
	
    var polygon = new BMap.Polygon([
    new BMap.Point(109.048261262,34.3166200411),
    new BMap.Point(109.049150584,34.3151068838),
    new BMap.Point(109.049384143,34.3148832621),
    new BMap.Point(109.049357194,34.3144434711),
    new BMap.Point(109.045233972,34.3142720265),
    new BMap.Point(109.04496448,34.3143912924),
    new BMap.Point(109.044892616,34.314585099),
    new BMap.Point(109.044901599,34.3149727108),
    new BMap.Point(109.044838718,34.3159491866),
    new BMap.Point(109.045341769,34.3160908119),
    new BMap.Point(109.045377701,34.316217529),
    new BMap.Point(109.04540465,34.3166125872),
    new BMap.Point(109.048261262,34.316627495)
    ], {strokeColor:"blue", strokeWeight:2, strokeOpacity:0.5});  //创建多边形
    map.addOverlay(polygon);   //增加多边形

标注效果如下:

POI边界在百度地图上标注结果

和百度地图中查询出来的该小区边界对比一致,如下图。

POI振业泊公馆在百度地图上查询出来的边界

 

再找另一个POI验证一遍,从百度地图APP采集到的小区(366581fe3fd52baa714b871e)的基本信息和边界信息如下:

uid: 366581fe3fd52baa714b871e
name: 水岸东方-三期
addr: 西安市灞桥区浐河东路与韩森东路交叉路口往东约100米(水岸东方)
geo: Point [x=12139965, y=4040335]
cityId: 233
tel: 
zip: null
nearby: null
geojson: 
{"dataset":[{"ud":"366581fe3fd52baa714b871e","ty":33,"nst":60,"fst":0,"of":15,"in":0,"tx":"水岸东方-三期","sgeo":{"bound":[12139757,4040117,12140208,4040590],"type":3,"elements":[{"points":[12139783,4040475,270,115,156,-399,-394,-74,-57,334,9,15,16,9]}]}}]}

修正后的墨卡托坐标组:

(12139783, 4040475)
(12140053, 4040590)
(12140209, 4040191)
(12139815, 4040117)
(12139758, 4040451)
(12139767, 4040466)
(12139783, 4040475)

墨卡托转经纬度后:

(109.05234,34.267343)
(109.054765,34.2682)
(109.056166,34.265224)
(109.052627,34.264672)
(109.052115,34.267164)
(109.052196, 34.267275)
(109.05234, 34.267343)

百度地图API标注测试,测试结果截图:

从百度地图APP采集到的水岸东方-三期边界数据标记结果

和直接通过百度地图中查询出来的边界是吻合的,如下图所示。

水岸东方-三期在百度地图上的边界

 

再找一个边界复杂点的小区验证下,从百度地图APP采集到的小区(50fe0b843b8fa7ed0b1cc7b9)的基本信息和GEOJSON数据如下:

uid: 50fe0b843b8fa7ed0b1cc7b9
name: 自然界·云栖
addr: 陕西省西安市灞桥区浐河东路与金桥六路交叉口东北
geo: Point [x=12137930, y=4049163]
cityId: 233
tel: 
zip: null
nearby: null
geojson: 
{"dataset":[{"ud":"50fe0b843b8fa7ed0b1cc7b9","ty":33,"nst":60,"fst":0,"of":15,"in":0,"tx":"自然界·云栖","sgeo":{"bound":[12137623,4049016,12138272,4049317],"type":3,"elements":[{"points":[12137623,4049168,25,32,97,64,66,13,19,6,28,20,58,16,45,-4,51,-8,32,-5,27,-18,162,-109,12,-1,27,-25,-84,-78,-101,16,-3,-50,-15,6,-70,7,-73,1,-121,-17,-57,-17,-124,152]}]}}]}

如下图所示,上面是在百度地图中查询出来的“自然界·云栖”小区的边界,下面是我们采集到的边界参数经过API标记后的结果。上下是吻合的。

POI自然界云栖在百度地图上的边界

 

再来一个边界更复杂的POI:

uid: b68bc691d025fcd81e1d1139
name: 长安大学
addr: 陕西省西安市碑林区二环南路中段126号
geo: Point [x=12129635, y=4036408]
cityId: 233
tel: (029)82334085
zip: null
nearby: null
geojson: 
{"dataset":[{"ud":"b68bc691d025fcd81e1d1139","ty":33,"nst":60,"fst":0,"of":15,"in":0,"tx":"长安大学","sgeo":{"bound":[12128773,4035966,12130346,4036962],"type":3,"elements":[{"points":[12130011,4036961,0,-80,95,-1,2,-59,89,1,10,-1,4,-1,1,-4,0,-60,36,0,24,-3,75,0,0,-121,-84,0,-1,-40,2,-55,-73,0,0,-46,3,-8,1,-80,-1,-12,0,-14,-2,-9,-1,-11,-30,0,-188,-1,-155,2,1,-41,5,-20,2,-21,2,-154,1,-150,-54,-5,-60,4,-5,1,-4,0,-4,-2,-9,-3,-19,-2,-87,0,-65,2,0,25,-160,-1,-145,-1,-138,-1,-177,-1,-127,-3,0,193,2,5,8,9,61,56,3,2,4,1,80,1,17,2,12,3,7,1,38,-1,26,3,48,8,205,4,236,5,1,38,10,40,4,296,68,-1,39,0,2,12,1,7,1,36,0,32,69,1,-1,70,-56,0,0,28,0,9,1,4,1,5,-1,64,17,0,1,28,151,1,37,0,41,-1,17,0,59,1,0,12,29,0]}]}}]}

如下图所示,上面是百度地图查询结果,下面是我们采集标注的结果。

POI长安大学在百度地图上的边界

特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询