更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】Linux server(headless模式)下Android模拟器的实现。

    现在越来越多的采集项目(采集APP数据)需要用到安卓模拟器了,然而市面上还没有支持Linux server(headless模式)下运行的安装模拟器,太遗憾了(因为公司大多数服务器都是Ubuntu server版本)。

    我们可以使用KVM + Android x86版系统来实现:

    1. 安装配置KVM。关于KVM在Ubuntu server下的安装配置步骤,详见我们去年的这篇文章:http://t.cn/EGdGjVE
    2. Android x86是支持运行于 x86 PC上的Android操作系统。下载Android X86 系统安装ISO文件,下载地址:https://osdn.net/projects/android-x86/releases,我测试的是android-x86-6.0-r3.iso。
    3. 创建KVM虚拟硬盘:
    qemu-img create -f qcow2 ./android60-1/android.img 10G
    PS:磁盘大小10GB,虚拟磁盘文件存储路径./android60-1/android.img(后面要用到)。
    4. 创建好网桥br0(直连主机外网,如附图1所示)。让虚拟机通过桥接模式上网,这样我们就可以很方便的从外网使用adb连接5555端口,进行远程控制。网桥的配置方法详见http://t.cn/EGdGjVE
    5. 启动KVM虚拟机,安装Android x86系统:
    qemu-system-x86_64 -enable-kvm -m 2048 -smp 4 -cdrom "android-x86-6.0-r3.iso"  -hda "./android60-1/android.img" -net nic,model=virtio,macaddr=00:16:3E:51:CC:10 -net bridge,br=br0  -vnc :2

    PS: 2048M内存,4核CPU,光驱链接系统安装镜像文件android-x86-6.0-r3.iso,指定虚拟机使用00:16:3E:51:CC:10这个MAC,使用网桥br0,指定VNC端口为5900 + 2 = 5902。

    执行上述命令之后,就可以通过VNC连接5902端口,进行系统安装了,安装过程很简单,跟其它Linux发行版安装过程类似:先是分区,格式化磁盘,然后写入文件,重启(如附图2所示)。
    6. 系统好之后,再次运行上述命令(注意要把-cdrom相关参数去掉,否则默认还会从光盘启动),首次进入系统,需要完成系统初始化配置。

    PS:需要注意的是,如果卡到WIFI配置那里了(提示无法连接网络,安装向导无法连接到谷歌,原因你懂的),可以先关掉网络,方法是按Alt + F1,进入安装命令行模式(可以ping www.baidu.com,发现网络其实是通着的),执行ifconfig eth0 down断掉网络(如附图3所示),然后再按Alt + F7恢复图形模式,继续完成向导即可。

    7. 配置好一个安卓虚拟机之后,我们可以直接通过复制多个虚拟磁盘文件android.img,启动多个安卓系统。注意:要指定不同的MAC地址,和不同的VNC端口。

    如附图4和5所示,我配置好一个虚拟机,安装上所需的各种APP之后,通过直接复制android.img,又启动了2个MAC地址不同的安卓模拟器。

    如附图6所示,通过adb远程连接上各安卓虚拟机(模拟器)。
    发布时间:2019-07-10 17:08:14
  • 【经验分享】美团外卖APP在siua头里隐藏了什么信息?
    1. 美团外卖发出的HTTP请求头里有个叫做siua的头(如图1所示),它是什么鬼?
    2.反编译APK,一路跟踪,找到了startCollection(),如图2所示。就是它了。
    3. 通过Xposed HOOK上述函数,成功获取到明文数据(如下所示)。也如图3所示。

    1.0}}MSM8974|Xiaomi|cancro_wc_lte|cancro|KTU84P|zh|CN|Xiaomi|MI 4LTE|4.4.4|19|release-keys|Xiaomi/cancro_wc_lte/cancro:4.4.4/KTU84P/99.12.4:user/release-keys|qcom|qh-miui-ota-bd58|user|cancro|armeabi-v7a|armeabi|cancro-user 4.4.4 KTU84P 99.12.4 release-keys|1|0|}}mtp,adb|mtp,adb|mtp,adb|MPSS.DI.3.0-525eb9a|Qualcomm RIL 1.0|wlan0|ABSENT||1|1|1|1|1|1|1|1|0|1|1|1}}ARMv7 Processor rev 1 (v7l)|Qualcomm MSM8974PRO-AC|4|Accelerometer|STMicroelectronics|Gravity|Qualcomm}}866500021425311|-|-|1920*1080|12GB|12GB|7c:1d:d9:76:af:f9||wifi}}-|0|-1.0|0|0||79d072a8-59fc-4ace-b45e-1b386d8de712}}0|0|0|-}}Android|com.sankuai.meituan.takeoutnew|5.12.3|19|-|2019-06-25 14:00:34:034}}0.0|0.0|KUNZHIPENG|0c:4b:54:da:bd:80|1|-46|-|-|-|}}

    我们来看看这里面包含有什么信息:
    手机品牌、型号、安卓版本号、IMEI码、WLAN的MAC地址、热点名称、热点的MAC地址(如图4所示,和路由器铭牌一致)、手机屏幕尺寸、存储空间...
    发布时间:2019-06-28 16:27:07
  • 【经验分享】如何快速从APK中获取AES秘钥和IV?
    (1)如图1所示,是通过脱壳和反编译获取到的,用时约1小时。
    (2)如图2所示,是使用Xposed + CryptoFucker勾出来的,用时10分钟。
    详细过程见 >>>  http://t.cn/Aip4E9KW ​​​​
    发布时间:2019-06-22 14:21:11
  • 【经验分享】如果动态修改Android设备的代理,如何程序化设置安卓设备的HTTP代理? >>> 详见 http://t.cn/Aip4HUaM ​​​​
    发布时间:2019-06-22 14:11:35
  • 【经验分享】美团外卖APP采集
    1. 如何根据poiId打开店铺详情页?
    adb shell am start -a android.intent.action.VIEW --el poiId 1000651254601802   -n com.sankuai.meituan.takeoutnew/.ui.poi.shop.RestaurantActivity
    效果如图1所示。

    2. 如何截获App返回的应答数据(JSON)?
    使用Xposed勾住parsejson()方法。
    效果如图2所示。
    发布时间:2019-06-20 14:03:02
  • 【经验分享】iostat -d -x -k 1查看某个硬盘的IO一直是100%,如何定位是哪个程序造成的呢? 使用sudo iotop -aoP命令即可,如图所示。 ​​​​
    发布时间:2019-05-29 18:38:49
  • 【经验分享】Apache2如何设置文件的Content-Type值?

    例如,我想给所有的*.pem证书文件,都设置Content-Type为"pplication/x-x509-ca-cert"。
    经查,可以使用ForceType指令,示例如下:

    <FilesMatch "\.pem$">
      ForceType application/x-x509-ca-cert
    </FilesMatch> ​​​​
    发布时间:2019-05-28 15:44:17
  • 【经验分享】如何使用adb检测系统是否安装了某个APP?
    如下所示,判断是否安装了抖音:
    adb shell pm list packages |grep com.ss.android.ugc.aweme ​​​​
    发布时间:2019-05-24 09:39:20
  • 【经验分享】如何破解叮当快药的签名算法? >>> http://t.cn/EoAltBU ​​​​
    发布时间:2019-05-05 17:11:14
  • 【经验分享】抖音的附近功能是根据什么定位的呢?(请求的参数中并没有找到经纬度相关的参数)  经过实测发现是根据IP地址定位的。用西安的代理IP返回的就是西安的,用苏州的代理IP返回就是苏州的,用宿迁的代理IP返回的就是宿迁的。如下截图所示。 ​​​​
    发布时间:2019-04-18 13:42:20
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-09-30 22:11:01
    谷歌DNS 8.8.8.8现在貌似故障了,在美国无法解析安居客域名,换用114.114.114.114可以:
    dig @8.8.8.8 www.anjuke.com 查询不到(图1);
    dig @114.114.114.114 www.anjuke.com 能查询到(图2); ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-29 17:49:53
    【实践出真知】山东和苏州两地总结出来的经验:pppd持续出现“No response to 3 echo-requests, Serial link appears to be disconnected"可能是宽带接入设备(Modem)负载太大了! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-28 21:48:39
    【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
    点击查看详情 >>> http://t.cn/R0WMsU2

    国家和IP数量如下表:
    Country IP Count
    Turkey 256
    Canada 512
    Madagascar 2560
    Italy 512
    Czech Republic 256
    Iran (Islamic Republic of) 256
    Hungary 512
    Qatar 256
    Luxembourg 256
    France 256
    Slovakia 256
    Ireland 768
    Hong Kong 256
    Nigeria 768
    Bolivia 2816
    Norway 512
    Bangladesh 256
    Israel 512
    Australia 256
    Indonesia 256
    Jordan 256
    Germany 18688
    Nicaragua 2560
    Belgium 512
    China 512
    Iraq 256
    Philippines 256
    Taiwan 256
    Spain 512
    Ukraine 256
    Netherlands 512
    Denmark 512
    Poland 256
    Finland 768
    Saudi Arabia 256
    United States 83712
    Sweden 768
    Vietnam 256
    Kenya 256
    Switzerland 768
    New Zealand 256
    Russia 768
    Brazil 512
    Bulgaria 256
    Romania 512
    Portugal 512
    Mexico 256
    United Arab Emirates 256
    India 50688
    United Kingdom 6144
    Malaysia 256
    Austria 768
    Congo 2560
    Greece 512
    Japan 512
    South Korea 256
    Cyprus 256

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:56:59
    淘宝外卖(口碑外卖)全国所有城市商户数据2017年9月底更新(62.8万家)。2017年9月底更新。含店招、营业执照和餐饮服务许可证图片文件。 >>> http://t.cn/R0oybU9 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:55:35
    是谁把我的7777端口占用了? lsof  -i:7777 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 21:32:57
    成功绕过淘宝(口碑)外卖签名机制,顺利拿到Ajax返回数据。
    PS:常规模拟浏览器方法无效,需结合抓包。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 11:34:07
    Firefox历史版本下载地址:http://t.cn/Rbu2y44
    PS:slimerjs支持Firefox from 38.0 to 52.0. ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 10:06:04
    【无关技术】更多的时候是做一个运维,看着爬虫输出的信息越快越开心 L西安鲲之鹏的微博视频 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-20 17:23:31
    【经验分享】Chrome V55以后不支持设置页面编码了(不信你试试看)。不过,这货(Set Character Encoding插件)可以帮你实现。 http://t.cn/RaIDInW ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-14 15:10:39
    【经验分享】由于项目需要在Linux Server下将近千万个word文档(*.doc)转换为文本格式(html或txt),经测试效果最好的方法是使用LibreOffice的命令行工具。

    安装:
    sudo apt-get purge libreoffice-core
    sudo add-apt-repository -y ppa:libreoffice/ppa
    sudo apt-get update
    sudo apt-get install libreoffice

    doc转txt示例:
    soffice --headless --convert-to txt test.doc

    doc转html示例:
    soffice --headless --convert-to html test.doc

    关于convert-to参数的更多说明见这里 >>> http://t.cn/RVGwrbi

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-17 09:55:51
    搜房网(房天下)全国新房楼盘+二手房小区数据2017年07月份更新(“小区名称”,”城市”,”小区地址”,”项目特色”,”所属区域”,”邮编”,”产权描述”,”物业类别”,”竣工时间”,”开发商”,”建筑结构”,”建筑类别”,”建筑面积”,”占地面积”,”当期户数”,”总户数”,”绿化率”,”容积率”,”物业费”,”停车位”,”开盘时间”,”交房时间”,”小区简介”,”交通状况”,”周边信息”,”经度”,”纬度”,”物业公司”,”价格”,”页面链接”,”地图链接”,”区县”,”商 圈”,”装修情况”,”物业地址”,”入住时间”,”物业类型”,”环比上月”,”详情页链接”,”新房/二手房”,”newcode”) >>> 示例数据:http://t.cn/RCZcOAe

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-10 16:03:33
    【经验分享】利用Fiddler2的Custom Rules自动抓取App的TOKEN并记录到文件 >>> http://t.cn/R9RdWc3 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-05 10:50:19
    【经验分享】某拨号服务器的Web API接口突然变得不稳定,重启Apache2后正常,但是过不来多久又会挂掉。查看error日志,发现如下信息:
    """
    [mpm_event:error] [pid 54893:tid 140124506744704] AH00484: server reached MaxRequestWorkers setting, consider raising the MaxRequestWorkers setting
    """
    谷歌查询相关资料得知需要调整/etc/apache2/mods-available/mpm_event.conf中的相关参数,将ServerLimit 从默认的16修改为30,将MaxRequestWorkers修改为750,然后重启Apache,问题得到解决。

    这里有两个坑总结一下:
    1)你不一定也使用的是mpm_event模块(还可能是mpm_worker或mpm_prefork),有两种方法判断。第一种方法是根据日志的提示信息如果是“mpm_prefork:error”那说明是mpm_prefork,这个时候就需要修改的是/etc/apache2/mods-available/mpm_prefork.conf文件;第二种方法是使用"apachectl -M"命令,会显示所有加载的模块,如附图所示我的服务器加载的是mpm_event_module。
    2)MaxRequestWorkers的值的上限取决于ServerLimit * ThreadsPerChild的大小。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-07-26 14:47:36
    给遨游做个广告。目前支持"S5+认证"代理的浏览器几乎没有,但不是没有,让我来告诉你它就是遨游5。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-07-26 11:54:32
    【经验分享】requests库使用socks5代理提示“Missing dependencies for SOCKS support”问题解决:
    pip install pysocks
    pip install requests[socks]
    >>> http://t.cn/R9ZI4eH ​​​​

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询