更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】Linux server(headless模式)下Android模拟器的实现。

    现在越来越多的采集项目(采集APP数据)需要用到安卓模拟器了,然而市面上还没有支持Linux server(headless模式)下运行的安装模拟器,太遗憾了(因为公司大多数服务器都是Ubuntu server版本)。

    我们可以使用KVM + Android x86版系统来实现:

    1. 安装配置KVM。关于KVM在Ubuntu server下的安装配置步骤,详见我们去年的这篇文章:http://t.cn/EGdGjVE
    2. Android x86是支持运行于 x86 PC上的Android操作系统。下载Android X86 系统安装ISO文件,下载地址:https://osdn.net/projects/android-x86/releases,我测试的是android-x86-6.0-r3.iso。
    3. 创建KVM虚拟硬盘:
    qemu-img create -f qcow2 ./android60-1/android.img 10G
    PS:磁盘大小10GB,虚拟磁盘文件存储路径./android60-1/android.img(后面要用到)。
    4. 创建好网桥br0(直连主机外网,如附图1所示)。让虚拟机通过桥接模式上网,这样我们就可以很方便的从外网使用adb连接5555端口,进行远程控制。网桥的配置方法详见http://t.cn/EGdGjVE
    5. 启动KVM虚拟机,安装Android x86系统:
    qemu-system-x86_64 -enable-kvm -m 2048 -smp 4 -cdrom "android-x86-6.0-r3.iso"  -hda "./android60-1/android.img" -net nic,model=virtio,macaddr=00:16:3E:51:CC:10 -net bridge,br=br0  -vnc :2

    PS: 2048M内存,4核CPU,光驱链接系统安装镜像文件android-x86-6.0-r3.iso,指定虚拟机使用00:16:3E:51:CC:10这个MAC,使用网桥br0,指定VNC端口为5900 + 2 = 5902。

    执行上述命令之后,就可以通过VNC连接5902端口,进行系统安装了,安装过程很简单,跟其它Linux发行版安装过程类似:先是分区,格式化磁盘,然后写入文件,重启(如附图2所示)。
    6. 系统好之后,再次运行上述命令(注意要把-cdrom相关参数去掉,否则默认还会从光盘启动),首次进入系统,需要完成系统初始化配置。

    PS:需要注意的是,如果卡到WIFI配置那里了(提示无法连接网络,安装向导无法连接到谷歌,原因你懂的),可以先关掉网络,方法是按Alt + F1,进入安装命令行模式(可以ping www.baidu.com,发现网络其实是通着的),执行ifconfig eth0 down断掉网络(如附图3所示),然后再按Alt + F7恢复图形模式,继续完成向导即可。

    7. 配置好一个安卓虚拟机之后,我们可以直接通过复制多个虚拟磁盘文件android.img,启动多个安卓系统。注意:要指定不同的MAC地址,和不同的VNC端口。

    如附图4和5所示,我配置好一个虚拟机,安装上所需的各种APP之后,通过直接复制android.img,又启动了2个MAC地址不同的安卓模拟器。

    如附图6所示,通过adb远程连接上各安卓虚拟机(模拟器)。
    发布时间:2019-07-10 17:08:14
  • 【经验分享】美团外卖APP在siua头里隐藏了什么信息?
    1. 美团外卖发出的HTTP请求头里有个叫做siua的头(如图1所示),它是什么鬼?
    2.反编译APK,一路跟踪,找到了startCollection(),如图2所示。就是它了。
    3. 通过Xposed HOOK上述函数,成功获取到明文数据(如下所示)。也如图3所示。

    1.0}}MSM8974|Xiaomi|cancro_wc_lte|cancro|KTU84P|zh|CN|Xiaomi|MI 4LTE|4.4.4|19|release-keys|Xiaomi/cancro_wc_lte/cancro:4.4.4/KTU84P/99.12.4:user/release-keys|qcom|qh-miui-ota-bd58|user|cancro|armeabi-v7a|armeabi|cancro-user 4.4.4 KTU84P 99.12.4 release-keys|1|0|}}mtp,adb|mtp,adb|mtp,adb|MPSS.DI.3.0-525eb9a|Qualcomm RIL 1.0|wlan0|ABSENT||1|1|1|1|1|1|1|1|0|1|1|1}}ARMv7 Processor rev 1 (v7l)|Qualcomm MSM8974PRO-AC|4|Accelerometer|STMicroelectronics|Gravity|Qualcomm}}866500021425311|-|-|1920*1080|12GB|12GB|7c:1d:d9:76:af:f9||wifi}}-|0|-1.0|0|0||79d072a8-59fc-4ace-b45e-1b386d8de712}}0|0|0|-}}Android|com.sankuai.meituan.takeoutnew|5.12.3|19|-|2019-06-25 14:00:34:034}}0.0|0.0|KUNZHIPENG|0c:4b:54:da:bd:80|1|-46|-|-|-|}}

    我们来看看这里面包含有什么信息:
    手机品牌、型号、安卓版本号、IMEI码、WLAN的MAC地址、热点名称、热点的MAC地址(如图4所示,和路由器铭牌一致)、手机屏幕尺寸、存储空间...
    发布时间:2019-06-28 16:27:07
  • 【经验分享】如何快速从APK中获取AES秘钥和IV?
    (1)如图1所示,是通过脱壳和反编译获取到的,用时约1小时。
    (2)如图2所示,是使用Xposed + CryptoFucker勾出来的,用时10分钟。
    详细过程见 >>>  http://t.cn/Aip4E9KW ​​​​
    发布时间:2019-06-22 14:21:11
  • 【经验分享】如果动态修改Android设备的代理,如何程序化设置安卓设备的HTTP代理? >>> 详见 http://t.cn/Aip4HUaM ​​​​
    发布时间:2019-06-22 14:11:35
  • 【经验分享】美团外卖APP采集
    1. 如何根据poiId打开店铺详情页?
    adb shell am start -a android.intent.action.VIEW --el poiId 1000651254601802   -n com.sankuai.meituan.takeoutnew/.ui.poi.shop.RestaurantActivity
    效果如图1所示。

    2. 如何截获App返回的应答数据(JSON)?
    使用Xposed勾住parsejson()方法。
    效果如图2所示。
    发布时间:2019-06-20 14:03:02
  • 【经验分享】iostat -d -x -k 1查看某个硬盘的IO一直是100%,如何定位是哪个程序造成的呢? 使用sudo iotop -aoP命令即可,如图所示。 ​​​​
    发布时间:2019-05-29 18:38:49
  • 【经验分享】Apache2如何设置文件的Content-Type值?

    例如,我想给所有的*.pem证书文件,都设置Content-Type为"pplication/x-x509-ca-cert"。
    经查,可以使用ForceType指令,示例如下:

    <FilesMatch "\.pem$">
      ForceType application/x-x509-ca-cert
    </FilesMatch> ​​​​
    发布时间:2019-05-28 15:44:17
  • 【经验分享】如何使用adb检测系统是否安装了某个APP?
    如下所示,判断是否安装了抖音:
    adb shell pm list packages |grep com.ss.android.ugc.aweme ​​​​
    发布时间:2019-05-24 09:39:20
  • 【经验分享】如何破解叮当快药的签名算法? >>> http://t.cn/EoAltBU ​​​​
    发布时间:2019-05-05 17:11:14
  • 【经验分享】抖音的附近功能是根据什么定位的呢?(请求的参数中并没有找到经纬度相关的参数)  经过实测发现是根据IP地址定位的。用西安的代理IP返回的就是西安的,用苏州的代理IP返回就是苏州的,用宿迁的代理IP返回的就是宿迁的。如下截图所示。 ​​​​
    发布时间:2019-04-18 13:42:20
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-03-12 19:50:16
    【一个cron计划任务引发的血案】近日某Ubuntu14.04服务器上mongodb老自动挂掉,观察一段发现系统内存严重不足,swap都快被用完了,如图一所示,mongodb在内存耗尽的时候就挂掉了。很奇怪,到底是什么进程占用了这么多内存呢?

    参考这篇文章里的方法 Linux: Find Out What Process Are Using Swap Space > http://t.cn/RinTwWY

    执行如下命令,查看哪些进程使用了swap,并按使用量大小排列:
    for file in /proc/*/status ; do awk '/VmSwap|Name/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 2 -n -r | less

    这一看不打紧,发现里面有大量的python进程。
    再用ps aux |grep python一看,一身冷汗,有3899个python进程!如图二所示。

    可以断定内存就是被这些进程给吃完了!
    PS:这是一个每分钟启动一次的计划任务,功能是实现一个动态域名解析客户端。应该是脚本用的访问网络的操作卡住了(系统默认无限等待)造成进程无法退出,久而久之累积出来了几千个后台进程...

    杀掉这些进程,修复Bug。现在内存使用看起来正常了,如图三所示。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-03-10 22:26:15
    MySQL抓包工具 - MySQL Sniffer: MySQL Sniffer 是一个基于 MySQL 协议的抓包工具,实时抓取 MySQLServer 端的请求,并格式化输出。>>>  详细介绍http://t.cn/RiQAESc
    Ubuntu14.04下试了一下,效果很赞(如下截图)。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-22 14:07:44
    如何避免SSH时出现“Write failed: Broken pipe”?
    ssh -o ServerAliveInterval=60 user@host
    更多方法 >>> http://t.cn/zYc5wR1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-18 16:24:05
    PPPOE拨号引发“Couldn't allocate pseudo-tty”问题,表现:
    1)SSH连接卡主(无法正常建立连接),提示:“request failed on channel 0”。
    2)日志出现大量:“Couldn't allocate pseudo-tty”。
    谷歌得知原因:pseudo-terminals数量超过系统最大限制。
    临时处理方法:增加pseudo-terminals最大数量,具体步骤>>> http://t.cn/RJnUJxD

    1. 如何查看系统当前pseudo-terminals数量:
    ls /dev/pts|wc -l
    参考文章:http://t.cn/RJnUJxk

    2. 查看当前系统允许的最大pseudo-terminals数量:
    cat /proc/sys/kernel/pty/max

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-16 12:34:53
    【专治疑难杂症】Selenium + IEDriver出现“Internet Explorer has stopped working”或"Internet Explorer 已停止工作"对话框如何解决? >>> http://t.cn/RJjndCS

    Turn Off The Error Dialog Via The Registry

    Although editing the registry manually is not recommended for average users, sometimes there isn’t a choice because something like the Group policy Editor might not be available in your version of Windows or the group policy method itself doesn’t work. This works on Windows Vista and above.

    Open the Registry Editor by typing regedit into the Start search box or the Win+R Run dialog.
    Navigate to the following registry key:
    HKEY_CURRENT_USER\Software\Microsoft\Windows\Windows Error Reporting

    Double click the DontShowUI entry on the right and change its value to 1, then close the registry editor.

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:44:38
    【经验分享】如何使用SPSS查看大CSV文件(超过100万行)? >>> http://t.cn/RJb48R1 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-02-08 19:05:12
    【专治疑难杂症】pyautogui在Windows下鼠标左键按下动作pyautogui.mouseDown()引发“WindowsError: [Error 5] 拒绝访问。/ WindowsError: [Error 5] Access is denied.” 异常解决方法:注释掉_pyautogui_win.py文件L479-L480行。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-26 11:40:16
    Google Maps Geocoding API使用限制: 2,500 free requests per day。
    >>> http://t.cn/RxVL66t
    使用稳定高匿名HTTP代理可以绕过该限制,例如200个IP就可以达到50万每天的查询速度。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-23 11:43:20
    【备忘】Chrome查看页面源码快捷键 Ctrl + U;Chrome进入隐私模式快捷键 Ctrl + Shift + N ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-20 20:55:19
    完善Python版的pppoe-status,实测比原版可靠(修复rp-pppoe-3.12中的pppoe-status误判失败的问题) >>> http://t.cn/RMsiLHd ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-16 09:46:59
    【纯干货】鲲之鹏微信小程序数据抓取示例 >>> http://t.cn/RMYalt4 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-12 12:36:58
    Ubuntu下7z压缩、解压文件:
    sudo  apt-get install p7zip-full

    【压缩文件】:
    7z a -t7z -r manager.7z /home/manager/*
    解释:
    a 代表添加文件/文件夹到压缩包;
    -t 是指定压缩类型 一般我们定为7z;
    -r 表示递归所有的子文件夹;

    【解压文件】
    7z x manager.7z -r -o/home/xx
    解释如下:
    x 代表解压缩文件,并且是按原始目录解压(还有个参数 e 也是解压缩文件,但其会将所有文件都解压到根下,而不是自己原有的文件夹下)manager.7z 是压缩文件,这里大家要换成自己的。如果不在当前目录下要带上完整的目录;
    -r 表示递归所有的子文件夹;
    -o 是指定解压到的目录,这里大家要注意-o后是没有空格的直接接目录;

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-09 17:33:07
    最近某机器上的Squid服务老是自动挂掉,日志也没看出问题...
    只能先临时曲线救国:通过计划任务定时检测squid进程是否存在,如果不存在执行sudo service squid start来启动服务。检测脚本我是用Python写的(Shell不熟悉),分享在这里:http://t.cn/RMM2N8v
    PS:我本来用supervisor实现的,结果老是提示squid进程异常退出,就放弃了。

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-06 15:14:04
    【SecureCRT自动SSH跳转配置】友商设备限制了只允许我们的特定的IP能访问,每次都要先SSH到该IP,然后再SSH跳转到目标机器。每次都要输入一遍ssh user@host 和 密码,非常麻烦。利用SecureCRT Logon Actions(登录动作)里的Automate logon(自动登录)可以自动化完成该操作(输入ssh user@host 和 密码),这里有篇图文并茂的文章介绍。 >>> OSecureCRT的logon action登录跳转设置

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-01-04 00:14:19
    修复Webscraping库Download类使用proxy重大Bug。由于之前加入了防止重复添加ProxyHandler的处理(这个处理逻辑存在Bug),导致产生如下2个Bug(均发生在带opener时。):
    1)变更代理无效。原因:后面的代理不会加入对应的ProxyHandler。
    2)变更协议丢失代理。原因:后续请求如果和第一个请求采用不同的协议会导致后续代理没有对应协议的ProxyHandler。
    修复方案:
    在每次加入ProxyHandler时先移除掉之前的ProxyHandler。

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询