更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2016-10-31 11:31:30
    一不注意将Chrome升级到了最新版本(V54),但是Webdriver不干活儿了“Runtime.executionContextCreated has invalid 'context': ...”。
    升级Chromedriver到2.25版本(Supports Chrome v53-55),问题解决。
    ChromeDriver 2.25 >>> http://t.cn/RV3EOyf ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-26 15:53:50
    【adb小试牛刀】第一次使用adb,做个笔记:
    1. 手机启用调试模式,USB连接PC。
    2. 执行adb devices查看已连接设备。注意手机出现的授权提示,点确定!否则设备会显示为"Unauthorized"。
    3. 执行adb shell即可进入设备的shell模式。
    4. 执行su,切换到root权限。前提是你的手机已经root过了(可以使用刷机精灵的一键root功能)。
    5. 开启App全局调试,即使ro.debuggable内存值为1。使用mprop程序实现,网上有详细的介绍。./mprop ro.debuggable 1。使用getprop  ro.debuggable判断修改是否成功。
    6. 执行stop;start重启adbd进程,更新连接信息。
    7. 退出shell。执行adb jdwp即可看到可以调试的进程ID。所有进程都变得可以调试了。也可 以使用Android Device Monitor查看对应的进程名称和ID。LogCat显示出App输出的调试日志。
    参考文章:
    [1]http://t.cn/8kihwA1
    [2]http://t.cn/RVTcBUH
    附adb和mprop百度网盘分享链接:http://t.cn/RVTcBUQ

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-25 09:21:38
    【技巧】如何下载到某Apk的历史版本(你懂的)?
    1)在http://t.cn/zWO96yA上搜索该APP。2)进入APK详情页,点击版本标签后面的“更多版本 »”即可看到网站收录的所有历史版本,选择需要的版本下载即可。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-24 16:21:24
    【有图有真相】一大早收到客户质疑,说是发现之前(6个月前)采集的某网站的数据有问题,和网站上的信息不一致。经过我们技术人员检查,发现是因为网站信息更新了,而不是我们采集错误了。有图为证。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-19 14:00:03
    有几万个网页需要转成Word文档,试了Pandoc HTML格式转WORD(docx),效果很赞!
    "C:\Program Files (x86)\Pandoc\pandoc.exe" -o ouput.docx input.html
    附Pandoc下载地址(pandoc-1.17.2-windows.msi):http://t.cn/RVSR7Ne(百度网盘分享) ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-17 14:51:31
    squid external_acl_type介绍,及后台程序编写示例 >>> http://t.cn/RViEIWl ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-14 08:39:53
    实测winpdb远程Python调试
    Winpdb - A Platform Independent Python Debugger -> http://t.cn/RVVoPSF ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-13 15:11:03
    转发两篇讲”SSH隧道应用(本地端口转发和远程端口转发)"非常赞(清晰、通俗)的文章:
    1. SSH Tunnel - Local and Remote Port Forwarding Explained With Examples >>> http://t.cn/RwqSpqk
    2. SSH port forwarding visualized >>> http://t.cn/RwYtXZ3
    特别要赞一下第二篇的配图。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-13 09:47:33
    谷歌的DNS-over-HTTPS(Public DNS)服务介绍 >>> http://t.cn/RVqHOgK
    顺便赞一下JSONovich这个插件! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-13 09:29:10
    Run a shell script as another user that has no password(如何用其它用户身份运行一个程序):
    sudo -H -u otheruser bash -c 'echo "I am $USER, with uid $UID"'
    >>> http://t.cn/RVtXWrY ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-12 15:23:41
    用Python脚本打造Squid权限认证后端程序以及Squid3.5 auth_param key_extras新特性介绍 >>> http://t.cn/RV5zS9q ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-10-11 16:45:53
    经过DoSWF加密过的SWF文件无法直接反编译(看不到核心代码)突破方法:利用FFDec(JPEXS Free Flash Decompiler)的“搜索内存中的SWF”功能,载入“真实的SWF”就可以绕过加密成功反编译! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-09-30 11:40:33
    360前端库(fonts.useso.com)罢工,导致数据超市(http://t.cn/Rzc0P1q使用Wordpress系统)页面加载缓慢。
    1)搜索所有使用fonts.useso.com的文件:find ./ -type f -name "*.php" | xargs grep "fonts.useso.com"。
    2)替换fonts.useso.com为fonts.googleapis.com。
    问题解决。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-09-27 15:04:22
    关键词列表中的注释行判断失效了line.startswith('#'),导致采集到一些无效的淘宝数据。
    经查又是UTF-8 BOM惹的货! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2016-09-26 08:47:18
    国内知名本地生活信息平台2600万商户数据(201609更新,含经纬度、评分、均价等所有价值信息) >>> http://t.cn/RcE8zyf ​​​​

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。