更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲之鹏
陕西 西安

加关注

  • 【经验分享】如何获取我查查App当前所选城市?
    adb pull /data/data/com.wochacha/shared_prefs/com.wochacha_preferences.xml ./com.wochacha_preferences.xml
    然后读取"SelectedCityName"属性。如图所示。 ​​​​
    发布时间:2019-01-18 14:09:15
  • 拼多多商品ID采集:Selenium + Mitmproxy ​​​​
    发布时间:2019-01-18 12:39:59
  • 【经验分享】SSH本地端口映射。场景如下:
    某Linux母机下有多台KVM虚拟机,虚拟机的VNC只开放了127.0.0.1的访问权限。如何远程连接这些VNC端口呢?

    可以使用SSH本地端口映射实现,在本地机执行如下命令:
    ssh -L 127.0.0.1:5901:127.0.0.1:5901 user@ip-of-linux-host
    解释一下:监听本地5901端口,将5901端口的连接重定向到ip-of-linux-host主机的127.0.0.1:5901端口。
    发布时间:2019-01-16 12:01:25
  • 【经验分享】KVM调整磁盘大小:
    1. 查看原磁盘大小。
    qemu-img info win7.img
    如图是80G。

    2. 增加10G。
    sudo qemu-img resize win7.img +10G

    3. 查看增加后的磁盘大小。
    qemu-img info win7.img
    如果是90G。

    4. 重启虚拟机,进入虚拟机磁盘管理再确认下。
    如图2所示,多了一个10GB的空闲分区。可以新建一个分区,也可以使用磁盘扩展将其合并到C盘。

    如果想要扩展指的分区的大小,可以使用virt-resize,具体请参考该文章:https://mike42.me/blog/how-to-resize-a-windows-vm-image-with-virt-resize
    发布时间:2019-01-16 11:37:01
  • 美团外卖菜品/商品月销量属性确定可以抓取(如图所示) ​​​​
    发布时间:2019-01-10 15:30:18
  • 【经验分享】KVM在Ubuntu下的安装配置 >>> http://www.site-digger.com/html/articles/20181229/693.html ​​​​
    发布时间:2019-01-09 16:03:18
  • 【经验分享】拼多多列表页商品最大可见数为1000个。
    如何测试Ajax动态分页列表的最大可翻页数?这个文章还是我3年前写的,后来时常用到。
    http://www.site-digger.com/html/articles/20150718/94.html ​​​​
    发布时间:2019-01-03 15:33:16
  • 【经验分享】安卓模拟器中需要先关闭物理键盘,才能正常使用ADB Keyboard。设置方法见附图。 ​​​​
    发布时间:2019-01-02 16:52:26
  • 常见安卓模拟器远程ADB监听端口(如图) ​​​​
    发布时间:2018-12-26 09:49:08
  • 【赞】pywebview是webview组件的轻量级跨平台原生封装,实现利用Web技术开发GUI应用  >>> 项目主页:https://github.com/r0x0r/pywebview  
    说明文档:https://pywebview.flowrl.com/  
    How to build cross platform Desktop GUI based apps with Python and web technologies and frameworks:https://www.techiediaries.com/python/how-to-build-cross-platform-desktop-gui-based-apps-with-python-and-web-technologies-and-frameworks/ ​​​​
    发布时间:2018-12-13 12:27:42
当前位置: 首页 > 公司微博 >
  • 西安鲲之鹏

    发布时间:2017-11-21 10:36:35
    4TB移动硬盘,Ubuntu下fdisk -l看不到,换用 parted -l解决。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-11-21 10:24:06
    基于Ubuntu 14.04版本的鲲鹏拨号服务器定期会死机,syslog日志如截图所示,不得不计划任务定期reboot。16.04版本测试了几个月还没出现死机的情况,后面计划不再使用14.04版本。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-11-03 15:24:37
    【经验分享】“selenium + phantomjs”如何正确退出phantomjs进程?
    背景:程序用使用diver.quit()或driver.close()方法退出phantomjs进程偶尔会失败,出现“OSError: Bad file descriptor”异常。经测如下方法可以有效解决问题:

    import signal

    driver.service.process.send_signal(signal.SIGTERM) # kill the specific phantomjs child proc
    driver.quit()      

    感谢Stackoverflow上的无私分享者 >>> http://t.cn/RlbPiCb http://t.cn/RlbPiCU
    PS:如何在selinum里获取phantomjs进程的ID: driver.service.process.pid
    参见 >>> http://t.cn/RlbPiC4

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-30 22:11:01
    谷歌DNS 8.8.8.8现在貌似故障了,在美国无法解析安居客域名,换用114.114.114.114可以:
    dig @8.8.8.8 www.anjuke.com 查询不到(图1);
    dig @114.114.114.114 www.anjuke.com 能查询到(图2); ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-29 17:49:53
    【实践出真知】山东和苏州两地总结出来的经验:pppd持续出现“No response to 3 echo-requests, Serial link appears to be disconnected"可能是宽带接入设备(Modem)负载太大了! ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-28 21:48:39
    【新品发布】正规IDC机房17万IP代理招租,按流量计费,无带宽和并发限制! 遍布世界57个国家,700台专业服务器,每台1C的IP,共计17万IP。支持按国家筛选!默认自动负载均衡!
    点击查看详情 >>> http://t.cn/R0WMsU2

    国家和IP数量如下表:
    Country IP Count
    Turkey 256
    Canada 512
    Madagascar 2560
    Italy 512
    Czech Republic 256
    Iran (Islamic Republic of) 256
    Hungary 512
    Qatar 256
    Luxembourg 256
    France 256
    Slovakia 256
    Ireland 768
    Hong Kong 256
    Nigeria 768
    Bolivia 2816
    Norway 512
    Bangladesh 256
    Israel 512
    Australia 256
    Indonesia 256
    Jordan 256
    Germany 18688
    Nicaragua 2560
    Belgium 512
    China 512
    Iraq 256
    Philippines 256
    Taiwan 256
    Spain 512
    Ukraine 256
    Netherlands 512
    Denmark 512
    Poland 256
    Finland 768
    Saudi Arabia 256
    United States 83712
    Sweden 768
    Vietnam 256
    Kenya 256
    Switzerland 768
    New Zealand 256
    Russia 768
    Brazil 512
    Bulgaria 256
    Romania 512
    Portugal 512
    Mexico 256
    United Arab Emirates 256
    India 50688
    United Kingdom 6144
    Malaysia 256
    Austria 768
    Congo 2560
    Greece 512
    Japan 512
    South Korea 256
    Cyprus 256

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:56:59
    淘宝外卖(口碑外卖)全国所有城市商户数据2017年9月底更新(62.8万家)。2017年9月底更新。含店招、营业执照和餐饮服务许可证图片文件。 >>> http://t.cn/R0oybU9 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-27 09:55:35
    是谁把我的7777端口占用了? lsof  -i:7777 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 21:32:57
    成功绕过淘宝(口碑)外卖签名机制,顺利拿到Ajax返回数据。
    PS:常规模拟浏览器方法无效,需结合抓包。 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 11:34:07
    Firefox历史版本下载地址:http://t.cn/Rbu2y44
    PS:slimerjs支持Firefox from 38.0 to 52.0. ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-22 10:06:04
    【无关技术】更多的时候是做一个运维,看着爬虫输出的信息越快越开心 L西安鲲之鹏的微博视频 ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-20 17:23:31
    【经验分享】Chrome V55以后不支持设置页面编码了(不信你试试看)。不过,这货(Set Character Encoding插件)可以帮你实现。 http://t.cn/RaIDInW ​​​​

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-09-14 15:10:39
    【经验分享】由于项目需要在Linux Server下将近千万个word文档(*.doc)转换为文本格式(html或txt),经测试效果最好的方法是使用LibreOffice的命令行工具。

    安装:
    sudo apt-get purge libreoffice-core
    sudo add-apt-repository -y ppa:libreoffice/ppa
    sudo apt-get update
    sudo apt-get install libreoffice

    doc转txt示例:
    soffice --headless --convert-to txt test.doc

    doc转html示例:
    soffice --headless --convert-to html test.doc

    关于convert-to参数的更多说明见这里 >>> http://t.cn/RVGwrbi

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-17 09:55:51
    搜房网(房天下)全国新房楼盘+二手房小区数据2017年07月份更新(“小区名称”,”城市”,”小区地址”,”项目特色”,”所属区域”,”邮编”,”产权描述”,”物业类别”,”竣工时间”,”开发商”,”建筑结构”,”建筑类别”,”建筑面积”,”占地面积”,”当期户数”,”总户数”,”绿化率”,”容积率”,”物业费”,”停车位”,”开盘时间”,”交房时间”,”小区简介”,”交通状况”,”周边信息”,”经度”,”纬度”,”物业公司”,”价格”,”页面链接”,”地图链接”,”区县”,”商 圈”,”装修情况”,”物业地址”,”入住时间”,”物业类型”,”环比上月”,”详情页链接”,”新房/二手房”,”newcode”) >>> 示例数据:http://t.cn/RCZcOAe

    阅读全文 +

  • 西安鲲之鹏

    发布时间:2017-08-10 16:03:33
    【经验分享】利用Fiddler2的Custom Rules自动抓取App的TOKEN并记录到文件 >>> http://t.cn/R9RdWc3 ​​​​

    阅读全文 +

QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。