我抓取了1508天的广州市菜价数据
这两天发现了一个广州市全市菜篮子平价零售价信息的网页,该页面最早的记录日期是 2012-12-19 ,可以用来做数据抓取测试。 页面抓取和提取 网页格式 <tr> <td class='null'>冻排骨<a href="javascript:s »
这两天发现了一个广州市全市菜篮子平价零售价信息的网页,该页面最早的记录日期是 2012-12-19 ,可以用来做数据抓取测试。 页面抓取和提取 网页格式 <tr> <td class='null'>冻排骨<a href="javascript:s »
需求 最近我司后台部门太忙了,以至于运营同学和测试同学都需要自学SQL自行查询数据库。 我们的大数据数据是用impala来查询的,Cloudera的Hue是一个专门用来分析Hadoop数据的Web UI。界面是这样的: 想开放这个页面供运营和测试同学去自行查询数据库,但很不幸的, »
简介 出于某些业务上的原因,每隔半年就要从我们的相当多数量的MySQL服务器上导出数据。虽然有salt等批量工具,但是每次导出都比较烦,写脚本、发送到各个机器、执行导出、检查导出结果、查漏补缺等等。因此写了个通用的导出脚本,将需要导出的表名和需要导出的时间段分离出来,作为参数传入 »
发现了一个可以发送MySQL binlog到Hadoop的项目:maxwell Maxwell安装和部署 二进制文件,参考官方文档QuickStart即可。 启动Maxwell bin/maxwell --user='aaaa' --password='bbbb' --host= »
前言 bosun可以使用elasticsearch作为数据源,还提供了许多操作elasticsearch的函数,可以非常方便地设置预警。相比之前需要自己写个elasticsearch的python接口,然后写脚本进行各种预警,bosun真是平台化了elasticsearch预警。 »
记录下自己写的一个小工具,专门用来在一台机器上向另外N台机器并发执行ssh命令或者scp拷贝命令。 在很多运维工作中,都涉及到在海量机器重复执行某些命令或者脚本。当然了,saltstack、ansible肯定能更好地完成任务。不过,在我这个任务中,只有7台机器,装saltstac »
最简单的goroutine例子 最简单的例子就是直接在main函数中使用go语句生成一个独立的goroutine,如下: package main import "fmt" func main() { go fmt.Println("another goroutine »
selenium selenium是一个用于Web应用程序测试的工具。selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。 phantomjs phantomjs是一个服务器端的JavaScrip »
最近简单学习了如何在CDH5上搭建flume和kafka,在这篇文章里记录下。 添加服务 我目前在使用的CDH版本是5.3.9,flume 直接可以在CDH上添加服务,非常简单,具体可见官网的文档。而kafka 则相对比较麻烦点,需要下载kafka的服务描述jar包: # 在cl »
写这个文章只是记录下如何在requests里使用socks5代理。主要是为了使用shadowsocks,其实还有proxychain4可以在命令行下面使用,不过写python脚本的话,还是用requests比较方便。 首先是需要升级(或安装)支持SOCKS协议代理的request »