The Blog of ZhengHeng

Impala表使用Parquet文件格式

参考官方文档。准备了一个 427144792 行的 textfile 格式表 t_item： [impale-host:21000] > select count(1) from t_item; Query: select count(1) from t_item + »

趁今天放假给博客换上了 https 。 HTTPS 免费证书我选择了 Let's Encrypt ，不但免费，还靠谱、方便部署。 Let's Encrypt 推荐使用 Certbot 进行部署：安装 certbot $ sudo add-apt-repository ppa:c »

今天前端给我提了个测试环境用的语音静态服务器的需求： mp3 文件的上传和下载上传成功后返回唯一的文件标识符 (文件 id ) 上传和下载用 Nginx 都比较简单，问题是返回唯一的文件 id 这里。看来要想快速搞定，只能用上 OpenResty 了。文件的上传有个 rest »

一开始需求是找到一个目录中最底层的目录，比如说： dir ├── a.txt └── sdir1 ├── aa.txt └── sdir2 └── aaa.txt 2 directories, 3 files 上面这个 dir 目录，最底层 »

Bosun 提供了自己的 Dashboard 页面，但是我们基本上都是用 LOG 模式，即告警不显示在页面上，而是如果该告警没有消除，则一直会操作 action (即会持续发送告警)。当时这么做的原因是，Bosun 的 Dashboard 页面，其实一般的告警接受者很少上去，界面 »

写在前面我抓取了拉勾网一个月内发布的职位关键字为运维，地区为广州的 282 个招聘需求信息，并在此基础上做了一些图表分析。纯为技术研究，没别的意思，领导和 HR 看了不要找我聊天。不喜看脚本的，可直接拉到下方看图。数据抓取拉勾网的前端非常工整，招聘信息无需登 »

最近在看《 Python 网络数据采集》，其中有一章是自然语言处理，讲到了根据文本分析生成一个马尔可夫链，然后根据马尔科夫链来生成一篇看上去像是人写的文章。其实具体来说就是生成下面这样的字典： { 'word_a': {'word_b': 3, 'word_c': 6, »

今天无意中发现了一个好玩的东西，发现 Google 提供了图像识别的 API 接口：官方文档。不过在国内要使用 Google 的服务，你懂的。不截图了，应该能看懂，看不懂请 Google。首先需要准备好一张国际通用的 VISA 信用卡（亲测过另外一张万事达卡在绑定时提示不受 »

好久没有写过比较复杂的 awk 命令了，今天刚好遇到了一个实际问题，简单记录下。日志文件的内容格式如下： <965> : 2017-02-20 10:16:46 1.1.1.2 <965> : 2017-02-20 10:16:57 1. »

这两年人工智能火得一塌糊涂。微信公众号、技术APP等推送了好多 google 开源的 tensorflow 的内容。这两天接触了 tensorflow ，跟着网上的资料跑了下程序，发现真的是使用门槛超低，方便我这种数学没学好、人工智能零基础的学渣应用深度学习。安装在我的 M »