Impala表使用Parquet文件格式
参考官方文档。 准备了一个 427144792 行的 textfile 格式表 t_item: [impale-host:21000] > select count(1) from t_item; Query: select count(1) from t_item + »
参考官方文档。 准备了一个 427144792 行的 textfile 格式表 t_item: [impale-host:21000] > select count(1) from t_item; Query: select count(1) from t_item + »
趁今天放假给博客换上了 https 。 HTTPS 免费证书我选择了 Let's Encrypt ,不但免费,还靠谱、方便部署。 Let's Encrypt 推荐使用 Certbot 进行部署: 安装 certbot $ sudo add-apt-repository ppa:c »
今天前端给我提了个测试环境用的语音静态服务器的需求: mp3 文件的上传和下载 上传成功后返回唯一的文件标识符 (文件 id ) 上传和下载用 Nginx 都比较简单,问题是返回唯一的文件 id 这里。看来要想快速搞定,只能用上 OpenResty 了。 文件的上传有个 rest »
一开始需求是找到一个目录中最底层的目录,比如说: dir ├── a.txt └── sdir1 ├── aa.txt └── sdir2 └── aaa.txt 2 directories, 3 files 上面这个 dir 目录,最底层 »
Bosun 提供了自己的 Dashboard 页面,但是我们基本上都是用 LOG 模式,即告警不显示在页面上,而是如果该告警没有消除,则一直会操作 action (即会持续发送告警)。当时这么做的原因是,Bosun 的 Dashboard 页面,其实一般的告警接受者很少上去,界面 »
写在前面 我抓取了 拉勾网 一个月内发布的职位关键字为 运维 ,地区为 广州 的 282 个招聘需求信息,并在此基础上做了一些图表分析。 纯为技术研究,没别的意思,领导和 HR 看了不要找我聊天。 不喜看脚本的,可直接拉到下方看图。 数据抓取 拉勾网的前端非常工整,招聘信息无需登 »
最近在看《 Python 网络数据采集》,其中有一章是自然语言处理,讲到了根据文本分析生成一个马尔可夫链,然后根据马尔科夫链来生成一篇看上去像是人写的文章。 其实具体来说就是生成下面这样的字典: { 'word_a': {'word_b': 3, 'word_c': 6, »
今天无意中发现了一个好玩的东西,发现 Google 提供了图像识别的 API 接口:官方文档。 不过在国内要使用 Google 的服务,你懂的。 不截图了,应该能看懂,看不懂请 Google。 首先需要准备好一张国际通用的 VISA 信用卡(亲测过另外一张万事达卡在绑定时提示不受 »
好久没有写过比较复杂的 awk 命令了,今天刚好遇到了一个实际问题,简单记录下。 日志文件的内容格式如下: <965> : 2017-02-20 10:16:46 1.1.1.2 <965> : 2017-02-20 10:16:57 1. »
这两年人工智能火得一塌糊涂。微信公众号、技术APP等推送了好多 google 开源的 tensorflow 的内容。 这两天接触了 tensorflow ,跟着网上的资料跑了下程序,发现真的是使用门槛超低,方便我这种数学没学好、人工智能零基础的学渣应用深度学习。 安装 在我的 M »