-
CentOS安装Hadoop
系统环境下载软件: (1)JDK (2)Hadoop (3)MySQL (4)Hive (5)HBase (6)Zookeeper1、服务器配置(1)修改主机名将192.168.13.1、192.168.13.2 和 192.168.13.3 这三台机器分别命名为hadoop-master、hadoop-slave1 和 hadoop-slave2。1) 修改/etc/sysconfig/network文件修改HOSTNAME=localhost.localdomain为HOS...…
-
使用Kettle导入Excel数据
ETL(Extraction, Transformation, and Loading),在日常的工作中我们经常会遇到各种数据的处理,转换,迁移。比如将Excel的数据导入到数据库,将SQLServer里面的数据转换后存到Oracle,将数据库的数据提取到文本等。最开始都是使用写代码然后进行处理,多了几次之后就觉得麻烦了。后来了解到Kettle这个工具,首先无需安装直接就能使用,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转...…
-
使用Dockerfile构建Docker镜像
Docker中有个非常重要的概念叫做——镜像(Image)。Docker 镜像是一个特殊的文件系统,除了提供容器运行时所需的程序、库、资源、配置等文件外,还包含了一些为运行时准备的一些配置参数(如匿名卷、环境变量、用户等)。镜像不包含任何动态数据,其内容在构建之后也不会被改变。镜像的定制实际上就是定制每一层所添加的配置、文件。如果我们可以把每一层修改、安装、构建、操作的命令都写入一个脚本,用这个脚本来构建、定制镜像,那么之前提及的无法重复的问题、镜像构建透明性的问题、体积的问题就都会解决。...…
-
Maven私有库Nexus的安装和使用
在进行Java开发的时候,通常会使用Maven进行第三方库的管理,类似于iOS中的Cocoapods。我们在使用Cocoapods的时候都感受过更新索引库Specs的痛苦,使用Maven的时候依赖库也是从中央库(Central Repository)下载,速度可想而知会很慢。另外如果我们内部开发了一些基础的工具库,又不太方便托管到Central Repository的时候怎么办呢?参考Cocoapods我们可以搭建内部的私有库来解决这些问题。Nexus 是Maven仓库管理器,如果你使用M...…
-
CentOS安装Docker
之前写过一篇关于在Mac上面使用并安装Docker的文章《Mac上Docker的安装和使用初探》,介绍了在Macos上面安装Docker的步骤。近期由于需要在一台CentOS 6.5的服务器上面部署一些服务,考虑到使用Docker来做这些事情,记录一下处理的步骤。检查内核版本uname -r如果输出的信息为2.6.32-431.el6.centos.plus.x86_64,表示当前的内核版本是2.6.32。docker需要的内核版本是3.10,所以需要升级Linux的内核,升级的步骤如下:...…
-
iOS中使用Tesseract提取身份证号码
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。通俗来说就是通过对图像进行处理提取裁剪出来有字符的区域然后对字符进行识别翻译成文字。上面的图片是来自于Baidu的在线OCR识别。本文是基于tesseract-ocr(Tesseract是一个开源的OCR引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持包括中文在...…
-
Eclipse无法正常启动Tomcat项目解决办法
以前一直使用 MyEclipse 开发 JavaEE 项目,实在是太卡了,近期将之前的项目全部迁移到了 Eclipse 上面。一段时间内都好好的,这两天突然发现启动 Tomcat 不正常了,具体表现如下:(1)Tomcat 在 Eclipse 里面能正常启动,但在浏览器中访问http://localhost:8080/报404错误。也就是说 Tomcat 启动了但是里面部署的 web 项目没有启动。(2)关闭 Eclipse 里面的 Tomcat,在 Tomcat 安装目录下双击start...…
-
Jersey整合Swagger自动生成API文档
之前写过一篇文章《使用Jersey开发REST服务》,里面简单介绍了使用Jersey来快速创建REST的API服务。REST API都是要对外提供服务的,那么文档是必须的。经常要给其他人员提供文档,每次都是要不断的维护word/excel的文件,挺麻烦的。能不能做到自动生成呢?答案是可以的,swagger就是这样的一个组件帮助我们快速生成,让开发人员只需要关注功能的开发即可,后续的工作就交给Swagger就好了。下面简单介绍下如何在Jersey的项目中集成Swagger。1、pom.xml...…
-
Windows环境下OpenSSL的编译和使用
OpenSSL是目前使用的非常广泛的加密算法库,基本上我们日常使用到的HTTPS、SSH都离不开它的身影。本文就在Windows环境下面编译最新版本的OpenSSL的步骤进行整理。编译OpenSSL1.编译环境准备(1) perlOpenSSL的编译需要使用到perl的环境,如果之前安装过可以跳过此步骤。1) 下载perl安装包根据操作系统的版本下载对应最新版本的perl(当前最新的版本是5.22.3.2204),下载地址是:https://www.activestate.com/acti...…
-
使用Jersey开发REST服务
REST 是英文 Representational State Transfer 的缩写,有中文翻译为“表述性状态转移”。REST 这个术语是由 Roy Fielding 在他的博士论文 《 Architectural Styles and the Design of Network-based Software Architectures 》中提出的。REST 并非标准,而是一种开发 Web 应用的架构风格,可以将其理解为一种设计模式。REST 基于 HTTP,URI,以及 XML 这些...…