自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

光于前裕于后的博客

记录一下新学知识,如有侵权请告知

原创 大数据平台作业智能诊断/管理组件之Apache Eagle

源码见:https://github.com/apache/eagle 官方文档见:http://eagle.apache.org/docs/latest 目录前言一、Apache Eagle 介绍二、Quick StartInstallationBuild EagleDeploy Eagle三、...

2020-11-23 14:59:19 155 2

原创 大数据平台作业智能诊断/管理组件之Dr.Elephant

源码及官方文档见:https://github.com/linkedin/dr-elephant 目录前言一、Dr.Elephant 介绍二、Quick Setup Instructions三、遇到的问题 前言 随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来...

2020-11-23 14:32:44 56 0

原创 基于Docker从零搭建Prometheus+Grafana

环境版本:Ubuntu Kylin 20.04 目录1 安装docker2 拉取相关镜像3 node exporter3.1 start node exporter3.2 查看端口91003.3 访问url4 prometheus4.1 编辑prometheus.yml4.2 start pro...

2020-10-09 11:31:25 1112 6

原创 基于Spark MLlib和Spark Streaming实现准实时分类

环境版本: ·Spark 2.0 ·Scala 2.11.8   在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有,我很疑惑,难道实现准实时预测有别的更合理的方式?望大佬在评论区指出。本篇博客思路很简单,使用Spark MLlib训练并保存模型,然后编写Spa...

2020-05-21 10:55:27 300 0

原创 HBase 1.1.2 REST API 初体验

环境版本: ·HDP 2.5.3 ·HBase 1.1.2 HBase提供了REST API,为开发者增加了更多选择。我们可以使用HBase REST API对表进行增删改查,但本篇博客主要使用查询功能。 请注意HBase版本! 请注意HBase版本! 请注意HBase版本! 1 启动HBas...

2020-05-13 11:28:36 825 1

原创 基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive

环境版本: HDP-2.5.3 注意:HDP中Kafka broker的端口是6667,不是9092 前言 有两种方式可以将数据通过flume导入hive中,一是直接sink到hive中,二是sink到hdfs中,然后在hive中建个外部表。

2019-11-05 15:45:05 696 0

原创 使用Sqoop将SQL Server视图中数据导入Hive

环境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012 文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on ...

2019-10-30 21:57:30 1205 1

原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用

文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell 1 Hive [root@hqc-test-hdp1 ~]# su hdfs [hdfs@hqc-test-hdp1 root]$ cd # 准备数据 [hdfs@hqc-test-hdp1 ~]$ vim p...

2019-10-29 09:35:39 436 0

原创 “联创黔线”杯大数据应用创新大赛

文章目录赛题介绍代码1 特征工程1.1 正样本1.2 负样本2 建模3 预测3.1 测试集4 提交结果0 查看数据0.1 训练数据0.1.1 正样本0.1.2 负样本0.1.3 天气数据0.2 测试数据0.2.1 测试集0.2.2 天气数据 赛题地址:https://www.kesci.com/h...

2019-07-31 18:59:12 1668 0

原创 搭建CNN识别你的猫猫狗狗

本文为Udacity优达学城深度学习课程笔记第三篇,使用图像增强对猫狗图像进行分类。 课程地址:https://classroom.udacity.com/courses/ud187 最终目的是训练CNN模型,使其能识别上面的小狗狗是小狗狗。可能遇到的问题有过拟合、输入图像的尺寸不一,不过不用担...

2019-05-29 14:45:49 1010 2

原创 2019JDATA用户对品类下店铺的购买预测(机器学习一般步骤总结)

文章目录赛题介绍建模流程1.查看分析数据2.数据清洗3.构造数据集(特征工程)4.特征选择5.模型选择6.参数选择7.模型训练与测试8.模型融合 赛题介绍 赛题网址:https://jdata.jd.com/html/detail.html?id=8 赛题背景 京东零售集团坚持“以信赖为基础、以...

2019-05-26 16:52:20 3206 3

原创 使用Keras搭建CNN-MNIST 手写数字 Dataset

import tensorflow as tf F:\Anaconda3\envs\tensorflow-gpu\lib\site-packages\h5py\__init__.py:36: FutureWarning: Conversion of the second argument of ...

2019-04-18 11:39:36 524 0

原创 使用TF1.12搭建CNN-Fashion MNIST Dataset

import tensorflow as tf tf.enable_eager_execution() from tensorflow import keras import numpy as np import matplotlib.pyplot as plt import os impor...

2019-04-18 11:29:28 606 0

原创 工业大数据介绍

一、工业大数据的定义 工业大数据是指在工业领域,主要通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出新型的基于数据驱动的工业信息化技术及其应用。 二、工业大数据特点...

2019-03-11 13:09:49 3665 0

原创 Ambari离线安装Solr

Ambari没有集成Solr,但我在github上找到一个解决方案,如果您不需要离线安装可以参考下面链接: https://imaidata.github.io/blog/2017/09/18/%E7%94%A8Ambari%E9%83%A8%E7%BD%B2SOLR/ 1.下载压缩包并解压 ...

2018-09-05 13:08:28 1216 3

原创 使用DataX将Hive与MySQL中的表互导

一、DataX简介(摘自https://github.com/alibaba/DataX) DataX Features DataX详细介绍 Quick Start Support Data Channels 二、开始正文 备注: 1.可能会遇到的错误 2.MysqlWriter 针对 M...

2018-08-30 15:25:44 13684 5

原创 使用Spark/Java读取已开启Kerberos认证的HBase

1.赋予drguo用户相应的权限 2.KDC中创建drguo用户并导出相应的keytab文件 [root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin@AISINO.COM with passwo...

2018-07-18 14:10:42 2288 0

原创 CentOS7完全离线安装配置NTP、MySQL

NTP及依赖 rpm包下载: MySQL及依赖 rpm包下载: NTP安装 # 修改系统时间 [root@10-121-2-96 opt]# timedatectl set-ntp no [root@10-121-2-96 opt]# timedatectl set-time &...

2018-07-05 16:01:43 6348 4

原创 CDH集群启用Kerberos

一、安装kdc 1.在集群中找台机器安装KDC yum install krb5-server krb5-libs krb5-workstation 如果您的机器不能联网请使用rpm包安装: 这台机器自带了kerberos client的两个包,需要先升级再安装server [roo...

2018-06-14 13:39:34 992 0

原创 使用Keras实现多层前馈神经网络对Iris(鸢尾花卉)数据集进行多分类

Keras优点多多,搭建模型快实现简单,不过建议了解神经网络基本原理后再用。 backend建议用TensorFlow,比Theano快很多。 from sklearn.datasets import load_iris from sklearn.mode...

2018-04-16 20:37:59 4983 6

原创 使用python获取pdf上的文字(in win10)

环境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路:1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件(准确率更高...

2018-03-17 22:09:25 6488 2

原创 SolrCloud Collection 创建

环境版本: CDH 5.12.0; Solr 4.10.3

2017-11-29 19:38:18 3108 8

原创 Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)

环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0

2017-11-21 21:08:00 761 5

原创 Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)

所用数据:http://download.csdn.net/download/dr_guo/9946656 环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7

2017-08-23 15:30:45 3660 0

原创 Spark 分层抽样与求最大值最小值

详见注释 package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.n...

2017-08-21 16:05:38 2796 0

原创 Spark处理XML文件与XLSX/XLS文件

方法有很多,现提供一种比较简单的方法。

2017-08-18 17:29:43 9468 1

原创 Oracle表空间释放与增加表空间大小

1.drop表后并没有释放磁盘空间,这时可以通过缩小表空间释放磁盘存储注:一个表空间可以有多个datafile查看所有的datafile,找到你要缩小的datafile select file#, name from v$datafile 从上面获得要缩小的文件id是4,查看此文件有多少个bloc...

2017-04-20 10:35:28 7596 3

原创 Ranger用户同步于LDAP

LDAP[root@hdp certs]# ldapsearch -x -b "dc=wondersoft,dc=cn" 。。。 # trust admins, groups, accounts, wondersoft.cn dn: cn=trust admins,cn=gro...

2017-02-22 14:47:58 4389 5

原创 Ambari安装freeIPA

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5 freeIPA包含了Kerberos、ldap等服务,经调研感觉可以用它来做认证和统一用户管理,用户都存在freeIPA的ldap中。

2017-02-22 11:38:30 5009 9

原创 Kerberos与Ranger、KMS整合

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5 1.之前用的是HDP2.4,装上Kerberos后Ranger的策略就失效了,KMS对秘钥也无法管理(WEB端),总感觉是因为哪里没配置好,但装装卸卸好多遍还是不行。http://docs.hortonworks.com/H...

2017-02-07 11:56:15 6200 4

原创 使用Ambari给HDP集群安装Kerberos

环境:Amabri 2.2.2、HDP 2.4.2、CentOS 6.5

2016-12-09 10:28:05 7382 25

原创 Hadoop单机、伪分布式集群搭建(十分详细)

要搭建Hadoop HA集群请戳这 今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。 下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。 ...

2016-11-25 17:15:34 18026 5

原创 异常用户发现(Spark MLlib+Spark SQL+DataFrame)

整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。

2016-11-25 16:47:31 3349 0

原创 Spark MLlib RandomForest(随机森林)建模与预测

我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下...

2016-11-21 12:03:57 7428 4

原创 用R语言对高维数据进行降维聚类展示

【为什么要降维】 *维数灾难:在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义:克服维数灾难,获取本质特征,节省存储空间,去除无用噪声,实现数据可视化 强烈推荐几篇博客: https://www.douban.com/note/4...

2016-10-26 12:22:29 9579 3

原创 Mahout K-Means输出结果解析

怎么使用Mahout做聚类有空我会专门写的,这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9,数据没做归一化、标准化,只是为了测试。输出目录下有clusteredPoints、cluster-x、cluster-(x+1)-final等几个文件夹,x表示第x次迭代,每次的...

2016-10-19 17:12:09 3645 0

原创 Flume常见错误整理(持续更新ing...)

进来看!

2016-08-12 17:46:10 18946 0

原创 使用Flume向HDFS持久化数据(日志)

1.去官网下载Flume(使用Flume需安装jdk1.6以上版本) 2.解压后进入其根目录新建checkpoint和dataDi目录 3.进入conf目录,新建hdfs_sink.confagent.sources = r1 agent.channels = c1 agent.sinks =...

2016-08-05 17:00:43 1433 0

原创 Hadoop与MongoDB整合(Hive篇)

1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for H...

2016-06-17 11:33:30 26738 10

原创 用R进行多元线性回归分析建模

概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

2016-05-31 22:20:37 45294 2

提示
确定要删除当前文章?
取消 删除