andyguan01_2的博客_CSDN博客-linux,hadoop,oracle领域博主知识图谱

andyguan01_2的博客_CSDN博客-linux,hadoop,oracle领域博主

本站和网页 https://blog.csdn.net/andyguan01_2/article/list/2 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

andyguan01_2的博客_CSDN博客-linux,hadoop,oracle领域博主
自定义博客皮肤VIP专享
*博客头图：
点击选择上传的图片
格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图
请上传大于1920*100像素的图片！
博客底图：
点击选择上传的图片
图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景
栏目图：
点击选择上传的图片
图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB
主标题颜色：
RGB颜色，例如：#AFAFAF
Hover：
RGB颜色，例如：#AFAFAF
副标题颜色：
RGB颜色，例如：#AFAFAF
预览
取消
提交
自定义博客皮肤
-+
上一步保存
andyguan01_2的博客
博客(127)
资源 (7)
收藏
关注
只看原创
排序：
按最后发布时间
按访问量
RSS订阅
原创
MapReduce任务的推测执行
MapReduce模型将作业分解成任务，然后并行地运行任务以使作业的整体执行时间少于各个任务顺序执行的时间。这使作业执行时间对于运行缓慢的任务很敏感，因为只运行一个缓慢的任务会使整个作业所用的时间远远长于执行其他任务的时间。当一个作业由几百或几千个任务组成时，可能出现少数“拖后腿”的任务，这是很常见的。任务执行缓慢可能有多种原因，包括硬件老化或软件配置错误，但是，检测具体原因很困难，因为任务总能...
2019-04-23 14:35:23
993
原创
MapReduce的Uber运行模式
Uber模式可以简单理解成JVM重用，该模式是2.x开始引入的。以Uber模式运行MR作业，所有的Map Tasks和Reduce Tasks将会在ApplicationMaster所在的容器（container）中运行，也就是说整个MR作业运行的过程只会启动AM container，因为不需要启动mapper和reducer containers，所以AM不需要和远程containers通信，整...
2019-04-23 13:53:30
458
原创
MapReduce中的shuffle和排序
MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle。在此，我们将学习shuffle是如何工作的，因为它有助于我们理解工作机制（如果需要优化MapReduce程序）。shuffle属于不断被优化和改进的代码库的一部分，因此下面的描述有必要隐藏一些细节（也可能随时间而改变，目前是0.20版本）。从许多方面看，shu...
2019-04-23 12:17:44
1963
原创
探讨MapReduce失败的几种情形
在现实情况中，程序运行可能遇到各种故障：用户代码错误不断、进程崩溃、机器故障等等。使用Hadoop最主要的好处之一是它能处理此类故障并让你能够成功完成作业。五门需要考虑以下实体的失败：任务、application master、节点管理器和资源管理器。1、任务运行失败首先考虑任务失败的情况。最常见的情况是map任务或reduce任务中的用户代码抛出运行异常。如果发生这种情况，任务JVM会在退出...
2019-04-22 17:55:55
2386
原创
计算机中“×××对用户是透明的”含义
在计算机中，如果从某个角度看不到某特性，则称该特性是透明的。例如，计算机组织对程序员是透明的，是指计算机组织对程序员来说是看不到的，也不需要看到的。这个意义上的“透明”与社会生活中的透明含义恰好相反，生活中使用的“透明”，绝大部分意思是说某个事物公开，可以窥探到里面的秘密。...
2019-04-22 17:23:22
3024
原创
MapReduce作业运行机制
MapReduce的整个过程如下图所示：在最高层有5个独立实体：1）客户端：提交MapReduce作业。2）Yarn资源管理器：负责协调集群上计算机资源的分配。3）Yarn节点管理器：负责启动和监视集群中机器上的计算容器（container）。4）MapReduce的application master：负责协调运行MapReduce作业的任务。它和MapReduce任务在容器中运行，...
2019-04-22 11:23:02
824
原创
Neo4j性能优化
我结合实际工作情况，聊一下Neo4j的性能优化。我这里在Neo4j存储了5个节点和5个边，数据量如下： 31530628 nodes 48336920 relationships 77437758 properties Estimated number of nodes: 47.63 M Estimated number of node properties: 110.14 ...
2019-04-19 12:11:21
4723
原创
在Linux安装autoconf-2.69版本
安装某个程序的时候，提示需要安装autoconf-2.69版本。先用yum安装autoconf，提示：包 autoconf-2.63-5.1.el6.noarch 已安装并且是最新版本后面采用以下方法安装autoconf-2.69：1、检查是否有安装autoconf其他版本：rpm -qf /usr/bin/autoconf2、如有安装，则先卸载相应版本，否则不用处理。执行以下命令...
2019-04-18 18:27:43
15221
原创
用Java给Neo4j的节点属性增加索引
我有一个Java程序执行Neo4j的Cypher查询，每取5000条记录需要20几秒，给节点属性增加索引后，时间减少到2秒，速度提升了10倍。以下是给节点属性增加索引的Java代码（Neo4j 3.4.4社区版）：package neo4j;import java.io.File;import java.text.SimpleDateFormat;import java.util.Da...
2019-04-17 15:49:18
1878
原创
修改Linux内核参数vm.swappiness
vm.swappiness的值越大，表示越积极使用swap分区，越小表示越积极使用物理内存。默认值swappiness=60。1、查看：cat /proc/sys/vm/swappiness2、临时调整：sysctl vm.swappiness = 10 cat /proc/sys/vm/swappiness3、永久调整：vi /etc/sysctl.conf 修改vm.sw...
2019-04-15 16:53:47
20733
原创
Linux中的free命令
在Linux中，我们经常用free命令来查看系统内存的使用状态。一、命令free -h二、分析free命令的返回结果有三行：Mem、-/+buffers/cache、Swap，下面逐一了解。1、Mem行各列含义如下：列名含义total内存总量used使用内存free可用内存shared共享内存buffersbuffer缓存，可...
2019-04-11 18:22:37
15985
原创
生成连续日期的shell脚本
生成连续日期的shell脚本：#开始日期begin_date="20180711"#结束日期，这里取昨天end_date=`date -d "-1 day" +%Y%m%d`#循环生成所有需要处理的日期while [ "$begin_date" -le "$end_date" ];do #要处理的日期 proc_date=`date -d "$begin_date"...
2019-04-10 18:15:24
1013
原创
HDFS的数据读取与写入
一、HDFS的数据读取流程1、客户端通过调用FileSystem对象的open()方法来打开希望读取的文件，对于HDFS来说，这个对象是DistributedFileSystem的一个实例；2、DistributedFileSystem通过使用远程过程调用（RPC）来调用NameNode，以确定文件起始块的位置；3、对于每个块，NameNode返回存有该块副本的DataNode地址。此外，...
2019-04-09 19:14:06
2416
原创
Ranger2.0.0安装与Hive权限管理
如要了解Ranger架构，可浏览以下页面：https://blog.csdn.net/andyguan01_2/article/details/88928956一、环境操作系统：CentOS6.9软件版本：Ranger2.0二、安装Ranger2.01、下载源文件从github下载。执行：git clone https://github.com/apache/incubator-r...
2019-04-05 12:53:10
4499
原创
MySQL关闭SSL的方法
1、查看是否开启SSL：SHOW VARIABLES LIKE '%ssl%';看到have_ssl的值为YES，表示已开启SSL。（have_openssl表示是否支持SSL）2、修改配置文件my.cnf，加入以下内容：# disable_sslskip_ssl3、重启MySQL：service mysqld restart4、再查看SSL的开启状态：看到have_s...
2019-04-02 11:12:09
30545
17
原创
在CentOS6.9下单机部署Solr5.5.4
Solr5和Solr4有很大区别，最为明显的就是Solr5已经可以独立部署。从Solr5开始，Solr已经不再以war包形式部署，已经成为一个独立的java服务端应用，包括了start和stop脚本，并支持Unix和Windows平台部署。一、安装并启动1、下载安装包wget http://archive.apache.org/dist/lucene/solr/5.5.4/solr-5.5....
2019-04-01 17:09:16
89
原创
Linux下的源码编译安装过程
源码要运行，必须先转成二进制的机器码，这是编译器的任务。一、编译的具体过程1、配置（configure）编译器在开始工作之前，需要知道当前的系统环境，比如标准库在哪里、软件的安装位置在哪里、需要安装哪些组件等等。这是因为不同计算机的系统环境不一样，通过指定编译参数，编译器就可以灵活适应环境，编译出各种环境都能运行的机器码。这个确定编译参数的步骤，就叫做"配置"（configure）。这些配...
2019-04-01 10:32:23
530
原创
在CentOS用yum方式安装maven
在root用户执行：wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repoyum -y install apache-maven安装完成后，查看maven版本： mvn -version完...
2019-03-31 15:33:19
901
原创
Ranger架构
一、Ranger介绍随着大数据技术生态不断发展壮大，为了抢占企业级市场，各厂商都迭代出自己的一套访问控制体系，不管是老牌系统（比如HDFS、HBase），还是生态新贵（比如Kafka、Alluxio），ACL（Access Control List）支持都是Roadmap里被关注最高的issue之一。在访问控制体系方面，Hadoop两大厂Cloudera和Hortonworks先后发起标准化运...
2019-03-31 14:55:17
995
原创
Hive中的数据倾斜
列举Hive中出现数据倾斜的几种情况：一、没开Map端聚合产生的计算不均衡例如有一张客户表customer，里面存有客户ID（cust_id）和性别（gender），男女各1亿条记录，cust_id没有重复。现在要按性别分组统计记录数：select gender, count(1) from customer group by gender;没开Map端聚合的数据处理流程如下：...
2019-03-29 18:31:15
4302
原创
错误解决：error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file
报错信息是找不到共享库文件libclntsh.so.11.1。首先查找这个文件是否存在：find / -name libclntsh.so.11.1发现文件存在：那问题就在于程序没有找这个文件，解决方法有多种，这里列出其中一种：方法：创建所需共享库文件的软链接。特点：让所有用户生效，并且通用，只要是Linux类型的操作系统，都会去/usr/lib目录下去找共享库。步骤：1、找...
2019-03-28 11:32:00
7814
原创
Hive2.x体系结构
一、Hive服务Hive的shell环境只是hive命令提供的其中一项服务。我们可以在运行时使用–service选项指明要使用哪种服务。键入hive --service help可以获得可用服务列表。下面介绍一些最有用的服务：cli：Hive的命令行接口（shell环境）。这是默认的服务。hiveserver2:让Hive以提供Thrift服务的服务器形式运行，允许用不同语言编写的客户端...
2019-03-25 17:26:18
624
原创
Oracle体系结构-锁
一、什么是锁？锁（lock）机制用于管理对共享资源的并发访问。注意是“共享资源”而不是“数据库行”。Oracle除了会在行级对表数据锁定，还会在其他多个级别上使用锁，从而对多种不同的资源提供并发访问。例如，执行一个存储过程时，过程本身会以某种模式锁定，以允许其他用户执行这个过程，但是不允许另外的用户以任何方式修改这个过程。数据库中使用锁是为了支持对共享资源进行并发访问，与此同时还能提供数据完整性...
2019-03-24 17:02:33
179
原创
Oracle体系结构-概述
一、概念数据库是磁盘上存储的数据集合，实例是一组后台进程和共享内存。实例只能装载并打开一个数据库，数据库可以由一个或多个实例（使用RAC）装载和打开。二、SGA和后台进程1、SGAOracle有一个很大的内存块，称为系统全局区（SGA），做以下工作：a）维护所有进程需要访问的多种内部数据结构；b）缓存磁盘数据，另外重做数据写入磁盘数据前先在这里缓存；c）保存已解析的SQL计划；等...
2019-03-23 17:07:40
171
原创
Hive错误解决：Failed with exception Operation category READ is not supported in state standby
问题描述：通过Azkaban调Sqoop，将Oracle数据导入Hive，报Failed with exception Operation category READ is not supported in state standby错误。Azkaban日志如下：22-03-2019 15:01:14 CST sqoop INFO - Starting job sqoop at 1553238...
2019-03-22 18:18:36
1723
原创
深圳市平均工资（1979-2017）
社保局公布数据：年度年均工资（元）月均工资（元）19797696419809798219811132941982136611419831545129198421791821985241820219862452204198726772231988338828219893858...
2019-03-22 10:53:01
6724
翻译
（翻译）【机器学习微课程系列Level 1】1.3-模型是如何工作的-第一个编码练习
2019-03-21 16:21:06
201
翻译
（翻译）【机器学习微课程系列】1.2-模型是如何工作的-检查数据
使用Pandas熟悉你的数据任何机器学习项目的第一步都是熟悉数据，我们将用Pandas库来做这个。Pandas是科学家用来探索和操纵数据的主要工具，大部分人将它简称为pd。执行以下命令来导入Pandas库：import pandas as pdPandas库重要的部分是数据框架，它保存你可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。Pandas有各种强大的方法...
2019-03-21 11:31:53
182
原创
Hadoop的SecondaryNameNode和HA（高可用）区别
在Hadoop2.0之前，NameNode只有一个，存在单点问题（虽然Hadoop1.0有SecondaryNameNode，CheckPointNode，BuckcupNode这些，但是单点问题依然存在），在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式，一种是NFS（Network File System）方式，另外一种是QJM（Quorum Journal...
2019-03-20 18:37:14
4161
原创
Hadoop2.6.5搭建HA（高可用）
一、环境操作系统：CentOS6.9软件版本：Hadoop2.6.5，Zookeeper3.4.13集群架构：我手上有3台服务器，一台作为主NameNode，一台作为备NameNode和DataNode1，剩下一台作为DataNode2。也就是在3台服务器上面部署一主一备NameNode+两个DataNode。另外，由于JournalNode和ZK都至少为3个，且为奇数个，在3台服务器上面...
2019-03-20 12:28:52
1257
原创
Hadoop2.X系统日志文件
默认情况下，Hadoop2.X生成的系统日志文件存放在$HADOOP_HOME/logs目录，也可通过hadoop-env.sh文件中的HADOOP_LOG_DIR来进行修改。建议修改默认设置，使之独立于Hadoop的安装目录。这样的话，即使Hadoop升级后安装路径发生变化，也不会影响日志文件的位置。运行在各台机器上的各个Hadoop守护进程会产生两类日志文件：1、后缀名为.log是通过l...
2019-03-17 16:50:57
352
原创
Hadoop守护进程
正常启动hadoop后，我们可以在NameNode和DataNode上通过jps命令看到5个守护进程：NameNode、SecondaryNameNode、ResourceManager、DataNode、NodeManager。说明如下：进程名称作用NameNode它是Hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问。SecondaryN...
2019-03-17 12:09:49
739
原创
Hadoop配置文件详解
1、core-site.xml属性含义fs.defaultFS这是一个描述集群中NameNode节点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。样例：hdfs://maste...
2019-03-17 10:55:28
5649
原创
hadoop fs、hadoop dfs与hdfs dfs命令
hadoop fs：fs涉及一个通用文件系统，它可以指向任何文件系统，如local、hdfs等，因此当您处理不同的文件系统（如local fs、hftp fs、s3 fs和其他）时，可以使用它。hadoop dfs：适用于与hdfs相关的操作，已经被命令hdfs dfs替代。hdfs dfs：适用于与hdfs相关的所有操作，建议使用此命令替代hadoop dfs。完毕。...
2019-03-15 18:04:29
594
原创
Hadoop错误解决：Bad connect ack with firstBadLink as ×.×.×.×:50010
问题描述：通过Azkaban调Sqoop，将Oracle数据导入Hive，报Bad connect ack with firstBadLink as ×.×.×.×:50010（×.×.×.×为Hadoop集群其中一个DataNode的IP，我这里隐去了实际值）错误，如下：14-03-2019 15:50:15 CST sqoop INFO - Mar 14, 2019 7:50:15 AM ...
2019-03-15 15:55:38
3129
原创
Linux常用命令汇总
功能命令按文件内容关键字查找文件find / -type f -name “*.py”|xargs grep “关键字”
2019-03-15 10:07:51
98
原创
启动Azkaban报错：java.lang.NoSuchMethodError: com.google.common.collect.ImmutableMap.toImmutableMap
问题描述：启动Azkaban报错：java.lang.NoSuchMethodError:com.google.common.collect.ImmutableMap.toImmutableMap解决方法：从报错信息来看，是找不到toImmutableMap这个方法。首先找到类ImmutableMap对应的Jar包为guava，然后在服务器查找这个Jar包：find / -name "g...
2019-03-08 16:29:53
2246
原创
安装 JAVA CRYPTOGRAPHY EXTENSION (JCE) UNLIMITED STRENGTH
JCE（Java Cryptography Extension）是一组包，它们提供用于加密、密钥生成和协商以及 Message Authentication Code（MAC）算法的框架和实现。它提供对对称、不对称、块和流密码的加密支持，它还支持安全流和密封的对象。它不对外出口，用它开发完成封装后将无法调用。安装JCE步骤：1、打开以下网址，下载JCE压缩包：http://www.or...
2019-03-08 11:14:34
7508
原创
Linux /var/log下各种日志文件
Linux /var/log下各种日志文件：文件说明/var/log/wtmp该日志文件永久记录每个用户登录、注销及系统的启动、停机的事件。因此随着系统正常运行时间的增加，该文件的大小也会越来越大，增加的速度取决于系统用户登录的次数。文件被编码过，必须使用last解析：last -f /var/log/wtmp/var/log/secure安全信息和系统登录与网络连...
2019-03-06 10:51:36
1562
原创
在CentOS6.9找到某进程启动路径的方法
在CentOS6.9找到某进程启动路径的方法：1、找到进程ID我这里是通过top命令，发现有进程占用了大量CPU：top对应进程ID为16448。2、进入/proc目录下以该PID命名的目录中cd /proc/164483、exe链接对应的就是可执行文件的全路经ll从上图可以看到，exe链接对应的可执行文件为/tmp/devtools。完毕。...
2019-03-05 11:43:18
1085
pl/sql developer pl/sql developer工具，绿色免安装，解压后直接使用。
在Tools->Preferences里面配置Oracle Home和OCI library。
2019-02-26
Oracle精简客户端 Oracle精简客户端工具，绿色免安装，配合pl/sql developer使用。
2019-02-26
《Oracle 9i10g编程艺术》主要介绍oracle体系，非常经典的一本书。
2009-09-27
《Oracle触发器与存储过程高级编程》电子版（2/2）《Oracle触发器与存储过程高级编程》电子版，由于单个压缩文件超过20M，所以压缩成了两个包，这是第二个包。
2009-07-24
《Oracle触发器与存储过程高级编程》电子版（1/2）《Oracle触发器与存储过程高级编程》电子版，由于单个压缩文件超过20M，所以压缩成了两个包，这是第一个包。
2009-07-24
一些oracle面试题这是一些oracle面试题，与大家一起分享。
2009-04-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
andyguan01_2
CSDN认证博客专家
CSDN认证企业博客
码龄15年
暂无认证
IP 属地：广东省
IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）
119
原创
3万+
周排名
113万+
总排名
53万+
访问
等级
5642
积分
102
粉丝
227
获赞
94
评论
1032
收藏
私信
关注
热门文章
MySQL关闭SSL的方法
30543
关于猎聘网投递简历后的“已储备”状态
24058
win10定时任务问题解决：任务尚未运行（0x41303）
23575
win10定时任务报错：操作员或系统管理员拒绝了请求
22080
修改Linux内核参数vm.swappiness
20716
分类专栏
sqlserver
1篇
kerberos
1篇
大数据
5篇
机器学习
3篇
hadoop
21篇
spark
2篇
hive
5篇
sqoop
1篇
zookeeper
1篇
kafka
2篇
azkaban
2篇
ranger
2篇
solr
1篇
java
4篇
scala
1篇
oracle
19篇
mysql
3篇
neo4j
4篇
python
5篇
kettle
1篇
linux
36篇
windows
4篇
其他
5篇
最新评论
MySQL关闭SSL的方法
不会写代码的小新:
OK了，关掉我就连接成功了
使用kettle批量同步表
glfish_wowowo:
老师，中间variableset脚本报错，不能编译，是什么问题呢
执行anaconda中的pip命令报错：pip is configured with locations that require TLS/SSL
、black�:
呜呜呜在2022年被2019年的雪中送炭感动到了
MySQL关闭SSL的方法
qq_54653488:
我添加了skip_ssl，但还是显示ssl开启的
使用kettle批量同步表
andyguan01_2:
任务配置表，记录任务开始和结束时间、任务之间依赖等，id=103是其中一个任务。
最新文章
MySQL创建用户并授权REPLICATION CLIENT和REPLICATION SLAVE
sqlserver统计所有表记录数
linux6.8的yum源配置
2020年7篇
2019年118篇
2018年2篇
提示
确定要删除当前文章？
取消
删除