Spark32个常用算子总结[转]

https://blog.csdn.net/

官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。

(注:以下截图为windows下运行结果)

Transformation:

1.map

map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执行10次,而mapPartitions函数执行3次。

2.filter(function)…

发表在 大数据 | 标签为 , | Spark32个常用算子总结[转]已关闭评论

Windows系统中的图形设备接口漏洞[转]

https://nosec.org/home/detail/4357.html

近期,微软公开了Windows图形设备接口(Graphics Device Interface)中的远程代码执行(RCE)漏洞。0patch平台(着重打造微软平台补丁,有时比官方还快)已针对Windows 7和Server 2008 R2平台的用户发布了修复补丁。

该补丁适用于那些未能注册微软的扩展安全更新服务(ESU)的0Patch(Windows 7或Server 2008 …

发表在 漏洞攻击 | Windows系统中的图形设备接口漏洞[转]已关闭评论

视频抽帧[转]

https://www.cnblogs.com/LLBFWH/p/11660530.html

视频文件是多媒体数据中比较常见的一种,也是入门门槛比较高的一个领域。视频数据相关的领域任务包括视频物体检测、视频物体追踪、视频分类、视频检索和视频摘要抽取等。

视频数据与图像数据非常类似,都是由像素点组成的数据。在视频数据在非音频部分基本上可以视为多帧(张)图像数据的拼接,即三维图像的组合。由于视频数据与图像数据的相似性,在上述列举的视频领域任务中大都可以借助图像方法来完成。

文本将讲解视频抽帧的几种方法,具体包括以下几种抽帧方式:

  • 抽取视频关键帧(IPB帧)
  • 抽取视频场景转换帧
  • 按照时间进行均匀抽帧
  • 抽取制定时间的视频帧

在进行讲解具体的抽帧方式之前,我不得不介绍下FFmpeg。FFmpeg是一套可以用来编码、解码、合成和转换音频和视频数据的开源软件,提供了非常全面的音视频处理功能。如果你的工作内容是视频相关,那么ffmpeg是必须要掌握的软件了。FFmpeg提供了常见音视频和编解码方式,能够对众多的音视频格式进行读取,基本上所有的软件都会借助FFmpeg来完成音视频的读取操作。

FFmpeg的学习资料可以参考:…

发表在 未分类 | 视频抽帧[转]已关闭评论

kafka的使用场景[转]

关于消息队列的使用

一、消息队列概述
消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ

二、消息队列应用场景
以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削锋和消息通讯四个场景。

2.1异步处理
场景说明:用户注册后,需要发注册邮件和注册短信。传统的做法有两种 1.串行的方式;2.并行方式
a、串行方式:将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户端。

b、并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间

假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。…

发表在 大数据 | kafka的使用场景[转]已关闭评论

Kafka Schema Registry 使用教程(JAVA)[转]

https://www.jianshu.com/p/d5ed58d7aa65

如果没有 Schema Registry服务,自定义的schema需要在数据生产端和数据消费端都保存,有了 Schema Registry服务,数据生成方设置好Schema,会自动注册到 registry服务中,这样数据消费方就不需要保存schema,直接消费就可以。

实例以kafka 0.10.2.0 版本举例,kafka和Schema …

发表在 未分类 | Kafka Schema Registry 使用教程(JAVA)[转]已关闭评论

Spark 伪分布式部署[转]

https://www.jianshu.com/p/921d376a2601

1. 前言

1.1 Spark 简介

Spark 是快速和通用的大数据处理引擎。Spark的内存计算速度是Hadoop MapReduce的100倍。Spark支持Java、Scala、Python、和R开发,方便我们开发并行程序,并且我们还可以通过Scala、Python、R的Shell命令和Spark交互。Spark支持SQL、流计算和复杂分析,提供了Spark SQL、Spark …

发表在 未分类 | Spark 伪分布式部署[转]已关闭评论

sed 追加文件内容[转]

https://www.cnblogs.com/crazymagic/p/11148533.html

追加用法总结

  • 1、a 在匹配行后面追加
  • 2、i 在匹配行前面追加
  • 3、r 将文件内容追加到匹配行后面
  • 4、w 将匹配行写入指定文件
发表在 Linux, Skill | 标签为 | sed 追加文件内容[转]已关闭评论

Linux sed 命令[转]

https://www.runoob.com/linux/linux-comm-sed.html

 Linux 命令大全

Linux sed 命令是利用脚本来处理文本文件。

sed 可依照脚本的指令来处理、编辑文本文件。

Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。…

发表在 Linux, Skill, 工具使用 | 标签为 | Linux sed 命令[转]已关闭评论

Hadoop的使用

创建目录
hdfs dfs -mkdir /data

上传文件
hdfs dfs -put file …

发表在 大数据 | Hadoop的使用已关闭评论

linux shell脚本中的字符串截取与拼接[转]

https://www.linuxidc.com/Linux/2015-03/115198.htm

假设有变量 var=http://www.linuxidc.com/123.htm 

1  # 号截取,删除左边字符,保留右边字符。 

echo ${var#*//}

发表在 未分类 | linux shell脚本中的字符串截取与拼接[转]已关闭评论