NX の博客

发表于2022-09-12|数据结构与算法算法拾遗搜索技术

双端队列简介普通的 BFS 每一步的代价都是相同的，而双端队列是专门用来处理代价可以为 1 和 0 两种的这种特殊情况：遇到无代价的直接插队到队首，有代价的插到队尾当然，你也可以使用优先队列，甚至是各种图遍历算法，但是我感觉解决这种问题还是使用双端队列比较简单例题最经典的还是 Acwing175 电路维修点击查看题目题目描述达达是来自异世界的魔女，她在漫无目的地四处漂流的时候，遇到了善良的少女翰翰，从而被收留在地球上。翰翰的家里有一辆飞行车。有一天飞行车的电路板突然出现了故障，导致无法启动。电路板的整体结构是一个 RRR 行 CCC 列的网格，如下图所示。每个格点都是电线的接点，每个格子都包含一个电子元件。电子元件的主要部分是一个可旋转的、连接一条对角线上的两个接点的短电缆。在旋转之后，它就可以连接另一条对角线的两个接点。电路板左上角的接点接入直流电源，右下角的接点接入飞行车的发动装置。达达发现因为某些元件的方向不小心发生了改变，电路板可能处于断路的状态。她准备通过计算，旋转最少数量的元件，使电源与发动装置通过若干条短缆相连。不过，电路的规模实在是太大了，达达并不擅长编程，希望你能够帮她解决这个问题。注意：只能走斜向的线段，水平和竖直线段不能走。输入格式输入文件包含多组测试数据。第一行包含一个整数 TTT，表示测试数据的数目。对于每组测试数据，第一行包含正整数 RRR 和 CCC，表示电路板的行数和列数。之后 RRR 行，每行 CCC 个字符，字符是 / 和 \ 中的一个，表示标准件的方向。输出格式对于每组测试数据，在单独的一...

『Twikoo』解决 Vercel.app 在国内被墙导致无法使用的问题

发表于2022-09-11|Hexo + Butterfly 建站指南

正文最近，我发现我的评论系统加载不出来，观察了一下，发现是域名被墙了但是解决方法也很简单——准备一个新域名，然后把这个域名指过去首先先来到 vercel 控制台，点进去你的实例然后找到 Setting -> Domain 之后手动添加你的域名进去然后他会给出解析配置，你就去改你的域名解析就好了搞定之后，访问看看（我的这个域名本来是备用的）最后去主题配置文件里更新这个新地址就行 2022年09月12日更发现子域名也可以，如果你已经有一个域名的话，就没必要另外搞一个域名了（

『随笔』写在新学年伊始

发表于2022-09-10|随笔与总结

嗯…如你所见，我最近停更了好久，因为暑假发生了一堆的事情，让我的心态很差而且，我也没能完成我的暑假开始立的 Flag 我本来写了很长一段话想说明情况，但是最后还是删掉了，还是不提了吧已经浪费了太多时间，就更要抓紧现在的时间，赶紧让生活步入正轨，去做更多有意义的事情来聊些轻松些的吧！比如最近还发生了哪些正面的事情呢？最近的好事情考试顺利通过暑假的时候，得知自己六级裸考过了，还是挺高兴的六级的话，不要太焦虑就行了，我四六级一张卷子都没做过，就考前 B 站上找些视频看看就去考了这东西越早考越好，其实高考一考完就去考，我不相信有人过不了，毕竟我的英语水平也好不到哪里去，这东西越往后拖越难考另外一个就是驾照了，我把科目三考过了科目三就是好好记路线+不要紧张就行了，考试前一晚自己在脑海里过一边路线，看看有没有地方没记住的把每个细节都拿捏住了，基本就没有什么大问题青训营顺利结营第四届字节跳动青训营顺利结束了，虽然没有拿到大项目的奖，但是也能拿到结营证书，这也算是一件好事情至少有个交代嘛，而且这东西最后也就大概 50 个人拿到了而且前几天，我也拿到上一届的证书和纪念品了这东西在我放暑假回家了才送到学校，所以只能放同学那里，等开学再过来拿（重装了系统细心的你肯定已经发现了，我现在用的不是 Windows 了那是 Mac OS 嘛？其实不是，只是我的 Ubuntu 装了个 Mac 的主题最近我装了个 Windows + Linux 双系统，并开始把 Linux 作为主力使用，只有打游戏的时候才用 Windows Windows 和 Linux...

『Go』使用 Redis 搭建简易分布式锁

发表于2022-08-31|Golang

本篇总结于 Go + Redis 实现分布式锁鄙人最近在参加分布式存储的项目时学习了本内容，特此记录为什么要用到分布式锁先从本地的锁开始吧，在 Golang 中可以对本地的某一资源进行加锁（如变量等），以保证你在使用该资源的时候不会被其他协程更改而在分布式系统中，若各个节点要同时使用某一个公共资源（比如说交易要修改用户存款，进程修改日志文件等），很容易就会有读写冲突、写写冲突。这时就需要一种抢占资源的机制，在你使用的时候锁住资源，保证你在使用的时候其他人不会捣乱，确保并发安全而一种简单的实现方法就是使用 Redis 搭建分布式锁简单的原理这东西听上去很高大上，但是其实非常简单就是你在访问资源前，先尝试在 Redis 处做个标记例如你欲编辑 /file/hello.txt ，就尝试将 ["/file/hello.txt"] = 1 写入 Redis 而其他人也想做标记的时候，就会发现你已经做过了，就知道你已经抢占了资源，要等你释放项目实践本人的项目地址：https://github.com/tiktok-dfs/dfs 首先肯定要初始化 Redis ，因为项目是本地单机测试的，所以就以单机服务为例 1234567891011var RedisDB *redis.Client// InitRedis 初始化redis，用于分布式锁func InitRedis() { RedisDB = redis.NewClient(&redis.Options{ Addr: "localhost:63...

『Go』gRPC + Protocol Buffers 简易上手指南

发表于2022-08-20|Golang

鄙人最近在参加青训营的项目，要完成一个分布式存储系统，里面就用到了 gRPC 框架，学习之后有所收获，所以特此记录理论知识什么是 RPC 要知道什么是 gRPC ，先要了解 RPC（Remote Procedure Call，远程过程调用）什么叫做远程过程调用捏？比如说，你在写程序的时候，可以很方便地调用你本地写的函数，但是，如果你想调用其他程序的函数，那该怎么办呢？答案是使用 RPC ，它做到这一点，即使目标函数的程序跑在地球的另一边，都没有问题什么是 gRPC gRPC 是一个出名的 RPC 框架，它速度很快，而且支持多种语言，它允许你可以在 Go 中调用 Java 乃至 Python 中的函数多语言支持是怎么做到的呢？那中间必然是要借助某种通用介质，在这里就是 Protocol Buffers 什么是 Protocol Buffers Protocol Buffers 是谷歌搞的一种数据交换格式（就类似于 JSON ，XML 之类的），常被简写成 protobuf 但是与 JSON 之类不同的是，Protocol Buffers 不是明文存储的，而是压缩打包成二进制的，这也就是 gRPC 选择 Protocol Buffers 的原因，毕竟传输起来方便你要先通过 .proto 文件定义好你的数据结构和调用函数，然后用编译器编译出 xxxxx.pb.go 文件（里边有一堆打包和解包相关的函数方法）和 xxxxx_grpc.pb.go （里边是关于 RPC 的函数方法），之后在你的项目里调用就好了上手实践准备环境根据官网上的教程，你有两件事要做：...

『字节青训营-4th-大数据』L20：大数据可视化理论与案例分析

发表于2022-08-20|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料七】第四届字节跳动青训营 - 掘金定义什么是可视化什么是数据可视化静态/不可交互 -> 动态/可交互数据可视化作用拿破仑进攻/撤退图，粗细表示军队人数，与下面的温度图表有很强的关联性统计学特征原理数据定义数据和数据集表格多维表格网络图和树图场几何数据属性分类编码认知图元通道编码举例编码有效性交互分类（几个gif）案例这个太经典了这个也经典，后面销量其实是下降的历史上的传染病人口死亡规模很多人没有达到预测年龄就被枪击死亡了（动图）学习综合理论编程前沿实践我们在做的事情课程总结

『字节青训营-4th-大数据』L19：用户数据分析理论与最佳实践

发表于2022-08-19|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料七】第四届字节跳动青训营 - 掘金 P1：基础篇为什么要做用户数据分析数据分析的各个环节数据分析全景图指标体系和指标分级手游业务指标体系示意口径：你怎么算出来的搭建指标体系的价值数据分析的各个环节埋点简介常见的分析工具维度：分组项（日期和操作系统），指标：设备去重数聚和，最大最小… 可以，但一般会先划分数据可视化选择合适的数据分析的流程和案例分析流程案例获取激活思考各个环节，哪些是要重点改进的地方留存收入可以得出结论，这个游戏就是靠头部用户来维持运营的，来指导产品经营数据分析常见的问题总结&思考 P2：进阶篇机器学习概览为什么要机器学习什么是机器学习例：垃圾邮件过滤程序开发者自己从现有的样本提取特性信息，对于新的样本又要手动增加过滤规则使用机器学习，自动总结、添加规律机器学习算法有哪些机器学习的挑战有哪些特征工程概述流程数据理解结构化/非结构化定量/定性数据预处理衡量数据质量准确性完整性一致性时效性可信性解释性主要步骤数据清洗缺失值异常值噪声数据集成实体识别冗余数据值冲突数据规约维度规约维度变换数据交换规范化离散化稀疏化特征构造聚合转换特征选择 Filter 方法（过滤式） Wrapper方法（封装式） Embedded方法（嵌入式）（这些在学...

『字节青训营-4th-大数据』L18：数据中心建设实践思路与企业实践

发表于2022-08-17|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金企业数据架构数据集成业务数据收集 CDC Log 系统间同步传输数据生产 - 离线&实时数据服务数据中心案例核心业务指标数据查询要求实时数据生产数据分析数据产出目标数据生产可行性计算分析目标计算架构 - Lambda 数据产出查询的时候把离线和实时合并后返回问题过去的离线数据在今天发生变更，这是一个问题计算架构 - 全量计算问题解决全量计算问题计算架构 - 架构选择计算难点全量数据获取 - Hybrid Source 准确 - 处理去重&更新准确 - Join 乱序问题场景效率 - 聚合效率 - Join 数据质量任务稳定性数据持续正确性计算总结数仓建设数据组织方案元数据管理数据服务查询快引擎选择怎么做列存的重要性筛选分区主键构建主键查找原始信息关联计算向量化执行计划应用优化宽表构建提升信息密度稳定数据管理课程总结

『字节青训营-4th-大数据』L17：深入理解 K8S 资源管理和调度

发表于2022-08-16|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金 Kubernetes 简介为什么要 k8s k8s 是什么 k8s 核心概念 Pod spec：pod的核心配置，可以配置多个 containers Volume/PV/PVC/StrorageClass Volume 太老了直接跳过 Deployment template 就是一个 pod 的声明 StatefulSet Node k8s 设计准则声明式而不是命令式：告诉 k8s 最终想要什么状态，而不是具体要做什么做什么控制循环：怎么生成中间步骤呢？通过控制循环简单模块化向下兼容开放 k8s 架构 k8s 核心通信机制 List-Watch 这里老师讲得真的很清楚，而且认为这个机制是 k8s 最大的特色 k8s 核心功能资源管理资源上报节点资源样例资源分配状态维护资源回收调度资源申请 request和limits：底线和上限调度流程示例 MySQL WordPress 优化实践 k8s 还可以更好字节的一些工作资源管理功能增强性能优化调度质量 k8s 和 Yarn 的一些不同 k8s：拿着应用找节点 yarn：拿着节点找应用 k8s的调度质量高，但是性能差课程总结

『字节青训营-4th-大数据』L16：走进 Yarn 资源管理和调度

发表于2022-08-14|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金 YARN 概述初识调度系统场景导入一种简易分配模型优化的分配模型调度系统演进调度系统发展的背景调度系统解决的问题调度系统预达的目标调度系统模型主要是前两者用的比较多 YARN 设计思想演化背景离线生态面临挑战 YARN 整体架构系统架构任务运行生命周期核心流程这里视频里讲得很清楚 Client 把任务提交到 Resource Manager，然后 RM 会拉起 AM AM 再用心跳交互资源的申请和分配，再去拉起对应的节点运行中，AM 会监控，运行结束后 AM 会向 RM 注销核心模块 Resource Manager 整体架构主要职责状态机管理 RMApp 状态机 RMAppAttempt RMContainer RMNode 调度器分析任务/资源组织调度流程典型调度器 Node Manager 整体架构主要职责状态机管理 Application Container LocalizedResource 节点健康检测机制重要机制调度策略 Fair Share 调度策略背景 Instantaneous Fair Share 定义 Instantaneous Fair Share 计算逻辑 DRF 调度策略 DRF 调查策略描述 DRF 调度策略计算逻辑事件机制状态机管理事件处理模型容错机制公司实践 Gang 调度器为什么要开发 Gang 调...

『字节青训营-4th-大数据』L15：浅谈分布式一致性协议

发表于2022-08-13|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料六】第四届字节跳动青训营 - 掘金分布式系统分布式系统面临的挑战理想中的分布式系统从 HDFS 开始案例 - KV 小结一致性与共识算法从复制开始最好不要都接受请求，应设置一个主一个从如何复制两种策略，但是第一种的代价太高了关于读操作什么是一致性复制协议当失效发生小结共识算法小结从 Raft 入手 Paxos Raft 复制状态机（RSM） Raft 角色客户端向 s2 发送请求 s2 把请求转成 log ，然后发送给 follower 多数完成，就回复客户旧 leader 无响应后，发现的节点发起投票，获得半数投票即成为新 leader Raft 日志复制小箭头：确认已经提交了的 log Raft 从节点失效没有真正对比 log 的内容，只需要对比 term 和 index Raft Term Raft 主节点失效 Raft Leader failure 格子上面的数字是几号 term 为什么第一个状态 s1 的 term 都是 1 ？可以想象之前 s1 是 leader，然后突然卡死了，选了 s2 是新 leader 此时 s2 挂了，然后 s3 请求成为 leader ，s1 的 term 后面也变成了 3 状态是怎么复制的呢？一直往前检查，如果有冲突就从节点服从主节点 Raft 安全性同 Term 跨 Term 小结实现细节以及未来案例 - KV 为什么读操作不能直接读的问题 ...

『字节青训营-4th-大数据』L14：LSMT 存储引擎浅析

发表于2022-08-12|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：juejin.cn LSMT 与存储引擎介绍 LSMT 的历史 LSMT 是什么存储引擎是什么 LSMT 存储引擎的优势与实现 LSMT 与 B+ Tree 的异同但 LSMT 是追加写，然后后台择机合并二者在逻辑上实际是等价的为什么要采用 LSMT 模型？ LSMT 存储引擎的实现 Write Snapshot & Supervision Get & BloomFilter 又是熟悉的 BloomFilter（ Compact 用读放大的增加换取写放大的减小 LSMT 模型理论分析云原生的 LSMT 存储引擎 - HBase LSMT 模型算法复杂度分析 Level 这个失效率的推导非常复杂 Tier 思考题这里建议看原视频，鄙人一直在听天书（总结 LSMT 存储引擎调优案例与展望 TerarkDB TerarkDB& Abase & ByteGraph Flink 新硬件新模型新参数 / 新工况这个是最复杂的总结

『字节青训营-4th-大数据』L13：Parquet 与 ORC：高性能列式存储

发表于2022-08-10|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料五】第四届字节跳动青训营 - 掘金列存 vs 行存数据格式层概述分层视角下的数据形态两种数据查询分析场景：OLTP vs OLAP OLTP：行式存储格式 OLAP：列式存储格式总结 Parquet 原理解释 Parquet 简介 Parquet in Action DDL Spark Parquet vs Text Format 做了压缩，而且性能反而还会有提升 Dremel 数据模型数据布局编码 Encoding 列基数不大：去重后的数据不多压缩 Compression 索引 Index 这东西在第一节课也出现了排序 Ordering 过滤下推 Predicate PushDown Spark 集成 - 向量化读深入 Dremel 数据模型老师说听不懂没关系，哈哈哈小结 ORC 详解和对比 ORC 简介数据模型数据布局 ACID 特性简介 AliORC 索引增强小列聚合异步读取思考 Parquet vs ORC 性能选择小结列存演进数仓中的列存存储侧下推 Column Family 支持总结

『字节青训营-4th-大数据』L12：从 Kafka 到 Pulsar：数据流演进之路

发表于2022-08-09|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金消息队列概述消息队列的应用场景上下游解耦 MQ 消息通道 Eventbridge 数据总线 Data Platform 流数据平台主流消息队列的相关介绍 Kafka 详解架构介绍 Zookeeper Broker Controller 选举作用 Coordinator 高可用副本 ISR 机制写入 ACK 机制如何保证消息不丢 ACK = -1 并且最少 ISR = 2 先看左下角，只有一个 leader 而没有 follwer 的情况，然后再看上面结合右侧概念解释理解第一个策略更注重一致性第二个更注重可用性集群扩缩容扩容步骤扩缩容问题未来演进之路运维/调优经验介绍单机吞吐 in_sync_replica 看业务重要性，2或3 集群参数配置扩缩容优化指标可视化 Pulsar 详解 Pulsar 架构介绍 Pulsar Proxy 非必须，但是作用很大 Pulsar Broker Pulsar Storage Pulsar IO Pulsar Function Bookkeeper 介绍整体架构基本概念 Bookkeeper Ledger Bookkeeper 新建 Ledger Quorum 写：副本之间没有主从概念，例如 3 副本同时写，2 副本完成就算完成 Bookkeeper Ledger 分布写一致性读一致性读写分离 Bookkeeper wit...

『字节青训营-4th-大数据』L11：数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解

发表于2022-08-07|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金发展历史数据湖发展阶段1 - Hadoop 数据湖发展阶段2 - Hive 数据湖发展阶段3 - 湖仓一体存储计算不分离、结构化数据业界三大数据湖关于“数据湖” 核心技术文件结构 Time travel Transaction 原子性事务隔离 Schema Evolution 各有所长 Iceberg Well-designed Metadata Layer s1 比 s0 多的就是最右边的一个 manifest file，而对应的就是最右边的 data files Data File Filter Hidden Partition Hudi Timeline Service & Upsert & Incremental 这里建议看原视频，讲的还是很清楚的 Copy On Write 更新的时候把所有列读到内存，改完再塞回去 Merge On Read 更新的时候把变动放到旁边，然后读的时候再合并 Delta Lake 流批一体总结场景三个数据湖的异同三个数据湖的热度技术选型字节场景举例课程总结

『字节青训营-4th-大数据』L10：深入浅出 HBase 实战

发表于2022-08-06|青训营字节跳动-4th-大数据

相关链接🎶 学员手册：【大数据专场学习资料四】第四届字节跳动青训营 - 掘金https://juejin.cn/post/7124948585614934029#heading-0) HBase 适用场景什么是 HBase HBase 和关系型数据库的区别 HBase 数据模型这种类 JSON 的格式看上去也是很清晰的使用场景典型应用半结构化 / 字典序有序索引的数据 “近在线” 海量分布式 KV / 宽表存储写密集的高吞吐场景 HBase 数据模型的优缺点架构设计 HBase 架构设计 HMaster 主要职责 RegionServer 主要职责 ZooKeeper 主要职责 ThriftServer 主要职责大数据支撑 HBase 在大数据生态的定位水平扩展能力 Region 热点切分切分点选取切分过程流量设计 Region 碎片整合流程设计 Region 负载均衡调度策略其他策略故障恢复机制 HMaster RegionServer Distributed Log Split 原理具体流程优化空间最佳实践 Rowkey 设计策略 Column Family 设计策略参数调优经验 ByteTable - 字节跳动自研分布式表格存储系统总结