- 博客(85)
- 收藏
- 关注
原创 Building An Elastic Query Engine on Disaggregated Storage
本文探讨了在分离式存储架构上构建弹性查询引擎的关键技术。针对传统shared-nothing架构的资源利用率低、弹性不足等问题,提出了基于云环境的存储计算分离方案。系统采用四层架构:中心化服务层、计算层、分布式临时存储层和持久数据存储层。重点研究了临时存储系统设计(采用内存-SSD两级缓存)、资源弹性策略(延迟一致性hash)及多租户支持方案。实验数据显示75%的只读查询缓存命中率超过80%,验证了架构有效性。文章还讨论了未来优化方向,包括更细粒度的资源调度和多租户隔离机制。该研究为云环境下的弹性数据查询提
2025-08-04 10:15:43
213
原创 中国计算机学会杭州分部副主席朱霖潮:多模态大模型的研究进展与未来
这种交互模式本质上构建了一个动态演进的Token处理体系:环境状态被编码为输入Token,模型生成的行动指令作为输出Token,而环境反馈又形成新的输入Token,构成持续流动的交互流。技术演进表明,新一代模型正从早期的单一能力专精(如GPT系列的语言理解、DALL·E的图像生成)发展为多模态协同的智能体系,其核心优势在于实现了意图理解与内容创作的无缝衔接。相较于单模态的理解或生成任务,这种多智能体协作系统需要处理更复杂的时空约束和资源分配问题,其技术难点主要在于实时决策的准确性和多主体协调的一致性保障。
2025-08-03 12:08:50
406
原创 华为云云服务高级顾问叶正晖:华为对多模态大模型的思考与实践
我们大模型的架构的趋势,还是要从以前的单一模态走向多模态大一统,在未来的趋势下,从2021年的Vision Transformer到2022年的Whisper大模型再到2024年的Sora,整个过程里面从以前的视觉到语音到混合,再到生成大模型的一个统一。我们把视觉认知专项打开看一下,其实视觉认知专项在原来的基础多模态大模型中,经过海量的数据的训练,10000+通用及行业实用标签,包括场景标签,关系标签、行为标签都在这里面。华为的盘古多模态大规模的模型,它是一个层次融合的一个架构。三是全模态的大模型。
2025-08-03 11:59:36
465
原创 数新智能 CTO 原攀峰:DataCyber 面向 AI 时代的多模态数据湖设计与实践
这种模式的重心聚焦在数据的加工处理链路,但缺乏统一管理的机制。DATA+AI混合计算负载:在计算层面,需要引入分布式的计算框架,针对不同类型数据、不同计算场景,需要不同的计算框架进行支持,解决Data和AI不同类型的计算负载任务,不同类型的多模态数据能够基于主流的开源框架,提供统一的平台支持数据和AI的分析。统一元数据管理:统一元数据是多模态数据管理的基础服务,通过采集元数据,建立元数据标准,可以实现不同模态数据的统一描述和关联关系,例如为图像数据添加文本标签,从而打破数据孤岛,促进跨模态的检索与分析。
2025-08-01 12:03:11
801
原创 AWS高级解决方案架构师黄海波:GenAI 时代非结构化数据处理的实践与趋势洞察
这和我们设计系统时处理结构化数据的情况完全不同 ,做结构化数据时,我们会先做数据建模,梳理出核心的实体,再给这些实体设定相应的属性。举个具体的例子:上海市第九人民医院,在数据里的名称就各式各样,有时写作 “九院”,有时是 “上海第九医院”,还有其他不同的表述,但实际上都指向同一家医院。但很多企业的内部数据,其实并没有被纳入大模型的训练中。比如常见的 Excel 表格,里面的数据格式往往不规范,如果直接用简单的规则将这些数据存入数据库,后续很难对其进行有效分析,也难以通过数据认证来确保信息的准确性。
2025-07-31 16:20:47
903
原创 “多模态数据融合技术创新与落地实战”活动于数新智能圆满收官,产学研共探智能时代新路径
7月25日,由中国计算机学会(CCF)、CCF CTO CLUB联合数新智能共同主办的“多模态数据融合技术创新与落地实战”活动在杭州圆满落幕。本次活动汇聚了学界权威、产业精英与技术专家,围绕多模态大模型、AI Agent、非结构化数据处理、多模数据库等前沿议题展开深度研讨,为推动多模态数据融合技术的创新突破与产业落地搭建了高效交流平台。
2025-07-30 18:44:33
731
原创 Lakehouse: Unifying DW & Advanced Analytics in Open Platforms
LakeHouse 就是用来解决上述问题的,关键点是增加了一个 元数据层,这层是在存储文件 S3,parquet之上的。当然增加一个元数据层只是实现了 ACID,对于性能上的优化,肯定是不能改文件格式,因为他们都是开放的。使用了这些优化方式之后,LakeHouse 可以跟闭源的数仓提供类似的性能,而其数据格式是基于开放的。使用 S3 这种对象存储来存储日志,可靠性很好,但是延迟很高,所以限制了每秒中的事务数。之后云存储出现了,可靠性,扩展性更高,更便宜,但本质上跟 Hadoop 差不多。
2025-07-28 17:03:15
499
原创 Column-Stores vs. Row-Stores: How Different Are They Really?
连续的好处在于,它能把lookup join变成一个值的范围检查,范围检查比lookup join要快,原因很简单,范围检查只需要所算数运算就好了,不需要做lookup,因此可能大幅度的提高性能。应用的外键对应的可能有好几个维度表,可以并行分别做hash,但对于大宽 实事表,需要真实的多次遍历(维度表远小于实事表),导致I/O读取更多。看不见的 join 一个事实表 关联多个维度表,通过查询维度表上的谓词,来限制事实表的元素,之后再次查询维度表,再次过滤事实表数据。
2025-07-21 15:44:54
923
原创 Advanced Database Systems: History of Databases
本文先阐述研究背景,梳理课程核心要点;可能以后会有更多的数据库,但是解耦、高层级 API 应该是一个不变的主题每种数据库都会各自的解决场景,但又会扩大自己的领域,都会支持SQL,所以边界也模糊了而关系模型,SQL这种声明式语言,则又进一步增强了。一个大的趋势是单纯的自建Hadoop 集群成本太高,远不如云厂商的对象存储划算,在替代Hadoop 的同时,出现了存储计算分离。随着业务规模的变大,各种更细分主题的主题的数据库也跟着出现,他们都用来解决一些特定场景的问题,而这些特定场景的市场也不小。
2025-07-14 15:47:49
285
原创 Hive MetaStore的实现和优化
org.apache.hadoop.hive.metastore.api,这是Iface里面库、表会引用到这些RPC类,这些类的一些数据结构定义又引用了更下沉的thrift类。右边是 hive meta-store client,兼容了这个客户端协议的框架,如 spark,会通过 hive meta-store 协议连接过来。org.apache.hadoop.hive.metastore.model,将数据中的数据读取封装成对象,再将这个对象转为thrift RPC中的对象。
2025-07-09 15:57:54
733
原创 The History of Big Data
从 2003 年分布式系统雏形初现,到 Hadoop 掀起开源浪潮,再到 Spark、容器化技术与深度学习的接力革新,以及 Hadoop 生态的兴衰起落,大数据发展史如同一部技术进化史诗。新的 Hadoop 调度框架 Yarn 出现之后就是 Spark 的崛起,对整个行业有巨大的推动基于Sarpk 创建了Databricks,他们是基于云的,而不是搞发型版本。公司更多是缺乏熟练的劳动力,他们更愿意花钱迁移到新方案而不是优化,可能因为低效的数据管理,使的企业会寻找更好的方案,类似Hadoop的新周期又诞生。
2025-07-09 14:10:54
960
原创 Presto在B站的应用
gateway 会解析SQL,替换表达式提取通用 MD5特种,如果类似的请求出现,会做拦截,或者kill。监听发布系统kill -15信号,将自身状态改为非 activ,等完成任务再退出,实现无损发布。查询结果做 MD5提取,放到redis,如果有DDL事件,根据分区,做缓存失效处理。资源隔离方面,使用了 lable,根据已经配置好的lable,动态选择对应的集群。多表在不同机房,路由到数据量较大的表所在机房,较小的表限流读。对 query 做解析,根据依赖的表和分区,选择合适的机房。
2025-07-04 12:15:21
653
原创 亚马逊云科技中国峰会:数新智能CTO原攀峰详解一站式AI原生数智平台DataCyber在Amazon EKS的实践
6月20日,在上海世博中心举办的亚马逊云科技中国峰会 “在 Amazon EKS 上运行高性能生成式 AI 应用” 分论坛圆满结束。本次分论坛聚焦于 Amazon EKS 在生成式 AI 应用领域的强大支撑作用,数新智能CTO原攀峰凭借其深厚的技术背景和丰富的实践经验,为现场观众带来了一场精彩绝伦且极具深度的演讲。
2025-07-01 13:34:59
878
1
原创 《深入浅出Apache Spark》系列⑤:Spark SQL的表达式优化
随着数据量的快速增长,传统的数据处理方法难以满足对计算速度、资源利用率以及查询响应时间的要求。为了应对这些挑战,Spark SQL引入了多种优化技术,以提高查询效率,降低计算开销。本文从表达式层面探讨了Spark SQL的优化手段,重点分析了三个方面。
2024-12-16 16:15:41
1187
原创 《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
本期是 DataFun 深入浅出 Apache Spark 第二期的分享,主要介绍 Apache Spark SQL 原理,包括:Apache Spark SQL 基本概念、Apache Spark SQL 核心组件、Apache Spark SQL API
2024-11-07 14:34:36
1621
原创 《深入浅出Apache Spark》系列③:Spark SQL解析层优化策略与案例解析
本系列是Spark系列分享的第三期。第一期分享了SparkCore的一些基本原理和一些基本概念,包括一些核心组件。Spark的所有组件都围绕SparkCore来运转,其中最活跃的一个上层组件是SparkSQL。第二期分享则专门介绍了SparkSQL的基本架构和原理。从第三期开始,后续的分享都围绕着SparkSQL展开,尤其是SparkSQL的优化。
2024-11-07 14:14:08
1095
原创 Spark SQL分析层优化
导读:本期是《深入浅出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架构,第二期分享了Spark SQL的概念和原理,第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理和优化的案例,且此优化案例是对于理解分析层原理很重要的。本期介绍会围绕下面五点展开: 前情提要 Spark SQL 分析层原理 优化案例 总结 Q&A ►►►前情
2024-09-27 14:50:28
1515
原创 Flink优化之--旁路缓存和异步IO
在异步模式下,单个并行子任务可以连续发送多个请求,按照返回的先后顺序对请求进行处理,发送请求后不需要阻塞式等待,省去了大量的等待时间,大幅提高了流处理效率。默认情况下,在Flink 算子中,单个并行子任务只能以同步方式与外部系统交互:将请求发送到外部存储,IO阻塞,等待请求返回,然后继续发送下一个请求。这就是flink的简单优化,综合来看,旁路缓存和异步IO的引入不仅解决了传统计算中存在的瓶颈问题,还为系统的可扩展性和稳定性提供了坚实的保障。堆缓存,性能更好,效率更高,因为数据访问路径更短。
2024-08-29 17:46:06
1153
1
原创 Patch-Package:一款灵活的开源依赖修复工具
它让我们能够在不破坏原有开发流程的前提下进行灵活的修改,是开源项目和团队协作中的得力助手。通过掌握 Patch-Package 的使用方法和最佳实践,你可以大大提高项目的开发效率,避免依赖管理带来的困扰。(原因是笔者对select的组件进行了二次封装,某些value的变化是在下一个 run loop发生的,而element-plus中的表单检查是线性触发的)开发者可以将开源库的源码 Fork 到自己的代码仓库中,然后在 Fork 后的仓库中进行修改和维护。开源库可能存在 Bug 或者与项目不兼容的问题。
2024-08-27 18:00:39
1509
原创 玩转生产环境全链路压测
生产环境全链路压力测试(Production Environment Full-Link Stress Testing)是一种针对线上系统进行的综合性性能测试方法。这个过程涉及模拟实际用户行为,从用户界面到后端数据库的整个应用链路上施加预定的高负载,以全面评估系统在接近或超过预期峰值流量条件下的性能表现和稳定性。意味着测试不仅仅局限于某个单一模块或服务,而是涵盖从用户请求发起、前端处理、业务逻辑执行、数据库操作直到最终响应的整个流程。这样可以确保所有组件在高负载下的协同工作情况得到验证。
2024-08-13 16:47:22
1262
原创 DATAX自定义KafkaWriter
可以注意到上文中的Task内部类中定义了几个特殊的变量:recordHeaders、cdcValue、primaryKeys,这几个变量主要是用来定义特殊的kafka消息格式,比如当前代码的逻辑是要将消息转换为CDC相关的格式,所以做了额外处理。可以参考该思路,如果有其他的类似的需求,也可以通过任务配置传递进来,然后构建消息的时候进行处理。该类为我们实现写入数据到kafka的主要逻辑实现类,其主要结构可以参照上文中提到的datax官方文档,代码示例如下,每个地方的处理逻辑可以参考代码中的注释。
2024-08-13 16:34:07
1674
原创 Spark内核的设计原理
同时Spark有任务级别的内存管理,任务的计算属于执行内存的一部分。包括检查点支持,易于使用(支持Java,Scala,Python等编程语言),交互式(Spark Shell)和SQL分析(借鉴了ANSI SQL等标准的实用语法和功能),批流一体,丰富的数据支持,高可用,丰富的文件格式支持。DAG调度(DAGScheduler)负责创建Job,将DAG中的RDD划分到不同的Stage,给Stage创建对应的Task,抽象成Taskset,并将Taskset批量提交给TaskScheduler。
2024-07-22 15:35:44
998
原创 以Zookeeper为例 浅谈脑裂与奇数节点问题
因此,对于6台服务器的集群,计算过半数需要的票数为 `half = 6 / 2 = 3`,意味着至少需要4票来成功选举出一个Leader。在某些情况下,为了确保集群中只有一个有效的领导者,可以采用磁盘锁或仲裁机制。② 若网络断开,机房1内的3台服务器可以通过内部投票选出一个Leader(因为3票已经超过了5台总数的半数,即2.5向上取整为3),而机房2因只有2台服务器,无法独立选举出Leader。此外,资源的浪费也是脑裂的一个重要影响,因为同一操作可能在多个分区中重复执行,消耗大量计算和存储资源。
2024-07-19 17:45:42
1503
原创 MinIO:开源对象存储解决方案的领先者
MinIO 是一款开源的对象存储系统,致力于提供高性能、可伸缩、安全的数据存储解决方案。官方解释:MinIO 是一个基于Apache License v2。0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MySQL。
2024-07-05 18:02:37
4917
1
原创 Airflow任务流调度
Airflow的调度依赖于crontab命令,与crontab相比,Airflow可以方便地查看任务的执行状况(执行是否成功、执行时间、执行依赖等),可追踪任务历史执行情况,任务执行失败时可以收到邮件通知、查看错误日志。在Airflow中,简单地说,task脚本是需要被一个个调起执行的脚本,DAG脚本是管理task脚本执行顺序、执行触发条件的。在Tree View模块可以查看当前DAG每个task任务的调度状态,是执行成功、正在执行、执行失败还是等待执行等,便于快速定位到执行失败的任务,重新调启执行。
2024-06-17 15:42:34
2789
原创 机器学习入门指南:Jupyter Notebook实战
对于机器学习工程师而言,他们更擅长的是算法、模型、数据探索的工作,而对于工程化的能力则并不是其擅长的工作。Jupyter Notebook生成PMML文件1。Jupyter Notebook生成PMML文件2。PySpark Notebook建模 -折线图。TensorFlowNotebook建模。R Notebook建模 - 散点图。PySpark Notebook建模。R Notebook获取训练数据集。
2024-05-27 17:57:02
1690
原创 CyberScheduler调度引擎
调度集群由任务转实例、实例派发、基线监控、超时监控、资源管理、资源监控、工作流调度、实例回调、基线警告、实例归档(在大规模的任务实例在长期使用中通过归档可以减少数据查询的影响)、资源调度、故障转移;异构数据源:灵活支持多种数据源:关系型数据库 12 种、大数据存储 15 种、半结构存储 6 种、NOSQL2 种(mongo、es)、消息队列 1 种(kafka);资源调度:支持租户隔离、资源组隔离、项目的简单模式、标准模式、自定义模式;任务调度:做到分布式、高可用、多集群模式,达到千万级,支持水平扩展;
2024-05-17 16:30:11
570
原创 CyberData统一元数据服务
支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。通过guid快速的定位一个表或者列,例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位,从而确保元数据的唯一性,避免了数据重复、冲突和混淆,更方便的对外透出统一查询元数据的能力。灵活性高,支持API自定义血缘模型,通过API快速构建血缘;
2024-04-26 17:43:20
1287
1
原创 浅谈前端路由原理hash和history
hash 模式是一种把前端路由的路径用 # 拼接在真实 url 后面的模式在hash模式下,本质上是修改window.location.href实现的。前端路由的改变依托于#锚点,而锚点后边的值我们可以通过修改window.location.hash的值来修改,每一次hash值的变化都会导致触发hashchange这个事件,hash模式就是通过 hashchange 事件来 监听 hash 值的改变从而渲染页面对应的组件。
2024-03-20 14:45:00
1683
原创 Flink Kubernetes Operator 介绍
Flink Kubernetes Operator是一种强大而灵活的工具,简化了在Kubernetes上部署和管理Flink集群的复杂性,让开发人员和运维团队能够更专注于业务逻辑而非基础设施的细节。通过使用Operator,可以更轻松地管理Flink作业的生命周期,并根据负载的需求自动调整集群规模,使得在 Kubernetes 上运行 Flink 应用程序变得更加方便和可靠。
2024-01-19 15:04:09
1763
原创 探秘AI赋能的未来世界:CyberAI深度学习技术助力变革
DNN是一种多层神经网络模型,适用于解决二分类问题。通过学习非线性特征,DNN可以对输入样本进行预测,并根据输出结果进行分类。合理设置模型的架构和超参数,以及进行适当的训练和调优,可以提高DNN在二分类任务上的性能。在二分类问题中,DNN的输出层通常使用Sigmoid激活函数,将输出值限定在0到1之间,表示样本属于某个类别的概率。当输出值大于阈值时,可以将样本归为一类;当输出值小于阈值时,可以将样本归为另一类。对于多分类任务,DNN通常使用Softmax函数作为输出层的激活函数。
2023-12-15 10:21:08
363
原创 初识 OpenCV
OpenCV(Open Source Computer Vision Library)是一个涵盖了数百种计算机视觉算法的开源算法库。
2023-12-01 10:03:12
407
原创 探索Playwright的现代自动化测试力量
为了确保Web应用程序的无缝运行,自动化测试工具成为了开发人员和测试团队的重要工具。多年来,Selenium一直是自动化测试的黄金标准,然而,在不久前,一个新的有力竞争者崭露头角——Playwright。
2023-12-01 09:54:52
420
原创 保姆级连接FusionInsight MRS kerberos Hive
本文将介绍在华为云 FusionInsight MRS(Managed Relational Service)的Kerberos环境中,如何使用Java和DBeaver实现远程连接Hive的方法。
2023-11-24 17:27:40
2537
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人