数据科学

2025年 5月 30日
借助 NVIDIA NIM 加速 Vanna 上的文本到 SQL 推理,从而提升分析效率
从自然语言输入生成查询缓慢且效率低下,是决策制定的瓶颈。这迫使分析师和业务用户严重依赖数据团队,从而延迟洞察并限制敏捷性。
4 MIN READ

2025年 5月 29日
RAPIDS 实现零代码更改加速、IO 性能提升和核外 XGBoost 加速
在过去的两个版本中,RAPIDS 为 Python 机器学习引入了零代码更改加速、巨大的 IO 性能提升、大于内存的 XGBoost 训练、
3 MIN READ

2025年 5月 22日
特级大师专业提示:使用 cuML 通过堆叠夺得 Kaggle 竞赛冠军
堆叠是一种先进的表格数据建模技术,通过结合多个不同模型的预测来实现高性能。利用 GPU 的计算速度,可以高效地训练大量模型。
2 MIN READ

2025年 5月 19日
聚焦:Atgenomix SeqsLab 提升健康组学分析以支持精准医疗
在传统的临床医学实践中,治疗决策通常基于一般准则、以往经验和试错方法。如今,随着电子病历 (EMRs) 和基因组数据的访问,
2 MIN READ

2025年 5月 15日
使用 cuEmbed 加速嵌入查找
NVIDIA 最近发布了 cuEmbed,这是一个高性能、仅使用标头的 CUDA 库,可加速 NVIDIA GPU 上的嵌入查找。
2 MIN READ

2025年 5月 15日
使用 GPU 预测 Apache Spark 的性能
大数据分析领域正在不断寻找加速处理和降低基础设施成本的方法。Apache Spark 已成为用于横向扩展分析的领先平台,可处理 ETL、
2 MIN READ

2025年 5月 15日
使用 NVIDIA CUDA-X 和 Coiled 简化云端环境设置并加速数据科学运算
想象一下,分析纽约市数百万次的拼车旅程 — — 跟踪各自治市的模式、比较服务定价或确定有利可图的取车地点。
4 MIN READ

2025年 5月 8日
云端 Apache Spark 加速深度学习和大语言模型推理
Apache Spark 是用于大数据处理和分析的行业领先平台。随着非结构化数据(documents、emails、
4 MIN READ

2025年 5月 7日
使用 Python 通过 OpenUSD 实现 3D 工作流自动化
通用场景描述 (OpenUSD) 提供了一个强大、开放且可扩展的生态系统,用于在复杂的 3D 世界中进行描述、合成、仿真和协作。
2 MIN READ

2025年 5月 7日
使用 NVIDIA NeMo Curator 构建 Nemotron-CC:一个高质量万亿令牌数据集,用于大型语言模型预训练,源自 Common Crawl
对于想要训练先进的 大语言模型 (LLM) 的企业开发者而言,整理高质量的预训练数据集至关重要。为了让开发者能够构建高度准确的 LLM,
2 MIN READ

2025年 5月 2日
CUDA 入门教程:更简单的介绍 (更新版)
注意:本博文最初发布于 2017 年 1 月 25 日,但已进行编辑以反映新的更新。 本文非常简单地介绍了 CUDA,
5 MIN READ

2025年 5月 1日
借助超参数优化实现堆叠泛化:使用 NVIDIA cuML 在15分钟内最大化准确性
堆叠泛化是机器学习 (ML) 工程师广泛使用的技术,通过组合多个模型来提高整体预测性能。另一方面,超参数优化 (HPO)…
3 MIN READ

2025年 4月 29日
Kaggle 大师揭秘数据科学超能力的获胜策略
来自 NVIDIA 的 Kaggle Grandmaster David Austin 和 Chris Deotte 以及 HP 的…
2 MIN READ

2025年 4月 29日
构建应用程序以安全使用 KV 缓存
在与基于 Transformer 的模型 (如 大语言模型 (LLM) 和 视觉语言模型 (VLM)) 交互时,输入结构会塑造模型的输出。
2 MIN READ

2025年 4月 23日
NVIDIA cuPyNumeric 25.03 现已完全开源,支持 PIP 和 HDF5
NVIDIA cuPyNumeric 是一个库,旨在为基于 Legate 框架构建的 NumPy 提供分布式和加速的插入式替换。
2 MIN READ

2025年 4月 17日
顶级大师专业提示:使用 NVIDIA cuDF-pandas 进行特征工程,在 Kaggle 竞赛中夺冠
在处理表格数据时,特征工程仍然是提高模型准确性的最有效方法之一。与 NLP 和计算机视觉等神经网络可以从原始输入中提取丰富模式的领域不同,
2 MIN READ