À propos des insights sur les données non structurées

Les insights sur les données non structurées dans le catalogue de connaissances transforment les données obscures ou les fichiers non structurés tels que les PDF en ressources structurées et interrogeables. Alors que les outils de découverte standards sont limités aux métadonnées au niveau des fichiers, telles que la taille et le type, les insights sur les données non structurées utilisent Vertex AI pour analyser le contenu des fichiers. Il extrait automatiquement le contexte métier nécessaire pour ancrer les agents d'IA et alimenter les analyses avancées.

Cette automatisation élimine le besoin d'analyser manuellement les documents et d'utiliser du code ETL personnalisé. Vous pouvez ainsi découvrir, classer et utiliser des données qui étaient auparavant inaccessibles.

Découverte automatique des données non structurées

Une analyse de découverte est un processus qui localise automatiquement vos fichiers non structurés dans Cloud Storage et les catalogue dans une ou plusieurs tables d'objets dans BigQuery pour analyse. Il sert de point d'entrée pour les insights sur les données non structurées. Le système enregistre automatiquement les tables d'objets résultantes en tant qu'entrées dans Knowledge Catalog. Lorsqu'une analyse de découverte crée plusieurs tables, chaque entrée possède son propre onglet "Insights". Vous pouvez ensuite ouvrir cette entrée pour explorer les insights générés sur les données. Lorsque vous exécutez une analyse de découverte avec les insights sur les données non structurées activés, le système effectue les actions suivantes :

Identifie et regroupe les fichiers. Identifie et organise automatiquement les fichiers non structurés dans Cloud Storage en tables d'objets. Ces tables d'objets sont en lecture seule et fournissent une interface structurée à vos données non structurées.
Génère des insights sur les données non structurées. Utilise Vertex AI pour analyser le contenu réel des fichiers afin de comprendre leur signification et leur structure. Cela inclut l'inférence d'entités, qui utilise l'IA générative pour extraire des attributs spécifiques (par exemple, Company, Product ou Serial Number) du contenu du fichier. Il inclut également l'extraction des relations, qui identifie la façon dont ces entités sont connectées (par exemple, Component is_part_of Product) pour créer un graphique sémantique.
Génère des schémas et des profils de graphiques. Fournit un schéma relationnel suggéré par l'IA et un aspect de profil graphique. Il s'agit d'un aspect de métadonnées Knowledge Catalog contenant les schémas inférés pour les entités et les relations.
Enrichit les métadonnées. remplit automatiquement le catalogue de connaissances avec des métadonnées générées par l'IA. Cela permet de rendre les données consultables et prêtes à être extraites.

Au lieu de concevoir manuellement des schémas de base de données, vous pouvez extraire des données à l'aide de SQL en un clic ou de l'orchestration de pipelines. Ce processus matérialise les entités et les relations inférées dans des formats structurés, tels que des tables ou des vues.

Cas d'utilisation

Vous pouvez utiliser les insights sur les données non structurées à différentes fins, y compris les suivantes :

Génération automatisée de pipelines ETL. Automatisez l'extraction de données de Cloud Storage vers BigQuery en remplaçant les analyseurs personnalisés par une suggestion de schéma automatisée et un déploiement en un clic pour matérialiser les données dans des tables, des vues ou des graphiques sémantiques BigQuery.

Par exemple, une entreprise de services financiers peut extraire automatiquement les détails des factures, les noms des fournisseurs et les conditions contractuelles de milliers de factures PDF, en les matérialisant directement dans BigQuery pour une analyse immédiate des dépenses sans écrire de code d'analyse personnalisé.
Classification et validation du contenu : Regroupez automatiquement les données obscures dans des ressources consultables enrichies avec des métadonnées générées par l'IA. L'intendance des données permet ainsi aux responsables des données de valider et de surveiller les entités extraites à grande échelle grâce à la validation human-in-the-loop (avec intervention humaine).

Par exemple, un service juridique ou de conformité peut classer automatiquement de grands dépôts de contrats historiques et extraire les entités clés. Cela permet aux responsables des données de valider les métadonnées avant de les utiliser pour des rapports réglementaires critiques.
Ancrage des agents d'IA. Ancrez les agents de génération augmentée par récupération (RAG) avec des graphiques validés. Cela fournit une "chaîne de traçabilité" claire qui relie les fichiers bruts à la logique métier structurée, ce qui réduit les hallucinations et permet aux agents d'IA de naviguer dans les jointures de plusieurs tables sans aucune ambiguïté.

Par exemple, une entreprise manufacturière peut extraire les relations entre les équipements à partir des journaux de maintenance. Lorsqu'un technicien demande à un agent d'IA conversationnelle "Quelles régions sont concernées par le rappel de silicone ?", l'agent utilise le graphique de relations validé pour fournir une réponse précise avec une chaîne de traçabilité claire vers les manuels d'origine.

Limites

Avant d'utiliser les insights sur les données non structurées, consultez les limites suivantes :

Formats acceptés Bien que les analyses de découverte identifient et regroupent automatiquement différents types de fichiers non structurés dans des tables d'objets BigQuery, les insights sur les données non structurées ne sont optimisés que pour les fichiers PDF.
Zones géographiques : Les insights sur les données non structurées ne sont disponibles que dans les régions qui prennent en charge les modèles Vertex AI Gemini 2.5 Pro. Pour obtenir la liste des régions disponibles, consultez la section Régions disponibles dans Gemini 2.5 Pro.

Tarifs

Pendant la phase d'aperçu, les insights sur les données non structurées sont disponibles pour l'expérimentation et les tests sans frais supplémentaires pour les fonctionnalités d'inférence sémantique. Toutefois, vous restez responsable des coûts des ressources et services sous-jacents consommés au cours du processus.

Période d'aperçu

Inférence sémantique : L'utilisation de Vertex AI pour extraire des informations sémantiques et inférer des profils de graphiques lors des analyses de découverte est sans frais pendant toute la période de preview.
Coûts des ressources sous-jacentes : Les frais standards s'appliquent aux ressources nécessaires pour stocker et traiter vos données :
- Knowledge Catalog
  - Les analyses de découverte sont facturées en fonction des SKU de traitement Knowledge Catalog Premium (heures DCU) pour l'analyse et le regroupement des données non structurées. Pour en savoir plus, consultez la page Tarifs de Knowledge Catalog.
  - Les métadonnées générées par IA, y compris les profils de graphe, entraînent des frais de stockage standards pour Knowledge Catalog.
- BigQuery.
  - Si vous utilisez la méthode d'extraction de pipeline, les frais standards d'exécution Dataform et des jobs BigQuery s'appliquent.
  - Si vous utilisez la méthode SQL, les frais BigQuery ML standards et les frais liés aux tâches BigQuery s'appliquent.
  - Toutes les données matérialisées dans BigQuery, y compris les tables d'objets, les métadonnées inférées et les entités extraites, entraînent des frais standards de stockage et de requête BigQuery. Pour en savoir plus, consultez les tarifs de BigQuery.

Disponibilité générale

La facturation officielle des insights sur les données non structurées commencera à la disponibilité générale (DG).

Quotas

Les quotas standards de ressources et d'API DataScan s'appliquent à chaque job de découverte individuel. Un quota spécifique régit le volume d'inférence sémantique : le nombre total d'exécutions d'inférence sémantique quotidiennes sur les tables d'objets BigQuery est limité à une par projet et par jour.

Étant donné que les insights sur les données non structurées reposent sur une analyse de découverte, les limites concernant le nombre de tables compatibles avec une analyse de découverte s'appliquent. Pour en savoir plus, consultez Quotas et limites de BigQuery.

Étapes suivantes

Découvrez comment utiliser les insights sur les données non structurées.
En savoir plus sur la découverte de données