网页数据处理与中文网页文档分类技术解析
立即解锁
发布时间: 2025-08-17 00:43:05 订阅数: 5 

### 网页数据处理与中文网页文档分类技术解析
#### 1. 网页数据转换与映射规则
在处理网页数据以用于联机分析处理(OLAP)和决策支持系统(DSS)时,需要将MIX对象与数据仓库中的表进行转换。主要涉及维度表与事实表的连接,存在以下几种映射情况:
- **1:1映射**:简单的一一对应关系。
- **N:1映射**:多个MIX对象对应一个表列。
- **1:N映射**:一个MIX对象对应多个表列。
此外,还会使用默认值、接管键和检查键值等操作。具体转换方式有将MIX对象映射到维度表和事实表。
转换处理通过转换处理器完成,其工作流程如下:
1. **接收器(Receiver)**:从联合管理器或增量维护处理器读取MIX对象,并将其放入MIX对象向量中。
2. **解析器(Parser)**:从以映射规则语言(MRL)编写的映射文件中读取映射规则,并解析规则文档,解析结果存储在列表结构中。
3. **映射器(Mapper)**:从列表结构中读取映射规则,并使用映射函数库中的映射函数,在给定规则的指导下,将MIX对象转换为数据仓库中的事实和属性。
4. **数据加载**:通过JDBC驱动将数据加载到数据仓库中。
MRL是一种简单的描述性语言,用于描述映射规则。以下是一些MRL的使用示例:
- **MIX概念到维度表的映射**:
```
ClassToDimensionTable( BookOffer, BookStore )
Key generated by the system
Ontology.BookOffer.StoreName : BookStore.Name
Ontology.BookOffer.URL : BookStore.URL
Ontology.BookOffer.Availability : BookStore.Availability
```
- **MIX概念到事实表的映射**:
```
ClassToFactTable( BookOffer, Discount, Time, Book, BookStore ) {
Discount-fact-join-key generated by system
DiscountFactLinkTimeDimension : Discount.Time-key
DiscountFactLinkBookDimension : Discount.Book-key
DiscountFactLinkBookStoreDimension : Discount.BookStore-key
Ontology.BookOffer.Price : Discount.Sold-Price
Ontology.BookOffer.Discount : Discount.Discount
}
```
- **连接维度表到事实表**:
- **示例a**:在填充书店事实表、时间维度、客户维度和书籍维度表时,当维度表中生成新的键值后,将其从维度表中取出并分配给事实表中的相应外键。
- **示例b**:考虑数据仓库,在使用外部网页数据填充折扣事实表之前,基于公司内部数据的时间维度已经存在。为了将时间维度连接到折扣事实表,需要先在时间维度中找到那些Day、Month、Year值等于BookOffer对象中OfferDate的元组的时间键值,然后将这些键值写入折扣事实表。
```
DiscountFactLinkTimeDimension( BookOffer, Discount, Time) {
Check( BookOffer.OfferDate ) {
GetDayfromDate( Ontology.BookOffer.OfferDate ) : Time.Day
GetMonthfromDate( Ontology.BookOffer.OfferDate ) : Time.Month
GetYearfromDate( Ontology.BookOffer.OfferDate ) : Time.Year
FindKeyValue( Time.Day, Time.Month, Time.Year ) : Time.key
}
Time.key : Discount.Time-key
}
```
下面是一个完整示例,展示了如何将语义对象映射到表:
```
ClassTo
```
0
0
复制全文
相关推荐









