基于Simhash的Python文本查重系统,包含CSDN爬虫和文本查重系统。
本系统采用Flask进行部署。
使用爬虫前的sql代码结构
create database test01;
create table paper
(
id int auto_increment comment '主键'
primary key,
pid varchar(100) null comment '文章id',
href varchar(1024) null comment '链接',
title varchar(1024) null comment '标题',
author varchar(1024) null comment '作者',
content longblob null comment '内容'
)
charset = utf8mb4;
项目展示图片
有需要的同学私信扣扣 2402668109
私聊捏。