中文论文概要提取

项目目录结构

data PDF原文件数据集(需单独下载，不进行同步)
input: 文件输入
output: 文件输出
header_format.json: 论文抽取格式
ip_pool.csv: 爬虫的代理IP池
multi_thread_pdf_downloader.py 多线程PDF下载爬虫
pdf_parser.py: pdf解析器

任务安排(2020/03/27 - 2020/04/03)

看懂 pdf_parser.py 的逻辑(目前算法写得有些暴力，请见谅)
根据以下要求，优化算法逻辑或者另寻其他解决方案：
- 测试代码在数据集上的效果
- 根据不同年份修改处理逻辑(只处理2002年及之后的数据, 因为之前的 PDF 为图片格式)
- 设计实现过滤表格/图片内容的算法
可选任务:
- reference部分的细分提取
- 提升代码逻辑的简洁性和通用性

目前PDF提取的局限性

无法处理表格/图片
存在部分汉字, 如'最'无法正常提取(提取后缺失)

Git 使用规范

分支说明

master分支：稳定的开发分支，切忌直接往master提交代码
develop/***：每个人的开发分支。请只在自己的功能分支下工作

初次使用clone仓库

git clone [email protected]:theForerunner/AbstractExtractionOfChinesePapers.git

在master分支的基础上创建新的开发分支develop/X

git checkout master

git checkout -b develop/X

develop/X开发完成，首先要更新本地master分支

git checkout master
git pull origin master

切换到develop/X分支，进行rebase操作

git checkout develop/X
git rebase master（如果这时候有冲突，只能联系写这部分代码的人，手动合并。）

将develop/X推入Github

git push origin develop/X

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
input		input
output/journal_of_software		output/journal_of_software
.gitignore		.gitignore
README.md		README.md
header_format.json		header_format.json
ip_pool.csv		ip_pool.csv
multi_thread_pdf_downloader.py		multi_thread_pdf_downloader.py
pdf_parser.py		pdf_parser.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

中文论文概要提取

项目目录结构

任务安排(2020/03/27 - 2020/04/03)

目前PDF提取的局限性

Git 使用规范

About

Uh oh!

Releases

Packages

Languages

theForerunner/AbstractExtractionOfChinesePapers

Folders and files

Latest commit

History

Repository files navigation

中文论文概要提取

项目目录结构

任务安排(2020/03/27 - 2020/04/03)

目前PDF提取的局限性

Git 使用规范

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages