说明

python脚本参考自使用python提取英文文章中的单词及出现的次数(原创)
主要文件为txt2dic.py程序,windows可直接使用此程序，里面包含相关内容注释
主要提取全是字母且长度在4-15的字符串
脚本使用python3，在windows10的bash上运行正常
此程序目的在于提取相关专业文献中的单词，导入欧陆词典生词本进行背诵，再看文献时能减少自己的生词数
软件代码简单，没有加入常用词过滤功能，识别单词质量受限于pdf转txt的软件

注：只提取单词就好了，后期的排序，筛选，可以用excel啊

结构

.
├── INPUT 输入文件夹
│   ├── file1.txt
│   └── file2.txt
├── OUTPUT 输出文件夹
│   └── output.txt 输出文件
├── README.md
├── Script
│   ├──  txt2dic.py txt转dic单词python脚本
│   └──  txt2word_bash txt提取单词python脚本
├── txt2dic.sh 执行程序
└── txt2word2dic.sh 执行程序

使用

此文不再更新,最新方法参考代码主页txt2dic

使用Adobe DC等程序将文献pdf导出为txt格式
使用记事本打开,另存为UTF8编码(Adobe DC可以直接导出UTF8编码的txt)
原始txt还可以来自网页等多种格式,最后保存或转码成UTF8的txt都可以
将文件保存到./INPUT目录
运行./txt2dic.sh或txt2word2dic.sh
结果输出在OUTPUT目录
使用欧陆词典网页版在线导入生词

执行程序

txt中没有无意义字符串时(pdf转txt时识别错误产生)
txt2dic.sh能够提取txt中的所有只含字母且长度在3-15之间的字符串
txt中有大量无意义字符串时
txt2word2dic.sh能提取txt的所有只含字母且长度大于3的字符串,并按照频率排序，然后取频率最高的前5000个词(在txt2word2dic.sh中可修改数量),我认为在输入大量txt文献时，可以剔除一些因为pdf转txt时产生的无意义字符串

vasp manual的单词整理示例

使用Adobe将vaspGuid.pdf转为txt

./txt2dic.sh

结合欧陆词典，去除检索到的无意义词汇

空白的欧陆词典账号（为了防止有笔记，影响后续导出后排序的操作），网页端，学习记录导入output.txt

客户端导出html，浏览器复制，粘贴到excel，按照解释排序或筛选，去除无解释单词，再将单词列提出另存为txt，导入常用欧陆词典账户随后，只需要将筛选出的列，重新导入常用欧陆词典的网页端即可
我导出的一份vasp guide的单词下载vaspdic

本文首发于我的博客@cndaqiang.
本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

利用python提取文献中的单词

说明

注：只提取单词就好了，后期的排序，筛选，可以用excel啊

结构

使用

此文不再更新,最新方法参考代码主页txt2dic

执行程序

vasp manual的单词整理示例

使用Adobe将vaspGuid.pdf转为txt

结合欧陆词典，去除检索到的无意义词汇