項目簡介掃碼加入技術(shù)交流群,備注「開發(fā)語言-城市-昵稱」 合作請注明 MinerU 是一款一站式、開源、高質(zhì)量的數(shù)據(jù)提取工具,主要包含以下功能:
Magic-PDF簡介Magic-PDF 是一款將 PDF 轉(zhuǎn)化為 markdown 格式的工具。支持轉(zhuǎn)換本地文檔或者位于支持S3協(xié)議對象存儲上的文件。 主要功能
項目全景
流程圖
子模塊倉庫
上手指南配置要求python >= 3.9使用說明
pip install magic-pdf2. 通過命令行使用直接使用
程序運行完成后,你可以在'/tmp/magic-pdf'目錄下看到生成的markdown文件 更多用法magic-pdf --help3. 通過接口調(diào)用本地使用
在對象存儲上使用 s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)image_dir = 's3://img_bucket/'s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)jso_useful_key = {'_pdf_type': '', 'model_list': model_json}pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)pipe.pipe_classify()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode='none')Magic-Doc簡介Magic-Doc 是一款支持將網(wǎng)頁或多格式電子書轉(zhuǎn)換為 markdown 格式的工具。主要功能
項目鏈接
關(guān)注「GitHubStore」公眾號 |
|
|