MarkItDown-微软开源,可将各种文档转换为Markdown格式文档

12/18/2024 11:08:31 PM
0

MarkItDown 是一个将各种文件转换为 Markdown 格式的实用工具,适用于索引、文本分析等用途。它支持以下格式:

  • PDF
  • PowerPoint
  • Word
  • Excel
  • 图片(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML
  • 基于文本的格式(CSV、JSON、XML)
  • ZIP 文件(遍历内容)

安装

使用 pip 安装 MarkItDown:

pip install markitdown

或者从源代码安装:

pip install -e .

使用方法

命令行

使用命令行将文件转换为 Markdown:

markitdown path-to-file.pdf > document.md

也可以通过管道传递内容:

cat path-to-file.pdf | markitdown

Python API

在 Python 中使用 MarkItDown:

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

使用大型语言模型为图像描述提供 llm_client 和 llm_model

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

Docker

使用 Docker 构建和运行 MarkItDown:

docker build -t markitdown:latest .
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md

关注“AppFuns”微信公众号,发现更多有趣的产品
全部评论(0)