MarkItDown 是一个将各种文件转换为 Markdown 格式的实用工具,适用于索引、文本分析等用途。它支持以下格式:
使用 pip 安装 MarkItDown:
pip install markitdown
或者从源代码安装:
pip install -e .
使用命令行将文件转换为 Markdown:
markitdown path-to-file.pdf > document.md
也可以通过管道传递内容:
cat path-to-file.pdf | markitdown
在 Python 中使用 MarkItDown:
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)
使用大型语言模型为图像描述提供 llm_client
和 llm_model
:
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
使用 Docker 构建和运行 MarkItDown:
docker build -t markitdown:latest .
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md