chore: gitignore and repo cleanup
This commit is contained in:
73
.gitignore
vendored
Normal file
73
.gitignore
vendored
Normal file
@@ -0,0 +1,73 @@
|
||||
# Byte-compiled / optimized / DLL files
|
||||
__pycache__/
|
||||
*.py[cod]
|
||||
*$py.class
|
||||
|
||||
# C extensions
|
||||
*.so
|
||||
|
||||
# Virtual environments
|
||||
venv/
|
||||
.env/
|
||||
.venv/
|
||||
env/
|
||||
ENV/
|
||||
|
||||
# Distribution / packaging
|
||||
.Python
|
||||
build/
|
||||
develop-eggs/
|
||||
dist/
|
||||
downloads/
|
||||
eggs/
|
||||
.eggs/
|
||||
lib/
|
||||
lib64/
|
||||
parts/
|
||||
sdist/
|
||||
var/
|
||||
wheels/
|
||||
share/python-wheels/
|
||||
*.egg-info/
|
||||
.installed.cfg
|
||||
*.egg
|
||||
MANIFEST
|
||||
|
||||
# PyInstaller
|
||||
*.manifest
|
||||
*.spec
|
||||
|
||||
# Unit test / coverage reports
|
||||
.coverage
|
||||
.coverage.*
|
||||
.cache
|
||||
nosetests.xml
|
||||
coverage.xml
|
||||
*.cover
|
||||
*.py,cover
|
||||
*.hypothesis/
|
||||
.pytest_cache/
|
||||
|
||||
# Jupyter Notebook
|
||||
.ipynb_checkpoints
|
||||
|
||||
# PEP 582 (used by eg. pipx)
|
||||
__pypackages__/
|
||||
|
||||
# PyCharm / VS Code settings
|
||||
.idea/
|
||||
.vscode/
|
||||
|
||||
# Local config
|
||||
*.env
|
||||
*.ini
|
||||
*.toml
|
||||
*.cfg
|
||||
|
||||
# Logs
|
||||
*.log
|
||||
|
||||
# Mac/Linux/Windows system files
|
||||
.DS_Store
|
||||
Thumbs.db
|
||||
|
||||
0
markitect/__init__.py
Normal file
0
markitect/__init__.py
Normal file
25
markitect/parser.py
Normal file
25
markitect/parser.py
Normal file
@@ -0,0 +1,25 @@
|
||||
from markdown_it import MarkdownIt
|
||||
|
||||
def parse_markdown_to_ast(md_content: str):
|
||||
md = MarkdownIt()
|
||||
tokens = md.parse(md_content)
|
||||
# Convert to a JSON-serializable list of dicts (tokens are objects, so we dict-ify them recursively)
|
||||
def token_to_dict(token):
|
||||
d = {
|
||||
'type': token.type,
|
||||
'tag': token.tag,
|
||||
'attrs': token.attrs,
|
||||
'map': token.map,
|
||||
'nesting': token.nesting,
|
||||
'level': token.level,
|
||||
'children': [token_to_dict(child) if child else None for child in token.children] if token.children else None,
|
||||
'content': token.content,
|
||||
'markup': token.markup,
|
||||
'info': token.info,
|
||||
'meta': token.meta,
|
||||
'block': token.block,
|
||||
'hidden': token.hidden
|
||||
}
|
||||
return {k: v for k, v in d.items() if v is not None} # Remove None values for cleanliness
|
||||
|
||||
return [token_to_dict(token) for token in tokens]
|
||||
120
tests/test_parser.py
Normal file
120
tests/test_parser.py
Normal file
@@ -0,0 +1,120 @@
|
||||
import pytest
|
||||
from markitect.parser import parse_markdown_to_ast
|
||||
|
||||
def test_parse_basic_markdown():
|
||||
md_content = "# Heading\nThis is a paragraph."
|
||||
expected_ast = [
|
||||
{
|
||||
'type': 'heading_open',
|
||||
'tag': 'h1',
|
||||
'attrs': {},
|
||||
'map': [0, 1],
|
||||
'nesting': 1,
|
||||
'level': 0,
|
||||
'content': '',
|
||||
'markup': '#',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
},
|
||||
{
|
||||
'type': 'inline',
|
||||
'tag': '',
|
||||
'attrs': {},
|
||||
'map': [0, 1],
|
||||
'nesting': 0,
|
||||
'level': 1,
|
||||
'children': [
|
||||
{
|
||||
'type': 'text',
|
||||
'tag': '',
|
||||
'attrs': {},
|
||||
'nesting': 0,
|
||||
'level': 0,
|
||||
'content': 'Heading',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': False,
|
||||
'hidden': False
|
||||
}
|
||||
],
|
||||
'content': 'Heading',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
},
|
||||
{
|
||||
'type': 'heading_close',
|
||||
'tag': 'h1',
|
||||
'attrs': {},
|
||||
'nesting': -1,
|
||||
'level': 0,
|
||||
'content': '',
|
||||
'markup': '#',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
},
|
||||
{
|
||||
'type': 'paragraph_open',
|
||||
'tag': 'p',
|
||||
'attrs': {},
|
||||
'map': [1, 2],
|
||||
'nesting': 1,
|
||||
'level': 0,
|
||||
'content': '',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
},
|
||||
{
|
||||
'type': 'inline',
|
||||
'tag': '',
|
||||
'attrs': {},
|
||||
'map': [1, 2],
|
||||
'nesting': 0,
|
||||
'level': 1,
|
||||
'children': [
|
||||
{
|
||||
'type': 'text',
|
||||
'tag': '',
|
||||
'attrs': {},
|
||||
'nesting': 0,
|
||||
'level': 0,
|
||||
'content': 'This is a paragraph.',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': False,
|
||||
'hidden': False
|
||||
}
|
||||
],
|
||||
'content': 'This is a paragraph.',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
},
|
||||
{
|
||||
'type': 'paragraph_close',
|
||||
'tag': 'p',
|
||||
'attrs': {},
|
||||
'nesting': -1,
|
||||
'level': 0,
|
||||
'content': '',
|
||||
'markup': '',
|
||||
'info': '',
|
||||
'meta': {},
|
||||
'block': True,
|
||||
'hidden': False
|
||||
}
|
||||
]
|
||||
assert parse_markdown_to_ast(md_content) == expected_ast
|
||||
Reference in New Issue
Block a user