JSON Splitter

Overview

JSON splitter operates on parsed JSON data, traversing the JSON graph to create chunks that are valid, self-contained JSON objects. Provides path-aware traceability by adding JSON paths to chunk metadata. Falls back to text chunking if JSON parsing fails. Splitter Class: JSONChunker Config Class: JSONChunkingConfig

Dependencies

No additional dependencies required. Uses standard library.

Examples

from upsonic import Agent, Task, KnowledgeBase
from upsonic.loaders.json import JSONLoader
from upsonic.loaders.config import JSONLoaderConfig
from upsonic.embeddings import OpenAIEmbedding, OpenAIEmbeddingConfig
from upsonic.text_splitter.json_chunker import JSONChunker, JSONChunkingConfig
from upsonic.vectordb import ChromaProvider, ChromaConfig, ConnectionConfig, Mode

# Configure splitter
splitter_config = JSONChunkingConfig(
    chunk_size=512,
    chunk_overlap=50,
    convert_lists_to_dicts=True,
    max_depth=50
)
splitter = JSONChunker(splitter_config)

# Setup KnowledgeBase
loader = JSONLoader(JSONLoaderConfig())
embedding = OpenAIEmbedding(OpenAIEmbeddingConfig())
vectordb = ChromaProvider(ChromaConfig(
    collection_name="json_docs",
    vector_size=1536,
    connection=ConnectionConfig(mode=Mode.IN_MEMORY)
))

kb = KnowledgeBase(
    sources=["data.json"],
    embedding_provider=embedding,
    vectordb=vectordb,
    loaders=[loader],
    splitters=[splitter]
)

# Query with Agent
agent = Agent("openai/gpt-4o")
task = Task("Find all user records", context=[kb])
result = agent.do(task)
print(result)

Parameters

Parameter	Type	Description	Default	Source
`chunk_size`	`int`	Target size of each chunk	1024	Base
`chunk_overlap`	`int`	Overlapping units between chunks	200	Base
`min_chunk_size`	`int \| None`	Minimum size for a chunk	None	Base
`length_function`	`Callable[[str], int]`	Function to measure text length	`len`	Base
`strip_whitespace`	`bool`	Strip leading/trailing whitespace	False	Base
`convert_lists_to_dicts`	`bool`	Convert lists to dict-like objects	True	Specific
`max_depth`	`int \| None`	Maximum recursion depth	50	Specific
`json_encoder_options`	`dict`	Options for json.dumps	Specific

GET STARTED

CONCEPTS

STARTING AN AGENT PROJECT

DEPLOYMENT

FURTHER READINGS

Overview

Dependencies

Examples

Parameters

GET STARTED

CONCEPTS

STARTING AN AGENT PROJECT

DEPLOYMENT

FURTHER READINGS

​Overview

​Dependencies

​Examples

​Parameters

Overview

Dependencies

Examples

Parameters