{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T11:08:57Z","timestamp":1768216137256,"version":"3.49.0"},"reference-count":24,"publisher":"Frontiers Media SA","license":[{"start":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T00:00:00Z","timestamp":1768176000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["frontiersin.org"],"crossmark-restriction":true},"short-container-title":["Front. Comput. Sci."],"abstract":"<jats:sec>\n                    <jats:title>Introduction<\/jats:title>\n                    <jats:p>While Retrieval-Augmented Generation (RAG) enhances language models, its application to long documents is often hampered by simplistic retrieval strategies that fail to capture hierarchical context. Although the RAPTOR framework addresses this through a recursive tree-structured approach, its effectiveness is constrained by semantic fragmentation from fixed-token chunking and a static clustering methodology that is suboptimal for organizing the hierarchy.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Methods<\/jats:title>\n                    <jats:p>In this paper, we propose a comprehensive two-stage enhancement framework to address these limitations. We first employ Semantic Segmentation to generate coherent foundational leaf nodes, and subsequently introduce an Adaptive Graph Clustering (AGC) strategy. This strategy leverages the Leiden algorithm with a novel layer-aware dual-adaptive parameter mechanism to dynamically tailor clustering granularity.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Results<\/jats:title>\n                    <jats:p>Extensive experiments on the narrative QuALITY benchmark and the scientific Qasper dataset demonstrate the robustness and domain generalization of our framework. Our full model achieves a peak accuracy of 65.5% on QuALITY and demonstrates superior semantic validity on Qasper, significantly outperforming the baseline. Comparative ablation studies further reveal that our graph-topological approach outperforms traditional distance-based, density-based, and distribution-based clustering methods. Additionally, our approach constructs a dramatically more compact hierarchy, reducing the number of required summary nodes by up to 76%.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Discussion<\/jats:title>\n                    <jats:p>This work underscores the critical importance of a holistic, semantic-first approach to building more effective and efficient retrieval trees for complex RAG tasks.<\/jats:p>\n                  <\/jats:sec>","DOI":"10.3389\/fcomp.2025.1710121","type":"journal-article","created":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T07:57:28Z","timestamp":1768204648000},"update-policy":"https:\/\/doi.org\/10.3389\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Enhancing RAPTOR with semantic chunking and adaptive graph clustering"],"prefix":"10.3389","volume":"7","author":[{"given":"Yan","family":"Liu","sequence":"first","affiliation":[]},{"given":"Xiaodong","family":"Xie","sequence":"additional","affiliation":[]},{"given":"Xin","family":"Wan","sequence":"additional","affiliation":[]},{"given":"Yi","family":"Pan","sequence":"additional","affiliation":[]},{"given":"Cheng","family":"Wang","sequence":"additional","affiliation":[]}],"member":"1965","published-online":{"date-parts":[[2026,1,12]]},"reference":[{"key":"ref1","first-page":"420","article-title":"On the surprising behavior of distance metrics in high dimensional space","author":"Aggarwal","year":"2001"},{"key":"ref2","doi-asserted-by":"crossref","first-page":"77","DOI":"10.1007\/978-1-4614-3223-4_4","article-title":"A survey of text clustering algorithms","volume-title":"Mining text data","author":"Aggarwal","year":"2012"},{"key":"ref3","doi-asserted-by":"publisher","first-page":"5858","DOI":"10.1109\/TNNLS.2024.3403155","article-title":"Deep clustering: a comprehensive survey","volume":"36","author":"Aljaloud","year":"2024","journal-title":"IEEE Trans. Neural Networks Learn. Syst."},{"key":"ref4","author":"Barnett","year":"2024"},{"key":"ref5","doi-asserted-by":"publisher","first-page":"1877","DOI":"10.48550\/arXiv.2005.14165","article-title":"Language models are few-shot learners","volume":"33","author":"Brown","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref6","first-page":"786","article-title":"HiBiRds: attention with hierarchical biases for structure-aware long document summarization","author":"Cao","year":"2022"},{"key":"ref7","author":"Chen","year":""},{"key":"ref8","author":"Chen","year":""},{"key":"ref9","doi-asserted-by":"publisher","first-page":"1","DOI":"10.48550\/arXiv.2204.02311","article-title":"PaLM: scaling language modeling with pathways","volume":"24","author":"Chowdhery","year":"2023","journal-title":"J. Mach. Learn. Res."},{"key":"ref10","first-page":"235","article-title":"A dataset of natural language queries, answers, and citations over NLP papers","author":"Dasigi","year":"2021"},{"key":"ref11","first-page":"3236","article-title":"Query-focused abstractive summarization: a survey","author":"Gidi","year":"2022"},{"key":"ref12","author":"Grootendorst","year":"2022"},{"key":"ref13","first-page":"33","article-title":"Texttiling: a quantitative approach to discourse segmentation","volume":"23","author":"Hearst","year":"1997","journal-title":"Comput. Linguist."},{"key":"ref14","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1162\/tacl_a_00324","article-title":"How can we know what language models know?","volume":"8","author":"Jiang","year":"2020","journal-title":"Trans. Assoc. Comput. Linguist."},{"key":"ref15","first-page":"6769","article-title":"Dense passage retrieval for open-domain question answering","author":"Karpukhin","year":"2020"},{"key":"ref16","doi-asserted-by":"publisher","first-page":"9459","DOI":"10.48550\/arXiv.2005.11401","article-title":"Retrieval-augmented generation for knowledge-intensive NLP tasks","volume":"33","author":"Lewis","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref17","doi-asserted-by":"publisher","first-page":"157","DOI":"10.1162\/tacl_a_00638","article-title":"Lost in the middle: how language models use long contexts","volume":"12","author":"Liu","year":"2024","journal-title":"Trans. Assoc. Comput. Linguist."},{"key":"ref18","doi-asserted-by":"publisher","first-page":"861","DOI":"10.21105\/joss.00861","article-title":"UMAP: uniform manifold approximation and projection for dimension reduction","volume":"3","author":"McInnes","year":"2018","journal-title":"J. Open Source Softw."},{"key":"ref19","first-page":"883","article-title":"A neural CRF-based hierarchical approach for linear text segmentation","author":"Nair","year":"2023"},{"key":"ref20","first-page":"5336","article-title":"QuALITY: question answering with long input texts, yes!","author":"Pang","year":"2022"},{"key":"ref21","first-page":"3982","article-title":"Sentence-BERT: sentence embeddings using Siamese BERT networks","author":"Reimers","year":"2019"},{"key":"ref22","article-title":"RAPTOR: recursive abstractive processing for tree-organized retrieval","author":"Sarthi","year":"2024"},{"key":"ref23","doi-asserted-by":"publisher","first-page":"5233","DOI":"10.1038\/s41598-019-41695-z","article-title":"From Louvain to Leiden: guaranteeing well-connected communities","volume":"9","author":"Traag","year":"2019","journal-title":"Sci. Rep."},{"key":"ref24","first-page":"2153","article-title":"Extractive is not faithful: an investigation of broad unfaithfulness problems in extractive summarization","author":"Zhang","year":"2023"}],"container-title":["Frontiers in Computer Science"],"original-title":[],"link":[{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/fcomp.2025.1710121\/full","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T07:57:29Z","timestamp":1768204649000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/fcomp.2025.1710121\/full"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,12]]},"references-count":24,"alternative-id":["10.3389\/fcomp.2025.1710121"],"URL":"https:\/\/doi.org\/10.3389\/fcomp.2025.1710121","relation":{},"ISSN":["2624-9898"],"issn-type":[{"value":"2624-9898","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1,12]]},"article-number":"1710121"}}