Fork Tabula-Java

Форк библиотеки tabula-java, предназначенный для извлечения таблиц из PDF-документов.

Отличия от оригинала

Удалён лишний функционал:
- CommandLineApp
- тесты
- неиспользуемый код
Минимизирован набор зависимостей
Обновлены версии используемых библиотек до последних
Сохранена совместимость с Java 8

О проекте

Этот форк предназначен для случаев, когда требуется только ядро распознавания таблиц без дополнительных утилит и CLI, что делает библиотеку более лёгкой и удобной для интеграции в сторонние проекты.

Пример использования

Извлечение таблиц из PDF-документа постранично.

public static List<List<Table>> getTablesFromPdf(String pdfFilePath) throws Exception {
    try (PDDocument document = Loader.loadPDF(new File(pdfFilePath))) {
        SpreadsheetExtractionAlgorithm ea = new SpreadsheetExtractionAlgorithm(); // или new BasicExtractionAlgorithm()

        List<List<Table>> result = new ArrayList<>();

        PageIterator pi = new ObjectExtractor(document).extract();

        while (pi.hasNext()) {
            Page page = pi.next();
            result.add(ea.extract(page));
        }
        return result;
    }
}

Доступные алгоритмы извлечения

1. SpreadsheetExtractionAlgorithm()

Подходит для PDF, созданных из табличных редакторов (Excel, Google Sheets и др.).
Использует «сеточную» структуру для распознавания таблицы.
Отличается высокой точностью, если документ содержит чётко выровненные столбцы и строки.
Рекомендуется для машинно-сгенерированных PDF.

2. BasicExtractionAlgorithm()

Универсальный алгоритм для поиска таблиц в PDF.
Основан на анализе расположения текста и промежутков между словами.
Может извлекать таблицы даже из документов без сетки (например, отчётов или документов, где таблица напечатана как текст).
Работает хуже на «чистых» Excel-таблицах по сравнению с Spreadsheet-алгоритмом, но зато справляется с менее структурированными таблицами.

Name		Name	Last commit message	Last commit date
Latest commit History 492 Commits
src/main/java/technology/tabula		src/main/java/technology/tabula
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Fork Tabula-Java

Отличия от оригинала

О проекте

Пример использования

Доступные алгоритмы извлечения

1. SpreadsheetExtractionAlgorithm()

2. BasicExtractionAlgorithm()

About

Uh oh!

Releases

Packages

Languages

License

lanit-exp/tabula-java

Folders and files

Latest commit

History

Repository files navigation

Fork Tabula-Java

Отличия от оригинала

О проекте

Пример использования

Доступные алгоритмы извлечения

1. SpreadsheetExtractionAlgorithm()

2. BasicExtractionAlgorithm()

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages