Download the PHP package thikdev/pdf_parser without Composer

On this page you can find all versions of the php package thikdev/pdf_parser. It is possible to download/install these versions without Composer. Possible dependencies are resolved automatically.

FAQ

After the download, you have to make one include require_once('vendor/autoload.php');. After that you have to import the classes with use statements.

Example:
If you use only one package a project is not needed. But if you use more then one package, without a project it is not possible to import the classes with use statements.

In general, it is recommended to use always a project to download your libraries. In an application normally there is more than one library needed.
Some PHP packages are not free to download and because of that hosted in private repositories. In this case some credentials are needed to access such packages. Please use the auth.json textarea to insert credentials, if a package is coming from a private repository. You can look here for more information.

  • Some hosting areas are not accessible by a terminal or SSH. Then it is not possible to use Composer.
  • To use Composer is sometimes complicated. Especially for beginners.
  • Composer needs much resources. Sometimes they are not available on a simple webspace.
  • If you are using private repositories you don't need to share your credentials. You can set up everything on our site and then you provide a simple download link to your team member.
  • Simplify your Composer build process. Use our own command line tool to download the vendor folder as binary. This makes your build process faster and you don't need to expose your credentials for private repositories.
Please rate this library. Is it a good library?

Informations about the package pdf_parser

Parse pdf file to Object

Chuyển đổi pdf file thành dạng Object Document với các thành phần con cũng là các dạng Object : Component, Line, Page, ...

Flow

PdfToHtml

Make simple document

Processors

Các nước làm Document chuẩn hơn gọi là Process, thứ tự process ảnh hưởng rất nhiều vào đầu ra

Core Process :

1. Detect Margin

Ý tưởng của margin là xác định khung nhỏ nhất chứa toàn bộ các Text Component, margin được lưu lại vào từng trang.

2. FontClassify

Tính toán mức độ phổ biến của các font khác nhau để đưa ra font size phổ biến nhất, các font có font size thuộc dạng phổ biến nhất được coi là font chữ thường. Từ đó khi in ra html có thể sử dụng font-size theo % để hiển thị kích thước giống pdf hơn

3. DetectExtraContent

Mục này tính toán tìm ra header/footer, extra left/right (chưa làm). Ý tưởng đơn giản là xét các nhóm trang thuộc trang chẵn/lẻ. Với mỗi trang trong nhóm, đi từ top xuống dần dần từng khoảng (~22px), xác định text trong khu vực này, so sánh sự khác nhau, nếu chỉ khác nhau không quá 2 chỗ, và các ký tự khác nhau chỉ là số hoặc ivx(số la mã) thì coi là phù hợp khả năng là header, sau đó mở rộng tiếp thêm xuống dưới cho đến khi không đủ điều kiện thì điểm thoả mã trước đó chính là giới hạn header. Với footer tương tự nhưng đi từ dưới lên.

Lưu ý :

4. MergeComponents

Usage

Simple

Add custom process

Add custom Component


All versions of pdf_parser with dependencies

PHP Build Version
Package Version
Requires symfony/process Version ^5.0|^6.0|^7.0
symfony/console Version ^5.0|^6.0|^7.0
voku/portable-utf8 Version ^5.0|^6.0
Composer command for our command line client (download client) This client runs in each environment. You don't need a specific PHP version etc. The first 20 API calls are free. Standard composer command

The package thikdev/pdf_parser contains the following files

Loading the files please wait ....