
28-07-2013, 07:23 PM
|
Phá Quan Hạ Sơn
|
|
Tham gia: Apr 2012
Bài gởi: 103
Thời gian online: 1654376
Thanks: 86
Thanked 59 Times in 18 Posts
|
|
Hướng dẫn đả tự siêu tốc với Decepticon
Hôm nay ka xin hướng dẫn phương pháp đả tự siêu tốc (2 phút/chục chương) bằng phần mềm OCR ABBYY FineReader. Hy vong sau khi đọc xong bài viết này aE sẽ dành ra chút xíu thời gian để đả tự thay vì up ảnh trực tiếp như hiện nay.
I. Thu gom file Ảnh
* Một page 4VN [Save as.../Lưu Trang dưới dạng...] được tối đa 20 file ảnh nhưng khủng bố cái là thường ko sắp xếp theo thứ tự (ai nhờ đả tự thì nhớ đổi tên ảnh) :gach:
* Thử batch IDM để down page hàng loạt cơ mà ko thấy folder chứa ảnh đâu cả bực vkl. Lão nào giải quyết vụ này giùm.
II. Crop ảnh bằng Microsoft Office Picture Manager
+ Mục đích: Xén mấy hàng chữ linh tinh đi
+ Cách làm: Xem ảnh (35-35-35-35 chuẩn không cần chỉnh)
ABBYY cũng có trình Xén ảnh cơ mà rất khốn nạn vậy nên aE sài tạm Microsoft Office Picture Manager nhé (tool này có sẵn trong Office)
!! Chú ý: Cẩn thận với Độ phân giải của ảnh, nên xếp ảnh thành nhiều folder khác nhau theo thứ tự chương và độ phân giải để crop cho dễ và tránh lộn xộn khi ORC. Ví dụ [C15-50 800x1600], [C51-70 800x1480] ...
III. OCR với ABBYY FineReader
* Nên sd phiên bản ABBYY FineReader 11.0.113.164 Corporate Edition mới nhất down từ hdvnbits (crack bằng patch .dll và file .bat rất an toàn)
* Áp dụng với ảnh rõ nét định dạng png, jpg ... (ảnh hơi mờ định dạng gif aE xem ở trang sau)
1) Mở file [Ctrl + O]
Chắc ko cần ảnh hướng dẫn đâu nhở. Ở đây ka làm ví dụ với file ảnh Page 43 - Hỏa Bạo Thiên Vương bên trên.
!! Chú ý
* Khi ORC với số lượng lớn, trước tiên hãy mở tất cả file ảnh, lọc ra những ảnh có tỷ lệ lỗi cao nhất, copy những ảnh đó vào một Folder riêng rồi tiến hành test để lấy được thông số tối ưu.
* Nên tắt chức năng Tự động đọc và phân tích khi mở file cho nó nhẹ nợ.
2) Chỉnh sửa hình ảnh [Ctrl + Shift + C]
- Bước 1: Tăng độ tương phản
+ Mục đích: Loại bỏ dòng chữ chìm chó má, đám lá xanh mờ đến như ảnh là OK
+ Cách làm: Xem ảnh (ở đây ka đặt độ tương phản 40)
- Bước 2: Tăng giảm cấp màu đen - xám - trắng
+ Mục đích: Làm đậm màu chữ để quét ảnh tốt hơn (đám lá đậm lên một chút ko sao)
+ Cách làm: Xem ảnh (ở đây ka tăng cấp màu Xám lên 0.10, giảm Trắng xuống 245
- Bước 3: Run Test
+ Mục đích: Xác định tỷ lệ ký tự lỗi (%)
+ Cách làm: Click [Đọc]
===> Kết quả ka đạt "Ký tự không chắc chắn" trung bình là 3% tức độ chính xác > 97% ===> Vô Đối
- Bước 4: Copy qua Word nếu độ chính xác đã thoả mãn (xem ảnh bước 4)
- Bước 5: Replace lỗi hay gặp
+ Lỗi thì gần như cố định rồi, chạy Macro hay gì thì tuỳ.
+ Khi add thêm lỗi nên sử dụng các ký tự ä ë ï ö ü ÿ nếu sợ replace sai
!! Chú ý
* Không có chế độ lưu roài xử lý tự động đâu, sau khi làm xong phải chuyển ABBYY về chế độ Đầy đủ màu để dùng cho lần tiếp theo.
* Tỷ lệ lỗi TB không nên vượt quá 4% (ảnh GIF ghẻ thì 6%)

P/S: Hướng dẫn trên đây chỉ mang tính chất tham khảo, không khả năng chính xác hoàn toàn với mọi file ảnh. Nếu muốn pro như ka aE nên thử test lại một lần, xem kỹ độ đậm nổi tối đa ở Bước 2 (Lần Test 1) để có thể nắm cách điều chỉnh độ tương phản và cấp màu sao cho hợp lý nhất :bye:
Last edited by Decepticon; 26-08-2013 at 05:50 PM.
|