CÔNG CỤ KHAI THÁC VĂN BẢN

Khai thác văn bản (text mining), còn thường được gọi là Khai phá dữ liệu văn bản (text data mining) hoặc Phân tích văn bản (text analytics), là một quá trình lọc ra thông tin cụ thể hoặc chất lượng cao từ (thường là) một bộ sưu tập lớn các văn bản thông qua việc sử dụng các thuật toán thống kê và / hoặc học máy khác nhau.

Các công cụ khai thác văn bản cho phép chúng tôi trích xuất các sự kiện và xu hướng cốt lõi từ một lượng lớn dữ liệu và xử lý các dữ liệu đó để tìm ra các mẫu và cấu trúc sẽ giúp chúng tôi đưa ra các suy luận và dự đoán về kết quả đầu ra.

Đây là một chủ đề rộng và có sẵn một số lượng lớn các công cụ, nhưng để bắt đầu với khai thác văn bản, chúng ta sẽ xem xét một số ví dụ dễ học hơn, giúp cho những nhà nghiên cứu mới bắt tay vào phương pháp này.

Tranh: Joey Guidon/Behance | CC BY-NC-ND 4.0

Voyant Tools

Voyant Tools (trước đây gọi là Voyeur) là một công cụ đọc và phân tích các văn bản kỹ thuật số dựa trên web, thân thiện với người dùng. Voyant Tools cho phép bạn làm việc với các bộ văn bản của riêng mình ở nhiều định dạng (ví dụ: văn bản thuần túy, HTML, XML, PDF, RTF và MS Word). Nó cũng cho phép bạn làm việc trực tiếp với các bộ văn bản có sữan trên Internet chỉ bằng cách nhập URL của trang web.

Voyant Tools có lẽ là công cụ dựa trên web mạnh mẽ nhất cho việc phân tích văn bản chung. Nó đặc biệt vượt trội khi bạn cần xử lý khối lượng văn bản lớn cũng như cho phép bạn phát triển các tập lệnh của riêng chúng để mở rộng chức năng của nó.

Giao diện web của nó cực kỳ dễ sử dụng. Bạn có thể thực hiện nhiều tác vụ phân tích văn bản cơ bản mà không mất quá nhiều thời gian đọc hướng dẫn. Nhiều chức năng tích hợp của nó (ví dụ: hiển thị các tần số và xu hướng của văn bản đã chọn trong một tài liệu cụ thể) được thực hiện tự động ngay sau khi tệp được tải lên. Voyant cũng cho phép bạn chèn một liên kết URL trực tiếp đến bất kỳ trang Web nào và bắt đầu phân tích nó một cách tự động.

TAPoRware

TAPoRware là một bộ công cụ trực tuyến tương tự cho phép bạn thực hiện phân tích văn bản trên HTML, XML và các tệp văn bản thuần túy. Nó cũng có thể phân tích các trang web thông qua URL của chúng.

Được viết bằng Ruby (một ngôn ngữ lập trình mã nguồn mở), TAPoRware bao gồm một bộ công cụ phân tích văn bản mà bạn có thể sử dụng trực tuyến để phân tích HTML, XML và các tệp văn bản thuần túy. Một lần nữa, bạn cũng có thể phân tích các trang web và tài liệu chỉ bằng cách cung cấp URL có liên quan. Mỗi công cụ TAPoRware cũng có thể được sử dụng như một dịch vụ web thông qua TAPoR Portal.

Giao diện của mỗi công cụ đều được trình bày gọn gàng với phong cách tối giản, nhưng tất cả chúng đều hoạt động đáng ngưỡng mộ với bất kỳ tác vụ nào bạn ném vào chúng.

Orange Text Mining

Orange Text Mining là một tiện ích bổ sung cho gói phần mềm khai thác dữ liệu Orange, mở rộng Orange bằng cách cung cấp các công cụ để phân tích văn bản. Orange là một công cụ trực quan hóa và phân tích dữ liệu mã nguồn mở cho cả người mới và các chuyên gia sử dụng kịch bản Python. 

Orange là ứng dụng dành cho máy tính yêu cầu cài đặt. Nó có hiệu suất tốt nhất trong số ba công cụ được thảo luận trong bài đăng này, nhưng vì vậy cũng hoạt động phức tạp hơn.

Orange cung cấp các đầu ra trực quan hóa khác nhau (ví dụ: biểu đồ thanh, biểu đồ phân tán, biểu đồ hình ảnh, mạng lưới kết nối, bản đồ nhiệt, v.v.) và cũng cho phép bạn thiết kế các bước phân tích dữ liệu của riêng mình thông qua môi trường lập trình trực quan. Một giao diện kịch bản Python cũng có sẵn để người dùng viết mã các thuật toán của riêng họ cũng như phát triển các quy trình phân tích dữ liệu phức tạp.

Cân nhắc

Như thường lệ, khi sử dụng các công cụ phân tích này (đặc biệt là những công cụ chỉ có bản trực tuyến) để phân tích dữ liệu của bạn, bạn phải xem xét cẩn thận những rủi ro tiềm ẩn về bảo mật và những biện pháp nào (ví dụ: ẩn danh dữ liệu cá nhân hoặc nhạy cảm) sẽ cần thiết để giảm thiểu những rủi ro đó.

Nguồn

Andy Tseng. (2014, August 4). Thing 18: Text mining tools. Library of The University of Melbourne.

Leave A Comment