Wednesday, October 7, 2015

Bài tập CTDL Cuối kỳ SIE 20151

Bài 5 điểm

Bài 1. Cho một tập văn bản tiếng Anh ( 200 văn bản)

Hãy thống kê tần số các n-gram có trong văn bản (từ 1-gram, 2-gram tới 5-gram) và in ra màn hình các gram có

  • Tần số xuất hiện nhiều nhất trên toàn bộ văn bản (mỗi gram có thể được tính nhiều lần nếu xuất hiện trong cùng 1 văn bản)
  • Xuất hiện trong nhiều văn bản nhất (mỗi gram chỉ được tính xuất hiện trong 1 văn bản 1 lần)
Chú ý
1. các gram được tính trong phạm vi 1 câu hoặc một phần của câu và được ngăn cách bằng các dấu câu như . , " : ; ? !

The military previously called the bombing an incident of "collateral damage," a description Campbell's story would seem to support.

thì các phần của câu gồm 

The military previously called the bombing an incident of 
collateral damage
a description Campbell's story would seem to support

2. Có một số ngoại lệ như từ viết tắt và số

We have now learned that on October 3, Afghan forces advised that they were taking fire from enemy positions and asked for air support from U.S. forces," he said Monday

U.S là một gram chứ ko tách thành 2

So far this year, more than 130,000 migrants and refugees have crossed to Europe from the north African coast. More than 2,700 have drowned.

số tính liền chứ không ngăn cách ra


Bài 2.

Cho một tập văn bản tiếng Anh ( 5000 văn bản)


  • Thống kê tần số các n-gram có trong văn bản (từ 1-gram).
  • Hai gram được coi là tương đồng nhau nếu nó xuất hiện cùng nhau trong nhiều văn bản. Hãy nhập vào 2 1-gram và in ra màn hình độ tương đồng của 2 1-gram đó
độ tương đồng của 2 gram đươc tính bằng 

#số văn bản chứa đông thời 2 gram đó / #văn bản chứa 1 trong 2 gram


Chú ý: Ta chỉ xét 1-gram trong bài toán này

Một số yêu cầu thêm như:

  • In ra văn bản chứa 1 hoặc cả 2 gram
  • Chỉ xét các văn bản có độ dài ít hơn 500 từ
  • chỉ xét các văn bản mà gram đó xuất hiện nhiều hơn 2 lần



Bài 3. Cho một tập văn bản tiếng Anh ( 5000 văn bản)
  • Thống kê tần số các n-gram có trong văn bản (từ 1-gram), và số lượng văn bản mà mỗi gram xuất hiện.
  • Độ quan trọng của một gram được tính bằng TF-IDF = (tần số xuất hiện của từ/tổng số từ)*log(tổng số văn bản/số văn bản từ đó xuất hiện). Từ nào có TF-IDF lớn là từ quan trọng.
  • Sắp xếp độ quan trọng của các từ theo TF-IDF và chỉ lấy 30% từ có TF-IDF quan trọng nhất.  

FILE văn bản:
https://drive.google.com/file/d/0B5nb3v94xY_WaV9PejV0MUx6dDg/view?usp=sharing

No comments:

Post a Comment