Chào mừng bạn đến với Tranonet ! Dữ liệu mới được update là 10.000 đơn vị ngôn ngữ về các lĩnh vực : người, động vật, thực vật, vật, khái niệm (10.000 đơn vị ngôn ngữ >30.000 từ )

Kiến thức Dịch máy - Dịch tự động.

Lịch sử Dịch máy - Dịch tự động See more.

Do các đặc điểm của lịch sử mà số lượng các ngôn ngữ trên thế là rất lớn (hơn 5000 ngôn ngữ). Do đó việc trao đổi thông tin sẽ rất khó khăn. Nhận thấy những khả năng của máy tính điện tử, con người đã tiến hành nghiên cứu về dịch máy. Dịch máy nói chung bắt đầu từ thập niên 50, mặc dù một số công việc có thể tìm thấy ở thời kỳ trước đó, trước 1 số thành quả ban đầu người ta đã hi vọng chỉ sau vài năm nữa thì máy tính có thể thay thế con người trong việc dịch giữa các ngôn ngữ. Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên. Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiếng khác. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. Từ những lạc quan thời kỳ đầu đến những thoái trào khi có bản báo cáo ALPAC vào năm 1966. Nó kết luận rằng máy dịch tốn kém hơn, không chính xác và chậm hơn con người và mặc dù đắt đỏ, chất lượng bản dịch không có vẻ gì sẽ đạt đến chất lượng của bản dịch của con người trong tương lai gần. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn đang là một thách thức lớn. Dịch máy là một lĩnh vực rất thú vị, thu hút được sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới. Với sự phát triển của khoa học kỹ thuật hi vọng trong thời gian ngắn sắp tới dịch máy sẽ giúp loài người dễ dàng giao tiếp với nhau.

Hide this content.

Phương pháp dịch máy trên cơ sở luật - Rule Based Machine Translation -RBMT See more.

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên máy tính khó có thể phân tích cú pháp cho những câu có ngữ nghĩa phức tạp, và việc xây dựng tập luật và cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ.

Hide this content.

Phương pháp dịch máy trên cơ sở ví dụ - Example Based Machine Translation -EBMT See more.

Không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu căn cứ kho ngữ liệu song ngữ

Hide this content.

Phương pháp dịch máy thống kê -Statistical Machine Translation - SMT

Phương pháp dịch máy thống kê dựa vào từ -Word-based SMT See more.

Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngôn ngữ tự nhiên. Dịch máy thống kê trên cơ sở từ không sử dụng rộng rãi ngày nay, thay 8 vào đó là dịch máy thống kê trên cơ sở cụm từ. Hầu hết các hệ thống dựa trên cụm từ sử dụng Giza++ để gióng hàng câu, trích rút ra các cặp câu song ngữ và mô hình ngôn ngữ. Vì những ưu thế của Giza++, hiện nay có một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này.

Hide this content.

Phương pháp dịch máy thống kê trên cơ sở cụm từ - Phrase-based SMT See more.

Dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường không theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu.

phrasebasedSMT

Hide this content.

Phương pháp dịch máy thống kê dựa trên cú pháp - Syntax-based SMT See more.

Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch máy thống kê trên cơ sở cụm từ). Ý tưởng này đã xuất hiện từ lâu, tuy nhiên phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân tích ngẫu nhiên mạnh mẽ trong những năm 1990

Hide this content.

Phương pháp dịch máy thống kê factored - Factored SMT See more.

1. Dẫn nhập ng‡nh khoa học trẻ, l‡ giao

Hide this content.

Ngôn ngữ học khối liệu -Corpus Linguistics See more.

1. Các khái niệm cơ bản Từ "corpus" (với nghĩa là “khối liệu”) lần đầu tiên được sử dụng như một thuật ngữ khoa học vào năm 1961 để chỉ khái niệm cơ bản của Ngôn ngữ học khối liệu. Thuật ngữ này được dùng trong tập hợp các văn bản bằng các ngôn ngữ khác nhau dưới dạng văn bản điện tử (file của máy tính): khối liệu Brown, khối liệu London-Lund v.v. Các nhà nghiên cứu người Anh T. McEnery và A. Wilson đã đưa ra định nghĩa chung cho khái niệm khối liệu như sau:
a. (sử dụng tự do) khối liệu là văn bản bất kì;
b. (sử dụng thường xuyên) khối liệu là văn bản điện tử;
c. (sử dụng theo phong cách ngôn ngữ) khối liệu là văn bản điện tử, được tập hợp sao cho có sự hiện diện của tất cả các phong cách ngôn ngữ chức năng.
Có thể coi một tập hợp bất kì các văn bản là khối liệu.Theo tiếng La tin, khối liệu có nghĩa là "any body of text"3 (khối văn bản bất kì - ĐHT dịch). Tuy nhiên, thuật ngữ "khối liệu" khi được sử dụng trong ngữ cảnh cụ thể của ngôn ngữ học hiện đại, cụ thể là trong ngôn ngữ học máy tính, sẽ có ý nghĩa đặc trưng hơn nhiều so với định nghĩa đơn giản vừa nêu trên. Nếu nhìn nhận từ góc độ khối liệu là cơ sở của Ngôn ngữ học khối liệu - khoa học nghiên cứu các phương pháp xây dựng và sử dụng khối liệu với sự trợ giúp của công nghệ máy tính, - thì có thể dựa vào bốn đặc điểm cơ bản sau đây để định nghĩa khối liệu:
- Bao gồm các model điển hình. Nếu là khối liệu của hai ngôn ngữ thì cần bao gồm các model tương đồng điển hình;
- Có kích cỡ xác định;
- Ở dạng đọc được trên máy tính;
- Có các chú giải chuẩn về mặt ngôn ngữ.
Căn cứ vào bản chất và hoạt động ngôn ngữ của khối liệu, có thể định nghĩa khối liệu là tập hợp các dữ liệu tương đồng về mặt ngôn ngữ, được trình bày dưới dạng model văn bản điện tử, theo các cấu trúc nhất định và được sử dụng để giải quyết các vấn đề ngôn ngữ cụ thể. Khối liệu trong ngôn ngữ học máy tính bao gồm cả hệ thống điều chỉnh dữ liệu của văn bản nhằm giúp người sử dụng tìm kiếm được các thông tin cần thiết một cách nhanh chóng và dễ dàng. Khối liệu là công cụ để xây dựng, điều chỉnh và bổ sung các hệ thống tự động hóa khác nhau như dịch tự động, nhận dạng lời nói, tìm kiếm thông tin. Ví dụ, tìm kiếm trong khối liệu các dữ liệu theo một từ bất kì có thể tạo ra được cả một danh mục liệt kê tất cả các trường hợp có sử dụng từ đó với đầy đủ thông tin về nguồn gốc dữ liệu. Đối với các nhà nghiên cứu ngôn ngữ, sử dụng khối liệu sẽ tiết kiệm được rất nhiều thời gian và công sức. Khối liệu văn bản là cần thiết và hữu ích đối với giới ngôn ngữ học hiện đại bởi vì chúng tạo ra những khả năng mới cho việc nghiên cứu của các nhà ngôn ngữ, làm tiết kiệm đáng kể thời gian và đảm bảo cập nhật được lượng lớn thông tin một cách rất nhanh chóng. Nhờ khối liệu có thể trong vài giây biết được tần số sử dụng của các loại từ và cụm từ cần nghiên cứu, theo dõi thường xuyên và điều chỉnh được tần số xuất hiện của chúng trên các phương tiện thông tin khoa học và đại chúng. Tìm kiếm dữ liệu trong khối liệu cho phép trên cơ sở một từ bất kì tạo ra được danh mục của tất cả các trường hợp sử dụng của từ đó trong ngữ cảnh với nguồn trích dẫn đầy đủ. Các khối liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngôn ngữ và lời nói. Khối liệu có thể cung cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ, lexeme và v.v. Khối liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ khối liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau. Khối liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả. Vai trò của Ngôn ngữ học khối liệu càng được khẳng định khi các công trình nghiên cứu về khối liệu cho thấy khối liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật.

2. Các đặc trưng cơ bản của khối liệu. Có thể nói rằng khối liệu là mô hình nhỏ nhất của ngôn ngữ. Căn cứ vào hoạt động của khối liệu trong các hệ thống của nó có thể thấy các đặc trưng cơ bản sau:
a. Tính điển hình Đây là khái niệm quan trọng nhất của Ngôn ngữ học khối liệu. Đặc trưng này xác định tính thực tiễn của khối liệu, có nghĩa là khối liệu phải là tập hợp của nhiều loại văn bản phù hợp cho việc nghiên cứu đối với nhiều ngôn ngữ. Điều đặc biệt quan trọng là khối liệu chung phải hàm chứa được một tỉ lệ xác định các văn bản thuộc nhiều thể loại, tại nhiều thời điểm lịch sử, của nhiều tác giả khác nhau v.v. Tính điển hình của khối liệu có thể được hiểu là sự thể hiện tỉ lệ cần và đủ trong khối liệu về dung lượng, thể loại, phong cách, số lượng tác giả, vùng địa lí, thời kì lịch sử v.v.
b. Kích cỡ xác định Khái niệm "khối liệu" có nghĩa thông thường là tập hợp các văn bản có kích cỡ xác định. Theo thời gian, kích cỡ (dung lượng và thành phần) của khối liệu có thể thay đổi. Tuy nhiên, những thay đổi này hoặc là không được kéo theo sự thay đổi về tính điển hình của toàn khối hoặc là phải thay đổi nền của khối liệu cần thay đổi. Các khối liệu ban đầu như khối liệu Brown hoặc khối liệu tiếng Nga Upsanski bao gồm một triệu đơn vị từ và cụm từ sử dụng. Ngày nay, các khối liệu cần chứa được ít nhất là 100 triệu đơn vị từ và cụm từ sử dụng. Khi xây dựng khối liệu cần lưu ý đến mục đích sử dụng ngữ liệu khối và người sử dụng khối liệu được tạo lập. Quá trình xây dựng khối liệu cho thấy mỗi nhóm người sử dụng khối liệu đều có nhu cầu riêng của mình. Ví dụ, phần lớn người sử dụng tìm trong khối liệu các từ hoặc cụm từ khi gặp phải các vấn đề chính tả hoặc phong cách của chúng, thường là họ tìm đồng nghĩa của từ hoặc cụm từ. Đối với các trường hợp như vậy thì chỉ cần xây dựng khối liệu ngôn ngữ vừa đủ, có thể chấp nhận một số từ hoặc cụm từ trong khối chưa mang đầy đủ tính điển hình của khối liệu được tạo dựng với nguồn từ điển thông dụng của ngôn ngữ toàn dân. Một ví dụ khác, đối với người sử dụng là chuyên gia một chuyên ngành công nghệ chẳng hạn thì người xây dựng khối liệu cần tuân thủ đầy đủ các nguyên tắc về tính điển hình, kích cỡ xác định và phong cách ngôn ngữ của chuyên ngành đó bên cạnh một lượng dự trữ từ và cụm từ của từ điển thông dụng. Hoặc đối với người sử dụng là nhà từ vựng học thì ngoài nguồn từ và cụm từ của từ điển thông dụng ra còn cần một lượng các đơn vị từ theo chuyên ngành cụ thể và các phương tiện ngôn ngữ kèm theo. Đối với người sử dụng là các nhà lí luận ngôn ngữ và chuyên gia trong lĩnh vực soạn thảo ngôn ngữ máy tính thì cần khối liệu đặc trưng về mặt ngôn ngữ, bao gồm các dữ liệu về từ vựng - ngữ nghĩa, cú pháp và hình thái học.
c. Tính chú giải Để giải quyết được các vấn đề ngôn ngữ khác nhau trong khối liệu, khi xây dựng khối liệu cần có lượng đáng kể chú giải thông tin ngôn ngữ và ngoại ngôn ngữ thuộc các thể loại khác nhau. Vì vậy, trong Ngôn ngữ học khối liệu hình thành các khối chú giải thông tin. Chú giải (tagging) là phần giải thích các thông tin đặc thù làm rõ nghĩa cho các văn bản trong khối liệu như là chú giải bên ngoài, ngoại ngôn ngữ (ví dụ, chú giải về tác giả: tên, tuổi, giới tính, năm sinh v.v. và về văn bản: tác giả, tên văn bản, năm và nơi xuất bản, thể loại, phong cách ngôn ngữ v.v.); hoặc là chú giải cấu trúc (ví dụ, chương, đoạn, câu, hình thái từ v.v.); hoặc là chú giải cho chính ngôn ngữ văn bản về từ vựng, cú pháp. Các nghiên cứu về Ngôn ngữ học khối liệu đã cho thấy việc xác định và lựa chọn các loại hình chú giải phải do các nhà ngôn ngữ tiến hành trên cơ sở các văn bản được lựa chọn cho việc xây dựng khối liệu. Chú giải trong khối liệu có thể được chia thành:
• Chú giải hình thái học (POS-tagging) Đây là dạng cơ bản trong phân tích và xây dựng khối liệu bởi vì phần lớn các khối liệu lớn chính là các khối liệu nhỏ được chú giải hợp lại về mặt hình thái học. Trong quá trình xây dựng khối liệu, phân tích hình thái học được xem là cơ sở của phân tích cú pháp và phân tích ngữ nghĩa. Chú giải hình thái học bao gồm chú giải các thành phần lời nói (viết và nói) và phạm trù ngữ pháp của các thành phần đó trong khối liệu. Đơn vị chú giải hình thái học là từ () hoặc cụm từ. Hiện nay, các thành tựu về hình thái học máy tính đã phát triển ở mức độ cho phép tự động chú giải các khối liệu có kích cỡ lớn. Chú giải hình thái học ngày nay thường được thực hiện một cách tự động nhưng bắt buộc phải có sự tham gia của con người vào việc lựa chọn nghĩa từ xác định trong ngữ cảnh cụ thể cho khối liệu do trong phân tích hình thái học có thể xảy ra các hiện tượng đa nghĩa của từ. Các nghiên cứu về khối liệu cho thấy nếu chú giải hình thái học được lựa chọn càng nhiều bao nhiêu thì phân tích văn bản càng được chi tiết bấy nhiêu. Ngày nay đang có xu hướng giảm số lượng chú giải hình thái học do dung lượng các khối liệu ngày càng tăng. Hệ thống làm đơn giản quá trình mã hóa tạo điều kiện cho việc tránh mắc lỗi không cần thiết, sử dụng một cách lôgíc các dữ liệu, tránh các trường hợp đa nghĩa của từ trong văn bản và tăng tốc độ chú giải của các khối liệu lớn với hàng triệu từ.
• Chú giải cú pháp (parsing) Chú giải cú pháp là kết quả của phân tích cú pháp được thực hiện trên cơ sở dữ liệu về phân tích hình thái học. Đây là dạng chú giải mô tả các mối quan hệ cú pháp giữa các đơn vị từ vựng và cấu trúc cú pháp khác nhau (ví dụ, mệnh đề phụ thuộc, mệnh đề độc lập, thành ngữ v.v.). Hiện nay, ở mức độ phân tích cú pháp đang tồn tại xu hướng chi tiết hóa nhỏ nhất việc mã hóa chú giải để tăng tốc độ và trình tự phân tích văn bản. Điều này cũng diễn ra đối với chú giải hình thái học và chú giải ngữ nghĩa.
• Chú giải ngữ nghĩa (semantic tagging) Trong quá trình xây dựng khối liệu thì phần chú giải ngữ nghĩa là phần phức tạp và khó khăn nhất. Cho đến nay, đối với ngữ nghĩa học dành cho khối liệu vẫn chưa có sự đồng nhất chung về mặt lí luận. Tuy vậy, các phạm trù ngữ nghĩa của các đơn vị từ và cụm từ sử dụng đã được xác định khá rõ ràng cho việc xây dựng các khối liệu cụ thể. Do tính chất phức tạp trong việc lựa chọn các chú giải ngữ nghĩa cho khối liệu nên hiện nay các nhà nghiên cứu ngôn ngữ học khối liệu đang tập trung rất nhiều công sức vào lĩnh vực đang phát triển. Một điều hiển nhiên là chú giải ngữ nghĩa hiện đang được phát triển rất mạnh bởi tính xác thực của nó đối với hoạt động của khối liệu. Kiểu chú giải ngữ nghĩa là các mã (code) gồm các con chữ và chữ số. Các nghiên cứu cho thấy có khoảng 250 - 300 đơn vị mã để phân loại toàn bộ từ vựng.
• Ngoài các loại hình chú giải chủ yếu trên còn tồn tại các chú giải khác như chú giải từ loại, chú giải ngôn điệu, chú giải bình luận hoặc tranh luận v.v.

3. Phân loại các khối liệu chủ yếu. Trong Ngôn ngữ học khối liệu, khối liệu có thể được phân loại theo phương thức phân nhóm hoặc theo kiểu chú giải ngôn ngữ. Mặc dù tồn tại nhiều kiểu chú giải, trên thực tế, phần lớn các khối liệu có kiểu chú giải cú pháp / hình thái học (treebanks - ngân hàng cấu trúc cú pháp - ĐHT dịch). Một điều hiển nhiên và cần nhấn mạnh là khối liệu có chú giải cú pháp luôn hàm chứa các đặc trưng hình thái học của các đơn vị từ vựng. Căn cứ vào mục đích nghiên cứu - sử dụng khối liệu và đặc điểm hoạt động của nó, có thể phân loại như sau:
• Theo kiểu dữ liệu, các khối liệu được chia thành khối liệu viết, khối liệu nói, khối liệu kết hợp;
• Theo ngôn ngữ văn bản, các khối liệu được chia thành khối liệu tiếng Việt, khối liệu tiếng Anh, khối liệu tiếng Nga.
• Theo đặc tính song song của văn bản, các khối liệu được chia thành khối liệu đơn ngữ, khối liệu song ngữ và khối liệu đa ngữ.
• Theo thể loại chuyên ngành, các khối liệu được chia thành khối liệu khoa học phổ biến, khối liệu không phổ biến, khối liệu ngôn ngữ học ứng dụng, khối liệu khoa học kĩ thuật và công nghệ.
• Theo tính chất chú giải, các khối liệu được chia thành khối liệu có chú giải và khối liệu không có chú giải.
• Theo chức năng và mục đích sử dụng, các khối liệu được chia thành khối liệu nghiên cứu, khối liệu minh họa, khối liệu tham khảo.
• Theo tính chất xã hội của văn bản, các khối liệu được chia thành khối liệu cộng đồng, khối liệu tác phẩm. (theo SỐ 1+2 (147+148)-2008 NGÔN NGỮ & ĐỜI SỐNG của TS Đào Hồng Thu)

Hide this content.

Các vấn đề xảy ra trong quá trình dịch máy See more.

1. Dẫn nhập ng‡nh khoa học trẻ, l‡ giao

Hide this content.

Tài liệu tham khảo : http://www.statmt.org,