[Công nghệ XML] Tổng quan về XML


Tổng quan về dữ liệu, tập tin và văn bản


Tệp nhị phân là tệp mà nội dung của nó chỉ chứa các ký tự 0 hoặc 1. Nội dung này có thể đã được biên dịch thành ngôn ngữ máy[1] và do đó chỉ có máy mới có thể đọc hiểu được.
 Bảo toàn dữ liệu: trong quá trình nhập xuất dữ liệu không bị biến đổi. Dữ liệu ghi trên tệp theo các byte nhị phân như trong bộ nhớ.
Mã kết thúc tệp trong khi đọc nếu gặp cuối tệp thì ta nhận được mã kết thúc tệp EOF (định nghĩa trong stdio.h bằng -1) và hàm feof cho giá trị khác 0. Lý do chọn số -1 làm mã kết thúc tệp là vì nếu chưa gặp cuối tệp thì sẽ đọc được một byte có giá trị từ 0 đến 255. Như vậy giá trị -1 sẽ không trùng với bất kỳ byte nào đọc được từ tệp.
b.     Tệp văn bản.

Cũng giống như tệp nhị phân, các tệp văn bản là một chuỗi các bit. Tuy nhiên trong tệp văn bản, các bít này được nhóm với nhau theo một chuẩn sao cho chúng luôn luôn hình thành lên các số. Các số này được ánh xạ thành các ký tự.
Tệp nhị phân và tệp văn bản, khi biểu diễn nội dung nhất định đều có ưu điểm và nhược điểm của nó. Người ta muốn tạo ra một kiểu định dạng gồm có tất cả các ưu điểm của hai loại định dạng trên.
Đánh dấu ở đây có thể được hình dung như sau, khi ta đọc một cuốn sách, cần có những chỗ ta muốn đánh dấu rằng chúng quan trọng, có cách nào làm việc này. Thứ nhất, ta có thể dùng bút đổi màu để bôi lên phần chữ, hoặc những phần của cuốn sách mà ta cho là cần thiết. Thứ 2 ta có thể đóng khung phần cần thiết đó lại và ghi chú trỏ vào phần đóng khung đó điều cần thiết là gì, tất nhiên là bằng một màu mực khác so với màu mực chung của văn bản.
HTML (tiếng Anh, viết tắt cho HyperText Markup Language, tức là "Ngôn ngữ Đánh dấu Siêu văn bản") là một ngôn ngữ đánh dấu được thiết kế ra để tạo nên các trang web, nghĩa là các mẩu thông tin được trình bày trên World Wide Web. Được định nghĩa như là một ứng dụng đơn giản của SGML, vốn được sử dụng trong các tổ chức cần đến các yêu cầu xuất bản phức tạp, HTML giờ đây đã trở thành một chuẩn Internet do tổ chức World Wide Web Consortium (W3C) duy trì. Phiên bản mới nhất của nó hiện là HTML 4.01. Tuy nhiên, HTML hiện không còn được phát triển tiếp. Người ta đã thay thế nó bằng XHTML.
Dùng HTML động hoặc Ajax, có thể được tạo ra và xử lý bởi số lượng lớn các công cụ, từ một chương trình soạn thảo văn bản đơn giản – bạn có thể gõ vào ngay từ những dòng đầu tiên – cho đến những công cụ xuất bản WYSIWYG phức tạp.
HTML và XML không thay thế được cho nhau, nếu như HTML là ngôn ngữ biểu diễn dữ liệu thì XML là ngôn ngữ dùng để trao đổi dữ liệu.
·        HTML là chữ viết tắt của Hyper Text Markup Language (Ngôn ngữ hiển thị siêu văn bản).
·        Một file HTML là một file text bao gồm những tag nhỏ.
·        Những tag hiển thị nói cho trình duyệt biết nó phải hiển thị trang đó như thế nào.
·        Một file HTML phải có phần mở rộng là .htm hoặc .html
·        Một file HTML có thể được tạo bởi một trình soạn thảo đơn giản.
Các dạng thẻ HTML
·        Thẻ HTML dùng để viết lên những thành tố HTML
·        Thẻ HTML được bao quanh bởi hai dấu lớn hơn < và > nhỏ hơn.
·        Những thẻ HTML thường có một cặp giống như <b> và </b>
·        Thẻ thứ nhất là thẻ mở đầu và thẻ thứ hai là thẻ kết thúc.
·        Dòng chữ ở giữa hai thẻ bắt đầu và kết thúc là nội dung.
·         Những thẻ HTML không phân biệt in hoa và viết thường, ví dụ dạng <b> và <B> đều như nhau,

Những thẻ HTML cơ bản

Tag
Mô Tả
<html>
Xác định một văn bản dạng HTML
<body>
Xác định phần thân của tài liệu
<h1> to <h6>
Xác định header từ 1 đến 6
<p>
Xác định một đoạn văn
<br>
Chèn một dòng trắng
<hr>
Xác định một đường thẳng
<!-->
Xác định vùng chú thích
<table>

<td>

<tr>

Những thẻ dùng để định dạng văn bản

Tag
Mô Tả
<b>
Định dạng chữ đậm
<big>
Định dạng chữ lớn
<em>
Định dạng kiểu chữ được nhấn mạnh
<i>
Chữ in nghiêng
<small>
Chữ nhỏ
<strong>
Chữ đậm
<sub>
định dạng subscripted (chữ nhỏ)
<sup>
Đ5inh dạng superscripted (chữ lên cao)
<ins>
Dạng chữ mới chèn them
<del>
Dạng chữ bị xóa
<s>
Hết hỗ trợ. Thay bằng <del>
<strike>
Hết hỗ trợ. Thay bằng <del>
<u>
Gạch dưới


XML
XML (viết tắt từ tiếng Anh eXtensible Markup Language, "Ngôn ngữ Đánh dấu khả mở") là ngôn ngữ đánh dấu với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây là một tập con đơn giản của SGML, có khả năng mô tả nhiều loại dữ liệu khác nhau. Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống khác nhau, đặc biệt là các hệ thống được kết nối với Internet. Các ngôn ngữ dựa trên XML (thí dụ: RDF, RSS, MathML, XHTML, SVG, GML và cXML) được định nghĩa theo cách thông thường, cho phép các chương trình sửa đổi và kiểm tra hợp lệ bằng các ngôn ngữ này mà không cần có hiểu biết trước về hình thức của chúng.
XML là ngôn ngữ xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: siêu ngôn ngữ có khả năng sinh ngôn ngữ khác). SGML được phát triển cho việc định cấu trúc và nội dung tài liệu điện tử, do tổ chức ISO (International Organization for Standards) chuẩn hoá năm 1986.
    SGML là do IBM đưa ra, song không thể không kể đến những đóng góp của các công ty khác. XML được W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ) phát triển, nhưng đặc tả XML lại do Netscape, Microsoft và các thành viên của dự án Text Encoding Initiative (TEI) xây dựng. Tổ chức W3C XML Special Interest Group có đại diện từ hơn 100 công ty cùng nhiều chuyên gia được mời khác.
Các ứng dụng XML
    Nhiều nhà sản xuất đã công bố các chuẩn và ứng dụng XML, tiêu biểu là Document Object Model Level 2 cung cấp tập chuẩn gồm các đối tượng để trình bày tài liệu HTML và XML, đồng thời bổ sung các giao tiếp kiểu đối tượng Cascading Style Sheets (CSS), giao tiếp kiểu sự kiện và truy vấn.
    Cũng là một trở ngại khi mãi tới năm 1998, các công cụ tạo XML, DTD (Document Type Definition ố định nghĩa loại tài liệu: một kiểu tập tin kết hợp với tài liệu đánh dấu để định ra cách thông dịch tài liệu bằng ứng dụng thông qua thẻ đánh dấu) mới được đưa ra. Tuy nhiên đông đảo các nhà sản xuất đã và sẽ hỗ trợ XML trong những sản phẩm sắp tới. Ngoài ra, XML hứa hẹn mở rộng khả năng định dạng tài liệu Web thông qua việc bổ sung các DTD.
    Trên cơ sở sự quan tâm và chấp nhận XML, trong năm nay, các nhà sản xuất sẽ đưa ra thị trường những sản phẩm hỗ trợ XML mang tính chất "chào hàng".
    Interleaf Composer/Styler là công cụ đồ hoạ tạo XML sử dụng XSL (Extensible StyleSheet Language) (www.interleaf.com). XSL là đặc tả phân biệt mẫu tài liệu thông qua nội dung khi tạo trang HTML hay XML. Đặc tả có tác dụng tương tự mẫu định dạng (template), cho phép nhà thiết kế áp dụng cùng một mẫu cho nhiều trang. XSL là đặc tả kiểu thứ hai được W3C đưa ra sau CSS (Cascading Style Sheet ố hệ thống qui định "kiểu dáng" trang Web). Interleaf Composer/Styler là một phần trong bộ sản phẩm BladeRunner được Interleaf công bố vào tháng Sáu. BladeRunner có thể định dạng cùng dữ liệu XML theo nhiều kiểu khác nhau, phụ thuộc mẫu trang được áp dụng.
    RightDoc (http://www.rightdoc.com) đưa ra phiên bản RightDoc 2.0, đây là trình soạn thảo văn bản XML, sử dụng XML và CSS như các định dạng tập tin và cũng có thể xuất ra các định dạng HTML, PDF (Portable Document Format) và Postscript. Trình này sử dụng Query Designer để tích hợp dữ liệu thông minh vào tài liệu dùng ODBC (Open Database Connectivity), cho phép nhập trực tiếp dữ liệu mới vào tài liệu.
    General Magic (http://www. generalmagic.com) sử dụng XML trong công nghệ xử lý tiếng nói mang tên Kenya. Kenya dùng XML để lưu tham số người dùng vào chương trình. Sau đó, chương trình sẽ sử dụng những tham số này để gọi tới người dùng và thông báo thông tin quan trọng trên Web. Ví dụ, Kenya có thể gọi và báo cho người thắng cuộc trên site bán đấu giá.





[1] Là một loại ngôn ngữ lập trình trong đó, mọi chỉ thị đều được biểu diễn bằng các con số nhị phân 0 và 1.
Mới hơn Cũ hơn

Biểu mẫu liên hệ