Sabtu, 17 April 2010

Web Science



Web dan Ilmu nya Kita mungkin parafrase Web Sains sebagai ilmu tentang Web. Sementara ini kesetaraan mungkin jelas kita akan mulai dengan menghancurkan frase dan sketsa komponen yang memungkinkan Web berfungsi sebagai sistem e desentralisasi informasi berlaku efektif. Kami akan meninjau dasar prinsip-prinsip arsitektur Web, didesain untuk mendukung pertumbuhan dan nilai-nilai sosial berbagi informasi dan perilaku terpercaya di Bagian 2.1. Bagian 2.2 akan o eh ulang beberapa metodologi ections pada penyelidikan ilmiah dari Web. 2,1 arsitektur Web Arsitektur dari Web eksploitasi teknologi sederhana yang menghubungkan dan menciptakan kerjasama, untuk mengaktifkan ruang informasi yang sangat exible dan digunakan, dan yang paling penting, skala. Web ini sudah menjadi mengesankan platform tempat ribuan owers telah mekar, dan berharap itu dapat tumbuh lebih lanjut, mencakup bahasa, lebih media dan kegiatan lebih, hosting informasi lebih lanjut, serta menyediakan alat-alat dan metode untuk menginterogasi data yang keluar sana. Dalam bagian ini kita akan membuka brie y meninjau prinsip-prinsip utama 7 8 Web dan Ilmu nya Web arsitektur yang mendasari; bagian ini adalah berhutang budi kepada [155], dan untuk detail lebih lanjut, lihat dokumen itu. Web adalah ruang di mana sumber daya diidentifikasi oleh Seragam Resource Identifier (URI - [33]). Ada protokol untuk mendukung interaksi antara agen, dan format untuk mewakili informasi sumber daya. Ini adalah bahan dasar dari Web. Pada desain tergantung utilitas dan e ciency interaksi Web, dan bahwa desain tergantung pada gilirannya pada sejumlah prinsip, beberapa di antaranya merupakan bagian dari konsepsi yang asli, sementara yang lain harus belajar dari pengalaman. Identifikasi sumber daya yang penting untuk dapat berbagi informasi tentang mereka, alasan tentang mereka, memodifikasi atau pertukaran mereka. sumber daya tersebut dapat berupa apa saja yang dapat dihubungkan dengan atau dibicarakan; banyak sumber daya informasi murni, tetapi orang lain tidak. Selanjutnya, tidak semua sumber daya di Web, di mana mereka dapat diidentifikasi dari Web, tetapi mungkin tidak yg dpt diperbaiki dari itu. Sumber-sumber yang pada dasarnya informasi, dan yang karenanya dapat diberikan dengan- keluar abstraksi dan dicirikan sepenuhnya dalam pesan disebut informasi sumber daya . Untuk alasan ini dan merujuk fungsi terjadi pada global skala, sistem identifikasi diperlukan untuk menyediakan satu global standar; URI menyediakan sistem itu. Itu akan mungkin untuk alterna- sistem tive untuk URI untuk dikembangkan, tetapi nilai tambah dari tunggal global sistem pengenal, yang memungkinkan menghubungkan, bookmark dan lainnya fungsi di aplikasi heterogen, yang tinggi. Sumber Daya URI terkait dengan mereka, dan setiap URI idealnya menunjukkan satu sumber daya secara konteks-independen. URI bertindak sebagai nama-nama (dan alamat - lihat Bagian 3.1.2 di bawah ini untuk pembahasan masalah ini), dan sebagainya apakah mungkin untuk menebak sifat sumber daya dari perusahaan URI, yang merupakan Hal kontinjensi; di lihat opaquely URI umum. Prinsip-prinsip hubungan antara URI dan sumber daya yang diinginkan tetapi tidak ketat dilaksanakan; biaya gagal mengaitkan URI dengan sumber daya adalah ketidakmampuan untuk mengacu pada itu, sedangkan biaya untuk menempatkan dua sumber daya ke URI akan kesalahan, sebagai data tentang salah satu sumber daya akan diterapkan ke lainnya. URI juga menghubungkan Web dengan dunia Ine o sosial, dalam mereka mewajibkan lembaga. Mereka jatuh di bawah skema didefinisikan tertentu, 9 2.1. Web arsitektur yang mungkin yang paling umum dipahami adalah HTTP, FTP dan mailto, skema tersebut terdaftar dengan Ditugaskan Internet Numbers Authority (IANA - http://www.iana.org/assignments/uri- skema). Skema ini perlu dioperasikan pada garis berprinsip dalam Agar berlaku efektif. Jadi jika kita mengambil HTTP sebagai contoh, HTTP URI dimiliki dan dis- bursed oleh orang atau organisasi, dan maka dapat dialokasikan respon- sibly atau tidak bertanggung jawab. Misalnya, sebuah URI HTTP harus merujuk ke satu sumber daya, dan dialokasikan untuk pemilik tunggal. Hal ini juga diharapkan untuk seperti URI untuk merujuk ke sumber daya yang permanen, dan tidak berubah mengacu waktu (lihat Bagian 5.4.6 di bawah). Komunikasi selama Web melibatkan pertukaran pesan yang dapat berisi data atau metadata tentang sumber daya. Satu Tujuan umum dari komunikasi adalah untuk mengakses sumber daya melalui URI, atau dereference URI tersebut. Jika sumber daya telah diberikan identifier, sumber daya harus dalam beberapa cara recov- erable dari pengenal agar bisa nilai. Dereferencing biasanya melibatkan menemukan sebuah indeks yang tepat untuk mencari pengenal. Sana sering petunjuk dalam identifier, atau penggunaan pengenal, yang membantu di sini, terutama jika pihak berwenang penamaan memiliki semacam hierar- chical struktur. Sebagai contoh, alamat pos memiliki struktur hirarkis yang memungkinkan sebuah bangunan tertentu yang akan berada. Satu akan berkonsultasi dengan indeks dari AZ London untuk menemukan jalan tertentu yang namanya satu tahu dan yang satu tahu terletak di London tapi tidak ada yang lebih lanjut tentang hal itu. Demikian pula, Domain Name Sistem (DNS) eksploitasi hierar- struktur chical untuk membantu dengan dereferencing, sehingga untuk menghubungi server "Foo.cs.bar.edu" melibatkan pengiriman pesan dari beberapa macam ke server beberapa dikendalikan oleh Bar Universitas di Amerika Serikat. Semakin banyak informasi- SI yang tersedia dalam nama atau identifikasi dari sebuah sumber daya, semakin mudah itu adalah untuk dereference, walaupun tentu saja dalam hal sumber daya yang membatasi nama perlu mengandung informasi sama sekali untuk membantu dereferencing itu (Kadang-kadang ini adalah titik nama). Selanjutnya, identifikasi sistem sering perlu dipertahankan oleh otoritas untuk dereferencing menjadi mungkin - jika AZ London tidak diperbarui setiap begitu sering, itu akan menjadi mustahil untuk menggunakannya (edisi terbaru) untuk mencari partic- ular rumah, dengan cara yang sama bahwa perubahan di server Universitas Bar 10 Web dan Ilmu nya Program pemeliharaan dapat berarti bahwa beberapa sumber daya yang diselenggarakan pada nya server itu unlocatable. Apa mengakses sebuah sumber informasi memerlukan bervariasi dari konteks dengan konteks, tapi mungkin pengalaman yang paling umum adalah menerima representasi dari negara (dari sumber daya) pada browser. Jelas tidak perlu dereferencing bahwa kasus URI otomatis menyebabkan agen mendapatkan akses istimewa ke sumber daya. Ini mungkin bahwa tidak ada representasi sumber daya tersedia, atau bahwa akses ke sumber daya aman (misalnya sandi dikontrol), tetapi harus mungkin untuk mengacu ke sumber daya menggunakan perusahaan URI tanpa memaparkan bahwa sumber daya untuk umum tampilan. Pengembangan Web sebagai spasi, bukan yang besar dan papan pengumuman yang kompleks, berikut dari kemampuan agen untuk menggunakan interaksi untuk mengubah negara dari sumber daya, dan untuk menanggung kewajiban dan tanggung jawab. Mengambil representasi adalah contoh dari apa yang disebut aman interaksi di mana perubahan tidak terjadi, sementara daftar posting adalah membahayakan interaksi di mana sumber daya negara 'dapat diubah. Perhatikan bahwa sifat universal URI membantu identifikasi dan tracking kewajiban yang timbul secara online melalui interaksi yang tidak aman. Tidak semua URI dimaksudkan untuk memberikan akses kepada perwakilan tions dari sumber daya yang mereka mengidentifikasi. Misalnya, mailto ini: skema mengidentifikasi sumber daya yang dicapai dengan menggunakan surat Internet (misalnya mailto: romeo@example.edu mengidentifikasi kotak surat tertentu), tetapi mereka sumber daya tidak diperoleh kembali dari URI dengan cara yang sama sebagai web halaman. Sebaliknya, URI digunakan untuk langsung mail-mail yang tertentu kotak, atau alternatif untuk menemukan mail dari itu. Web ini mendukung berbagai format file, yang paling terkenal adalah HTML. Beberapa format yang diperlukan, dan format perlu akan exible, karena sifat heterogen interaksi selama Web. Konten dapat diakses melalui berbagai macam perangkat, paling sering PC atau perangkat mobile, dan nilai lebih dapat diekstraksi dari Web jika penyajian konten adalah perangkat-independen sejauh pos- an (idealnya kompatibel dengan perangkat belum bermimpi). Memisahkan representasi konten dari presentasi dan keprihatinan interaksi adalah praktik yang baik di sini; bawah seperti rezim, konten, presen- tasi dan interaksi perlu digabungkan dengan cara yang maksimal 11 2.1. Web arsitektur berguna, yang umumnya dilakukan di sebagian oleh server dan sebagian oleh klien, rasio yang tepat antara kedua tergantung pada konteks interaksi. Kekuatan Web berasal dari menghubungkan itu membuat mungkin. sumber daya dapat berisi referensi ke sumber daya dalam bentuk tertanam URI yang dapat digunakan untuk mengakses sumber daya kedua. Ini link memungkinkan asosiatif navigasi Web. Untuk memfasilitasi menghubungkan, untuk- tikar harus mencakup cara untuk membuat dan mengidentifikasi link ke sumber-sumber lain, harus mengizinkan link ke sumber-sumber mana saja melalui Web, dan harus tidak membatasi penulis konten untuk menggunakan skema tertentu URI. Sebuah tujuan penting dari Web Ilmu adalah untuk mengidentifikasi aspek-aspek penting identifikasi, interaksi dan representasi yang membuat Web kerja, dan memungkinkan pelaksanaan sistem yang dapat mendukung atau mempromosikan perilaku yang diinginkan. Pengalaman menghubungkan dokumen dan, semakin, rilis data kekuatan besar, baik untuk penulis dan pengguna. Kemungkinan penggunaan kembali konten yang memberdayakan kebetulan oleh penulis meningkatkan mereka dalam uence, dan pengguna dengan menyediakan akses ke lebih informasi dari yang dimungkinkan dengan menggunakan teknologi lainnya. Secara khusus, tiga fungsi identifikasi, interaksi dan representasi harus dipisahkan. Mengubah atau menambahkan skema untuk identifikasi, misalnya, seharusnya tidak memiliki ect e pada skema untuk interaksi atau representasi, memungkinkan independen, evolusi modular dari Web arsitektur sebagai teknologi baru dan aplikasi baru mulai berproduksi (Yang tidak berarti bahwa spesifikasi ortogonal tidak mungkin co-berkembang siklis dengan satu sama lain). Demikian pula, teknologi harus diperluas, yang mereka harus mampu berkembang secara terpisah tanpa mengancam mereka interoperabilitas dengan teknologi lainnya. Akhirnya, ini merupakan prinsip penting arsitektur Web yang error harus ditangani sederhana dan exibly. Kesalahan sangat penting - dalam infor- bawakan ukuran ruang yang dapat diukur dalam ribuan terabyte, dan jumlah pengguna di ratusan juta, heterogenitas tujuan dan berbagai kualitas kepengarangan berarti bahwa akan ada banyak sekali kesalahan desain. Keberadaan link menggantung (link menggunakan URI tanpa sumber daya pada akhir itu), non-well-formed konten atau lainnya kesalahan diprediksi tidak harus menyebabkan sistem crash; tuntutan 12 Web dan Ilmu nya interoperabilitas mengharuskan agen harus dapat pulih dari kesalahan, tanpa, tentu saja, kompromi kesadaran pengguna bahwa kesalahan telah terjadi. Sebagai Web tumbuh dan berkembang untuk memenuhi situasi baru dan pur- pose, arsitektur harus berkembang. Tapi evolusi perlu bertahap dan berhati-hati (yang lambat dan harus sungguh-sungguh negosiasi komite standar merupakan cara yang baik untuk menggabungkan gradualisme dengan fit- ness untuk tujuan), dan prinsip menjaga perkembangan ortogonal terpisah berarti bahwa evolusi dalam satu wilayah tidak seharusnya sebuah evolusi ect lain. evolusi perlu menghormati invariants penting Web, seperti ruang URI, dan penting bahwa pengembang setiap saat bekerja untuk melestarikan aspek-aspek Web yang perlu diawetkan. Ini adalah bagian dari misi W3C Teknis Archi- tecture Group [154], meskipun standar hanya dapat pernah menjadi bagian dari cerita. prinsip-prinsip Web arsitektur akan selalu diperdebatkan di luar W3C, cukup baik, serta di dalamnya. Web 2,2 ilmu: Metodologi Jika investigasi dari Web adalah dihitung sebagai benar scien- tific, maka pertanyaan langsung adalah bagaimana metode ilmiah harus diterapkan ini domain tertentu. Bagaimana seharusnya peneliti dan insinyur Web dalam pendekatan untuk memahami dan hubungannya dengan lebih luas masyarakat, dan untuk berinovasi? Berbagai aspek dari Web relatif baik dipahami, dan sebagai sebuah artefak rekayasa blok bangunannya yang dibuat, tidak alami phe- nomena. Namun demikian, sebagai web telah berkembang dalam kompleksitas dan jumlah dan jenis interaksi yang terjadi telah menggelembung, itu tetap kasus yang kita tahu lebih banyak tentang beberapa kompleks alam phe- nomena (contoh jelas adalah genom manusia) daripada kita tentang ini satu rekayasa tertentu. Namun itu benar-benar berkembang, setiap Ilmu Web pantas nama perlu memenuhi beberapa kondisi jelas. Ada perlu menjadi falsifiabilty hipotesis dan pengulangan pemeriksaan. Sana akan perlu prinsip independen dan standar untuk menilai bila hipotesis telah didirikan. Ada masalah nyata untuk 13 2.2. Web ilmu: Metodologi bagaimana prinsip-prinsip dan standar harus tiba di. Dan tentu saja harus ada metode untuk bergerak dari penilaian dari Web dan nya evolusi untuk pengembangan dan pelaksanaan inovasi. Untuk mengambil satu contoh, ada beberapa teknologi dan met- ods untuk pemetaan Web dan menandai keluar topologi (lihat Bagian 4.1 di bawah). Apa yang peta seperti kepada kita (bdk. misalnya [80])? The visualisasi seringkali sangat mengesankan, dengan interpretasi tiga-dimensi dan warna-kode link antara node. Tetapi bagaimana diverifikasi adalah peta tersebut? Di indra apa yang mereka katakan kepada kami 'bagaimana Web'? Apa saja keterbatasan? Aplikasi jelas, dalam hal metodologis, peta dan grafik struktur Web adalah untuk langsung sampling, dengan menentukan properti yang model dan sampel dari Web seharusnya. Dengan cepat pertumbuhan Web membuat survei yang lengkap dari pertanyaan tahun lalu, dan ilmuwan membutuhkan informasi statistik yang cepat dan tepat waktu mengenai isi sastra Web-tersedia. Perwakilan sampling adalah kunci untuk metode tersebut, tapi bagaimana seharusnya sampel dikumpulkan dalam rangka secara tepat disebut [perwakilan 188]? Untuk menjadi benar bermanfaat, sebuah sam- harus ple acak ; 'Keacakan' biasanya ditetapkan untuk tertentu domain, dan pada umumnya berarti bahwa semua individu dalam domain tersebut memiliki kemungkinan yang sama untuk dipilih sebagai sampel. Tapi untuk Web mensyaratkan bahwa, misalnya, memahami apa yang individu, karena Misalnya, kita prihatin dengan situs Web atau halaman Web? Jika yang pertama, maka kita bisa membayangkan culties Di karena tidak ada pencacahan lengkap mereka. Dan berdasarkan metode sampling, misalnya, alamat IP adalah komplikasi- berdedikasi oleh penduduk tentu jarang dari ruang alamat [219]. Lebih jauh lagi, jadi murah beroperasi di Web bahwa kecil num- ber dari operator bisa membelokkan hati-hati Namun hasil sampel adalah dipilih. Survei melaporkan lebih rinci di bawah [99] tampaknya dis- ditutupi bahwa 27% dari halaman di de domain berubah. setiap minggu, sebagai dibandingkan dengan 3% untuk Web secara keseluruhan. Penjelasannya ternyata tidak menjadi kerajinan khas Jerman, melainkan di atas juta URL, sebagian besar tapi tidak semua di server Jerman, yang terjerumus dalam satu alamat IP, secara otomatis yang dihasilkan dan terus-menerus-berubah situs pornografi. Web memiliki banyak sifat yang tidak biasa yang membuat sampling lebih sulit; bagaimana bisa menghargai metode sampling apa yang tampaknya prima papan nama penting 14 Web dan Ilmu nya properti seperti, misalnya, persentase halaman diperbarui setiap hari, mingguan, dll? Bagaimana kita bisa faktor dalam masalah-masalah seperti kemerdekaan sumber data yang mendasarinya? Apakah kita punya banyak memahami distribusi bahasa di seluruh Web (dan istilah dalam bahasa - cf. [167]), dan bagaimana meningkatkan kecerdasan dalam memberikan hal ect [138]? Dan bahkan jika kita senang dengan metodologi sampling kita, bagaimana di tengah-tengah semua suara itu bisa kita menemukan struktur menarik dan menciptakan kerjasama [191]? Lebih jauh lagi, meskipun untuk berbagai tujuan Web dapat diobati sebagai ruang informasi statis, itu tentu saja adalah dinamis dan berkembang. Jadi segala upaya pemahaman longitudinal dari Web akan membutuhkan untuk mengambil evolusi yang ke account [218], dan model idealnya memiliki pertumbuhan sistem (dalam hal penambahan konstan baru simpul dan tepi ke grafik), bersama-sama dengan struktur link yang tidak invarian dari waktu ke waktu, dan hubungan domain hierarkis yang selalu rentan terhadap revisi, dibangun ke dalam mereka (lih. misalnya [253]). Pemodelan analitik dikombinasikan dengan hati-hati mengumpulkan data empiris dapat digunakan untuk menentukan probabilitas halaman Web sedang diedit (Mengubah konten informasi mereka) atau tidak dihapus. Satu percobaan pengawasan ratusan ribu halaman selama beberapa bulan menghasilkan hasil menarik: setiap putaran satu waktu sekitar 20% dari web- halaman di bawah 11 hari tua, sementara 50% muncul di sebelumnya Tiga bulan. Di sisi lain, 25% adalah lebih dari usia tua tahun - yang didefinisikan di sini sebagai erence Di antara waktu yang lalu modifica- SI ke halaman dan waktu download [43]. percobaan lain terlibat merayapi halaman HTML 150m sekali seminggu selama 11 minggu, dan menemukan, misalnya, kuat hubungan antara tingkat-atas domain dan frekuensi perubahan (. halaman com diubah lebih Frekuensi- quently dari gov atau.. edu halaman), dan bahwa dokumen besar (mungkin counterintuitively) berubah lebih sering dari yang kecil. Frekuensi perubahan masa lalu adalah prediktor yang baik di masa depan perubahan, hasil potensial penting bagi crawler Web incremental [99]. Pengembangan metode sampling Web feed yang sangat cepat ke dalam perkembangan lebih e sien dan pencarian akurat. Metode untuk menemukan informasi secara online, apakah logis atau heuristik, apakah data-berpusat atau pada model sistem temu kembali informasi, memerlukan pemetaan akurat. 15 2.2. Web ilmu: Metodologi Jadi satu aspek dari Web Ilmu adalah investigasi Web dalam untuk tempat ancaman, peluang dan invariants untuk pengembangannya. Lain adalah teknik baru, metode mungkin tak terduga berhubungan dengan informasi, yang menciptakan ekstensi non-konservatif Web. teknik tersebut dapat berbasis penelitian, atau industri berbasis. Sintesis sistem baru, bahasa, algoritma dan tool adalah kunci untuk pengembangan koheren dari Web, seperti, misalnya, dengan studi tentang sistem kognitif, di mana banyak kemajuan beberapa terakhir tahun telah datang dengan teknik eksplorasi serta analisis dan (Cf. deskripsi misalnya [51]). Jadi, misalnya, satu-satunya cara untuk menemukan e Ects file sharing secara radikal dari desentralisasi adalah untuk mengembangkan rekan rekan sistem dan operasi mereka amati pada skala yang semakin besar. Seperti itu perintis rekayasa e orts sangat penting untuk pengembangan Web, melainkan adalah setelah semua konstruksi. Sangat penting untuk Web secara keseluruhan yang implementasi sistem berinteraksi dan tidak mengganggu, yang mana badan standar memainkan peranan penting. Oleh karena itu Web Ilmu adalah kombinasi dari sintesis, analisis dan gov- ernance. Dalam sisa teks ini, kita akan ketiga aspek pada gilirannya, dimulai dengan sintesis, lalu analisis, dan isu-isu sosial yang berdampak pada pengembangan Web, sebelum menyelesaikan o dengan diskusi masalah pemerintahan.

1 komentar:

Blog muda IT mengatakan...
Komentar ini telah dihapus oleh pengarang.