A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



MatrixExplorer: Un système pour l'analyse exploratoire de ... - Microsoft
MatrixExplorer: Un système pour l'analyse exploratoire de ... - Microsoft
22/05/2017 - www.microsoft.com
MatrixExplorer: Un système pour l analyse exploratoire de réseaux sociaux Nathalie Henry Jean-Daniel Fekete INRIA Futurs/LRI/University of Sydney Bât 490, Université Paris-Sud 91405 Orsay Cedex Nathalie.Henry@lri.fr INRIA Futurs/LRI Bât 490, Université Paris-Sud 91405 Orsay Cedex Jean-Daniel.Fekete@inria.fr RESUME ABSTRACT Dans cet article, nous présentons le système MatrixExplorer destiné à explorer des réseaux sociaux. Il a été conçu pour des chercheurs en sciences sociales...

L'économie de la sécurité - Microsoft
L'économie de la sécurité - Microsoft
16/11/2016 - www.microsoft.com
nl y se Lect L économie de la sécurité Ces dernières années, la sécurité est devenue une priorité pour les pouvoirs publics et les entreprises. Crime organisé, terrorisme, interruption des chaînes d approvisionnement mondiales, virus informatiques  autant de menaces avec lesquelles il faut compter dans le monde d aujourd hui. D où l émergence d un marché des équipements et des services de sécurité de 100 milliards de dollars. Ce marché est alimenté par la demande croissante émanant...

MSR Quantum applications - Microsoft
MSR Quantum applications - Microsoft
23/08/2018 - www.microsoft.com
( What Can We Do with a Quantum Computer? ( Matthias Troyer  Station Q, ETH Zurich | 1 Classical computers have come a long way Antikythera mechanism ENIAC astronomical positions (1946) (100 BC) Kelvin s harmonic analyzer prediction of tides (1878) Difference Engine (1822) Is there anything that we cannot solve on future supercomputers? Titan, ORNL (2013) Matthias Troyer | | 2 How long will Moore s law continue? Do we see signs of the end of Moore s law? Can we go below 7nm...

MSFT Echo SurfaceLaptopIntel Fact Sheet
MSFT Echo SurfaceLaptopIntel Fact Sheet
13/12/2025 - www.microsoft.com
Windows Hello for Business with facial recognition and Enhanced Sign-In Security Surface Laptop for Business Near-edgeless display and Surface's signature 3:2 ratio for more screen in a compact footprint Premium experiences drive AI advantage NPUs delivering 40 or 48 TOPS of on-device AI performance to support today's capabilities and tomorrow's innovations5 Anti-reflective technology reduces reflections up to 50% Optional smart card reader16 Exceptional AI-enabled collaboration and Copilot+...

DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881756 DictaNum : système de dialogue incrémental pour la dictée de numéros. Conference Paper · July 2014 CITATIONS READS 0 57 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 06 June 2014. The user has requested enhancement of the downloaded file. 21ème...

User-Driven Access Control: Rethinking Permission ... - CiteSeerX
User-Driven Access Control: Rethinking Permission ... - CiteSeerX
23/08/2018 - www.microsoft.com
User-Driven Access Control: Rethinking Permission Granting in Modern Operating Systems Franziska Roesner, Tadayoshi Kohno {franzi, yoshi}@cs.washington.edu University of Washington Alexander Moshchuk, Bryan Parno, Helen J. Wang {alexmos, parno, helenw}@microsoft.com Microsoft Research, Redmond Crispin Cowan crispin@microsoft.com Microsoft Abstract tionality and security for access to the user s data and resources. From a functionality standpoint, isolation inhibits the client-side manipulation...

Microsoft K State Whitepaper 2021 08 17
Microsoft K State Whitepaper 2021 08 17
23/09/2024 - www.microsoft.com
Cloud enclave for academic research Streamlining security and compliance at your institution August 2021 Contents Introduction........................................................................................................ 3 1. Assess where you are today........................................................................ 4 Work directly with researchers to identify challenges............................................................................... 4 Identify existing compliance...

C dric FOURNET LE JOIN-CALCUL : UN CALCUL POUR ... - Microsoft
C dric FOURNET LE JOIN-CALCUL : UN CALCUL POUR ... - Microsoft
11/04/2018 - www.microsoft.com
TH SE pr sent e L' COLE POLYTECHNIQUE pour obtenir le titre de DOCTEUR DE L' COLE POLYTECHNIQUE sp cialit : INFORMATIQUE par C dric FOURNET Sujet de la th se : LE JOIN-CALCUL : UN CALCUL POUR LA PROGRAMMATION R PARTIE ET MOBILE The Join-Calculus: a Calculus for Distributed Mobile Programming Soutenue le 23 Novembre 1998 devant le jury compos de : MM. Robin Milner Roberto Amadio G rard Boudol Jean-Jacques L vy G rard Berry Luca Cardelli Georges Gonthier Pr sident Rapporteurs Directeur de th...
 
 

READ_ME_Logitech-Alert-Commander-ver3-0sp2.txt - Notepad
READ_ME_Logitech-Alert-Commander-ver3-0sp2.txt - Notepad
16/02/2012 - www.logitech.com
READ_ME_Logitech-Alert-Commander-ver3-0sp2.txt English Release Notes Logitech Alert Commander version 3.0sp2 Français Notes de version Logitech Alert Commander version 3.0sp2 Deutsch Versionshinweise Logitech Alert Commander Version 3.0sp2 ************************************************************************************ * English This document describes the major changes in the firmware and software evident to the user. The release of the Logitech Alert Video Security System supports Windows...

Manual TP TPA TPS TPP TPK EN Last Version
Manual TP TPA TPS TPP TPK EN Last Version
27/06/2024 - www.cabasse.com
User guide THE PEARL THE PEARL AKOYA THE PEARL SUB THE PEARL PELEGRINA THE PEARL KESHI Thank you for purchasing a Cabasse speaker. We recommend you read this leaflet carefully to take full advantage of the speaker. SAFETY INSTRUCTIONS Explanation of symbols Lightning within an equilateral triangle warns of the existence of dangerous, uninsulated high voltage inside the product enclosure, of sufficient value to present a risk of electric shock. The exclamation point in an equilateral triangle...

Four mixte air-o-steam Electrolux
Four mixte air-o-steam Electrolux
16/04/2012 - tools.professional.electrolux.com
Four mixte air-o-steam Electrolux 20 GN 2/1 - Electrique - Tableau A "air-o-steam" : Les fours mixtes ELECTROLUX tableaux A, sont disponibles de 6 à 20 niveaux, en version électrique ou gaz, GN 1/1 ou GN 2/1, avec tableau de commande digital programmable. Ils ont été conçus pour répondre aux exigences particulières de chacun de nos clients, garantissant une cuisson homogène, une consommation moindre, une rapidité de montée en température et la conformité aux normes de sécurité. Ces...

Objet : Compteur couleur 3 niveaux Présentation ... - TA Triumph-Adler
Objet : Compteur couleur 3 niveaux Présentation ... - TA Triumph-Adler
18/01/2018 - www.triumph-adler.fr
TAF16/1115  07/11/2016            Modèles compatibles : TA Color 2506ci / 3206ci / 4006ci /  5006ci / 6006ci, TA Color 6505ci / 7505ci, TA Color 300ci /  350ci / 400ci, TA Color PC3061i, TA Color PC3560i   P  C2160DN, P C3061DN, P C3560DN, P C4070DN, P C4580DN  Objet :  Compteur couleur 3 niveaux          Présentation / positionnement  Personnalisez les trois compteurs couleur en fonction du taux de couverture couleur.   Les plateformes d...

SE775GH5
SE775GH5
05/07/2012 - www.smeg.fr
SE775GH5 classique SMEG ELITE Table de cuisson gaz, 70 cm, inox, thermocouples EAN13: 8017709150297 5 brûleurs dont : Gauche ultra-rapide double commande : 5,00 kW Arrière central : 1,05 kW Avant central : 1,05 kW Arrière droit : 2,55 kW Avant droit : 1,65 kW Puissance nominale gaz : 11,30 kW Grilles en fonte Chapeaux de brûleurs émaillés fonte Allumage électronique intégré aux manettes Sécurité thermocouples rapides Réglée au gaz naturel Injecteurs gaz butane/propane fournis Epaisseur...

Manuel d'utilisation
Manuel d'utilisation
03/04/2012 - www.vtech-jouets.com
Manuel d'utilisation © 2012 VTech Imprimé en Chine 91-002693-001 FR 204605 Manual.indd 1 2011.10.25 6:05:16 PM 204605 Manual.indd 2 2011.10.25 6:05:17 PM INTRODUCTION Vous venez d'acquérir Tut Tut Bolides Multipiste de VTech ®. Félicitations ! Grâce aux 8 pièces du Multipiste, votre enfant peut se construire une véritable aire de jeu pour tous ses véhicules Tut Tut Bolides ! Il suffit d'emboîter simplement les éléments entre eux ou entre les univers et laisser libre cours à...