A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



L'économie de la sécurité - Microsoft
L'économie de la sécurité - Microsoft
16/11/2016 - www.microsoft.com
nl y se Lect L économie de la sécurité Ces dernières années, la sécurité est devenue une priorité pour les pouvoirs publics et les entreprises. Crime organisé, terrorisme, interruption des chaînes d approvisionnement mondiales, virus informatiques  autant de menaces avec lesquelles il faut compter dans le monde d aujourd hui. D où l émergence d un marché des équipements et des services de sécurité de 100 milliards de dollars. Ce marché est alimenté par la demande croissante émanant...

Msft Surfacelaptopintel Ecoprofile
Msft Surfacelaptopintel Ecoprofile
02/10/2025 - www.microsoft.com
ECOPROFILE Surface Laptop 13.8" 7th Edition for Business (Intel) Surface Laptop 13.8" 7th Edition for Business (Intel) Ecoprofile ? Microsoft Corporation. All rights reserved. Last updated February 2025 Our goals In 2020 Microsoft committed to becoming carbon negative, water positive, and zero waste by 20301. Surface plays a key role in helping Microsoft achieve these goals, so we are working to reduce the environmental impacts of our Surface products. Our approach embeds sustainability into...

Vers une approche simplifiée pour introduire le caractère ... - Microsoft
Vers une approche simplifiée pour introduire le caractère ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881208 Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue Conference Paper · July 2014 CITATION READS 1 26 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 28 April 2015. The user has requested enhancement of the downloaded file. SEE PROFILE 21ème...

A Large-Scale Study of the Evolution of Web Pages - Microsoft
A Large-Scale Study of the Evolution of Web Pages - Microsoft
23/08/2018 - www.microsoft.com
A Large-Scale Study of the Evolution of Web Pages Dennis Fetterly Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 dennis.fetterly@hp.com Mark Manasse Marc Najork Microsoft Research Microsoft Research 1065 La Avenida 1065 La Avenida Mountain View, CA 94043 Mountain View, CA 94043 manasse@microsoft.com najork@microsoft.com Janet Wiener Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 janet.wiener@hp.com ABSTRACT 1. INTRODUCTION How fast does the web change? Does most...

C dric FOURNET LE JOIN-CALCUL : UN CALCUL POUR ... - Microsoft
C dric FOURNET LE JOIN-CALCUL : UN CALCUL POUR ... - Microsoft
11/04/2018 - www.microsoft.com
TH SE pr sent e L' COLE POLYTECHNIQUE pour obtenir le titre de DOCTEUR DE L' COLE POLYTECHNIQUE sp cialit : INFORMATIQUE par C dric FOURNET Sujet de la th se : LE JOIN-CALCUL : UN CALCUL POUR LA PROGRAMMATION R PARTIE ET MOBILE The Join-Calculus: a Calculus for Distributed Mobile Programming Soutenue le 23 Novembre 1998 devant le jury compos de : MM. Robin Milner Roberto Amadio G rard Boudol Jean-Jacques L vy G rard Berry Luca Cardelli Georges Gonthier Pr sident Rapporteurs Directeur de th...

1 Introduction - Microsoft
1 Introduction - Microsoft
11/04/2018 - www.microsoft.com
One-Way Accumulators: A Decentralized Alternative to Digital Signatures (Extended Abstract) Josh Benaloh Clarkson University Michael de Mare Giordano Automation Abstract This paper describes a simple candidate one-way hash function which satis es a quasi-commutative property that allows it to be used as an accumulator. This property allows protocols to be developed in which the need for a trusted central authority can be eliminated. Space-e cient distributed protocols are given for document time...

Msft Echo Microsoft Surface Pro 10 Fact Sheet Row
Msft Echo Microsoft Surface Pro 10 Fact Sheet Row
13/12/2025 - www.microsoft.com
Surface Pro 10 An AI PC built for business, designed for versatility Surface Pro 10 blurs the boundary between hardware and software for peak performance in a secured, lightweight device that adapts to any work style. Employees get the benefits of an AI PC that accelerates Microsoft Copilot* experiences and offers integrated AI engines that enable the next wave of business features. Choose from Wi-Fi+5G or Wi-Fi only. A new era of workplace collaboration Never-ending, on-the-go impact Take advantage...

Microsoft K State Whitepaper 2021 08 17
Microsoft K State Whitepaper 2021 08 17
23/09/2024 - www.microsoft.com
Cloud enclave for academic research Streamlining security and compliance at your institution August 2021 Contents Introduction........................................................................................................ 3 1. Assess where you are today........................................................................ 4 Work directly with researchers to identify challenges............................................................................... 4 Identify existing compliance...
 
 

RX1500 Corded Laser Mouse - ARP
RX1500 Corded Laser Mouse - ARP
05/12/2014 - www.logitech.com
Logitech® RX1500 Corded Laser Mouse Workspace productivity within budget Get more done. The RX1500 Corded Laser Mouse encourages more efficiency and productivity with essential features including hyper-fast or click-to-click scrolling, and laser precision with 1000dpi resolution. Fly through long documents with one spin of the wheel in hyper fast scroll mode, or shift into click-to-click scrolling for more control with lists, slides, or images. MicroGear!" technology with scroll toggle lets you...

Zone Wired Uc Datasheet
Zone Wired Uc Datasheet
26/09/2024 - www.logitech.com
DATENBLATT ZONE WIRED HEADSETS Logitech? Zone Wired ist ein f?r hektische Gro?raumb?ros entwickeltes USB-Headset f?r hochwertiges Audio und zuverl?ssige Klarheit in Anrufen mit fortschrittlicher ger?uschunterdr?ckender Mikrofontechnologie. Au?erdem ist es leicht, elegant und bietet hohen Tragekomfort den ganzen Tag lang. Zone Wired funktioniert mit g?ngigen Telefonie-Anwendungen auf nahezu allen Plattformen und Betriebssystemen. Die ger?uschunterdr?ckende Technologie mit zwei Mikrofonen unterdr?ckt St?rger?usche...

EDGE, Wi-Fi (b/g/n) Technologie sans contact Appareil photo 3.2 ...
EDGE, Wi-Fi (b/g/n) Technologie sans contact Appareil photo 3.2 ...
13/02/2012 - www.samsung.com
GT-S5260P - Disponible Avril 2011 Design glossy EDGE, Wi-Fi (b/g/n) Technologie sans contact L'élégance glossy Toujours connectés Appareil photo 3.2 mégapixels Lecteur MP3 - radio FM Prise jack 3.5 mm Technologie NFC Mode de saisie T9 Trace Paiement, Billeterie, Transport, Couponning, GT-S5260P - Disponible Avril 2011 Caractéristiques principales Dimensions Poids 107.5 x 53.5 x 12.4 mm 94 grammes Multimédia & applications Photos Résolution Zoom numérique Détecteur de sourire Mode...

Audio Dp 400 01 2009
Audio Dp 400 01 2009
22/06/2024 - www.accuphase.com
HiFi Stereo AUDIOphile Nobel-Preis Er ist edel, weil er aus bestem Hause stammt. Er ist hilfreich, weil er zur digitalen Schaltzentrale taugt. Wie gut er ist, war noch zu klären. Der günstigste CD-Player der Accuphase-Familie im Exklusiv-Test. Von Lothar Brandt FOTOS: H. HÄRLE S o einen Ruf muss man sich erst mal erarbeiten. Der muss ins Heft , lautete  ohne einen Ton gehört zu haben  der einstimmige Tenor, als die Redaktion von der bloßen Existenz des Accuphase DP-400 erfuhr. So...

SCT109N-8
SCT109N-8
18/06/2012 - www.smeg.fr
SCT109N-8 linéa SMEG ELITE Four électronique multifonction, vapor clean, catalyse, 60 cm, noir, chaleur tournante. Classe énergétique A EAN13: 8017709132002 10% d'énergie en moins par rapport à la Classe A 8 fonctions (dont 1 de nettoyage assisté vapor clean) Manettes de commande rétro-éclairées: Programmateur électronique : départ différé 24 h (départ automatique) fin de cuisson avec signal sonore (le four s'arrête automatiquement) Afficheur digital à LEDs blancs indiquant programmation,...

Four Electrique - Fiche Produit Selon le règlement délégué ... - Brandt
Four Electrique - Fiche Produit Selon le règlement délégué ... - Brandt
12/05/2017 - www.brandt.fr
Four Electrique - Fiche Produit Selon le règlement délégué (UE) N° 65/2014 Marque Référence commerciale Indice d'efficacité énergétique (EEI cavité) Classe d'efficacité énergétique Consommation d'énergie par cycle en mode conventionnel Consommation d énergie par cycle en mode chaleur tournante Nombre de cavité(s) La(les) source(s) de chaleur Volume de la cavité Label écologique de l'Union Européenne BRANDT KVP1161W 100,2 A 0,77 kWh 0,90 kWh 1 Electricité 53 l