A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



MSFT Echo SurfaceLaptopIntel Fact Sheet
MSFT Echo SurfaceLaptopIntel Fact Sheet
13/12/2025 - www.microsoft.com
Windows Hello for Business with facial recognition and Enhanced Sign-In Security Surface Laptop for Business Near-edgeless display and Surface's signature 3:2 ratio for more screen in a compact footprint Premium experiences drive AI advantage NPUs delivering 40 or 48 TOPS of on-device AI performance to support today's capabilities and tomorrow's innovations5 Anti-reflective technology reduces reflections up to 50% Optional smart card reader16 Exceptional AI-enabled collaboration and Copilot+...

User-Driven Access Control: Rethinking Permission ... - CiteSeerX
User-Driven Access Control: Rethinking Permission ... - CiteSeerX
23/08/2018 - www.microsoft.com
User-Driven Access Control: Rethinking Permission Granting in Modern Operating Systems Franziska Roesner, Tadayoshi Kohno {franzi, yoshi}@cs.washington.edu University of Washington Alexander Moshchuk, Bryan Parno, Helen J. Wang {alexmos, parno, helenw}@microsoft.com Microsoft Research, Redmond Crispin Cowan crispin@microsoft.com Microsoft Abstract tionality and security for access to the user s data and resources. From a functionality standpoint, isolation inhibits the client-side manipulation...

1 Introduction - Microsoft
1 Introduction - Microsoft
11/04/2018 - www.microsoft.com
One-Way Accumulators: A Decentralized Alternative to Digital Signatures (Extended Abstract) Josh Benaloh Clarkson University Michael de Mare Giordano Automation Abstract This paper describes a simple candidate one-way hash function which satis es a quasi-commutative property that allows it to be used as an accumulator. This property allows protocols to be developed in which the need for a trusted central authority can be eliminated. Space-e cient distributed protocols are given for document time...

MSR Quantum applications - Microsoft
MSR Quantum applications - Microsoft
23/08/2018 - www.microsoft.com
( What Can We Do with a Quantum Computer? ( Matthias Troyer  Station Q, ETH Zurich | 1 Classical computers have come a long way Antikythera mechanism ENIAC astronomical positions (1946) (100 BC) Kelvin s harmonic analyzer prediction of tides (1878) Difference Engine (1822) Is there anything that we cannot solve on future supercomputers? Titan, ORNL (2013) Matthias Troyer | | 2 How long will Moore s law continue? Do we see signs of the end of Moore s law? Can we go below 7nm...

L'économie de la sécurité - Microsoft
L'économie de la sécurité - Microsoft
16/11/2016 - www.microsoft.com
nl y se Lect L économie de la sécurité Ces dernières années, la sécurité est devenue une priorité pour les pouvoirs publics et les entreprises. Crime organisé, terrorisme, interruption des chaînes d approvisionnement mondiales, virus informatiques  autant de menaces avec lesquelles il faut compter dans le monde d aujourd hui. D où l émergence d un marché des équipements et des services de sécurité de 100 milliards de dollars. Ce marché est alimenté par la demande croissante émanant...

A Large-Scale Study of the Evolution of Web Pages - Microsoft
A Large-Scale Study of the Evolution of Web Pages - Microsoft
23/08/2018 - www.microsoft.com
A Large-Scale Study of the Evolution of Web Pages Dennis Fetterly Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 dennis.fetterly@hp.com Mark Manasse Marc Najork Microsoft Research Microsoft Research 1065 La Avenida 1065 La Avenida Mountain View, CA 94043 Mountain View, CA 94043 manasse@microsoft.com najork@microsoft.com Janet Wiener Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 janet.wiener@hp.com ABSTRACT 1. INTRODUCTION How fast does the web change? Does most...

DSCOVR: Randomized Primal-Dual Block Coordinate ... - Microsoft
DSCOVR: Randomized Primal-Dual Block Coordinate ... - Microsoft
23/08/2018 - www.microsoft.com
DSCOVR: Randomized Primal-Dual Block Coordinate Algorithms for Asynchronous Distributed Optimization lin.xiao@microsoft.com Lin Xiao Microsoft Research AI Redmond, WA 98052, USA weiyu@cs.cmu.edu Adams Wei Yu Machine Learning Department, Carnegie Mellon University Pittsburgh, PA 15213, USA qihang-lin@uiowa.edu Qihang Lin Tippie College of Business, The University of Iowa Iowa City, IA 52245, USA wzchen@microsoft.com Weizhu Chen Microsoft AI and Research Redmond, WA 98052, USA October 13,...

DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881756 DictaNum : système de dialogue incrémental pour la dictée de numéros. Conference Paper · July 2014 CITATIONS READS 0 57 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 06 June 2014. The user has requested enhancement of the downloaded file. 21ème...
 
 

De'Longhi - EC 200CD.B / EC 190 CD
De'Longhi - EC 200CD.B / EC 190 CD
02/11/2016 - www.delonghi.com
FR Lisez attentivement ce mode d emploi avant d installer et d utiliser votre appareil. Vous pourrez ainsi en tirer les meilleurs résultats et l utiliser en toute sécurité. DESCRIPTION DE L APPAREIL (voir figure page 3) Les termes suivants seront utilisés dans la suite de la notice. 1 Porte-filtre pour mouture 2 Grand filtre café poudre 2 doses 3 Petit filtre café poudre 1 dose ou dosettes (si prévu) 4 Commande vapeur 5 Tasseur 6 Appui-tasses 7 Cordon d alimentation 8 Témoin température...

Doudou, chant'ourson
Doudou, chant'ourson
03/04/2012 - www.vtech-jouets.com
Manuel d'utilisation MANUEL D'UTILISATION Doudou, chant'ourson Imprimé en Chine 91-002615-001 FR © 2012 VTech INTRODUCTION Vous venez d'acquérir Doudou, chant'ourson de VTech ® . Félicitations ! Un compagnon tout doux aux 8 petits rubans à attraper pour s'endormir paisiblement. Grâce à ses 25 mélodies et 5 chansons, Doudou, chant'ourson apaise et rassure Bébé lorsqu'il se réveille la nuit. Pratique ! Le tissu se détache pour être lavé. Un compagnon idéal pour enchanter les...

17 Août 2004 L'OptioS50 – un appareil photo numérique compact ...
17 Août 2004 L'OptioS50 – un appareil photo numérique compact ...
06/03/2012 - www.pentax.fr
17 Août 2004 L'OptioS50 ­ un appareil photo numérique compact simple d'utilisation avec une puissance de 5.0 mégapixels effectifs PENTAX est heureux de vous présenter son nouvel Optio S50. D'une simplicité d'utilisation enfantine, il offre un capteur CCD de 5.0 mégapixel effectifs et un zoom optique 3X...et vous n'avez encore rien vu ! L'abondance de caractéristiques techniques déjà proposées dans l'OptioS40 (présent sur le marché depuis Mars 2004) et dans l'OptioS30 (sur le marché...

Nouvelle-camera-IP-wifi
Nouvelle-camera-IP-wifi
10/04/2012 - www.heden.fr
DECOUVREZ LA NOUVELLE VERSION ! depuis vos vacances depuis votre maison de campagne en déplacement votre commerce vos enfants depuis votre lieu de travail INTERFACE WEB EN FRANCAIS COMPATIBLE IPHONE MANUEL ENCORE PLUS COMPLET Version filaire ou Wifi DISPONIBLE EN NOIR OU BLANC Facile à installer et à utiliser: Suivez le manuel qui vous guide pas à pas dans l'installation. Manuel et interface web en français Facile a installer ! Visualisation et contrôle à distance : Via une simple...

Four Electrique - Fiche Produit Selon le règlement ... - Ars Sponsoring
Four Electrique - Fiche Produit Selon le règlement ... - Ars Sponsoring
17/11/2017 - www.brandt.fr
Four Electrique - Fiche Produit Selon le règlement délégué (UE) N° 65/2014 Marque BRANDT Référence commerciale FP1466M Indice d'efficacité énergétique (EEI cavité) Classe d'efficacité énergétique Consommation d'énergie par cycle en mode conventionnel Consommation d énergie par cycle en mode chaleur tournante 92 A 0.73 kWh 0.95 kWh Nombre de cavité(s) La(les) source(s) de chaleur Volume de la cavité Label écologique de l'Union Européenne Electricité 60 l

Manuel d'utilisation
Manuel d'utilisation
03/04/2012 - www.vtech-jouets.com
® Manuel d'utilisation Chers parents, Chez VTech®, nous sommes conscients que les enfants sont notre avenir. C'est pourquoi tous nos jeux sont conçus de manière à entretenir et à renforcer leur désir d'apprendre. Chaque année, des enfants de plus en plus jeunes s'intéressent aux jeux vidéo. Toutefois, nous comprenons vos craintes sur le contenu de ces jeux, souvent inadapté à l'âge de vos enfants. L'équipe Recherche et Développement VTech® a donc spécialement conçu V.Smile®,...