/brz/remove-bazaar

To get this branch, use:
bzr branch http://gegoxaren.bato24.eu/bzr/brz/remove-bazaar

« back to all changes in this revision

Viewing changes to bzrlib/check.py

  • Committer: Robert Collins
  • Date: 2006-11-08 00:36:30 UTC
  • mto: This revision was merged to the branch mainline in revision 2124.
  • Revision ID: robertc@robertcollins.net-20061108003630-feb31613c83f7096
(Robert Collins) Extend the problem reporting command line UI to use
apport to report more detailed diagnostics which should help in in getting
faults reported in Malone and provides the basis for capturing more
information such as detailed logging data from the current invocation of
bzr in the future (without cluttering 'bzr.log' unnecessarily).
apport is available from Ubuntu Edgy onwards.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2004, 2005 by Martin Pool
2
 
# Copyright (C) 2005 by Canonical Ltd
3
 
 
 
1
# Copyright (C) 2005, 2006 Canonical Ltd
 
2
#
4
3
# This program is free software; you can redistribute it and/or modify
5
4
# it under the terms of the GNU General Public License as published by
6
5
# the Free Software Foundation; either version 2 of the License, or
7
6
# (at your option) any later version.
8
 
 
 
7
#
9
8
# This program is distributed in the hope that it will be useful,
10
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
11
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12
11
# GNU General Public License for more details.
13
 
 
 
12
#
14
13
# You should have received a copy of the GNU General Public License
15
14
# along with this program; if not, write to the Free Software
16
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
17
16
 
18
 
 
19
 
def _update_store_entry(obj, obj_id, branch, store_name, store):
20
 
    """This is just a meta-function, which handles both revision entries
21
 
    and inventory entries.
22
 
    """
23
 
    from bzrlib.trace import mutter
24
 
    import tempfile, os, errno
25
 
    from osutils import rename
26
 
    obj_tmp = tempfile.TemporaryFile()
27
 
    obj.write_xml(obj_tmp)
28
 
    obj_tmp.seek(0)
29
 
 
30
 
    tmpfd, tmp_path = tempfile.mkstemp(prefix=obj_id, suffix='.gz',
31
 
        dir=branch.controlfilename(store_name))
32
 
    os.close(tmpfd)
33
 
    try:
34
 
        orig_obj_path = branch.controlfilename([store_name, obj_id+'.gz'])
35
 
        # Remove the old entry out of the way
36
 
        rename(orig_obj_path, tmp_path)
 
17
# TODO: Check ancestries are correct for every revision: includes
 
18
# every committed so far, and in a reasonable order.
 
19
 
 
20
# TODO: Also check non-mainline revisions mentioned as parents.
 
21
 
 
22
# TODO: Check for extra files in the control directory.
 
23
 
 
24
# TODO: Check revision, inventory and entry objects have all 
 
25
# required fields.
 
26
 
 
27
# TODO: Get every revision in the revision-store even if they're not
 
28
# referenced by history and make sure they're all valid.
 
29
 
 
30
# TODO: Perhaps have a way to record errors other than by raising exceptions;
 
31
# would perhaps be enough to accumulate exception objects in a list without
 
32
# raising them.  If there's more than one exception it'd be good to see them
 
33
# all.
 
34
 
 
35
from bzrlib.errors import BzrCheckError
 
36
import bzrlib.ui
 
37
from bzrlib.trace import note
 
38
 
 
39
class Check(object):
 
40
    """Check a repository"""
 
41
 
 
42
    # The Check object interacts with InventoryEntry.check, etc.
 
43
 
 
44
    def __init__(self, repository):
 
45
        self.repository = repository
 
46
        self.checked_text_cnt = 0
 
47
        self.checked_rev_cnt = 0
 
48
        self.ghosts = []
 
49
        self.repeated_text_cnt = 0
 
50
        self.missing_parent_links = {}
 
51
        self.missing_inventory_sha_cnt = 0
 
52
        self.missing_revision_cnt = 0
 
53
        # maps (file-id, version) -> sha1; used by InventoryFile._check
 
54
        self.checked_texts = {}
 
55
        self.checked_weaves = {}
 
56
 
 
57
    def check(self):
 
58
        self.repository.lock_read()
 
59
        self.progress = bzrlib.ui.ui_factory.nested_progress_bar()
37
60
        try:
38
 
            # TODO: We may need to handle the case where the old
39
 
            # entry was not compressed (and thus did not end with .gz)
40
 
 
41
 
            store.add(obj_tmp, obj_id) # Add the new one
42
 
            os.remove(tmp_path) # Remove the old name
43
 
            mutter('    Updated %s entry {%s}' % (store_name, obj_id))
44
 
        except:
45
 
            # On any exception, restore the old entry
46
 
            rename(tmp_path, orig_obj_path)
47
 
            raise
48
 
    finally:
49
 
        if os.path.exists(tmp_path):
50
 
            # Unfortunately, the next command might throw
51
 
            # an exception, which will mask a previous exception.
52
 
            os.remove(tmp_path)
53
 
        obj_tmp.close()
54
 
 
55
 
def _update_revision_entry(rev, branch):
56
 
    """After updating the values in a revision, make sure to
57
 
    write out the data, but try to do it in an atomic manner.
58
 
 
59
 
    :param rev:    The Revision object to store
60
 
    :param branch: The Branch object where this Revision is to be stored.
61
 
    """
62
 
    _update_store_entry(rev, rev.revision_id, branch,
63
 
            'revision-store', branch.revision_store)
64
 
 
65
 
def _update_inventory_entry(inv, inv_id, branch):
66
 
    """When an inventory has been modified (such as by adding a unique tree root)
67
 
    this atomically re-generates the file.
68
 
 
69
 
    :param inv:     The Inventory
70
 
    :param inv_id:  The inventory id for this inventory
71
 
    :param branch:  The Branch where this entry will be stored.
72
 
    """
73
 
    _update_store_entry(inv, inv_id, branch,
74
 
            'inventory-store', branch.inventory_store)
75
 
 
76
 
def check(branch):
 
61
            self.progress.update('retrieving inventory', 0, 0)
 
62
            # do not put in init, as it should be done with progess,
 
63
            # and inside the lock.
 
64
            self.inventory_weave = self.repository.get_inventory_weave()
 
65
            self.plan_revisions()
 
66
            revno = 0
 
67
            self.check_weaves()
 
68
            while revno < len(self.planned_revisions):
 
69
                rev_id = self.planned_revisions[revno]
 
70
                self.progress.update('checking revision', revno,
 
71
                                     len(self.planned_revisions))
 
72
                revno += 1
 
73
                self.check_one_rev(rev_id)
 
74
        finally:
 
75
            self.progress.finished()
 
76
            self.repository.unlock()
 
77
 
 
78
    def plan_revisions(self):
 
79
        repository = self.repository
 
80
        self.planned_revisions = set(repository.all_revision_ids())
 
81
        self.progress.clear()
 
82
        inventoried = set(self.inventory_weave.versions())
 
83
        awol = self.planned_revisions - inventoried
 
84
        if len(awol) > 0:
 
85
            raise BzrCheckError('Stored revisions missing from inventory'
 
86
                '{%s}' % ','.join([f for f in awol]))
 
87
        self.planned_revisions = list(self.planned_revisions)
 
88
 
 
89
    def report_results(self, verbose):
 
90
        note('checked repository %s format %s',
 
91
             self.repository.bzrdir.root_transport,
 
92
             self.repository._format)
 
93
        note('%6d revisions', self.checked_rev_cnt)
 
94
        note('%6d unique file texts', self.checked_text_cnt)
 
95
        note('%6d repeated file texts', self.repeated_text_cnt)
 
96
        note('%6d weaves', len(self.checked_weaves))
 
97
        if self.missing_inventory_sha_cnt:
 
98
            note('%6d revisions are missing inventory_sha1',
 
99
                 self.missing_inventory_sha_cnt)
 
100
        if self.missing_revision_cnt:
 
101
            note('%6d revisions are mentioned but not present',
 
102
                 self.missing_revision_cnt)
 
103
        if len(self.ghosts):
 
104
            note('%6d ghost revisions', len(self.ghosts))
 
105
            if verbose:
 
106
                for ghost in self.ghosts:
 
107
                    note('      %s', ghost)
 
108
        if len(self.missing_parent_links):
 
109
            note('%6d revisions missing parents in ancestry',
 
110
                 len(self.missing_parent_links))
 
111
            if verbose:
 
112
                for link, linkers in self.missing_parent_links.items():
 
113
                    note('      %s should be in the ancestry for:', link)
 
114
                    for linker in linkers:
 
115
                        note('       * %s', linker)
 
116
 
 
117
    def check_one_rev(self, rev_id):
 
118
        """Check one revision.
 
119
 
 
120
        rev_id - the one to check
 
121
        """
 
122
        rev = self.repository.get_revision(rev_id)
 
123
                
 
124
        if rev.revision_id != rev_id:
 
125
            raise BzrCheckError('wrong internal revision id in revision {%s}'
 
126
                                % rev_id)
 
127
 
 
128
        for parent in rev.parent_ids:
 
129
            if not parent in self.planned_revisions:
 
130
                missing_links = self.missing_parent_links.get(parent, [])
 
131
                missing_links.append(rev_id)
 
132
                self.missing_parent_links[parent] = missing_links
 
133
                # list based so somewhat slow,
 
134
                # TODO have a planned_revisions list and set.
 
135
                if self.repository.has_revision(parent):
 
136
                    missing_ancestry = self.repository.get_ancestry(parent)
 
137
                    for missing in missing_ancestry:
 
138
                        if (missing is not None 
 
139
                            and missing not in self.planned_revisions):
 
140
                            self.planned_revisions.append(missing)
 
141
                else:
 
142
                    self.ghosts.append(rev_id)
 
143
 
 
144
        if rev.inventory_sha1:
 
145
            inv_sha1 = self.repository.get_inventory_sha1(rev_id)
 
146
            if inv_sha1 != rev.inventory_sha1:
 
147
                raise BzrCheckError('Inventory sha1 hash doesn\'t match'
 
148
                    ' value in revision {%s}' % rev_id)
 
149
        self._check_revision_tree(rev_id)
 
150
        self.checked_rev_cnt += 1
 
151
 
 
152
    def check_weaves(self):
 
153
        """Check all the weaves we can get our hands on.
 
154
        """
 
155
        n_weaves = 1
 
156
        weave_ids = []
 
157
        if self.repository.weave_store.listable():
 
158
            weave_ids = list(self.repository.weave_store)
 
159
            n_weaves = len(weave_ids)
 
160
        self.progress.update('checking weave', 0, n_weaves)
 
161
        self.inventory_weave.check(progress_bar=self.progress)
 
162
        for i, weave_id in enumerate(weave_ids):
 
163
            self.progress.update('checking weave', i, n_weaves)
 
164
            w = self.repository.weave_store.get_weave(weave_id,
 
165
                    self.repository.get_transaction())
 
166
            # No progress here, because it looks ugly.
 
167
            w.check()
 
168
            self.checked_weaves[weave_id] = True
 
169
 
 
170
    def _check_revision_tree(self, rev_id):
 
171
        tree = self.repository.revision_tree(rev_id)
 
172
        inv = tree.inventory
 
173
        seen_ids = {}
 
174
        for file_id in inv:
 
175
            if file_id in seen_ids:
 
176
                raise BzrCheckError('duplicated file_id {%s} '
 
177
                                    'in inventory for revision {%s}'
 
178
                                    % (file_id, rev_id))
 
179
            seen_ids[file_id] = True
 
180
        for file_id in inv:
 
181
            ie = inv[file_id]
 
182
            ie.check(self, rev_id, inv, tree)
 
183
        seen_names = {}
 
184
        for path, ie in inv.iter_entries():
 
185
            if path in seen_names:
 
186
                raise BzrCheckError('duplicated path %s '
 
187
                                    'in inventory for revision {%s}'
 
188
                                    % (path, rev_id))
 
189
            seen_names[path] = True
 
190
 
 
191
 
 
192
def check(branch, verbose):
77
193
    """Run consistency checks on a branch.
78
 
 
79
 
    TODO: Also check non-mainline revisions mentioned as parents.
80
 
 
81
 
    TODO: Check for extra files in the control directory.
 
194
    
 
195
    Results are reported through logging.
 
196
    
 
197
    :raise BzrCheckError: if there's a consistency error.
82
198
    """
83
 
    from bzrlib.trace import mutter
84
 
    from bzrlib.errors import BzrCheckError
85
 
    from bzrlib.osutils import fingerprint_file
86
 
    from bzrlib.progress import ProgressBar
87
 
    from bzrlib.inventory import ROOT_ID
88
 
    from bzrlib.branch import gen_root_id
89
 
 
90
199
    branch.lock_read()
91
 
 
92
200
    try:
93
 
        pb = ProgressBar(show_spinner=True)
94
 
        last_rev_id = None
95
 
 
96
 
        missing_inventory_sha_cnt = 0
97
 
        missing_revision_sha_cnt = 0
98
 
 
99
 
        history = branch.revision_history()
100
 
        revno = 0
101
 
        revcount = len(history)
102
 
        mismatch_inv_id = []
103
 
 
104
 
        # for all texts checked, text_id -> sha1
105
 
        checked_texts = {}
106
 
 
107
 
        for rev_id in history:
108
 
            revno += 1
109
 
            pb.update('checking revision', revno, revcount)
110
 
            mutter('    revision {%s}' % rev_id)
111
 
            rev = branch.get_revision(rev_id)
112
 
            if rev.revision_id != rev_id:
113
 
                raise BzrCheckError('wrong internal revision id in revision {%s}'
114
 
                                    % rev_id)
115
 
 
116
 
            # check the previous history entry is a parent of this entry
117
 
            if rev.parents:
118
 
                if last_rev_id is None:
119
 
                    raise BzrCheckError("revision {%s} has %d parents, but is the "
120
 
                                        "start of the branch"
121
 
                                        % (rev_id, len(rev.parents)))
122
 
                for prr in rev.parents:
123
 
                    if prr.revision_id == last_rev_id:
124
 
                        break
125
 
                else:
126
 
                    raise BzrCheckError("previous revision {%s} not listed among "
127
 
                                        "parents of {%s}"
128
 
                                        % (last_rev_id, rev_id))
129
 
 
130
 
                for prr in rev.parents:
131
 
                    if prr.revision_sha1 is None:
132
 
                        missing_revision_sha_cnt += 1
133
 
                        continue
134
 
                    prid = prr.revision_id
135
 
                    actual_sha = branch.get_revision_sha1(prid)
136
 
                    if prr.revision_sha1 != actual_sha:
137
 
                        raise BzrCheckError("mismatched revision sha1 for "
138
 
                                            "parent {%s} of {%s}: %s vs %s"
139
 
                                            % (prid, rev_id,
140
 
                                               prr.revision_sha1, actual_sha))
141
 
            elif last_rev_id:
142
 
                raise BzrCheckError("revision {%s} has no parents listed but preceded "
143
 
                                    "by {%s}"
144
 
                                    % (rev_id, last_rev_id))
145
 
 
146
 
            if rev.inventory_id != rev_id:
147
 
                mismatch_inv_id.append(rev_id)
148
 
 
149
 
            ## TODO: Check all the required fields are present on the revision.
150
 
 
151
 
            if rev.inventory_sha1:
152
 
                inv_sha1 = branch.get_inventory_sha1(rev.inventory_id)
153
 
                if inv_sha1 != rev.inventory_sha1:
154
 
                    raise BzrCheckError('Inventory sha1 hash doesn\'t match'
155
 
                        ' value in revision {%s}' % rev_id)
156
 
            else:
157
 
                missing_inventory_sha_cnt += 1
158
 
                mutter("no inventory_sha1 on revision {%s}" % rev_id)
159
 
 
160
 
            inv = branch.get_inventory(rev.inventory_id)
161
 
            seen_ids = {}
162
 
            seen_names = {}
163
 
 
164
 
            ## p('revision %d/%d file ids' % (revno, revcount))
165
 
            for file_id in inv:
166
 
                if file_id in seen_ids:
167
 
                    raise BzrCheckError('duplicated file_id {%s} '
168
 
                                        'in inventory for revision {%s}'
169
 
                                        % (file_id, rev_id))
170
 
                seen_ids[file_id] = True
171
 
 
172
 
            i = 0
173
 
            for file_id in inv:
174
 
                i += 1
175
 
                if i & 31 == 0:
176
 
                    pb.tick()
177
 
 
178
 
                ie = inv[file_id]
179
 
 
180
 
                if ie.parent_id != None:
181
 
                    if ie.parent_id not in seen_ids:
182
 
                        raise BzrCheckError('missing parent {%s} in inventory for revision {%s}'
183
 
                                % (ie.parent_id, rev_id))
184
 
 
185
 
                if ie.kind == 'file':
186
 
                    if ie.text_id in checked_texts:
187
 
                        fp = checked_texts[ie.text_id]
188
 
                    else:
189
 
                        if not ie.text_id in branch.text_store:
190
 
                            raise BzrCheckError('text {%s} not in text_store' % ie.text_id)
191
 
 
192
 
                        tf = branch.text_store[ie.text_id]
193
 
                        fp = fingerprint_file(tf)
194
 
                        checked_texts[ie.text_id] = fp
195
 
 
196
 
                    if ie.text_size != fp['size']:
197
 
                        raise BzrCheckError('text {%s} wrong size' % ie.text_id)
198
 
                    if ie.text_sha1 != fp['sha1']:
199
 
                        raise BzrCheckError('text {%s} wrong sha1' % ie.text_id)
200
 
                elif ie.kind == 'directory':
201
 
                    if ie.text_sha1 != None or ie.text_size != None or ie.text_id != None:
202
 
                        raise BzrCheckError('directory {%s} has text in revision {%s}'
203
 
                                % (file_id, rev_id))
204
 
 
205
 
            pb.tick()
206
 
            for path, ie in inv.iter_entries():
207
 
                if path in seen_names:
208
 
                    raise BzrCheckError('duplicated path %s '
209
 
                                        'in inventory for revision {%s}'
210
 
                                        % (path, rev_id))
211
 
            seen_names[path] = True
212
 
            last_rev_id = rev_id
213
 
 
 
201
        branch_result = branch.check()
 
202
        repo_result = branch.repository.check([branch.last_revision()])
214
203
    finally:
215
204
        branch.unlock()
216
 
 
217
 
    pb.clear()
218
 
 
219
 
    print 'checked %d revisions, %d file texts' % (revcount, len(checked_texts))
220
 
    
221
 
    if missing_inventory_sha_cnt:
222
 
        print '%d revisions are missing inventory_sha1' % missing_inventory_sha_cnt
223
 
 
224
 
    if missing_revision_sha_cnt:
225
 
        print '%d parent links are missing revision_sha1' % missing_revision_sha_cnt
226
 
 
227
 
    if (missing_inventory_sha_cnt
228
 
        or missing_revision_sha_cnt):
229
 
        print '  (use "bzr upgrade" to fix them)'
230
 
 
231
 
    if mismatch_inv_id:
232
 
        print '%d revisions have mismatched inventory ids:' % len(mismatch_inv_id)
233
 
        for rev_id in mismatch_inv_id:
234
 
            print '  ', rev_id
 
205
    branch_result.report_results(verbose)
 
206
    repo_result.report_results(verbose)