/brz/remove-bazaar

To get this branch, use:
bzr branch http://gegoxaren.bato24.eu/bzr/brz/remove-bazaar

« back to all changes in this revision

Viewing changes to fetch.py

Try to import nothing other than __init__ when not opening git repositories.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2008 Jelmer Vernooij <jelmer@samba.org>
 
1
# Copyright (C) 2008 Canonical Ltd
2
2
#
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
14
14
# along with this program; if not, write to the Free Software
15
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
16
 
17
 
from cStringIO import (
18
 
    StringIO,
19
 
    )
 
17
from bzrlib import osutils, ui, urlutils
 
18
from bzrlib.errors import InvalidRevisionId
 
19
from bzrlib.inventory import Inventory
 
20
from bzrlib.repository import InterRepository
 
21
from bzrlib.trace import info
 
22
from bzrlib.tsort import topo_sort
 
23
 
 
24
from bzrlib.plugins.git.repository import (
 
25
        LocalGitRepository, 
 
26
        GitRepository, 
 
27
        GitFormat,
 
28
        )
 
29
from bzrlib.plugins.git.remote import RemoteGitRepository
 
30
 
20
31
import dulwich as git
21
 
from dulwich.client import (
22
 
    SimpleFetchGraphWalker,
23
 
    )
24
 
from dulwich.objects import (
25
 
    Commit,
26
 
    Tag,
27
 
    )
28
 
 
29
 
from bzrlib import (
30
 
    debug,
31
 
    osutils,
32
 
    trace,
33
 
    ui,
34
 
    urlutils,
35
 
    )
36
 
from bzrlib.errors import (
37
 
    InvalidRevisionId,
38
 
    NoSuchRevision,
39
 
    )
40
 
from bzrlib.inventory import (
41
 
    Inventory,
42
 
    InventoryDirectory,
43
 
    InventoryFile,
44
 
    InventoryLink,
45
 
    )
46
 
from bzrlib.lru_cache import (
47
 
    LRUCache,
48
 
    )
49
 
from bzrlib.repository import (
50
 
    InterRepository,
51
 
    )
52
 
from bzrlib.revision import (
53
 
    NULL_REVISION,
54
 
    )
55
 
from bzrlib.tsort import (
56
 
    topo_sort,
57
 
    )
58
 
 
59
 
from bzrlib.plugins.git.converter import (
60
 
    BazaarObjectStore,
61
 
    )
62
 
from bzrlib.plugins.git.mapping import (
63
 
    text_to_blob,
64
 
    )
65
 
from bzrlib.plugins.git.repository import (
66
 
    LocalGitRepository, 
67
 
    GitRepository, 
68
 
    GitRepositoryFormat,
69
 
    )
70
 
from bzrlib.plugins.git.remote import (
71
 
    RemoteGitRepository,
72
 
    )
 
32
from dulwich.client import SimpleFetchGraphWalker
 
33
from dulwich.objects import Commit
 
34
 
 
35
from cStringIO import StringIO
73
36
 
74
37
 
75
38
class BzrFetchGraphWalker(object):
111
74
        return None
112
75
 
113
76
 
114
 
def import_git_blob(texts, mapping, path, hexsha, base_inv, parent_id, 
115
 
    revision_id, parent_invs, shagitmap, lookup_object, executable, symlink):
 
77
def import_git_blob(repo, mapping, path, blob, inv, parent_invs, executable):
116
78
    """Import a git blob object into a bzr repository.
117
79
 
118
 
    :param texts: VersionedFiles to add to
 
80
    :param repo: bzr repository
119
81
    :param path: Path in the tree
120
82
    :param blob: A git blob
121
 
    :return: Inventory delta for this file
122
83
    """
123
84
    file_id = mapping.generate_file_id(path)
124
 
    if symlink:
125
 
        cls = InventoryLink
126
 
    else:
127
 
        cls = InventoryFile
128
 
    # We just have to hope this is indeed utf-8:
129
 
    ie = cls(file_id, urlutils.basename(path).decode("utf-8"), 
130
 
                parent_id)
 
85
    text_revision = inv.revision_id
 
86
    repo.texts.add_lines((file_id, text_revision),
 
87
        [(file_id, p[file_id].revision) for p in parent_invs if file_id in p],
 
88
        osutils.split_lines(blob.data))
 
89
    ie = inv.add_path(path, "file", file_id)
 
90
    ie.revision = text_revision
 
91
    ie.text_size = len(blob.data)
 
92
    ie.text_sha1 = osutils.sha_string(blob.data)
131
93
    ie.executable = executable
132
 
    # See if this has changed at all
133
 
    try:
134
 
        base_sha = shagitmap.lookup_blob(file_id, base_inv.revision_id)
135
 
    except KeyError:
136
 
        base_sha = None
137
 
    else:
138
 
        if (base_sha == hexsha and base_inv[file_id].executable == ie.executable
139
 
            and base_inv[file_id].kind == ie.kind):
140
 
            # If nothing has changed since the base revision, we're done
141
 
            return []
142
 
    if base_sha == hexsha:
143
 
        ie.text_size = base_inv[file_id].text_size
144
 
        ie.text_sha1 = base_inv[file_id].text_sha1
145
 
        ie.symlink_target = base_inv[file_id].symlink_target
146
 
        ie.revision = base_inv[file_id].revision
147
 
    else:
148
 
        blob = lookup_object(hexsha)
149
 
        if ie.kind == "symlink":
150
 
            ie.symlink_target = blob.data
151
 
            ie.text_size = None
152
 
            ie.text_sha1 = None
153
 
        else:
154
 
            ie.text_size = len(blob.data)
155
 
            ie.text_sha1 = osutils.sha_string(blob.data)
156
 
    # Check what revision we should store
157
 
    parent_keys = []
158
 
    for pinv in parent_invs:
159
 
        if not file_id in pinv:
160
 
            continue
161
 
        if pinv[file_id].text_sha1 == ie.text_sha1:
162
 
            # found a revision in one of the parents to use
163
 
            ie.revision = pinv[file_id].revision
164
 
            break
165
 
        parent_keys.append((file_id, pinv[file_id].revision))
166
 
    if ie.revision is None:
167
 
        # Need to store a new revision
168
 
        ie.revision = revision_id
169
 
        assert file_id is not None
170
 
        assert ie.revision is not None
171
 
        texts.add_lines((file_id, ie.revision), parent_keys,
172
 
            osutils.split_lines(blob.data))
173
 
        if "verify" in debug.debug_flags:
174
 
            assert text_to_blob(blob.data).id == hexsha
175
 
        shagitmap.add_entry(hexsha, "blob", (ie.file_id, ie.revision))
176
 
    if file_id in base_inv:
177
 
        old_path = base_inv.id2path(file_id)
178
 
    else:
179
 
        old_path = None
180
 
    return [(old_path, path, file_id, ie)]
181
 
 
182
 
 
183
 
def import_git_tree(texts, mapping, path, hexsha, base_inv, parent_id, 
184
 
    revision_id, parent_invs, shagitmap, lookup_object):
 
94
 
 
95
 
 
96
def import_git_tree(repo, mapping, path, tree, inv, parent_invs, lookup_object):
185
97
    """Import a git tree object into a bzr repository.
186
98
 
187
 
    :param texts: VersionedFiles object to add to
 
99
    :param repo: A Bzr repository object
188
100
    :param path: Path in the tree
189
101
    :param tree: A git tree object
190
 
    :param base_inv: Base inventory against which to return inventory delta
191
 
    :return: Inventory delta for this subtree
 
102
    :param inv: Inventory object
192
103
    """
193
 
    ret = []
194
104
    file_id = mapping.generate_file_id(path)
195
 
    # We just have to hope this is indeed utf-8:
196
 
    ie = InventoryDirectory(file_id, urlutils.basename(path.decode("utf-8")), 
197
 
        parent_id)
198
 
    if not file_id in base_inv:
199
 
        # Newly appeared here
200
 
        ie.revision = revision_id
201
 
        texts.add_lines((file_id, ie.revision), [], [])
202
 
        ret.append((None, path, file_id, ie))
203
 
    else:
204
 
        # See if this has changed at all
205
 
        try:
206
 
            base_sha = shagitmap.lookup_tree(path, base_inv.revision_id)
207
 
        except KeyError:
208
 
            pass
209
 
        else:
210
 
            if base_sha == hexsha:
211
 
                # If nothing has changed since the base revision, we're done
212
 
                return []
213
 
    # Remember for next time
214
 
    existing_children = set()
215
 
    if "verify" in debug.debug_flags:
216
 
        # FIXME:
217
 
        assert False
218
 
    shagitmap.add_entry(hexsha, "tree", (file_id, revision_id))
219
 
    tree = lookup_object(hexsha)
 
105
    text_revision = inv.revision_id
 
106
    repo.texts.add_lines((file_id, text_revision),
 
107
        [(file_id, p[file_id].revision) for p in parent_invs if file_id in p],
 
108
        [])
 
109
    ie = inv.add_path(path, "directory", file_id)
 
110
    ie.revision = text_revision
220
111
    for mode, name, hexsha in tree.entries():
221
112
        entry_kind = (mode & 0700000) / 0100000
222
113
        basename = name.decode("utf-8")
223
 
        existing_children.add(basename)
224
114
        if path == "":
225
115
            child_path = name
226
116
        else:
227
117
            child_path = urlutils.join(path, name)
228
118
        if entry_kind == 0:
229
 
            ret.extend(import_git_tree(texts, mapping, child_path, hexsha, base_inv, 
230
 
                file_id, revision_id, parent_invs, shagitmap, lookup_object))
 
119
            tree = lookup_object(hexsha)
 
120
            import_git_tree(repo, mapping, child_path, tree, inv, parent_invs, lookup_object)
231
121
        elif entry_kind == 1:
 
122
            blob = lookup_object(hexsha)
232
123
            fs_mode = mode & 0777
233
 
            file_kind = (mode & 070000) / 010000
234
 
            if file_kind == 0: # regular file
235
 
                symlink = False
236
 
            elif file_kind == 2:
237
 
                symlink = True
238
 
            else:
239
 
                raise AssertionError("Unknown file kind, mode=%r" % (mode,))
240
 
            ret.extend(import_git_blob(texts, mapping, child_path, hexsha, base_inv, 
241
 
                file_id, revision_id, parent_invs, shagitmap, lookup_object,
242
 
                bool(fs_mode & 0111), symlink))
 
124
            import_git_blob(repo, mapping, child_path, blob, inv, parent_invs, bool(fs_mode & 0111))
243
125
        else:
244
 
            raise AssertionError("Unknown object kind, perms=%r." % (mode,))
245
 
    # Remove any children that have disappeared
246
 
    if file_id in base_inv:
247
 
        deletable = [v for k,v in base_inv[file_id].children.iteritems() if k not in existing_children]
248
 
        while deletable:
249
 
            ie = deletable.pop()
250
 
            ret.append((base_inv.id2path(ie.file_id), None, ie.file_id, None))
251
 
            if ie.kind == "directory":
252
 
                deletable.extend(ie.children.values())
253
 
    return ret
254
 
 
255
 
 
256
 
def import_git_objects(repo, mapping, object_iter, target_git_object_retriever, 
257
 
        heads, pb=None):
 
126
            raise AssertionError("Unknown blob kind, perms=%r." % (mode,))
 
127
 
 
128
 
 
129
def import_git_objects(repo, mapping, num_objects, object_iter, pb=None):
258
130
    """Import a set of git objects into a bzr repository.
259
131
 
260
132
    :param repo: Bazaar repository
261
133
    :param mapping: Mapping to use
 
134
    :param num_objects: Number of objects.
262
135
    :param object_iter: Iterator over Git objects.
263
136
    """
264
137
    # TODO: a more (memory-)efficient implementation of this
 
138
    objects = {}
 
139
    for i, (o, _) in enumerate(object_iter):
 
140
        if pb is not None:
 
141
            pb.update("fetching objects", i, num_objects) 
 
142
        objects[o.id] = o
265
143
    graph = []
266
144
    root_trees = {}
267
145
    revisions = {}
268
 
    checked = set()
269
 
    heads = list(heads)
270
 
    parent_invs_cache = LRUCache(50)
271
146
    # Find and convert commit objects
272
 
    while heads:
273
 
        if pb is not None:
274
 
            pb.update("finding revisions to fetch", len(graph), None)
275
 
        head = heads.pop()
276
 
        assert isinstance(head, str)
277
 
        try:
278
 
            o = object_iter[head]
279
 
        except KeyError:
280
 
            continue
 
147
    for o in objects.itervalues():
281
148
        if isinstance(o, Commit):
282
149
            rev = mapping.import_commit(o)
283
 
            if repo.has_revision(rev.revision_id):
284
 
                continue
285
 
            root_trees[rev.revision_id] = o.tree
 
150
            root_trees[rev.revision_id] = objects[o.tree]
286
151
            revisions[rev.revision_id] = rev
287
152
            graph.append((rev.revision_id, rev.parent_ids))
288
 
            target_git_object_retriever._idmap.add_entry(o.sha().hexdigest(),
289
 
                "commit", (rev.revision_id, o._tree))
290
 
            heads.extend([p for p in o.parents if p not in checked])
291
 
        elif isinstance(o, Tag):
292
 
            heads.append(o.object[1])
293
 
        else:
294
 
            trace.warning("Unable to import head object %r" % o)
295
 
        checked.add(head)
296
153
    # Order the revisions
297
154
    # Create the inventory objects
298
155
    for i, revid in enumerate(topo_sort(graph)):
299
156
        if pb is not None:
300
157
            pb.update("fetching revisions", i, len(graph))
 
158
        root_tree = root_trees[revid]
301
159
        rev = revisions[revid]
302
160
        # We have to do this here, since we have to walk the tree and 
303
 
        # we need to make sure to import the blobs / trees with the right 
 
161
        # we need to make sure to import the blobs / trees with the riht 
304
162
        # path; this may involve adding them more than once.
 
163
        inv = Inventory()
 
164
        inv.revision_id = rev.revision_id
305
165
        def lookup_object(sha):
306
 
            try:
307
 
                return object_iter[sha]
308
 
            except KeyError:
309
 
                return target_git_object_retriever[sha]
310
 
        parent_invs = []
311
 
        for parent_id in rev.parent_ids:
312
 
            try:
313
 
                parent_invs.append(parent_invs_cache[parent_id])
314
 
            except KeyError:
315
 
                parent_inv = repo.get_inventory(parent_id)
316
 
                parent_invs.append(parent_inv)
317
 
                parent_invs_cache[parent_id] = parent_inv
318
 
        if parent_invs == []:
319
 
            base_inv = Inventory(root_id=None)
320
 
        else:
321
 
            base_inv = parent_invs[0]
322
 
        inv_delta = import_git_tree(repo.texts, mapping, "", 
323
 
            root_trees[revid], base_inv, None, revid, parent_invs, 
324
 
            target_git_object_retriever._idmap, lookup_object)
325
 
        try:
326
 
            basis_id = rev.parent_ids[0]
327
 
        except IndexError:
328
 
            basis_id = NULL_REVISION
329
 
        rev.inventory_sha1, inv = repo.add_inventory_by_delta(basis_id,
330
 
                  inv_delta, rev.revision_id, rev.parent_ids)
331
 
        parent_invs_cache[rev.revision_id] = inv
332
 
        repo.add_revision(rev.revision_id, rev)
333
 
    target_git_object_retriever._idmap.commit()
 
166
            if sha in objects:
 
167
                return objects[sha]
 
168
            return reconstruct_git_object(repo, mapping, sha)
 
169
        parent_invs = [repo.get_inventory(r) for r in rev.parent_ids]
 
170
        import_git_tree(repo, mapping, "", root_tree, inv, parent_invs, 
 
171
            lookup_object)
 
172
        repo.add_revision(rev.revision_id, rev, inv)
 
173
 
 
174
 
 
175
def reconstruct_git_commit(repo, rev):
 
176
    raise NotImplementedError(self.reconstruct_git_commit)
 
177
 
 
178
 
 
179
def reconstruct_git_object(repo, mapping, sha):
 
180
    # Commit
 
181
    revid = mapping.revision_id_foreign_to_bzr(sha)
 
182
    try:
 
183
        rev = repo.get_revision(revid)
 
184
    except NoSuchRevision:
 
185
        pass
 
186
    else:
 
187
        return reconstruct_git_commit(rev)
 
188
 
 
189
    # TODO: Tree
 
190
    # TODO: Blob
 
191
    raise KeyError("No such object %s" % sha)
334
192
 
335
193
 
336
194
class InterGitNonGitRepository(InterRepository):
337
 
    """Base InterRepository that copies revisions from a Git into a non-Git 
338
 
    repository."""
339
195
 
340
 
    _matching_repo_format = GitRepositoryFormat()
 
196
    _matching_repo_format = GitFormat()
341
197
 
342
198
    @staticmethod
343
199
    def _get_repo_format_to_test():
347
203
        """See InterRepository.copy_content."""
348
204
        self.fetch(revision_id, pb, find_ghosts=False)
349
205
 
350
 
    def fetch(self, revision_id=None, pb=None, find_ghosts=False, mapping=None,
351
 
            fetch_spec=None):
352
 
        self.fetch_refs(revision_id=revision_id, pb=pb, find_ghosts=find_ghosts,
353
 
                mapping=mapping, fetch_spec=fetch_spec)
354
 
 
355
 
    def fetch_refs(self, revision_id=None, pb=None, find_ghosts=False, 
356
 
              mapping=None, fetch_spec=None):
 
206
    def fetch(self, revision_id=None, pb=None, find_ghosts=False, 
 
207
              mapping=None):
357
208
        if mapping is None:
358
209
            mapping = self.source.get_mapping()
359
 
        if revision_id is not None:
360
 
            interesting_heads = [revision_id]
361
 
        elif fetch_spec is not None:
362
 
            interesting_heads = fetch_spec.heads
363
 
        else:
364
 
            interesting_heads = None
365
 
        self._refs = {}
366
 
        def determine_wants(refs):
367
 
            self._refs = refs
368
 
            if interesting_heads is None:
369
 
                ret = [sha for (ref, sha) in refs.iteritems() if not ref.endswith("^{}")]
 
210
        def progress(text):
 
211
            pb.update("git: %s" % text.rstrip("\r\n"), 0, 0)
 
212
        def determine_wants(heads):
 
213
            if revision_id is None:
 
214
                ret = heads.values()
370
215
            else:
371
 
                ret = [mapping.revision_id_bzr_to_foreign(revid)[0] for revid in interesting_heads]
 
216
                ret = [mapping.revision_id_bzr_to_foreign(revision_id)[0]]
372
217
            return [rev for rev in ret if not self.target.has_revision(mapping.revision_id_foreign_to_bzr(rev))]
373
 
        self.fetch_objects(determine_wants, mapping, pb)
374
 
        return self._refs
375
 
 
376
 
 
377
 
 
378
 
class InterRemoteGitNonGitRepository(InterGitNonGitRepository):
379
 
    """InterRepository that copies revisions from a remote Git into a non-Git 
380
 
    repository."""
381
 
 
382
 
    def fetch_objects(self, determine_wants, mapping, pb=None):
383
 
        def progress(text):
384
 
            pb.update("git: %s" % text.rstrip("\r\n"), 0, 0)
385
218
        graph_walker = BzrFetchGraphWalker(self.target, mapping)
386
219
        create_pb = None
387
220
        if pb is None:
388
221
            create_pb = pb = ui.ui_factory.nested_progress_bar()
389
 
        target_git_object_retriever = BazaarObjectStore(self.target, mapping)
390
 
        recorded_wants = []
391
 
 
392
 
        def record_determine_wants(heads):
393
 
            wants = determine_wants(heads)
394
 
            recorded_wants.extend(wants)
395
 
            return wants
396
 
        
397
 
        try:
398
 
            self.target.lock_write()
399
 
            try:
400
 
                self.target.start_write_group()
401
 
                try:
402
 
                    objects_iter = self.source.fetch_objects(
403
 
                                record_determine_wants, 
404
 
                                graph_walker, 
405
 
                                target_git_object_retriever.get_raw, 
406
 
                                progress)
407
 
                    import_git_objects(self.target, mapping, objects_iter, 
408
 
                            target_git_object_retriever, recorded_wants, pb)
409
 
                finally:
410
 
                    self.target.commit_write_group()
411
 
            finally:
412
 
                self.target.unlock()
413
 
        finally:
414
 
            if create_pb:
415
 
                create_pb.finished()
416
 
 
417
 
    @staticmethod
418
 
    def is_compatible(source, target):
419
 
        """Be compatible with GitRepository."""
420
 
        # FIXME: Also check target uses VersionedFile
421
 
        return (isinstance(source, RemoteGitRepository) and 
422
 
                target.supports_rich_root() and
423
 
                not isinstance(target, GitRepository))
424
 
 
425
 
 
426
 
class InterLocalGitNonGitRepository(InterGitNonGitRepository):
427
 
    """InterRepository that copies revisions from a remote Git into a non-Git 
428
 
    repository."""
429
 
 
430
 
    def fetch_objects(self, determine_wants, mapping, pb=None):
431
 
        wants = determine_wants(self.source._git.get_refs())
432
 
        create_pb = None
433
 
        if pb is None:
434
 
            create_pb = pb = ui.ui_factory.nested_progress_bar()
435
 
        target_git_object_retriever = BazaarObjectStore(self.target, mapping)
436
 
        try:
437
 
            self.target.lock_write()
438
 
            try:
439
 
                self.target.start_write_group()
440
 
                try:
441
 
                    import_git_objects(self.target, mapping, 
442
 
                            self.source._git.object_store, 
443
 
                            target_git_object_retriever, wants, pb)
444
 
                finally:
445
 
                    self.target.commit_write_group()
446
 
            finally:
447
 
                self.target.unlock()
448
 
        finally:
449
 
            if create_pb:
450
 
                create_pb.finished()
451
 
 
452
 
    @staticmethod
453
 
    def is_compatible(source, target):
454
 
        """Be compatible with GitRepository."""
455
 
        # FIXME: Also check target uses VersionedFile
456
 
        return (isinstance(source, LocalGitRepository) and 
 
222
        try:
 
223
            self.target.lock_write()
 
224
            try:
 
225
                self.target.start_write_group()
 
226
                try:
 
227
                    (num_objects, objects_iter) = \
 
228
                            self.source.fetch_objects(determine_wants, 
 
229
                                graph_walker, progress)
 
230
                    import_git_objects(self.target, mapping, num_objects, 
 
231
                                       objects_iter, pb)
 
232
                finally:
 
233
                    self.target.commit_write_group()
 
234
            finally:
 
235
                self.target.unlock()
 
236
        finally:
 
237
            if create_pb:
 
238
                create_pb.finished()
 
239
 
 
240
    @staticmethod
 
241
    def is_compatible(source, target):
 
242
        """Be compatible with GitRepository."""
 
243
        # FIXME: Also check target uses VersionedFile
 
244
        return (isinstance(source, GitRepository) and 
457
245
                target.supports_rich_root() and
458
246
                not isinstance(target, GitRepository))
459
247
 
460
248
 
461
249
class InterGitRepository(InterRepository):
462
 
    """InterRepository that copies between Git repositories."""
463
250
 
464
 
    _matching_repo_format = GitRepositoryFormat()
 
251
    _matching_repo_format = GitFormat()
465
252
 
466
253
    @staticmethod
467
254
    def _get_repo_format_to_test():
472
259
        self.fetch(revision_id, pb, find_ghosts=False)
473
260
 
474
261
    def fetch(self, revision_id=None, pb=None, find_ghosts=False, 
475
 
              mapping=None, fetch_spec=None):
 
262
              mapping=None):
476
263
        if mapping is None:
477
264
            mapping = self.source.get_mapping()
478
265
        def progress(text):
479
 
            trace.info("git: %s", text)
 
266
            info("git: %s", text)
480
267
        r = self.target._git
481
 
        if revision_id is not None:
 
268
        if revision_id is None:
 
269
            determine_wants = lambda x: [y for y in x.values() if not y in r.object_store]
 
270
        else:
482
271
            args = [mapping.revision_id_bzr_to_foreign(revision_id)[0]]
483
 
        elif fetch_spec is not None:
484
 
            args = [mapping.revision_id_bzr_to_foreign(revid)[0] for revid in fetch_spec.heads]
485
 
        if fetch_spec is None and revision_id is None:
486
 
            determine_wants = r.object_store.determine_wants_all
487
 
        else:
488
272
            determine_wants = lambda x: [y for y in args if not y in r.object_store]
489
273
 
490
274
        graphwalker = SimpleFetchGraphWalker(r.heads().values(), r.get_parents)